Ahmed Moharram
Ahmed Moharram

@ABMOHARRAM

24 تغريدة 15 قراءة Apr 18, 2020
@biohussein دكتورنا العزيز ، شكراً لك لاختيار هذا الموضوع الجميل
أولاً لأنه موضوع مهم وترتبط به ثقة الناس في ما يتم عرضه بواسطة مختلف الجهات من تحليلات
ثانياً لأنه موضوع يستغرق وحده أغلب الجهد قبل أن نستطيع تقديم أي معلومة للناس تعتمد على الأرقام
وتحملني لأن إجابتي ستكون طويلة نسبياً
@biohussein وبالتالي فإن كل مصدر من هذه المصادر بناءً على الساعة التي يقرر فيها أنها نهاية اليوم ستختلف الأعداد النهائية فيه عن غيره.
@biohussein ما يزيد هذه المشكلة تعقيداً أن الدول تنقسم لنوعين من ناحية الإبلاغ عن الحالات ، دول تقوم بالإبلاغ عن الأرقام النهائية دفعة واحدة في وقت تحدده هذه الدول (كل دولة بحسب ظروفها الخاصة) ، ودول أخرى تقوم بتحديث النتائج اليومية على أكثر من مرة خلال نفس اليوم
@biohussein وبالتالي يمكن جداً أن نجد رقم حقيقي في دولة في أحد الأيام وقد ظهر على موقع worldmeter بينما في الحقيقة سنجده في أحد هذه المصادر مختلفاً لأن المصدر أياً كان حصل على نتائج مجتزأة من يوم أمس ونتائج مجتزأة من اليوم الحالي
@biohussein إذا أضفنا إلى ذلك أن بعض الدول يتم فيها الإعلان عن الأرقام بشكل غير مركزي (كالولايات المتحدة التي تصدر الأرقام فيها من أكثر من ولاية وفي أكثر من توقيت) نستطيع أن نعرف أن واحدة من مشكلات البيانات تكمن في توقيت التسجيل وعدد مرات التسجيل في اليوم الواحد
@biohussein من ناحية أخرى فإن كل مصدر من مصادر البيانات المحترمة حول العالم من المفترض فيه أن يحافظ على نفس المعايير في تقديمه للبيانات ، وهذا ما لم يحث في حالة منظمة الصحة العالمية ، حيث قامت في يوم 18 مارس بتعديل في ساعة احتساب بداية اليوم ، مما أدى إلى مشكلة بالبيانات
@biohussein ولنفهم هذا بشكل أفضل ، فإذا كانت البيانات العالمية من كل الدول مستمرة على مدار 24 ساعة ، فإن أي مقارنات تحتاج إلى إختيار ساعة معينة لنعتبرها نقطة انتهاء اليوم السابق وبداية اليوم الجديد
هذا يجعلك إذا نظرت للأرقام تاريخياً تستطيع أن ترى الأرقام موزعة على مسافات متساوية
@biohussein نتيجة تغيير هذه الساعة (الوضعية بالمناسبة) فإنك حين تنظر للأرقام موازعة على شريط الأيام ، وبدلاً من أن ترى الأيام كلها متساوية في عدد الساعات ، سترى أن عدد الساعات في يوم معين أقل من 24 ساعة ، أعرف أنه وضع كوميدي بالنسبة للجميع
لكنه بالنسبة لنا كان مشكلة بالطبع
@biohussein لأن هذا يعني أن مقارنة هذا اليوم بما قبله أو بما بعد سيكون غير صحيح
أضف إلى ذلك أنه في يوم آخر مثلاً سقط بالكامل تسجيل الأعداد الجديدة من المصابين في إيطاليا ، ولأن إيطاليا لها وقتها وزن نسبي مرتفع فإن هذا الأمر خلق "حفرة" في مسار المنحنى
@biohussein هذه الحفرة بالطبع تم تعويضها في اليوم التالي لأن الأرقام التي تم تسجيلها كانت في الحقيقة أرقام اليومين سوياً ، مما خلق "هضبة" في المنحنى اليوم ، كان نتيجتها تصحيح الحفرة التي نشأت في المنحنى الإجمالي.
@biohussein ولكن هذا ليس كل شيء ، فبعض البيانات التي لا تتعلق بأي دول ، كالبيانات الخاصة بالسفن السياحية مثلاً لها تأثير على إجمالي عدد الإصابات العالمية في حين أنها فعلياً لا تنتمي لدولة بعينها وهذا يجعل قراءات جامعة هوبكنز أعلى بقليل. عن منظمة الصحة العالمية وعن مركز مكافحة العدوى الأوروبي
@biohussein والحقيقة أن كل من هذه المصادر له مشاكله ، فمثلاً جامعة هوبكنز تظهر فيها أحياناً تغيرات سالبة في عدد الحالات (وحتى الوفيات كما لو كنا دخلنا عصر الزمبيز) طبعاً هذه أخطاء في التسجيل ، وهي أخطاء يتم تدارك بعضها أحياناً ويترك البعض الآخر.
@biohussein ولأن التسجيل يكون بالإجماليات الجديدة فإن خطأ الأمس تصلحه أرقام اليوم. ولنفهم ذلك أفضل دعنا ننظر لخطأ واضح للجميع :
ففي كندا مثلاً وفي يوم 1-إبريل ظهرت الأرقام كما لو كان عدد من تم شفاءهم إجمالاً أقل من العدد الإجمالي لليوم السابق له
@biohussein والأخطاء من هذه النوعيات كثيرة أيضاً ، ولكن السؤالالذي سيتبادر لأذهان الجميع ، أي المصادر يجب أن نختار ؟
وكيف إذاً نستطيع الاعتماد على أي تحليلات ناتجه عن هذه الأرقام ، وهذه أيضاً أسئلة مشروعة وتعتمد على الهدف من كل تحليل إحصائي
@biohussein وكي نجيب على هذا السؤال يجب أن نذكر معلومة أخرى للأسف ، أن بعض هذه المصادر لا تتيح مثلاً أرقام المتعافين ، كالهيئة الأوروبية لمكافحة العدوى، وبالتالي يجب أن نحصل على بيانات المتعافين من مصدر آخر
وهذا ما نفعله طوال الوقت ، نجمع البيانات من كافة المصادر
@biohussein ثم داخل كل مصدر نتأكد من الاتساق بين بياناته الذاتيه
وكذلك نتأكد من اتساق البيانات بين المصادر المختلفة (مع قبول انحرافات ضئيلة بينها بسبب فروق التوقيت طبعاً)
ثم نبدأ بالتعامل مع الاخطاء والانحرافات المختلفة باستخدام أساليب إحصائية مخصصة لهذا الغرض
@biohussein ونضيف إليها بيانات أخرى من مصادر أخرى ، مثلاً مساحة كل دولة وعدد سكانها ومعدل الوفيات الطبيعي فيها وبيانات أخرى كثيرة تعتمد على الهدف من التحليلات المختلفة التي سنقوم بإنتاجها بناء على هذه البيانات
@biohussein وبعد ذلك نبدأ بتجربه إعادة إنتاج الرسوم والبيانات السابقة بالاعتماد على البيانات الجديدة ، فإذا رأينا أي أخطاء ، نبدأ بمراجعة المصادر مرة أخرى ، وقد يسأل سائل ، ما الذي يمكن أن يحدث بعد كل هذه الجهد فيغير النتائج السابقة
@biohussein أولاً كما ذكرنا سابقاً تعديل الساعة الوضعية للحظة إختيار بداية اليوم ونهايته
ثانياً وجود خلل في طريقة تقديم البيانات نفسها ، فبعض المصادر تقوم بدون إنذار بتغيير الـ Format الخاصة بالأرقام مثلاً ، أو بإضافة أعمده جديدة لم تكن موجودة سابقاً
@biohussein أي من هذه الأمور يعني فوراً تعديل في في البرامج التي كنا قد كتبناها سابقاً لعملية تحميل آخر تحديث للبيانات
وفي النهاية فقط نقوم بإنتاج الرسومات البيانية وما يرتبط بها من تحليلات وتعليقات ،
@biohussein وفي أي دولة جرى فيها تصحيح البيانات عما وجدناه في المصدر ، يجب وبشكل صريح تسجيل ذلك سواء في الرسم البياني أو التحليلات المصاحبة له لكيلا يعتمد عليه أحد دونما معرفة بأنه قد جرى تصحيح لبيانات المصدر
@biohussein بين كل هذه العمليات نواجه أحياناً مشكلات أخرى ، فمثلاً WORLDMETER في بعض الأحيان يقوم بتغيير الطريقة الخاصة بتصميم صفحته وبالتالي فإن البرنامج الذي نكون قد كتبناه لقراءة البيانات من هذه الصفحة وتحويلها إلى صيغة مناسبة يجد بعض المشاكل.
@biohussein كما أن بعض المصادر أحياناً تنتج ملف csv يحتوي به أرقام خاطئة ثم يقومون بتصحيحه لاحقاً
وبالطبع كل هذه أمور نكتشفها أثناء الـ Validation process في مسار جمع وتنقيح البيانات
هذا وبالله التوفيق
وأكرر شكري لك على اختيار هذا الموضوع الجميل للمناقشة
وافر التقدير والتحية لشخصكم الكريم
@biohussein بقي أن أؤكد على أن كل الفروق والأخطاء المذكورة ليس لها أثر يُذكر لها في النتائج النهائية

جاري تحميل الاقتراحات...