حمود الدوسري
حمود الدوسري

@Dr_Hmood

8 تغريدة 134 قراءة Dec 01, 2019
كيف استطاع جورج قالوب التنبؤ برئيس أمريكا القادم بشكل دقيق بينما فشلت مجلة Literacy Digest في التنبؤ رغم استخدامها بيانات أكثر بكثير من بيانات قالوب؟
حكاية توضح ضرورة الموازنة بين حجم البيانات وطريقة جمعها
#علم_البيانات
في الانتخابات الامريكية عام 1936م وفي استطلاعات الرأي بخصوص من سيفوز بالرئاسة، قامت مجلة Literacy Digest باستطلاع شمل 2.4 مليون شخص في واحد من أكبر وأغلى استطلاعات الرأي في التاريخ وكانت النتيجة التنبؤ بفوز المرشح ألفريد لاندون بنسبة 57% مقابل 43% للمرشح فرانكلين روزفلت
في المقابل قام جورج قالوب باستطلاع للرأي لمعرفة الرئيس القادم لأمريكا، شمل استطلاعه 50 ألف شخص فقط، وكانت نتيجة الاستطلاع التنبؤ بفوز فرانكلين روزفلت، ياترى من فاز بالنهاية برئاسة أمريكا؟
كانت نتيجة الانتخابات فوز روزفلت بنسبة 62% مقابل 38% لـ ألفريد لاندون، هامش الخطأ في استطلاع المجلة 19% وهو أكبر هامش خطأ في تاريخ استطلاعات الرأي العام، بينما استطاع قالوب التنبؤ بشكل صحيح باستخدام عدد 2٪ فقط مقارنة بالمجلة.. تُرى ماسبب خطأ استطلاع المجلة ودقة استطلاع قالوب؟
استهدفت مجلة دايجست 10 مليون شخص من خلال دليل الهاتف والقوائم البريدية وقوائم الاشتراك في المجلة، استجاب منهم 2.4 مليون على الاستطلاع وهم العينة التي استخدمتها المجلة في التنبؤ، وهنا وقعت المجلة في مشكلتين: الاختيار المتحيز (selection bias) والاستجابة المنحازة (nonresponse bias)
المشكلة الأولى في اختيار عينة البحث، القوائم التي تم استهدافها تمثل الطبقة العليا والوسطى في المجتمع الأمريكي والطبقة الدنيا غير ممثلة بتاتاً لعدم امتلاكها هاتف او اشتراك في المجلة، لذلك هناك اختيار متحيز للعينة قد لايكون مقصود ولكنه يقود الى نتائج خاطئة
المشكلة الثانية الاستجابة المنحازة وتحدث حينما يكون معدل الاستجابة للمسح ضعيفة (24% من العينة المستهدفة استجابوا)، أي ان من استجابوا للمسح يمثلون ربع المستهدفين 2.4 مليون من أصل 10 مليون، وهذا توضح مسؤولية مراعاة معدل الاستجابة عند استهداف عدد كبير من الناس
الخلاصة من هذه الحكاية تتلخص في نقطتين:
1- بيانات ضخمة تم جمعها بشكل سيء أسوأ من بيانات قليلة تم جمعها بشكل جيد (الجودة مرتبطة بتصميم الاستبانة وتحديد العينة)
2- الحذر من الوقوع في فخ الاختيار المتحيز والاستجابة المنحازة
الحكاية كاملة على الرابط: math.upenn.edu

جاري تحميل الاقتراحات...