كيف استطاع جورج قالوب التنبؤ برئيس أمريكا القادم بشكل دقيق بينما فشلت مجلة Literacy Digest في التنبؤ رغم استخدامها بيانات أكثر بكثير من بيانات قالوب؟
حكاية توضح ضرورة الموازنة بين حجم البيانات وطريقة جمعها
#علم_البيانات
حكاية توضح ضرورة الموازنة بين حجم البيانات وطريقة جمعها
#علم_البيانات
استهدفت مجلة دايجست 10 مليون شخص من خلال دليل الهاتف والقوائم البريدية وقوائم الاشتراك في المجلة، استجاب منهم 2.4 مليون على الاستطلاع وهم العينة التي استخدمتها المجلة في التنبؤ، وهنا وقعت المجلة في مشكلتين: الاختيار المتحيز (selection bias) والاستجابة المنحازة (nonresponse bias)
المشكلة الأولى في اختيار عينة البحث، القوائم التي تم استهدافها تمثل الطبقة العليا والوسطى في المجتمع الأمريكي والطبقة الدنيا غير ممثلة بتاتاً لعدم امتلاكها هاتف او اشتراك في المجلة، لذلك هناك اختيار متحيز للعينة قد لايكون مقصود ولكنه يقود الى نتائج خاطئة
المشكلة الثانية الاستجابة المنحازة وتحدث حينما يكون معدل الاستجابة للمسح ضعيفة (24% من العينة المستهدفة استجابوا)، أي ان من استجابوا للمسح يمثلون ربع المستهدفين 2.4 مليون من أصل 10 مليون، وهذا توضح مسؤولية مراعاة معدل الاستجابة عند استهداف عدد كبير من الناس
الخلاصة من هذه الحكاية تتلخص في نقطتين:
1- بيانات ضخمة تم جمعها بشكل سيء أسوأ من بيانات قليلة تم جمعها بشكل جيد (الجودة مرتبطة بتصميم الاستبانة وتحديد العينة)
2- الحذر من الوقوع في فخ الاختيار المتحيز والاستجابة المنحازة
الحكاية كاملة على الرابط: math.upenn.edu
1- بيانات ضخمة تم جمعها بشكل سيء أسوأ من بيانات قليلة تم جمعها بشكل جيد (الجودة مرتبطة بتصميم الاستبانة وتحديد العينة)
2- الحذر من الوقوع في فخ الاختيار المتحيز والاستجابة المنحازة
الحكاية كاملة على الرابط: math.upenn.edu
جاري تحميل الاقتراحات...