للباحثين وطلاب/طالبات #الدراسات_العليا
.
تجدون أسفل هذه التغريدة معلومات شاملة عن:
[البيانات المفقودة Missing Data، وأنواعها، والأساليب الإحصائية للتعامل معها]
.
🔸 الموضوع مهم جداً، نظراً لما يقع للباحثين من مشاكل -بسبب فقد البيانات- عند التحليل وتفسير النتائج!!
.
@Acad_Research
.
تجدون أسفل هذه التغريدة معلومات شاملة عن:
[البيانات المفقودة Missing Data، وأنواعها، والأساليب الإحصائية للتعامل معها]
.
🔸 الموضوع مهم جداً، نظراً لما يقع للباحثين من مشاكل -بسبب فقد البيانات- عند التحليل وتفسير النتائج!!
.
@Acad_Research
ماذا نعني بالبيانات المفقودة (Missing Data)؟
هي القيم المفقودة من متغير أو أكثر ، والتي تحدث -غالباً- نتيجة جمع البيانات بطريقة غير صحيحة أو إرتكاب أخطاء عند إدخال البيانات ، مما يؤثر سلباً على عملية إدارة البيانات ، ويقود الباحثـ/ـة في النهاية إلى بناء استنتاجات غير سليمة حولها!
هي القيم المفقودة من متغير أو أكثر ، والتي تحدث -غالباً- نتيجة جمع البيانات بطريقة غير صحيحة أو إرتكاب أخطاء عند إدخال البيانات ، مما يؤثر سلباً على عملية إدارة البيانات ، ويقود الباحثـ/ـة في النهاية إلى بناء استنتاجات غير سليمة حولها!
هناك ثلاثة أنواع للبيانات المفقودة ، وهي:
١) بيانات مفقودة بصورة عشوائية تامة (Missing Completely and Random) - (MCAR).
٢) بيانات مفقودة بصورة عشوائية (Missing at Random) - (MAR).
٣) بيانات مفقودة بصورة غير عشوائية (Missing Not at Random) - (MNAR).
وإليكم شرح كل نوع بالتفصيل,,
👇🏻
١) بيانات مفقودة بصورة عشوائية تامة (Missing Completely and Random) - (MCAR).
٢) بيانات مفقودة بصورة عشوائية (Missing at Random) - (MAR).
٣) بيانات مفقودة بصورة غير عشوائية (Missing Not at Random) - (MNAR).
وإليكم شرح كل نوع بالتفصيل,,
👇🏻
النوع الأول: بيانات مفقودة بصورة عشوائية تامة (Missing Completely and Random) واختصارها (MCAR):
البيانات هنا لم تُفقد بسبب خصائصها ولا بسبب خصائص أفراد العينة ، وهو أقل الأنواع انتشاراً.
مثلاً: يقوم أحد المشاركين في الاستبيان بالتوقف عن الإجابة فجأة وبدون أسباب واضحة!!
البيانات هنا لم تُفقد بسبب خصائصها ولا بسبب خصائص أفراد العينة ، وهو أقل الأنواع انتشاراً.
مثلاً: يقوم أحد المشاركين في الاستبيان بالتوقف عن الإجابة فجأة وبدون أسباب واضحة!!
النوع الثاني: بيانات مفقودة بصورة عشوائية (Missing at Random) واختصارها (MAR):
البيانات المفقودة هنا تتأثر بخصائص الأفراد فقط وليس بخصائص البيانات نفسها.
مثلاً: رفض إفصاح أفراد العينة عن الدخل الشهري ، أو الإفصاح عن الإصابة بالاكتئاب أو عدم الرغبة في ذِكر العُمر وغيرها..
البيانات المفقودة هنا تتأثر بخصائص الأفراد فقط وليس بخصائص البيانات نفسها.
مثلاً: رفض إفصاح أفراد العينة عن الدخل الشهري ، أو الإفصاح عن الإصابة بالاكتئاب أو عدم الرغبة في ذِكر العُمر وغيرها..
🔻
ملاحظة: العديد من الباحثين لا يلاحظون الفرق بين النوعين الأول والثاني ، لأن الأول يشير إلى الثاني وليس العكس.
ملاحظة: العديد من الباحثين لا يلاحظون الفرق بين النوعين الأول والثاني ، لأن الأول يشير إلى الثاني وليس العكس.
النوع الثالث: بيانات مفقودة بصورة غير عشوائية (Missing Not at Random) واختصارها (MNAR):
هو عكس النوع الثاني ، فالبيانات تُفقد بسبب خصائصها وليس بسبب أفراد العينة.
مثلاً: أسئلة الاستبيان التي تتدخل في خصوصيات الغير!
هو عكس النوع الثاني ، فالبيانات تُفقد بسبب خصائصها وليس بسبب أفراد العينة.
مثلاً: أسئلة الاستبيان التي تتدخل في خصوصيات الغير!
🔻
ملاحظة: يصعب على الباحثين التفريق بين النوعين الثاني والثالث بدون الحصول على معلومات إضافية من عينة البحث.
ملاحظة: يصعب على الباحثين التفريق بين النوعين الثاني والثالث بدون الحصول على معلومات إضافية من عينة البحث.
🔴سؤال هام,,
كيف يتم التعامل مع البيانات المفقودة؟
.
هناك أربع طرق للتعامل مع البيانات المفقودة، وهي:
.
الطريقة الأولى: [طريقة الحذف]، ويندرج تحتها طريقتين مختلفتين:
أ) حذف الحالة بالكامل (Listwise Deletion): يتم استبعاد الاستبيان أو الاختبار عند فقد أي معلومة منه!
(تابع الشرح)⬇️
كيف يتم التعامل مع البيانات المفقودة؟
.
هناك أربع طرق للتعامل مع البيانات المفقودة، وهي:
.
الطريقة الأولى: [طريقة الحذف]، ويندرج تحتها طريقتين مختلفتين:
أ) حذف الحالة بالكامل (Listwise Deletion): يتم استبعاد الاستبيان أو الاختبار عند فقد أي معلومة منه!
(تابع الشرح)⬇️
أغلب الباحثين يستعملون هذه الطريقة لسهولتها رغم المحاذير المترتبة عليها، مثل:
ـ انخفاض حجم العينة.
ـ التأثير على قوة الاختبار Power Test، وقد يقع الباحث بسبب ذلك في أخطاء من النوع الأول أو الثاني.
ـ إعطاء نتائج غير حقيقية (تحيز النتائج) لأن العينة أصبحت متحيزة وغير ممثلة للمجتمع.
ـ انخفاض حجم العينة.
ـ التأثير على قوة الاختبار Power Test، وقد يقع الباحث بسبب ذلك في أخطاء من النوع الأول أو الثاني.
ـ إعطاء نتائج غير حقيقية (تحيز النتائج) لأن العينة أصبحت متحيزة وغير ممثلة للمجتمع.
ب) الحذف المزدوج (Pairwise Deletion): يتم هنا حذف الحالات المفقودة فقط للمتغير الواحد عند حساب علاقته مع متغير آخر ، وليس حذف كامل الحالة كما في الطريقة السابقة.
تأملوا معي المثال أدناه👇🏻
تأملوا معي المثال أدناه👇🏻
إذا كان الباحث يدرس العلاقة بين الدخل الشهري والمستوى التعليمي ، فإنه يستبعدهما معاً عند فقد البيانات في إحداهما ، مع المحافظة على بقية المتغيرات كالجنس والعُمر والذكاء...إلخ.
من آثار هذه الطريقة هو اختلاف حجم العينة من متغير لآخر ، مما يؤثر سلباً على صدق النتائج!
من آثار هذه الطريقة هو اختلاف حجم العينة من متغير لآخر ، مما يؤثر سلباً على صدق النتائج!
الطريقة الثانية: [طريقة التعويض] ، ويندرج تحتها كذلك طريقتين مختلفتين ، وهما:
:
أ) التعويض بقيم متعددة (Multiple Imputation Methods) ، ويندرج تحتها الأساليب التالية:
:
أ) التعويض بقيم متعددة (Multiple Imputation Methods) ، ويندرج تحتها الأساليب التالية:
١ـ Expectation-Maximization واختصارها (EM Algorithm): تعتمد هذه الطريقة على خطوتين:
• الأولى: توقع القيمة المفقودة Expectation
• الثانية تعظيم الاحتمالية Maximization
ويحتاج هذا الأسلوب إلى خلفية إحصائية كبيرة لدى الباحث ، ويمكن عملها عبر برنامج SPSS
• الأولى: توقع القيمة المفقودة Expectation
• الثانية تعظيم الاحتمالية Maximization
ويحتاج هذا الأسلوب إلى خلفية إحصائية كبيرة لدى الباحث ، ويمكن عملها عبر برنامج SPSS
٢- Multiple Imputation Methods واختصارها (MI Methods): تقوم على فكرة تكوين أكثر من قيمة للبيانات المفقودة ثم استخدام المتوسط لتلك القيم كبديل مناسب. تعتبر أفضل الطرق لأنها لا تعتمد على أن البيانات المفقودة من نوع MCAR أو MAR، بل هي صالحة لكل الأحوال وبالإمكان عملها مع برنامج SPSS
ب) التعويض بقيمة واحدة (Single Imputation Methods) ، ويندرج تحتها الأساليب التالية:
١ـ Mean Imputation: يتم استبدال الدرجة المفقودة بالمتوسط أو الوسيط للمتغير نفسه.
تأملوا معي المثال التالي⬇️
١ـ Mean Imputation: يتم استبدال الدرجة المفقودة بالمتوسط أو الوسيط للمتغير نفسه.
تأملوا معي المثال التالي⬇️
إذا كان لدينا ٢٠٠ شخص ذكروا أعمارهم بينما امتنع ١٥ شخص عن ذلك ، فيتم حساب متوسط أعمار الـ ٢٠٠ شخص ثم يُعطى الناتج لكل من رفض إعطاء عمره.
الإشكالية في هذا الأسلوب هو استبدال البيانات المفقودة برقم ثابت يؤثر سلبياً على التباين لأفراد العينة.
الإشكالية في هذا الأسلوب هو استبدال البيانات المفقودة برقم ثابت يؤثر سلبياً على التباين لأفراد العينة.
٢ـ Hot-dec Imputation: يتم استبدال الدرجة المفقودة من خلال البحث عن شخص متقارب معه في مختلف الخصائص الديموغرافية كالمستوى التعليمي أو العُمر...إلخ ، والإشكالية في هذا الأسلوب هو التأثير السلبي على متوسط المجموعة وتباينها بسبب القيمة المضافة.
الطريقة الثالثة: [التعويض باستخدام الانحدار] (Regression Imputation): يتم التنبؤ ببيانات الفرد المفقودة من خلال المعلومات الأخرى المتوفرة عنه ، وذلك عن طريق استخدام المعادلة الانحدارية.
هذه الطريقة لا تصلح إذا كانت البيانات قد فُقدت بصورة غير عشوائية.
هذه الطريقة لا تصلح إذا كانت البيانات قد فُقدت بصورة غير عشوائية.
ملاحظة: هناك عدة أنواع من الانحدار، ولذلك فإن التنبؤ بالبيانات المفقودة يعتمد على طبيعة المتغير، فالتنبؤ بتدخين الشخص يختلف عن التنبؤ بالذكاء، لأن كل طريقة تعتمد على خصائص المتغير المراد التنبؤ به. هذه الطريقة أفضل من غيرها لأنها تحافظ إلى حد كبير على مستوى متوسط المتغير وتباينه.
الطريقة الرابعة: [التعويض بمتوسط الفرد] (Mean Person Imputation): إذا كان لدينا استبيان مكون من ١٠ فقرات مثلاً ، وأجاب أحد أفراد العينة على ٨ فقرات فقط ، فيتم إيجاد القيم المفقودة من خلال متوسط إجابات الفرد (يتم القسمة على ٨ وليس ١٠).
وأخيراً,,
هنا بعض النقاط الهامة والتي ينبغي على كل باحثـ/ـة التركيز عليها عند (الكتابة) عن البيانات المفقودة في إجراءات الدراسة:
- الكتابة عن الإجراءات التي اتبعها الباحث لتقليل فقد البيانات.
- بيان حجم العينة المستهدفة وحجم العينة الفعلية.
- بيان نسبة البيانات المفقودة.
(تابع..)
هنا بعض النقاط الهامة والتي ينبغي على كل باحثـ/ـة التركيز عليها عند (الكتابة) عن البيانات المفقودة في إجراءات الدراسة:
- الكتابة عن الإجراءات التي اتبعها الباحث لتقليل فقد البيانات.
- بيان حجم العينة المستهدفة وحجم العينة الفعلية.
- بيان نسبة البيانات المفقودة.
(تابع..)
- توضيح آلية توزيع البيانات المفقودة على المتغيرات والحالات.
- بيان الطريقة الإحصائية المستخدمة لتحديد نوع فقد البيانات (MCAR, MAR, MNAR).
- بيان الطريقة المستخدمة للتعامل مع البيانات المفقودة مع توضيح أسباب استخدامها.
:
أتمنى لكم الفائدة فيما يسّر الله الكتابة عنه,,
وشكراً👋🏻🌹
- بيان الطريقة الإحصائية المستخدمة لتحديد نوع فقد البيانات (MCAR, MAR, MNAR).
- بيان الطريقة المستخدمة للتعامل مع البيانات المفقودة مع توضيح أسباب استخدامها.
:
أتمنى لكم الفائدة فيما يسّر الله الكتابة عنه,,
وشكراً👋🏻🌹
جاري تحميل الاقتراحات...