Missing Data
البيانات المفقودة (أنواعها وطرق معالجتها أو التعامل معه)
البيانات المفقودة هي مشكلة يواجهها متخصصو البيانات. وبتأكيد تؤثر على جودة ودقة النتائج. لذلك فهم الأنواع المختلفة من قيم البيانات المفقودة وتأثيرها المحتمل على التحليل مهم للباحثين لاختيار أفضل الطرق المناسبة للتعامل معها. لكل طريقة مزاياها وعيوبها وهي مناسبة لأنواع مختلفة من قيم البيانات المفقودة.
البيانات المفقودة (أنواعها وطرق معالجتها أو التعامل معه)
البيانات المفقودة هي مشكلة يواجهها متخصصو البيانات. وبتأكيد تؤثر على جودة ودقة النتائج. لذلك فهم الأنواع المختلفة من قيم البيانات المفقودة وتأثيرها المحتمل على التحليل مهم للباحثين لاختيار أفضل الطرق المناسبة للتعامل معها. لكل طريقة مزاياها وعيوبها وهي مناسبة لأنواع مختلفة من قيم البيانات المفقودة.
عندما تكون البيانات مفقودة، من الضروري فهم سبب فقدها ويمكن ذلك من خلال معرفة نوعها، وهناك ثلاثة أنواع رئيسية للبيانات المفقودة:
1- بيانات مفقود عشوائياً بشكل تام (MCAR)
وتعني أن القيمة مفقودة بسبب العشوائية التامة فقط، لا لأي سبب آخر، لا يرتبط الخطأ (الذي نتج عنه فقد البيانات) بأي متغير آخر أو المتغير نفسه.
1- بيانات مفقود عشوائياً بشكل تام (MCAR)
وتعني أن القيمة مفقودة بسبب العشوائية التامة فقط، لا لأي سبب آخر، لا يرتبط الخطأ (الذي نتج عنه فقد البيانات) بأي متغير آخر أو المتغير نفسه.
🚩طرق المعالجة:
✅الحذف (Deletion): نظرًا لأن البيانات مفقودة تمامًا بشكل عشوائي، يمكن تطبيق حلول بسيطة مثل حذف listwise (إزالة السجلات ذات القيم المفقودة) بشرط أن لاينتج عن ذلك تحيز بالبيانات.
أيضاً يجب الانتباه أن لا يؤدي ذلك إلى تقليل حجم العينة.
✅الاسناد (Imputation): يمكن استخدام طرق مثل المتوسط أو المتوسط لمنع تقليل حجم مجموعة البيانات.
ويمكن استخدام أحد الطرق التالية:
Maximum likelihood
Expectation maximization
Pairwise Deletion
Listwise Deletion
Mean/ Median Imputation
Regression Imputation
Hot/ Cold Deck Imputation
Case Substitution
Prior Knowledge
✅الحذف (Deletion): نظرًا لأن البيانات مفقودة تمامًا بشكل عشوائي، يمكن تطبيق حلول بسيطة مثل حذف listwise (إزالة السجلات ذات القيم المفقودة) بشرط أن لاينتج عن ذلك تحيز بالبيانات.
أيضاً يجب الانتباه أن لا يؤدي ذلك إلى تقليل حجم العينة.
✅الاسناد (Imputation): يمكن استخدام طرق مثل المتوسط أو المتوسط لمنع تقليل حجم مجموعة البيانات.
ويمكن استخدام أحد الطرق التالية:
Maximum likelihood
Expectation maximization
Pairwise Deletion
Listwise Deletion
Mean/ Median Imputation
Regression Imputation
Hot/ Cold Deck Imputation
Case Substitution
Prior Knowledge
2- بيانات مفقود عشوائياً (MAR)
وتعني أن عملية فقد البيانات مرتبطه بمتغير آخر ملاحظ (observed variable).
🚩طرق المعالجة:
✅الاعتماد على النموذج: تقنيات مثل الانحدار، حيث تُستخدم العلاقة بين المتغيرات للتنبؤ بالقيم المفقودة وإسنادها.
✅الاسناد المتعدد: يتضمن إنشاء مجموعات بيانات متعددة عن طريق نسب القيم عدة مرات، وتحليل كل مجموعة بيانات بشكل منفصل، ثم تجميع النتائج.
ويمكن استخدام أحد الطرق التالية:
Maximum likelihood
Expectation maximization
Listwise Deletion
Regression Imputation
وتعني أن عملية فقد البيانات مرتبطه بمتغير آخر ملاحظ (observed variable).
🚩طرق المعالجة:
✅الاعتماد على النموذج: تقنيات مثل الانحدار، حيث تُستخدم العلاقة بين المتغيرات للتنبؤ بالقيم المفقودة وإسنادها.
✅الاسناد المتعدد: يتضمن إنشاء مجموعات بيانات متعددة عن طريق نسب القيم عدة مرات، وتحليل كل مجموعة بيانات بشكل منفصل، ثم تجميع النتائج.
ويمكن استخدام أحد الطرق التالية:
Maximum likelihood
Expectation maximization
Listwise Deletion
Regression Imputation
3- بيانات مفقود ليست بشكل عشوائي (MNAR)
يعتمد الخطأ على قيمة البيانات المفقودة نفسها. ويعتبر الأكثر صعوبة للتعامل معه لأن سبب الفقد مرتبط بالبيانات غير المرصودة (unobserved data.).
🚩طرق المعالجة:
✅تحليل الحساسية: نظرًا لأن الخطأ مرتبط بالبيانات المفقودة نفسها، فمن الأهمية بمكان إجراء تحليل للحساسية لفهم كيفية تأثير طرق الإسناد المختلفة على النتائج.
✅الاسناد المتقدم: يمكن النظر في تقنيات مثل التوقع والتعظيم أو الخوارزميات التي يمكنها التعامل مع MNAR، مثل بعض نماذج التعلم العميق.
يعتمد الخطأ على قيمة البيانات المفقودة نفسها. ويعتبر الأكثر صعوبة للتعامل معه لأن سبب الفقد مرتبط بالبيانات غير المرصودة (unobserved data.).
🚩طرق المعالجة:
✅تحليل الحساسية: نظرًا لأن الخطأ مرتبط بالبيانات المفقودة نفسها، فمن الأهمية بمكان إجراء تحليل للحساسية لفهم كيفية تأثير طرق الإسناد المختلفة على النتائج.
✅الاسناد المتقدم: يمكن النظر في تقنيات مثل التوقع والتعظيم أو الخوارزميات التي يمكنها التعامل مع MNAR، مثل بعض نماذج التعلم العميق.
وباختصار، فإن البيانات المفقودة تطرح تحديات في مجال تحليل البيانات ونمذجتها. لذلك من المهم جداً استكشافها ومعرفة أسبابها وأفضل الطرق للتعامل معها.
لكن مع هذه الاستراتيجيات، ستكون أكثر ملاءمة لمواجهتها!
للكشف عن البيانات المفقود يمكن استخدام أحد لغات البرمجة R, Python, SAS
في حالة الرغبة في تصوير البيانات المفقودة يمكن استخدام الخرائط الحرارية (Heat maps).
لكن مع هذه الاستراتيجيات، ستكون أكثر ملاءمة لمواجهتها!
للكشف عن البيانات المفقود يمكن استخدام أحد لغات البرمجة R, Python, SAS
في حالة الرغبة في تصوير البيانات المفقودة يمكن استخدام الخرائط الحرارية (Heat maps).
جاري تحميل الاقتراحات...