فكرت تشتغل على بيانات لكن تفاجأت بأنها ناقصة أو غير منطقية ؟
في هذا الثريد راح نتكلم عن موضوعين مهمة من خطوات Feature Engineering
- Missing Values
- Outliers
-- ماهي ؟
-- كيفية اكتشفها؟
-- طرق التعامل معها؟
في هذا الثريد راح نتكلم عن موضوعين مهمة من خطوات Feature Engineering
- Missing Values
- Outliers
-- ماهي ؟
-- كيفية اكتشفها؟
-- طرق التعامل معها؟
Missing Values
طرق التعامل مع القيم المفقودة
2- Mean/Median/Mode Imputation
هي استبدال القيم المفقودة ب أحد مقاييس النزعة المركزية :
- المتوسط الحسابي
- الوسيط
- المدى
ميزتها : لا يقلل من حجم عينة البيانات، ولا يحرف البيانات
عيبها : لا يمكن تطبيقها على المتغيرات التصنيفية(categorical variables) بمعنى آخر أي بيانات غير عددية
هي استبدال القيم المفقودة ب أحد مقاييس النزعة المركزية :
- المتوسط الحسابي
- الوسيط
- المدى
ميزتها : لا يقلل من حجم عينة البيانات، ولا يحرف البيانات
عيبها : لا يمكن تطبيقها على المتغيرات التصنيفية(categorical variables) بمعنى آخر أي بيانات غير عددية
نأتي للسؤال المهم متى نستعمل الوسيط، المتوسط الحسابي، والمدى ؟
المتوسط الحسابي - Mean : يفضل إذا كانت البيانات رقمية وغير منحرفة
الوسيط - Median : يفضل إذا كانت البيانات رقمية ومنحرفة
المدى - Mood : يفضل إذا كانت البيانات نصية او رقمية
Skewed = منحرفة
المتوسط الحسابي - Mean : يفضل إذا كانت البيانات رقمية وغير منحرفة
الوسيط - Median : يفضل إذا كانت البيانات رقمية ومنحرفة
المدى - Mood : يفضل إذا كانت البيانات نصية او رقمية
Skewed = منحرفة
نبدأ الآن بالموضوع الثاني Outliers
اليوم 7 قيمته واضحة انها مختلفة لكن كيف نكتشف باقي النقاط ؟
الطريقة الإحصائية كالتالي
حد سفلي
Lower bound = Q1 - (1.5 * (Q3-Q1))
حد علوي
Upper bound = Q3 + (1.5 * (Q3-Q1))
وحسب مثالنا
Lower bound = -1.5
Upper bound = 10.5
أي شي أقل من -1.5 أو أكبر من 10.5 يعتبر قيمة شاذة
الطريقة الإحصائية كالتالي
حد سفلي
Lower bound = Q1 - (1.5 * (Q3-Q1))
حد علوي
Upper bound = Q3 + (1.5 * (Q3-Q1))
وحسب مثالنا
Lower bound = -1.5
Upper bound = 10.5
أي شي أقل من -1.5 أو أكبر من 10.5 يعتبر قيمة شاذة
طرق التعامل مع القيم الشاذة
1- Resurvey the data
إعادة أخذ البيانات بمعنى أخذ البيانات من المصدر حتى تتأكد من قيمتها الصحيحة في الغالب بتكون البيانات مجمعة عن طريق خدمات Surveys او قواعد بيانات
إعادة أخذ البيانات بمعنى أخذ البيانات من المصدر حتى تتأكد من قيمتها الصحيحة في الغالب بتكون البيانات مجمعة عن طريق خدمات Surveys او قواعد بيانات
2- Delete the outlier data
إذا لم نستطع إعادة أخذ البيانات او هي كانت قيمة شاذة من نفس المصدر هنا نحذف القيمة وتتم معاملتها كقيمة مفقودة مثل ما ذكرنا سابقاً
إذا لم نستطع إعادة أخذ البيانات او هي كانت قيمة شاذة من نفس المصدر هنا نحذف القيمة وتتم معاملتها كقيمة مفقودة مثل ما ذكرنا سابقاً
بعض الملاحظات المهمة جداً
- بعض القيم الشاذة للداتا المصنفة (Categorical data) يمكن اكتشافها عن طريق تكرار كل قيمة واستعمال قيم التكرار ك قيم رقمية وعمل الطريقة الإحصائية
- بعض القيم الشاذة قبل التعامل معها يجب أن نتذكر أنها تعبر عن أحداث مهمة ممكن أن تساعدنا في اكتشاف Patterns او Events مساعدة في عمليتنا التحليلية
على سبيل المثال:
ماذا حصل حتى حصلت هذه القيمة ؟
على سبيل المثال:
ماذا حصل حتى حصلت هذه القيمة ؟
- Outlier لمجرد تسميتها بقيمة شاذة لا يجب تجاهل أهميتها
فيمكن لاكتشاف القيم الشاذة أن تعبر عن معلومات ذات أهمية كبيرة
فيمكن لاكتشاف القيم الشاذة أن تعبر عن معلومات ذات أهمية كبيرة
وصلنا لنهاية الثريد شكراً لوقتك 🙏
جاري تحميل الاقتراحات...