Abdullah A. Alsharif
Abdullah A. Alsharif

@Abdullah_Wex

19 تغريدة 1 قراءة Dec 22, 2022
فكرت تشتغل على بيانات لكن تفاجأت بأنها ناقصة أو غير منطقية ؟
في هذا الثريد راح نتكلم عن موضوعين مهمة من خطوات Feature Engineering
- Missing Values
- Outliers
-- ماهي ؟
-- كيفية اكتشفها؟
-- طرق التعامل معها؟
Missing Values
القيم المفقودة - Missing values
من أسمها هي قيم مفقودة بمعنى ليست موجودة وتمثل بأكثر من طريقة على سبيل المثال
- NA
- خانة فارغة
- شرطة
- قيم غير منطقية كالعمر يساوي 0
ويمكن اعتبار أي قيمة غير منطقية كقيمة مفقودة
طرق التعامل مع القيم المفقودة
1- Listwise Deletion
حذف أي صف يحتوي على قيمة مفقودة واحدة ف أكثر
ميزتها : سهلة التطبيق ولا تعبث بالبيانات
عيبها : يمكن أن تقلل حجم البيانات بشكل كبير
2- Mean/Median/Mode Imputation
هي استبدال القيم المفقودة ب أحد مقاييس النزعة المركزية :
- المتوسط الحسابي
- الوسيط
- المدى
ميزتها : لا يقلل من حجم عينة البيانات، ولا يحرف البيانات
عيبها : لا يمكن تطبيقها على المتغيرات التصنيفية(categorical variables) بمعنى آخر أي بيانات غير عددية
نأتي للسؤال المهم متى نستعمل الوسيط، المتوسط الحسابي، والمدى ؟
المتوسط الحسابي - Mean : يفضل إذا كانت البيانات رقمية وغير منحرفة
الوسيط - Median : يفضل إذا كانت البيانات رقمية ومنحرفة
المدى - Mood : يفضل إذا كانت البيانات نصية او رقمية
Skewed = منحرفة
3- Last Observation Carried Forward (LOCF)
هي طريقة ملء البيانات بالاعتماد على البيانات السابقة او القادمة وتعتبر طريقة بدائية لتعبئة البيانات
ميزتها : يضمن عدم فقدان حجم العينة
عيبها : يمكن تطبيقه فقط على البيانات الطولية
ملاحظة : اعتمدنا في المثال على البيانات السابقة
نبدأ الآن بالموضوع الثاني Outliers
القيم الشاذة - Outlier
هي قيم تختلف اختلاف كبير عن باقي القيم
على سبيل المثال اليوم 7 عنده قيمة أعلى من غيرها وتختلف حيث كل القيم أقل من 10
أيضا أفضل مخطط للقيم الشاذة Box Plot حيث يوضح
- outliers = النقاط
-Minimum value
-Q1
-Median
-Q2
-Maximum value
اليوم 7 قيمته واضحة انها مختلفة لكن كيف نكتشف باقي النقاط ؟
الطريقة الإحصائية كالتالي
حد سفلي
Lower bound = Q1 - (1.5 * (Q3-Q1))
حد علوي
Upper bound = Q3 + (1.5 * (Q3-Q1))
وحسب مثالنا
Lower bound = -1.5
Upper bound = 10.5
أي شي أقل من -1.5 أو أكبر من 10.5 يعتبر قيمة شاذة
طرق التعامل مع القيم الشاذة
1- Resurvey the data
إعادة أخذ البيانات بمعنى أخذ البيانات من المصدر حتى تتأكد من قيمتها الصحيحة في الغالب بتكون البيانات مجمعة عن طريق خدمات Surveys او قواعد بيانات
2- Delete the outlier data
إذا لم نستطع إعادة أخذ البيانات او هي كانت قيمة شاذة من نفس المصدر هنا نحذف القيمة وتتم معاملتها كقيمة مفقودة مثل ما ذكرنا سابقاً
بعض الملاحظات المهمة جداً
- بعض القيم الشاذة للداتا المصنفة (Categorical data) يمكن اكتشافها عن طريق تكرار كل قيمة واستعمال قيم التكرار ك قيم رقمية وعمل الطريقة الإحصائية
- بعض القيم الشاذة قبل التعامل معها يجب أن نتذكر أنها تعبر عن أحداث مهمة ممكن أن تساعدنا في اكتشاف Patterns او Events مساعدة في عمليتنا التحليلية
على سبيل المثال:
ماذا حصل حتى حصلت هذه القيمة ؟
- Outlier لمجرد تسميتها بقيمة شاذة لا يجب تجاهل أهميتها
فيمكن لاكتشاف القيم الشاذة أن تعبر عن معلومات ذات أهمية كبيرة
وصلنا لنهاية الثريد شكراً لوقتك 🙏

جاري تحميل الاقتراحات...