تحليل البيانات الاستكشافية (EDA)
#تصوير_البيانات
محلل البيانات أو عالم البيانات لابد أن يتحقق من بياناته لإكتشاف الأنماط أو الاتجاهات أو العلاقات أو الحالات الشاذة باستخدام الأشكال أو طرق التصوير الاحصائية.
في #علم_البيانات أو التعلم الآلي تعتبر مرحلة تصوير البيانات من أهم المراحل لفهم الهياكل الأساسية للبيانات وخصائصها.
هنا سوف أستعرض بعض الأشكال الاحصائية التي من الضروري التحقق منها أثناء عملية استكشاف البيانات:
(طبعًا هنا سوف نركز على تصوير البيانات بغض النظر عن الأساليب الحسابية الاحصائية الاخرى).
#تصوير_البيانات
محلل البيانات أو عالم البيانات لابد أن يتحقق من بياناته لإكتشاف الأنماط أو الاتجاهات أو العلاقات أو الحالات الشاذة باستخدام الأشكال أو طرق التصوير الاحصائية.
في #علم_البيانات أو التعلم الآلي تعتبر مرحلة تصوير البيانات من أهم المراحل لفهم الهياكل الأساسية للبيانات وخصائصها.
هنا سوف أستعرض بعض الأشكال الاحصائية التي من الضروري التحقق منها أثناء عملية استكشاف البيانات:
(طبعًا هنا سوف نركز على تصوير البيانات بغض النظر عن الأساليب الحسابية الاحصائية الاخرى).
2- القيم المفقودة (Missing Values):
معرفة وتحديد البيانات المفقودة وطرق معالجتها من أهم العوامل التي يمكن أن تؤثر على تحليل البيانات وبالتالي تقودنا إلى قرارات غير صحيحة.
طبعاً لابد من فهم سبب حدوثها ومن ثم معالجتها.
🚩للكشف عنها ممكن أن نستخدم:
Heat maps (الخرائط الحرارية تعرض مصفوفة من الالوان، حيث تعطى البيانات أو القيم المفقودة لون مختلف مما يسهل اكتشافها).
Missngno (مكتبة بايثون مصممة خصيصًا لتصور البيانات المفقودة.).
Scatter plots
معرفة وتحديد البيانات المفقودة وطرق معالجتها من أهم العوامل التي يمكن أن تؤثر على تحليل البيانات وبالتالي تقودنا إلى قرارات غير صحيحة.
طبعاً لابد من فهم سبب حدوثها ومن ثم معالجتها.
🚩للكشف عنها ممكن أن نستخدم:
Heat maps (الخرائط الحرارية تعرض مصفوفة من الالوان، حيث تعطى البيانات أو القيم المفقودة لون مختلف مما يسهل اكتشافها).
Missngno (مكتبة بايثون مصممة خصيصًا لتصور البيانات المفقودة.).
Scatter plots
3- القيم الشاذة أو المتطرفة (Outliers):
تصوير البيانات تمكننا من الكشف عن القيم المتطرفة لذلك من الظروري فحصها لفهم تأثيرها على البيانات ومن ثم كيفية التعامل معها (مثل الحذف أو التحويل).
من وجهة نظري أن لكل قيم معنى وبسبب ذلك لا أميل إلى الحذف.
🚩للكشف عنها ممكن أن نستخدم:
Interquartile Range (IQR)
box plot
Histogram
تصوير البيانات تمكننا من الكشف عن القيم المتطرفة لذلك من الظروري فحصها لفهم تأثيرها على البيانات ومن ثم كيفية التعامل معها (مثل الحذف أو التحويل).
من وجهة نظري أن لكل قيم معنى وبسبب ذلك لا أميل إلى الحذف.
🚩للكشف عنها ممكن أن نستخدم:
Interquartile Range (IQR)
box plot
Histogram
7- تقييم نوع البيانات (Data Type Assessment):
فهم أنواع البيانات (العددية والترتيبية وغيرها) ومعالجتها بشكل مناسب في التحليل.
فهم أنواع البيانات (العددية والترتيبية وغيرها) ومعالجتها بشكل مناسب في التحليل.
8- تقييم جودة البيانات (Data Quality Assessment):
تقييم جودة البيانات لتحديد الاخطاء أو التناقضات التي قد تحتاج إلى تصحيح.
هنالك عدة معاير مهمة يجب على محلل البيانات التأكد منها عند استلام البيانات ومنها:
Accuracy, completeness, consistency, validity and uniqueness
تقييم جودة البيانات لتحديد الاخطاء أو التناقضات التي قد تحتاج إلى تصحيح.
هنالك عدة معاير مهمة يجب على محلل البيانات التأكد منها عند استلام البيانات ومنها:
Accuracy, completeness, consistency, validity and uniqueness
تكلمنا عن أهم الاشكال في تصوير البيانات ولكن يوجد غيرها الكثير التي يمكن أن يلجأ لها محلل البيانات على حسب طبيعة بياناته.
جاري تحميل الاقتراحات...