د. فهد آل عامر
د. فهد آل عامر

@Alamerfh

11 تغريدة 4 قراءة Jan 10, 2024
تحليل البيانات الاستكشافية (EDA)
#تصوير_البيانات
محلل البيانات أو عالم البيانات لابد أن يتحقق من بياناته لإكتشاف الأنماط أو الاتجاهات أو العلاقات أو الحالات الشاذة باستخدام الأشكال أو طرق التصوير الاحصائية.
في #علم_البيانات أو التعلم الآلي تعتبر مرحلة تصوير البيانات من أهم المراحل لفهم الهياكل الأساسية للبيانات وخصائصها.
هنا سوف أستعرض بعض الأشكال الاحصائية التي من الضروري التحقق منها أثناء عملية استكشاف البيانات:
(طبعًا هنا سوف نركز على تصوير البيانات بغض النظر عن الأساليب الحسابية الاحصائية الاخرى).
1- شكل توزيع البيانات (Distribution of Data):
من خلال تصوير البيانات نستطيع معرفة وفهم شكل وتوزيع البيانات (على سبيل المثال: التوزيع الطبيعي أو المنحرف وغيرها) ومعرفة إتجاه وتمركز وتباين البيانات.
(في ثريد سابق تكلمت عنه بالتفصيل)
🚩للكشف عن توزيع البيانات ممكن أن نستخدم:
Histogram
Box plots
2- القيم المفقودة (Missing Values):
معرفة وتحديد البيانات المفقودة وطرق معالجتها من أهم العوامل التي يمكن أن تؤثر على تحليل البيانات وبالتالي تقودنا إلى قرارات غير صحيحة.
طبعاً لابد من فهم سبب حدوثها ومن ثم معالجتها.
🚩للكشف عنها ممكن أن نستخدم:
Heat maps (الخرائط الحرارية تعرض مصفوفة من الالوان، حيث تعطى البيانات أو القيم المفقودة لون مختلف مما يسهل اكتشافها).
Missngno (مكتبة بايثون مصممة خصيصًا لتصور البيانات المفقودة.).
Scatter plots
3- القيم الشاذة أو المتطرفة (Outliers):
تصوير البيانات تمكننا من الكشف عن القيم المتطرفة لذلك من الظروري فحصها لفهم تأثيرها على البيانات ومن ثم كيفية التعامل معها (مثل الحذف أو التحويل).
من وجهة نظري أن لكل قيم معنى وبسبب ذلك لا أميل إلى الحذف.
🚩للكشف عنها ممكن أن نستخدم:
Interquartile Range (IQR)
box plot
Histogram
4- الارتباط (Correlation):
أيضاً أثناء عملية استكشاف البيانات نستطيع تحديد الارتباط والعلاقات بين المتغيرات وما قد ينتج عنها من تبعات محتملة.
🚩للكشف عنه ممكن أن نستخدم:
Scatter plots
Bubble chart
5- الأنماط والاتجاهات (Patterns and Trends):
من خلال تصوير البيانات يمكن أن نتعرف على الأنماط أو الاتجاهات أو الحالات الشاذة في البيانات.
🚩للكشف عنها ممكن نستخدم:
Line graphs
Bar charts
scatter plots
Time-series analysis
6- مقارنة المجموعات (Group Comparisons):
مقارنة المقاييس عبر مجموعات مختلفة (مثل الفئات والفترات الزمنية) لتحديد الاختلافات أو أوجه التشابه بينها.
Mean-errorbar-plots
7- تقييم نوع البيانات (Data Type Assessment):
فهم أنواع البيانات (العددية والترتيبية وغيرها) ومعالجتها بشكل مناسب في التحليل.
8- تقييم جودة البيانات (Data Quality Assessment):
تقييم جودة البيانات لتحديد الاخطاء أو التناقضات التي قد تحتاج إلى تصحيح.
هنالك عدة معاير مهمة يجب على محلل البيانات التأكد منها عند استلام البيانات ومنها:
Accuracy, completeness, consistency, validity and uniqueness
9- الاستكشاف البصري (Visual Exploration):
مهم جداً فهم العلاقات المعقدة في البيانات بشكل حدسي وممكن الاستعانة بأدوات تصوير البيانات مثل:
Heatmaps
Pair plots
تكلمنا عن أهم الاشكال في تصوير البيانات ولكن يوجد غيرها الكثير التي يمكن أن يلجأ لها محلل البيانات على حسب طبيعة بياناته.

جاري تحميل الاقتراحات...