شبكة تحليل البيانات
شبكة تحليل البيانات

@ArabData2020

2 تغريدة 559 قراءة Oct 05, 2020
نموذج بسيط لتحيل البيانات باستخدام لغة Python مع مكتبة Pandas
هذه البيانات خاصة بنتائج فيرس كورونا داخل مدينة نيورك لمدة زمنية معينة
سنقوم في هذا التحليل بتقسيم الأشهر ، واستخراج البيانات ، وعمل رسم بياني خاص بكل شهر يوضح معدل الإصابات والوفيات
اول خطوة نعمل عليها دائما هي استحضار البيانات ، وهناك عدة مواقع تزودنا ببيانات جاهزة ومرتبة
جدول البيانات هنا يحتوي علي عمود
التاريخ
عدد الحالات
حالات الشفاء
حالات الوفيات
وقمت بإضافة عمود اخر للجدول تحتوي نتائجه علي طرح عدد حالات الشفاء من عدد حالات الوفيات
الخطوة الأولي استدعاء البيانات والمكتبات
هنا استدعينا مكتبة pandas الخاص بتحليل البيانات
ومكتبة numpy الخاصة بعمليات الإحصاء والرياضيات
ومكتبة matplotlib الخاصة بالرسم البياني
ثم استدعاء البيانات داخل متغير يسمي data , ويكون جدول البيانات بصيغة csv او اكسل علي حسب النوع
الخطوة الثانية التعامل مع البيانات باستخدام دوال مكتبة pandas
data.head()
دالة مفيدة ولا غني عنها لأنها تقوم بطباعة رأس الجدول او عدة صفوف ذات عدد معين فقط حتي نتحقق من البيانات
data.shape
هي دالة تطبع عدد الصفوف والعواميد داخل الجدول
data.columns
طباعة أسماء العواميد
الدالة Axes
تطبع محاور الجدول أو أسماء العواميد ، مع نوع البيانات
وهناك ايضا الدالة info التي تطبع نوع البيانات سواء نصية أو رقمية وهذه ايضا دالة أساسية في تحليل البيانات
الدالة sum
تقوم بجمع البيانات الموجودة داخل كل عمود وتعطيك الرقم الإجمالي لعدد الحالات
هنا سنقوم بطباعة بيانات التاريخ مع عدد الحالات
هذه الطريقة مفيدة عند طباعة عمودين فقط داخل جدول البيانات لإجراء عملية التحليل عليهم ، وعند النظر الي النتيجة ستجد اسم الشهر والتاريخ مع عدد الحالات الإجمالية الي اصيبت في ذلك اليوم .
هنا قمنا بإضافة عمود جديد داخل الجدول ، هذا العمود تعتمد بياناته علي طرح عدد حالات الشفاء من حالات الوفاة ووضع القيمة النهائية داخل العمود
وانظر الي طريقة إضافة عمود جديد داخل جدول البيانات باستخدام مكتبة pandas
الدالة info
سنقوم هنا من التحقق من نوع البيانات ، قبل إجراء أي عملية تحليل يجب علينا التأكد من نوع البيانات التي سنعمل عليها ونعرف هل هذه البيانات نصية أم رقمية ، لأنه عن طريق تحديد نوع البيانات يمكنك استخدام الدوال المناسبة لها فلا يصح استخدام دالة لقيمة رقميه مع قيمة نصية
هنا سنقوم بإجراء عملية تحليل اخري عن طريق استهداف وطباعة الحالات التي تزداد قيمتها عن 100 حالة سواء كانت في حالات الشفاء ، ام حالات الوفاة
وانظر ايضا الي طريقة استدعاء الحالات باستخدام مكتبة pandas
الأن سنقوم باستخراج بيانات الحالات بناء علي كل شهر بالترتيب
وفي هذا المثال سنقوم بتحديد بيانات الحالات عن شهر مارس فقط
وهنا نستخدم الدالة between التي تستخرج البيانات بين التواريخ المختلفة من تاريخ كذا الي كذا ...
وفي الرابط في النهاية ستشاهد التحليل شامل لكل التواريخ
الآن بعد ما شاهدنا طرق استدعاء البيانات المختلفة من الجدول سنشاهد طرق رسم ووصف البيانات باستخدام الرسم البياني ومكتبة matplotlib
هذه الخطوة من أهم خطوات التحليل لأنها توضح معدل الحالات أو رسم ووصف البيانات بشكل عام عن طريق الرسم البياني
كما تشاهد في الصورة قمنا باستهداف شهر مارس فقط ثم رسم البيانات باستخدام الدالة plot
وتشير الخطوط الي معدل البيانات ويوضح الرسم لون كل خط واسمه ووظيفته
مثلا الخط الأزرق بالأعلي يوضع معدل ارتفاع الحالات ووصولها الي أكثر من 5000 حالة في شهر مارس
تبقي لنا خطوة في التحليل وهي معرفة الترابط أو العلاقات بين المتغيرات (العواميد)
من أهم طرق التحليل هو معرفة الترابط بين العواميد داخل الجدول
مثلا هل توجد علاقة بين متغير حالات الشفاء وحالات الوفيات ؟ وهل هذه العلاقة ايجابية ام سلبية ؟
ونعرف النتيجة باستخدام الدالة corrcoef
ويفيد معرفة الترابط بين المتغيرات مثلا اذا كانت القيمة إيجابية فسيكون هناك ترابط
بمعني انه اذا زادت قيمة المتغير الأول ستزداد قيمة المتغير الثاني
وإذا كانت العلاقات سلبية كلما زادت قيمة المتغير الأول نقصت عند المتغير الثاني وهكذا
وتتراوح القيم بين -1 ، +1
واخيرا هذا مثال بسيط لمشروع تحليل بيانات علي نتائج فيرس كورونا داخل مدينة نيورك يوضح بعض الدوال المستخدمة والهامة في تحليل البيانات
لرؤية المشروع بالكامل علي مستودعي ب github
github.com
وايضا موضح فيه مصدر البيانات
ارجو أن اكون افدتكم 💛

جاري تحميل الاقتراحات...