Mohammad Katby
Mohammad Katby

@morikapt

14 تغريدة 2 قراءة Aug 27, 2022
يعتبر الإحصاء من أهم فروع الرياضيات لعالم البيانات، لأنه يتناول جمع وتحليل وتفسير وعرض البيانات العددية
وهذه 8 من أهم المفاهيم إحصائية الضرورية في #علوم_البيانات 🧵
1. أخذ العينات الإحصائية
يقدم هذا المفهوم إمكانيات أخذ مجموعة جزئية (عيّنة) من البيانات صغيرة كفاية وتمثل كافة البيانات لإجراء الحسابات عليها، ثم بإستخدام الإحتمالات وبعض الفرضيات نستطيع وبدرجة كافية من الدقة فهم إتجاهات هذه البيانات والتنبؤ بها مستقبلياً
2. الإحصاء الوصفي
يساعد على وصف البيانات، ويقدم فهماً لخصائصها الأساسية، ولا تتنبئ أو تستنتج أي شيء منها إنها ببساطة تعطي عوامل وصف فقط، من أهم هذه العوامل الوسيط Mean، والمتوسط Median والوضع Mode
3. التوزيعات
تكون على شكل مخطط بيانات لكل قيمة في العينة وعدد مرات تكرارها. تقدم مخططات التوزيعات رؤية أشمل عن إنتشار وانحراف البيانات. يقدم التوزيع رسماً بيانياً يشبه المنحنى، وقد ينحرف إلى اليمين أو اليسار.
أكثرهم شهرة منحنى الجرس الذي يمثل التوزع الطبيعي
4. الاحتمالات
هو نسبة وقوع حدث ما، وفي الإحصاء هو مخرجات تجربة ما، كنسبة توجه المستخدمين في A/B Testing.
يحسب الاحتمال بقسمة عدد الأحداث على عدد كافة الأحداث المحتملة، كاحتمال خروج الرقم 2 عند رمي النرد ستكون 1/6.
تكون الأحداث إما مستقلة عندما لايؤثر حدوث احدها على الآخر كأن يكون لدينا كيس حلوى يحوي على 3 حمراء و2 صفراء ويأتي السؤال ماهو احتمال سحب حبة حمراء؟ نسحب حبة حلوى حمراء ثم نعيدها إلى نفس الكيس، فيكون الاحتمال هو 1/5 ولأننا أعدناها لن نؤثر على أي عملية سحب مستقبلية
أو معتمدة (شرطية) حيث يؤثر الحدث السابق على نسبة حدوث الحدث اللاحق كأن نسحب حبة حلوى حمراء ولا نعيدها إلى الكيس ثم صفراء من كيس يحتوي على 3 حبات حمراء و 2 صفراء سيكون احتمال الحبة الحمراء 1/5 واحتمال الحبة الصفر سيكون 1/4
5. التحيز
هو ميل نموذج الاحصاء أو التنبؤ في #تعلم_الآلة إلى المبالغة في تقدير أو التقليل من شأن جزء من بيانات، يحدث غالباً بسبب طريقة أخذ العينة
أهم أنواع التحيز
- تحيز الاختيار هو اختيار عينة لاتمثل البيانات ككل
- تحيز التأكيد ويحدث عندما يكون لدى #عالم_البيانات افتراض مسبق فيميل أن تُأكد تحليلاتها كلها هذا الافتراض
6. التباين
يقيس التباين مدى بعد كل قيمة من قيم العينة عن المتوسط، يعتبر الإنحراف المعياري أهم مقايس التباين عندما يكون للعينة توزيع طبيعي، فعندما تكون قيمته صغيرة يعني أن القيم تميل للتجمع حول المتوسط، إما إذا كانت قيمته كبيرة فيعني أن القيم تنتشر بعيداً عن المتوسط
7. التوازن بين التحيز والتباين
إنهما من أهم المفاهيم في #تعلم_الآلة فعند تدريب نموذج على عينة التدريب فإننا نضع فرضية نبني عليها النموذج،
لنفرض أننا نبني إنحدار خطي ذلك يعني أن هناك علاقة خطية بين دخل النموذج وخرجه، بذلك نكون تحيزنا ضد أي بيانات لا ترتبط خطياً بالمخرجات.
وينتج التباين في #تعلم_الآلة عندما نستخدم عينات بيانات مختلفة للتدريب، ما يعني أن القيم التي سيتنبأ بها النموذج ستتباين عن القيم السابقة
دائماً نسعى أن تكون قيم التحيز والتباين منخفضة لكن غالباً ما يكون تخفيض احدى القيم يعني زيادة القيمة المقابلة وبالعكس
8. الإرتباط
يقيس العلاقة بين متغييرين وتكون قيمها بين +1 و-1، ويفترض به أن يكون خطياً. إذا كانت قيمة الإرتباط أقرب إلى +1 يعني أن زيادة القيم في المتغير الأول يعني زيادة بالإيجاب في المتغير الثاني. أما إذا كانت القيمة أقرب إلى -1 يعني أن الزيادة في الأول تقابلها نقصان في الثاني.
حاولت تقديم أهم المفاهيم والأدوات الاحصائية التي تحتاجها في #علوم_البيانات و #الذكاء_الاصطناعي و #تعلم_الآلة
وحاول نشرها لتصل لكل مهتم ثم تابع @morikapt لتلخيصات قادمة

جاري تحميل الاقتراحات...