محمد | Data-AI
محمد | Data-AI

@Science10S

19 تغريدة 444 قراءة Feb 15, 2022
خلال هذا الثريد سأشرح أحد أهم مفاهيم قياس الأداء في نماذج التصنيف classification في #التعلم_الآلي ML مفهوم مصفوفة الالتباس(الحيرة) Confusion Matrix
1/18
بدايةً نماذج التصنيف في #التعلم_الآلي لها عدة أنواع لن أتطرق إليها للإطلاع بإمكانكم قراءة المقال التالي : machinelearningmastery.com
لتبسيط المفهوم سنركز على أبسط الأنواع وهو التصنيف الثنائي Binary Classification 0 1 ومثاله التعرف على ما إذا كان الايميل spam أو not spam.
2/18
أو تصنيف الصور كتصنيف صور القطط والكلاب أو توقع ما إذا كان عميل ما سيلغي اشتراكه في إحدى شركات الاتصالات أو سيبقى مشتركاً بها churned أو not churned.
3/18
الآن لنتخيل السيناريو التالي :
لدينا نموذج يدعي مطوره أنه قادر على التصنيف بين فاكهة البرتقال والتفاح ، النموذج من الداخل يقوم بتصنيف أي صورة تدخل إليه على أنها صورة برتقال (نموذج مزيف) 🥲 بيانات الاختبار التي لدينا للأسف كانت غير متوازنة
4/18
حيث أنه لدينا 1000 صورة 990 منها صور للبرتقال و 10 منها فقط هي صور للتفاح سنقوم بإدخال كل هذه الصور إلى
النموذج وسيقوم بتصنيفها جميعاً على أنها صور لبرتقال :( وستكون نتائج التصنيف كالآتي :
990 نتيجة صحيحة لأنها فعلًا هي صور لبرتقال 10 نتائج خاطئة لأنها صور لـتفاح
5/18
لو قمنا باستخدام مقياس الضبط accuracy كقياس لأداء النموذج سيكون ضبط النموذج يساوي 99% ، نموذج أسطوري صحيح ؟ بالواقع ليس كذلك ! قياس ضبط النموذج لا يكفي وحده لقياس أداء النموذج وهنا يأتي مفهوم الـ Confusion Matrix ليزيل هذا الالتباس !
6/18
الـ Confusion Matrix هي عبارة عن مصفوفة يتم تشكليها حسب عدد الأصناف classes المراد تصنيفها أي في مثالنا السابق لدينا صنفين تفاح و برتقال فإن المصفوفة التي ستتشكل بناء على ذلك هي بأبعاد 2x2 ولو كان لدينا ثلاثة أصناف على سبيل المثال فستكون المصفوفة الناتجة 3x3 وهكذا دواليك.
7/18
في التصنيفات الثنائية Binary Classification يكون لدينا قيمتين 1 0 ، أبيض أو أسود ، Positive أو Negative كما في نتائج اختبارات الـ PCR لفيروس Covid-19! سنعتبر في مثالنا السابق التالي : البرتقال : Positive (1) التفاح : Negative (0)
8/18
خلايا المصفوفة تمثل نتائج توقع النموذج وهي كالآتي:
True Positive (TP): توقع إيجابي صحيح
عدد القيم التي توقع النموذج بشكل صحيح أنها صور لبرتقال
False Positive (FP): توقع إيجابي خاطئ
عدد القيم التي توقع النموذج بشكل خاطئ أنها صور لبرتقال وهي في الواقع صور تفاح أو غير ذلك
9/18
True Negative (TN): توقع سلبي صحيح
عدد القيم التي توقع النموذج بشكل صحيح أنها صور تفاح
False Negative (FN): توقع سلبي خاطئ
عدد القيم التي توقع النموذج بشكل خاطئ أنها صور لتفاح وهي في الواقع صور برتقال أو غير ذلك
10/18
يسمى الـ False Positive (FP) بـخطأ من النوع الأول Type I Error بينما يسمى الـ False Negative (FN) بـخطأ من النوع الثاني Type II Error
من خلال هذه القيم بالإمكان استخراج المقاييس التالية :
Recall
Precision
Accuracy
F1-score
AUC-ROC curves
والتي تقيس أداء النموذج بشكل أدق.
11/18
الآن سنقوم بتحديث السيناريو الخاص بنا إلى نموذج حقيقي قادر على التصنيف بين البرتقال والتفاح بشكل فعلي وذلك لشرح المفاهيم السابقة :
نتائج النموذج :
850 توقع صحيح لصور برتقال من أصل 990
8 توقعات صحيحة لصور تفاح من أصل 10
140 توقع خاطئ للبرتقال
2 توقعين خاطئين للتفاح
12/18
Recall : الاسترجاع
ما هي نسبة العينات الموجبة الفعلية Actual Positives التي تم توقعها بشكل صحيح؟
من ضمن جميع الـ 990 صورة للبرتقال ، كم نسبة الصور التي توقعها النموذج بشكل صحيح.
13/18
Precision : الدقة
ما هي نسبة العينات التي تم توقعها على أنها إيجابية و كانت هذه التوقعات صحيحة بالفعل؟
من بين جميع الفئات التي توقعها النموذح على أنها صور لبرتقال سواء كانت صور لبرتقال أو تفاح ، كم عدد الصور التي بالفعل كانت صوراً لبرتقال.
14/18
Accuracy : الضبط
من بين جميع الفئات (الإيجابية والسلبية) ، كم نسبة التوقعات الصحيحة إلى عدد الصور الإجمالي (فضاء العينة)؟
بمعنى ماهو نسبة التوقعات الصحيحة لكل من فاكهتي التفاح والبرتقال TP و TN إلى جميع الصور 1000 صورة
15/18
من الصعب مقارنة نموذجين بدقة عالية واسترجاع منخفض نسبيًا أو العكس. لجعلها قابلة للمقارنة، نستخدم مقياس F-Score.
تساعد نتيجة F على قياس الاستدعاء والدقة في نفس الوقت،
حيث يستخدم المتوسط التوافقي بدلاً من المتوسط الحسابي من خلال التركيز على القيم المتطرفة أكثر.
16/18
نتائج مقاييس النموذج :
Accuracy = 86.66%
F-score = 91.46%
مانعتبره نموذج جيد جداً في التصنيف ، بالطبع بالإمكان رفع أداء النموذج بشكل أكبر من خلال تحسين جودة البيانات و المقارنة بين عدة نماذج ومعاملات.
17/18
آمل أن أكون قد وفرت لكم بعض الفهم الأساسي لماهية مصفوفة الالتباس Confusion Matrix. إذا أعجبك هذا المنشور ، فسيكون تحفيزك مفيد لي من خلال إعطاء هذا الثريد رتويت ♻️أو تفضيل 🤎
@fihmai
@PrograminLovers
@ArabData2020
@Dr_Hmood
@Eng_Hemdi
18/18
@rattibha رتبها 🤖

جاري تحميل الاقتراحات...