#ثريد
يعد إنشاء نماذج #التعلم_الآلي عملية معقدة، غالبا ما يخطئ فيها حتى علماء البيانات الأكثر خبرة.
إليك 5 طرق فعالة لتحسين دقة نماذج #التعلم_الآلي الخاصة بك:
1/19
يعد إنشاء نماذج #التعلم_الآلي عملية معقدة، غالبا ما يخطئ فيها حتى علماء البيانات الأكثر خبرة.
إليك 5 طرق فعالة لتحسين دقة نماذج #التعلم_الآلي الخاصة بك:
1/19
1- التعامل مع القيم المفقودة والقيم المتطرفة و تعتبر واحدة من أسهل الطرق.
ذلك لأن القيم المفقودة والقيم المتطرفة يمكن أن تتسبب في قيام النموذج بوضع افتراضات غير صحيحة حول بياناتك مما يؤثر سلبا على دقة النموذج، و قد تسبب أيضا في أن تكون نماذجك مفرطة في التخصيص أو التعميم.
2/19
ذلك لأن القيم المفقودة والقيم المتطرفة يمكن أن تتسبب في قيام النموذج بوضع افتراضات غير صحيحة حول بياناتك مما يؤثر سلبا على دقة النموذج، و قد تسبب أيضا في أن تكون نماذجك مفرطة في التخصيص أو التعميم.
2/19
عدة طرق تمكنك من التعامل مع القيم المفقودة و المتطرفة:
1-احذف نقاط البيانات المحتوية على قيم مفقودة أو متطرفة من مجموعة البيانات
2-عوض القيم المفقودة باستخدام تقنية مثل أقرب الجيران (k-nn) أو الانحدار الخطي
3-استخدم تقنية مثل bootstrapping لإزالة تأثير البيانات المتطرفة
3/19
1-احذف نقاط البيانات المحتوية على قيم مفقودة أو متطرفة من مجموعة البيانات
2-عوض القيم المفقودة باستخدام تقنية مثل أقرب الجيران (k-nn) أو الانحدار الخطي
3-استخدم تقنية مثل bootstrapping لإزالة تأثير البيانات المتطرفة
3/19
2- هندسة الخصائص: تعني إنشاء خصائص جديدة من الخصائص الموجودة ،مثلا يمكنك إنشاء خاصية تمثل كم يقطع شخص ما ليصل مكان عمله استنادا إلى خاصيتين أخرتين: عنوان المنزل وموقع مكان العمل.
4/19
4/19
مثال آخر: يمكنك الجمع بين عمر و وزن و طول الأشخاص لإنشاء خاصية مؤشر كتلة الجسم يسمح هذا لنموذجك بإجراء تنبؤات أفضل نظرا لوجود ميزات أقل وضوضاء أقل في نموذجك.
هناك العديد من الطرق المختلفة لهندسة الخصائص غالبا ما تعتمد أفضل طريقة على مجموعة البيانات التي تعمل معها.
5/19
هناك العديد من الطرق المختلفة لهندسة الخصائص غالبا ما تعتمد أفضل طريقة على مجموعة البيانات التي تعمل معها.
5/19
نصائح في هندسة الخصائص
-اعثر على علاقات بين الخصائص لإنشاء خصائص جديدة بناء على العلاقات
-استخدم تحويلات مثل التحويل اللوغاريتمي أو التوحيد القياسي لجعل خصائصك أكثر قابلية للمقارنة
-استفد من تقنيات المعالجة المسبقة للبيانات مثل استخراج الخصائص وتحديدها لتعثر على أهم الخصائص
6/19
-اعثر على علاقات بين الخصائص لإنشاء خصائص جديدة بناء على العلاقات
-استخدم تحويلات مثل التحويل اللوغاريتمي أو التوحيد القياسي لجعل خصائصك أكثر قابلية للمقارنة
-استفد من تقنيات المعالجة المسبقة للبيانات مثل استخراج الخصائص وتحديدها لتعثر على أهم الخصائص
6/19
3- تحديد الخصائص: عملية تساعدك على تحديد الخصائص الأكثر فائدة في مجموعة البيانات الخاصة بك لتقليل الضوضاء أو القضاء عليها وتحسين دقة النموذج.
هناك عدة طرق ولكن جميعا تنطوي إما على استخدام شكل من أشكال التحليل الإحصائي أو تصفية الخصائص ذات الأهمية الأقل.
7/19
هناك عدة طرق ولكن جميعا تنطوي إما على استخدام شكل من أشكال التحليل الإحصائي أو تصفية الخصائص ذات الأهمية الأقل.
7/19
بعض التقنيات الشائعة لتحديد الخصائص:
-ترتيب الخصائص بناء على ارتباطها بالمتغيرات الأخرى في مجموعة البيانات، ثم إزالة تلك الأقل ارتباطا من غيرها. على سبيل المثال، يمكنك استخدام معامل ارتباط بيرسون لقياس قوة العلاقة بين متغيرين.
8/19
-ترتيب الخصائص بناء على ارتباطها بالمتغيرات الأخرى في مجموعة البيانات، ثم إزالة تلك الأقل ارتباطا من غيرها. على سبيل المثال، يمكنك استخدام معامل ارتباط بيرسون لقياس قوة العلاقة بين متغيرين.
8/19
-تصفية الخصائص بناء على درجات أهميتها ، والتي يتم حسابها عادة باستخدام تقنية مثل صعود اشتقاقي (gradient ascent) أو الغابات العشوائية (random forests).
9/19
9/19
-اختيار مجموعة فرعية من الخصائص التي لها ارتباط كبير مع المتغير المستهدف ولكن ارتباطها منخفض فيما بينها (أي أنها غير مرتبطة أو مستقلة عن بعضها البعض).
10/19
10/19
4- جرب خوارزميات متعددة
من الخطأ تجربة خوارزمية واحدة فقط عند تدريب النموذج. فعلى الرغم من أن هذا قد ينجح إذا كان لديك الكثير من البيانات وكان من السهل أن تتعلم الخوارزمية منه، إلا أن معظم مجموعات البيانات في العالم الحقيقي أكثر تعقيدا من ذلك.
11/19
من الخطأ تجربة خوارزمية واحدة فقط عند تدريب النموذج. فعلى الرغم من أن هذا قد ينجح إذا كان لديك الكثير من البيانات وكان من السهل أن تتعلم الخوارزمية منه، إلا أن معظم مجموعات البيانات في العالم الحقيقي أكثر تعقيدا من ذلك.
11/19
قد تكون بعض الخصائص في مجموعة البيانات والتي لا تساهم كثيرا في دقة النموذج، وإزالتها لن تؤدي إلا إلى تفاقم الأمور
في هذه الحالة يمكن أن يكون استخدام خوارزميات متعددة مفيدا من خلال ذلك يمكنك تحديد الخوارزميات التي تعمل بشكل أفضل لبياناتك ثم استخدام هذه المعلومات لتحسين الدقة
12/19
في هذه الحالة يمكن أن يكون استخدام خوارزميات متعددة مفيدا من خلال ذلك يمكنك تحديد الخوارزميات التي تعمل بشكل أفضل لبياناتك ثم استخدام هذه المعلومات لتحسين الدقة
12/19
هناك العديد من الأنواع لخوارزميات #التعلم_الآلي، لذلك قد يكون من الصعب معرفة الأنواع المناسبة لبياناتك. من الجيد أن تبدأ باستخدام التحقق المتقاطع (Cross validation) مع خوارزميات متعددة على نفس مجموعة البيانات ثم مقارنة درجات دقتها مع بعضها البعض.
13/19
13/19
إذا كنت تستخدم Python مكتبة scikit-learn تحتوي على قائمة بنماذج التعلم الآلي التي يمكنك تجربتها:
الانحدار الخطي (linear regression)
آلة المتجهات الداعمة (Support vector machine)
شجرة القرار (Decision tree)
الغابات العشوائية (Random forests)
الشبكات العصبية (neural networks)
14/19
الانحدار الخطي (linear regression)
آلة المتجهات الداعمة (Support vector machine)
شجرة القرار (Decision tree)
الغابات العشوائية (Random forests)
الشبكات العصبية (neural networks)
14/19
هناك طريقة أخرى تتمثل في استخدام الطريقة التجميعية (Ensemble Models)، والتي تجمع بين خوارزميتين أو أكثر معا في نموذج واحد. غالبا ما تكون المجموعات أكثر دقة من أي خوارزمية فردية لأنها تستفيد من نقاط القوة في كل منها وتعوض عن نقاط ضعفها.
15/18
15/18
5- ضبط مدخلات الضبط:
مدخلات الضبط هي مدخلات في نماذج التعلم الآلي تحدد كيفية عملها، يمكن أن تتضمن هذه المدخلات قيم مثل عدد الطبقات في شبكة عصبية عميقة، أو عدد الأشجار التي يجب أن تكون موجودة في طريقة التجميع.
16/19
مدخلات الضبط هي مدخلات في نماذج التعلم الآلي تحدد كيفية عملها، يمكن أن تتضمن هذه المدخلات قيم مثل عدد الطبقات في شبكة عصبية عميقة، أو عدد الأشجار التي يجب أن تكون موجودة في طريقة التجميع.
16/19
تحتاج عادة إلى ضبط هذه المدخلات بنفسك حيث لا يتم تعيينها تلقائيا عند تدريب النموذج الخاص بك
هنا يكون التحقق المتقاطع مفيد،من خلال تقسيم بياناتك إلى مجموعات تدريب واختبار يمكنك تجربة مجموعات مختلفة من هذه المدخلات في مجموعة التدريب ثم معرفة مدى جودة أدائها في مجموعة الاختبار
17/19
هنا يكون التحقق المتقاطع مفيد،من خلال تقسيم بياناتك إلى مجموعات تدريب واختبار يمكنك تجربة مجموعات مختلفة من هذه المدخلات في مجموعة التدريب ثم معرفة مدى جودة أدائها في مجموعة الاختبار
17/19
طريقة أخرى للقيام بذلك وهي استخدام Grid search ، للعثور على الاتحاد الأمثل من مدخلات ضبط بياناتك.
حيث يعمل من خلال تجربة كل مجموعة ممكنة من المدخلات بالترتيب حتى يجد واحدة تمنحك أفضل أداء. يمكنك بعد ذلك استخدام هذا الاتحاد من المدخلات لتدريب النموذج الخاص بك.
18/19
حيث يعمل من خلال تجربة كل مجموعة ممكنة من المدخلات بالترتيب حتى يجد واحدة تمنحك أفضل أداء. يمكنك بعد ذلك استخدام هذا الاتحاد من المدخلات لتدريب النموذج الخاص بك.
18/19
يمكنك استخدام Grid Search من خلال مكتبة scikit-learn في Python.
19/19
المصدر: towardsdatascience.com
nmthgiat.com
19/19
المصدر: towardsdatascience.com
nmthgiat.com
جاري تحميل الاقتراحات...