ما الحاجة لدراسة خوارزميات #تعلم_الآلة (Machine Learning) في ظل تفوق خوارزميات #التعلم_العميق (Deep Learning)؟
تساؤل طرحه عالم بيانات مبتديء بعد ملاحظة تفوق التعلم العميق في مسابقات Kaggle ، مقال يناقش هذه الفرضية بشكل جميل، أُلخصه بالأسفل
#علم_البيانات
datasciencecentral.com
تساؤل طرحه عالم بيانات مبتديء بعد ملاحظة تفوق التعلم العميق في مسابقات Kaggle ، مقال يناقش هذه الفرضية بشكل جميل، أُلخصه بالأسفل
#علم_البيانات
datasciencecentral.com
#التعلم_العميق أحد الأدوات المهمة لعالم البيانات ، و يُصنف على أنه أحد فروع #تعلم_الآلة التي تُركز على بناء شبكات عصبية مشابهة لخلايا الدماغ البشري ، وما يجعله مختلف عن الشبكات العصبية هو كونه يحتوي على أكثر من طبقة مخفية (عميقة) بعكس ANNs والتي تحتوي على طبقة مخفية واحدة
يُطلق مصطلح ML على أي خوارزمية تُمكن الآلة من التعلم باستخدام مجموعة من البيانات للعثور على معارف وأنماط ، ويشمل ML جميع أنواع الخوارزميات سواءً الموجهة (Supervised)أو الغير موجهة (Unsupervised) لاستخدامها في التصنيف (Classification)او التجميع (Clustering)او الانحدار (Regression)
الشبكات العصبية التكرارية (RNNs) مكنت الآلة من معالجة اللغات الطبيعية (NLP) وباستخدامها خرجت لنا تطبيقات مثل اليكسا، سيري، و كورتانا ، و تستخدم في الترجمة الآلية وتحليل الملفات النصية والصوتية ، بالمقابل مكنت الشبكات العصبية الترشيحية (CNNs) الآلة من معالجة الصور والنصوص في الصور
لتحليل البيانات الغير منظمة (unstructured data) جاءت خوارزمية RNN وكأنها تُفعل حاسة السمع للآلة من خلال التعرف على الأصوات، و جاءت CNN وكأنها تُفعل حاسة البصر للآلة من خلال التعرف على الصور ، كلاهما لديه القدرة للتعامل مع اللغات الطبيعية ، إن كانت RNN آذان الآلة فإن CNN عيونها
في سباقات الفورملا قد يُحسم فوز أحدهم بوصوله للهدف قبل الآخر بأجزاء بسيطة من الثانية ، كذلك المتسابقين في مضمار Kaggle كل منهم تحمله الخوارزمية التي يختارها لحل مشكلة معينة ، لينتهي المطاف بأحدهم بالفوز بدقة تفرق عن الآخر ربما بالعلامة العشرية الثالثة أو الرابعة فقط
يقول أنتوني جولدبلوم المؤسس والرئيس التنفيذي لشركة Kaggle أن الخوارزميات الفائزة في سباقات Kaggle تحكمها نوع بيانات المسابقة ، والتي بالإمكان تقسيمها إلى : ◀️ بيانات منظمة (structured data) و
◀️ بيانات غير منظمة (unstructured data)
◀️ بيانات غير منظمة (unstructured data)
يقول أنتوني: المسابقات التي تعتمد على بيانات منظمة الرابح الأكبر فيها دائماً خوارزمية Random Forest ، تفوقت عليها مؤخراً خوارزمية جديدة تُدعى XGboost ، فئات البيانات المنظمة يسيطر عليها "حلول مصنوعة يدوياً" تعتمد على المعرفة الكبيرة بمجال البيانات والخبرة في اختبار الفرضيات
فئة البيانات الغير منظمة الرابح الأكبر فيها دائماً #التعلم_العميق ، ممثلاً بـ CNN و RNN ، ونظرًا لأن نسبة عالية من المشكلات التي تُطرح في Kaggle هذه الأيام تعتمد على بيانات غير منظمة ، فمن المنطق ملاحظة تفوق خوارزميات التعلم العميق ، والتساؤل عن جدوى دراسة الخوارزميات التقليدية!
يجب التأكيد على أن هناك تحديات وصعوبات في استخدام خوارزميات #التعلم_العميق -الكلام هنا لكاتب المقال-:
⚫️ خوارزميات جشعة لا تشبع (تحتاج كم كبير من البيانات لتدريبها)
⚫️ بناءها من الصفر يحتاج أسابيع وربما أشهر
⚫️ مكلفة من ناحية جمع البيانات وعنونتها (Labeled)
⚫️ خوارزميات جشعة لا تشبع (تحتاج كم كبير من البيانات لتدريبها)
⚫️ بناءها من الصفر يحتاج أسابيع وربما أشهر
⚫️ مكلفة من ناحية جمع البيانات وعنونتها (Labeled)
مايزيد عن 80% من تطبيقات علم البيانات في سوق العمل اليوم تركز على التنبؤ بسلوك المستهلك ، مالذي يجعله يشتري؟ ، لماذا يستمر في الشراء؟ و مالذي يجعله يذهب للمنافس؟ ، هنا تكمن القيمة العالية في دمج #علم_البيانات في أنظمة العملاء للتوصية بالشراء ، أو حل المشاكل وتقديم عروض أفضل
كذلك يتم استخدام #علم_البيانات في إدارة سلسلة الإمداد (Supply Chain) المعتمدة على بيانات السلاسل الزمنية (time series) لمراقبة المعدات المستخدمة والتنبؤ بالصيانة، وكذلك يُستخدم مع البيانات الجغرافية لتخطيط المواقع والأسواق ، هذه التطبيقات تحتوي على بيانات منظمة وبيانات غير منظمة
على الرغم من أنه بالإمكان استخدام خوارزميات #التعلم_العميق مع تلك التطبيقات التي تحتوي على كم كبير من البيانات المنظمة والقليل من البيانات الغير منظمة إلا أنها ليست مناسبة من ناحية الكفاءة، بالإمكان بناء نموذج تنبؤي باستخدام خوارزميات #تعلم_الآلة بدقة مناسبةووقت قصير لتحقيق الهدف
بشكل عام الشركات لن تنتظر أسابيع وأشهر لحلول CNN أو RNN، في حين أنه بإمكانها الحصول على نتيجة مقاربة ، بكلفة أقل ووقت أقصر مع خوارزميات #تعلم_الآلة ، لذا وبكل تأكيد #التعلم_العميق لم ولن يجعل دراسة خوارزميات تعلم الآلة عديمة الجدوى ، ولكي تصبح عالم بيانات تحتاج دراستها واتقانها
من أشهر خوارزميات #تعلم_الآلة خوارزمية SVM وخوارزمية Random Forest ، استخدامهما أعطى دقة أفضل من الخوارزميات الأخرى في مجالات وتطبيقات متعددة..
السؤال: أيهما أفضل SVM و Random Forest أو خوارزميات #التعلم_العميق (Deep Learning)؟
الإجابة في هذا المقال:
kdnuggets.com
السؤال: أيهما أفضل SVM و Random Forest أو خوارزميات #التعلم_العميق (Deep Learning)؟
الإجابة في هذا المقال:
kdnuggets.com
جاري تحميل الاقتراحات...