في مشاريع تحليل البيانات يوجد عدة منهجيات Methodology أو إطار عمل Framework
مثل:
⁃CRISP-DM
⁃DELTA framework
⁃SEMMA
في هذه التغريدات عن
Dell Data Analytics Lifecycle
هذه المنهجية مُرتبة وتوضح تفاصيل دقيقة لكل مرحلة والخطوات التابعة لها.
#علم_البيانات
مثل:
⁃CRISP-DM
⁃DELTA framework
⁃SEMMA
في هذه التغريدات عن
Dell Data Analytics Lifecycle
هذه المنهجية مُرتبة وتوضح تفاصيل دقيقة لكل مرحلة والخطوات التابعة لها.
#علم_البيانات
هذه ال ٦ خطوات تهدف لعرض أفضل الممارسات في بناء مشاريع تحليل البيانات من البداية حتى الاكتمال.
١- الاكتشاف Discovery
٢- تجهيز البيانات Data preparation
٣- التخطيط للنموذج Model planning
٤- بناء النموذج Model building
٥- توصيل النتائج Communicate results
٦- التشغيل Operationalize
١- الاكتشاف Discovery
٢- تجهيز البيانات Data preparation
٣- التخطيط للنموذج Model planning
٤- بناء النموذج Model building
٥- توصيل النتائج Communicate results
٦- التشغيل Operationalize
بغض النظر الفرق بين المنهجية و إطار العمل و دورة الحياة. الهدف هو ترتيب وتوثيق العمل.
بعض الجهات تلتزم بمثل هذه المنهجيات من باب التنظيم والتوثيق ونقل الخبرات.
وجهات أخرى تعمل بها بشكل تلقائي بدون تبني محدد.
لكن أتباع مثل هذه الطُرق يوضح تفاصيل من البداية وهي ملخص لأفضل الممارسات
بعض الجهات تلتزم بمثل هذه المنهجيات من باب التنظيم والتوثيق ونقل الخبرات.
وجهات أخرى تعمل بها بشكل تلقائي بدون تبني محدد.
لكن أتباع مثل هذه الطُرق يوضح تفاصيل من البداية وهي ملخص لأفضل الممارسات
١- ال Discovery
في هذه المرحلة يتم اكتشاف مجال المشروع business domain هل تم عمل مشاريع مشابهه. ماهي مصادر البيانات المتوفرة.
وتكون فيها الخطوات التالية
⁃التعرف على business domain
⁃تحديد المصادر التي تحتاجها من بيانات وخبرات وأدوات
في هذه المرحلة يتم اكتشاف مجال المشروع business domain هل تم عمل مشاريع مشابهه. ماهي مصادر البيانات المتوفرة.
وتكون فيها الخطوات التالية
⁃التعرف على business domain
⁃تحديد المصادر التي تحتاجها من بيانات وخبرات وأدوات
⁃وضع المشكلة في إطار محدد Framing the Problem
⁃تحديد ال Stakeholders الرئيسين (من يؤثر أو يتأثر بالمشروع)
⁃عمل المقابلات للحصول على المتطلبات
⁃تحديد الأهداف والفرضيات Hypotheses للإجابة عليها أو التحقق منها من خلال هذا المشروع
⁃تحديد ال Stakeholders الرئيسين (من يؤثر أو يتأثر بالمشروع)
⁃عمل المقابلات للحصول على المتطلبات
⁃تحديد الأهداف والفرضيات Hypotheses للإجابة عليها أو التحقق منها من خلال هذا المشروع
٢- تجهيز البيانات Data preparation
يتم في هذه المرحلة عدة خطوات:
⁃تجهيز ال Sandbox وهو إنشا بيئة عمل مستقلة عن ال Data warehouse أو Data Lake. بحيث يتم نقل البيانات التي نحتاجها إلى ال Sandbox أشبه ب dev server
يتم في هذه المرحلة عدة خطوات:
⁃تجهيز ال Sandbox وهو إنشا بيئة عمل مستقلة عن ال Data warehouse أو Data Lake. بحيث يتم نقل البيانات التي نحتاجها إلى ال Sandbox أشبه ب dev server
⁃أكتشاف البيانات من حيث استعراضها وعمل المتوسطات والتحقق من القيم الفارغة الخ.
⁃عمل ال ETL حتى تنقل البيانات من المصادر أو ال DW أوData Lake إلى ال Sandbox
⁃تتحقق من البيانات بعد النقل وتعمل لها تنظيف إذا يحتاج أو ما يسمى Data Conditioning
⁃عمل ال ETL حتى تنقل البيانات من المصادر أو ال DW أوData Lake إلى ال Sandbox
⁃تتحقق من البيانات بعد النقل وتعمل لها تنظيف إذا يحتاج أو ما يسمى Data Conditioning
٣- التخطيط للنموذج Model planning
هنا يتم التخطيط لبناء النموذج ماهو الأنسب للمشكلة المحددة. ويتم فيه الخطوات:
هنا يتم التخطيط لبناء النموذج ماهو الأنسب للمشكلة المحددة. ويتم فيه الخطوات:
⁃تحدد نوع النموذج هل classification, regression, or clustering etc
⁃تحدد الخوارزميات المناسبة حسب كل نوع
⁃تحدد المتغيرات التي تحتاجها Variable Selection ودراسة العلاقات بينهم
⁃تحدد الأدوات التي ستنفذ بها المشروع
⁃تحدد الخوارزميات المناسبة حسب كل نوع
⁃تحدد المتغيرات التي تحتاجها Variable Selection ودراسة العلاقات بينهم
⁃تحدد الأدوات التي ستنفذ بها المشروع
٤- بناء النموذج Model building
هنا يتم بناء النموذج حسب الأداة أو اللغة التي تم إختيارها و يتم تقسيم البيانات إلى تدريب وتحقق واختبار. ويتم ضبط المتغيرات parameters tuning
هنا يتم بناء النموذج حسب الأداة أو اللغة التي تم إختيارها و يتم تقسيم البيانات إلى تدريب وتحقق واختبار. ويتم ضبط المتغيرات parameters tuning
٥- توصيل النتائج Communicate results
يتم هنا التحقق من هل المشروع حقق أهدافه وهل تمت الإجابة على الأسئلة المذكورة في المرحلة الأولى. ويتم عمل اجتماع مع ال Stakeholders لعرض النتائج ومناقشتها
يتم هنا التحقق من هل المشروع حقق أهدافه وهل تمت الإجابة على الأسئلة المذكورة في المرحلة الأولى. ويتم عمل اجتماع مع ال Stakeholders لعرض النتائج ومناقشتها
٦- التشغيل Operationalize
هنا يتم تسليم التقرير النهائي وملخص النتائج ويتم تسليم الكود. وعمل pilot وتشغيلها على بيئة ال production لتحقق من النموذج على بيانات حقيقية.
هنا يتم تسليم التقرير النهائي وملخص النتائج ويتم تسليم الكود. وعمل pilot وتشغيلها على بيئة ال production لتحقق من النموذج على بيانات حقيقية.
جاري تحميل الاقتراحات...