سعيد شعبان
سعيد شعبان

@Saeed_SH23

42 تغريدة 217 قراءة Mar 01, 2022
تحليل البيانات Data Analysis
ما معني تحليل البيانات ؟
كيف تبدء في ذلك التخصص ؟
ما اللغات والمهارات المطلوبة ؟
ما المصادر الموثوقة في التعلم ؟
هذا الثريد بنناقش فيه بإذن الله تحليل البيانات والمشاكل التي تواجه الطلاب فيه وكيف تبدء بداية سليمة مع شرح المسارات التي تقدمها المواقع
في البداية نحن نتكلم عن تحليل البيانات Data Analysis وليس علم البيانات Data Science
هناك فرق جوهري بين الإثنين والمزيد من الناس يخطئ الإختيار في البداية ويدخل مسارات Data Science كمبتدء ويعاني معاناة كثيرة تحول بينه وبين الاستمرار لكن بنخصص ثريد اخر لتخصص Data Science .
تحليل البيانات بشكل عام كما يقول البعض أنه (نفط القرن العشرين ) ولكن دعك من هذا الكلام والشعارات الرنانة لبعض أصحاب الكورسات لشد انتباهك لا اكثر
البيانات هي كل ما يدور حولك من - نصوص - صور - فيديوهات - والخ
مهمتك كمحلل استخراج الفوائد وحل المشكلات التي تواجه العالم
المسارات والشرح الذي سأتكلم عنه برمجي بنسبة 100% يعني تعمل كمبرمج محلل بيانات دون الاستعانة بأدوات وبرامج في التحليل مثل الإكسل وغيره
البيانات في الغالب تأتي لك خام مليئة بالأخطاء والمشاكل الإملائية والفراغات التي تحتويها الصفوف والأعمدة
قد تكون بيانات لشركة صاحبها غرقان بالديون
او بيانات لشركة اوشكت علي الإفلاس
او بيانات لمستشفي تريد التعلم من سجلات
المرضي بالماضي والتبؤ بالأمراض في المستقبل
او بيانات لمطعم علي وشك الإفلاس بسبب كثرة طوابير الإنتظار ويريد حل جذري
او طريق كثرت فيه الحوادث وزادت منه الشكوي
الآن مطلوب منك كمحلل ايجاد حل لتلك المشكلات والعمل عليها بشكل فوري ماذا ستفعل؟
الشي الذي يتحكم هو المنطق في التعلم والمنطق في العمل
خصوصا في علوم البرمجيات فهي قائمة علي المنطق يعني اختيار الشئ المناسب واستخدامه للمشكلة المناسبة
ولكن قبل ان نتكلم عن الاخطاء سنتكلم عن التعلم
في موقع (برمج) اختارو مسار جيد لتعليم التحليل سأناقش معك مزاياه وعيوبه بناء علي دراستي له
وايضا سأعرض عليك المسارات من مدارس اجنبية اخري مثل udacity لتفهم وتتعلم
أولا ماذا تحتاج لتصبح محلل بيانات متميز ؟
في البداية لن تحتاج الا ان تكون مبرمج وتختار لغة إما Python أو R ولكن في علم البيانات يميل العالم لبايثون بلا شك بسبب
المكتبات في التحليل
المكتبات في تصور البيانات
المكتبات في التعلم الآلي
المكتبات في الذكاء الإصطناعي
وكل ذلك تدعمه بايثون وتوفر له شرحا جيدا ومجتمع جيد
كلمة مبرمج تعني شخص فاهم بالتالي
اساسيات لغة البرمجة
هياكل البيانات
الخوارزميات
البرمجة الكائنية oop
ليس مجرد نظرة عابرة علي اللغة تتعلم فيها المتغيرات والدوال والتكرار ثم تكتفي وتقول اصبحت مبرمج
لماذا اقول لك لا تكتفي عند هذا الحد من البرمجة وكيف تستخدم البرمجة في التحليل
في التحليل ستأتي لك البيانات هكذا علي خي جداول
مطلوب منك مثلا سحب بيانات العمود الأول بمفردها
او سحب جزء منها معين بناء علي رقمة او اسمه او ترتيبه بالعمود
اكثر مهارة تساعدك هنا هي البرمجة ، مثل القوائم lists والقواميس dict لانها باختصار هياكل بيانات تسمح لك بحفظ البيانات
واستدعاءها بالمكان المناسب يعني اذا عندك خلفية جيدة بهياكل بيانات اللغة مع الدوال مع التكرار وقادر علي استخدام تلك الثلاثة معا ، هذه الخطوة ستمتعك ببعض المهارات في التعامل مع البيانات وتشعر معها بارتياح
لذلك اتقن لغة البرمجة واساسيتها اولا قبل الدخول في البيانات
اهم ثاني شي بعد بايثون هو مكتبة Pandas
تلك المكتبة التي يمر عليها الطلاب مرور الكرام ويأخذون منها القليل جدا
انا اقول لك لن تصبح محلل محترف الا باتقانك مكتبة pandas ومعرفة استخدام دوال Series و Dataframe والفرق بينهم
لكن ربما تسأل لماذا ؟
هل سمعت عن مصطلح التلاعب بالبيانات Wrangling Data ؟
كما ذكرت لك في البداية ستأخذ بيانات خام مليئة بالعيوب والعثرات التي تحتاج لتنظيف
ربما اول مرك تسمع عن كلمة تنظيف 🤔
اكثر جزء با عزيزي يحتاج الي مشقة ومجهود وتعب في التحليل هو Wrangling Data أي الجدال مع البيانات
في هذه المرحلة تستهلك 85 ٪ من وقتك فقط علي المشروع ، ولكن ماذا تعمل في هذه المرحلة ؟
مرحلة التلاعب بالبيانات تأخذ فيها البيانات ثم تقوم بتنظيفها واستخراج القيم المفقودة منها
واجراء العمليات الأساسية التي تؤهل تلك البيانات لاستخراج المعلومات منها
وكل هذا لن تستطيع فعله الا ..
باستخدام مكتبة Pandas لذلك بعد بايثون مباشرة يجب عليك اتقان pandas
ثالث شي : مكتبة Numpy
هي مكتبة سهلة وبسيطة تمكنك من اجراء العمليات الرياضية واستخراج بيانات مثل الوسط والوسيط والانحراف المعياري وغيره من العمليات الرياضية علي البيانات
رابعا : الإحصاء الوصفي
الاحصاء الوصفي مهم جدا في التحليل لأنه ببساطة يشرح لك مفاهيم الوسيط والوسيط والانحراف المعياري والمزيد من العمليات الإحصائية علي البيانات ولكن بشكل مفصل ويعلمك طريقة ايجادهم بشكل رياضي وبرمجي
خامسا : تحليل النصوص
تحليل النصوص شي مهم جدا في التحليل تخيل انك سحبت بيانات من تويتر في ملف نصي وحجمه كبير للغاية وملئ بالمزيد من التواريخ والفواصل والمنشن والتغريدات والكثير من الاشياء الغير مرغوب فيها ومطلوب منك استخراج بيانات ومعلومات مفيدة من هذا الملف كيف ذلك ؟
ستتفاجئ اذا عرفت انه من الأدوات المفيدة جدا في هذه العملية هي التحليل باستخدام الترمنال Terminal والأوامر الموجودة علي نظام التشغيل !
هناك بعض الاوامر في الترمنال تستخرج لك مثلا هذه الكلمة ذكرت كم مرة داخل الملف ؟
والمزيد من العمليات التي تساعدك في تحليل النصوص جدا
قد يقول البعض انه هناك ادوات مفيدة جدا في تحليل النصوص مثل برنامج orange وغيره
اعلم ذلك ولكن اعطيك نبذة عن بعض المهارات الاخري
ناهيك ان تحليل النصوص ايضا قد يصل الي معالجة اللغات الطبيعية وهذا علم اخر كبير وممتع ولكن نركز الآن علي التحليل البسيط للمبتدئين
سادسا : قواعد البيانات و SQL
تحليل قواعد البيانات مجال كبير جدا وتخصص آخر منفصل قد تنفرد به بعض الشركات ولكن ما مميزاته ولماذا مهم ؟
في الصناعة بشكل عام هناك شركات تستخدم قواعد بيانات لحفظ بياناتها
وهناك من يستخدمون ملفات عادية مثل الورد والاكسل وغيره
ولكن انت كمحلل لابد ..
ان تكون ملهم بكل هذا ، الآن اذا اعطيتك قاعدة بيانات وقلت لك استخرج لي رواتب الموظفين في عام ٢٠٢٠ !
او استخرج المبيعات في عام ٢٠١٦
او قارن بين مبيعات ٢٠١٦ و ٢٠٢٠
او اطبع بيانات الخصومات التي نزلت علي الموظفين في فترة معينة ؟
ماذا ستفعل ؟
باختصار طالما سمعت كلمة قواعد بيانات اذا تحتاج الي تعلم SQL
sql لغة التخاطب مع قواعد البيانات واستخراج البيانات والمعلومات من داخلها
لابد ومن المفضل ان تتعلمها وتتعلم الفرق بين قواعد البيانات العلائقية والغير علائقية
وانشاء قاعدة ، ثم جداول ، ثم استخراج البيانات من الجداول
سابعا : الحوسبة السحابية
هذه المهارة اضافها موقع برمج في كورس التحليل الخاص به ولكن ماذا تعني ؟
هل تساءلت اين تخزن الشركات الكبيرة بياناتها ؟
هل علي جهاز الكمبيوتر ؟
او علي فلاش ميموري ؟
الشركات العملاقة التي تحتوي علي بيانات هامة دائما تنشئ سيرفرات خاصة بها ..
ولكن ما دورك كمحلل هنا؟
اولا تتعلم كيف تقوم بإنشاء سيرفر سحابي علي امازون AWS
ثانيا:من خلال اوامر sql تتعلم انشاء قاعدة بيانات علي السيرفر
ثالثا:انشاء جداول علي قاعدة البيانات
رابعا:استدعاء البيانات من الجداول
كل هذا وانت اونلاين علي بيئة عمل السيرفر وليس الجهاز المحلي
ثامنا : فلاسك Flask
اطار عمل المخصص لإنشاء الويب باستخدام لغة بايثون
الآن قد تنزعج وتقول ماذا افعل بفلاسك وانا محلل بيانات ؟
يا عزيزي كل هذه التحاليل والتقارير التي قمت بصناعتها بعد مجهود شاق اذا طلبو منك عمل dashboard لعرض تحليلك وتحويله الي موقع ويب ليراه العالم !!
خصوصا اذا كان تحليلك يحتوي علي تصور رائع للبيانات مثلا عند اختيار العمر يظهر لك بيانات جميع الأعمار في تصور رائع وهكذا
عند صياغة موقع ويب احترافي يضم البيانات التي جمعتها ولكن كعمل برمجي فيه العديد من الوظائف والمهام ليس كعرض فقط والا في هذه الحالة مدونة علي شبكة medium تكفيك
تاسعا : مهارات التطوير
هذا القسم ايضا انفرد به موقع (برمج) في كورس التحليل الخاص به واضافو فيه مهارات رائعة داخل محرر Pycharm تساعدك في التحليل بشكل كبير وتختصر عليك بعض المهام
ولكن لك كامل الحرية في اختيار المحرر الخاص بك
الآن جئنا الخطوة الأخيرة وهي بعنوان البيانات تتكلم!
عاشرا : تعلم الآلة Machine Learning
حيث المتعة ، والجمال ، والأناقة
هل تتكلم البيانات ؟
هل تفكر ؟
نعم …
لذلك اخرت هذا الجزء للنهاية وحرفيا التعلم الآلي هو اخر ما تتعلمه في تحليل البيانات وليس البداية لأنه مرحلة التنبؤ وليس القصص والحلول والمشاكل والعمل الشاق علي البيانات
في تحليل البيانات انت بحاجة اولا الي تعلم واتقان التالي
معني النموذج
معني بيانات التدريب
معني بيانات الإختبار
خوارزميات الإنحدار Linear
خوارزميات التصنيف Classification
تقييم أداء النموذج
خوارزميات التقييم
هذه الخطوات فقط تحتاجها في تحليل البيانات أما في علم البيانات ستتعمق أكثر وتستخدم خوارزميات اكثر
وسيطلب منك كتابة تقارير عن الخوارزميات التي اخترتها ولماذا ولماذا نسبة تقييم النموذج كذا ولماذم لم تكن كذا والكثير والصعب الي حد ما ولكن في علم البيانات Data Science
الآن غطيت معك المفاهيم الأساسية التي تحتاجها بإذن الله في التحليل
وجاء وقت المصادر والمقارنات
أولا :- كورس التحليل من موقع برمج
مسار ممتاز يتميز بالشرح والتطبيق والمشاريع في نهاية كل مسار مع جروب علي برنامج ديسكورد ومدربين تحجز معهم وتناقشهم في الوقت المناسب لك وهذا من اجمل ما فيه
كما يرشحك للشركات ايضا في سوق العمل
ولكن الكورس بالطبع يغطي لك الاساسيات الهامة
ثانيا : Udacity
هم الافضل بلا شك في عالم البرمجة من حيث مشاريعهم القوية وشروحاتهم
ويغطون الاساسيات الهامة في تحليل البيانات وكل ما سبق لكن هناك اشياء عند برمج ليست موجودة عندهم
ولكن احذر احذر احذر ان تدخل مسار DataScience بدلا من Data Analysis عندهم تذا كنت مبتدء
ثالثا : البرمجة
البرمجة بشكل عام ممكن تاخد كورس مدخل الي البرمجة عند udacity باستخدام بايثون
وهتتعلم فيه بايثون - sql
وممكن تاخد كورس الخوارزميات وهياكل البيانات عند audacity
وممكن تتعلم بايثون مجاني عند (برمج) او من اليوتيوب او مكان ما تحب
وبالنسبة ل sql ممكن تتعلمها بشكل منفصل وهذا افضل من اي قناة يوتيوب
او من w3scools مع التطبيق
او عند عبدالمجيد (فلكس كورسز) عنده كورس شامل ومفصل في تعلم sql
وبالنسبة للإحصاء الوصفي والرياضيات بشكل عام علي طول روح اكاديمية خان
khanacademy.org
والدروس مترجمة عربي
او ابحث يوتيوب واختار اي مصدر مجاني لك
وفي مدارس خاصة بالتحليل ايضا مثل مدرسة بيان عندهم كورسات مميزة ومحتواهم جيد
@bayan_data
وبالنسبة للمجتمعات عندك الجمعية السعودية للبيانات @SSDS_ksu
والدكتور حمود الدوسري يعد من الأوائل والخبراء علي تويتر في علم البيانات
@Dr_Hmood
وايضا الدكتور فهد الحازمي مدرب قسم تعلم الآلة في كورس برمج @fahd09
من الخبراء في تعلم الآلة علي تويتر
وايضا مهندس محمد زيتون من خبراء تعلم الآلة والذكاء الإصطناعي
@zayton_mohammad
هذا الثريد نزلت فيه مشوار حوالي سنتين في علم البيانات والتنقل بين المصادر والكورسات المختلفة
أسأل الله ان ينفعني واياكم به
وان شاء الله الثريد القادم عن (علم البيانات )
بالنسبة للمصادر هذا كورس برمج في تحليل البيانات @Barmej
barmej.com
وهذا كود خصم له 15% اخذته منهم ايام ما كنت بدرس عندهم جربه اذا اشتغل معك استفد به PrograminLovers
صالح للتسجيل وعند التجديد الشهري ايضا

جاري تحميل الاقتراحات...