Talal Almutiri
Talal Almutiri

@TALALSQL

16 تغريدة 22 قراءة Aug 18, 2022
وصلتني استفسارات عن كيف أبدأ في #علم_البيانات
بحاول أوضح بعض النقاط
حتى تكون متخصص في البيانات تحتاج نقطتين
⁃تكون متقن الأساسيات العلمية للتخصص
⁃تختار دور مناسب لك
في هذي السلسلة بتكلم من وجهة نظري عن ماذا تحتاج حتى تكون متخصص في علم بيانات. طبعاً أي إضافات مُرحب بها
علم البيانات هو مجموعة من العلوم المتداخلة: علوم الحاسب والإحصاء والرياضيات و الأعمال business knowledge وغيرها
حتى تبدأ لازم تأسس نفسك على الأقل في ٣ جوانب
⁃الإحصاء
⁃قواعد البيانات SQL
⁃لغة برمجة Python or R
الأساسيات:
1.الإحصاء
هنا تحتاج دورات خفيفة مدتها ٥ إلى ١٠ ساعات وراح أذكر بعضها بالأسفل.
تحتاج تفهم أنواع البيانات وأنواع التحليل الاحصائي خصوصا التحليل الوصفي وتحليل البيانات الاستكشافي
أيضا تفهم مقاييس النزعة المركزية والتشتت وغيرها من أساسيات الإحصاء
2.قواعد البيانات
هنا أيضا تحتاج تتعلم الأساسيات (تتوسع إذا اخترت دور مهندس بيانات)
مثلا أنواع قواعد البيانات لغة الاستعلام الهيكلية SQL
نظرية ال normalization والعلاقات بين الجداول.
لغة SQL مهمة لأنك تحتاج تربط جداول مع بعض أو تعمل data aggregation للبيانات وغيرها
يكون تركيزك في البداية على relational database
أما ال distributed databases و NoSQL تأجلها حتى تتقن النوع الأول
وهذا يمتد لل streaming data و big data وغيرها
3.لغة البرمجة
أشهر لغتين هي بايثون و R تحتاج تختار وحدة منهم تتعلم أساسياتها
لم أعمل على R لكن الفكرة وحدة
تبدأ أولاً بدورة في الأساسيات مثل تعريف المتغيرات وال loops المصفوفات ال object oriented programming في البايثون
بعدها تحتاج دورة
Python for data science
وتتعلم مكتبات مثل
pandas, NumPy, scikit-learn, Matplotlib
لا يهمك أنها كثيرة الموضوع بسيط
يوجد tools مثل Weke و RapidMiner ما تحتاج تكتب أكواد ( مع أن هذي الأدوات تدعم)
لكن حاول تتعلم واحدة من اللغات حتى تكون أقوى.
الأدوار
بعدما تتعلم الأساسيات تحتاج تختار الدور role اللي يناسب ميولك (وهنا يكون التوسع في الأساسيات)
بشكل مختصر هي ٣
⁃محلل بيانات
⁃مهندس بيانات
⁃عالم بيانات
راح أذكر نبذه مختصرة وفيه سلسلة سابقة لهذا الموضوع (في الأسفل) فيها المهارات والدورات
1.محلل البيانات
مهمته عمل تحليل وصفي (descriptive analytics) بناء تقارير ولوحة معلومات dashboard
تحتاج تطور نفسك بشكل متعمق في الإحصاء وفي تصوير البيانات data visualization
الادوات مثل Excel , Power BI , tableau
2.مهندس البيانات
مهمته نقل البيانات من مصادرها إلى مستودع البيانات Data Warehouse (إذا كانت البيانات مهيكلة يعني جداول منظمة)
أو إلى Data Lake(مهيكلة وغير مهيكلة مثل النصوص والصور)
معظم الجهات تبني data lake وتضع كل البيانات فيها و قبل التحليل تنقل ما تحتاج إلى Data Warehouse
هناك تقريباً طريقتين لنقل البيانات
Batch integration or processing
هنا تنقل البيانات بشكل دوري بمعنى كل يوم الساعة ٣ مثلاً تنتقل البيانات من قاعدة بيانات الموارد البشرية إلى الdata lake
ممكن نقل اسبوعي أو مرات محددة عند الحاجة
الطريقة الثانية
Real-time data integration (streaming)
هذا تنقل بشكل مباشر مثلاً تحليل بيانات تويتر بشكل لحظي
أو مثلا عندك sensors تجمع البيانات وتحليلها يكون بشكل مباشر تقريباً
طبعا تحتاج تتعمق في قواعد البيانات وأنواعها المختلفة وال big data و وقواعد البيانات الموزعة.
من الأدوات لمهندس البيانات
Informatica power center, talend, sql server integration services, IBM datastage, Apache Kafka, Spark
3.عالم البيانات
مهمته prescriptive and predictive analytics
بالإضافة لفهم نقاط في عمل محلل ومهندس البيانات
يقوم ببناء نماذج تعمل الآلة والتعلم العميق
تحليل النصوص واللغات الطبيعية وكذلك الصورة وغيرها
يحتاج تكون مهاراته في الإحصاء والرياضيات قوية جداً
وفي خوارزميات التعلم الآلي
طبعاً عالم البيانات مهتمه أوسع من التطبيق التقني فقط.
في هذه السلسلة تفاصيل أكثر للأدوار من مهارات و دورات
وهذه أيضا
تكمله للسلسلة السابقة
طبعاً هذه التوصيات هي وجهة نظر وملخص سريع. فيه جوانب أخرى مثل حوكمة البيانات وجودة البيانات هذي فيها تفاصيل
بالتوفيق لكل مبتدئ في علم البيانات.

جاري تحميل الاقتراحات...