حمود الدوسري
حمود الدوسري

@Dr_Hmood

15 تغريدة 79 قراءة Oct 26, 2019
كل النتائج، كل النماذج، كل لوحات المعلومات، وكذلك التقارير ليس لها قيمة بل قد تكون مضللة إن كانت البيانات غير صحيحة!!
لذلك يجب على العاملين في مجال #علم_البيانات التأكد من صحة البيانات قبل البدء في التحليل واستخراج النتائج.. أسفل هذه التغريدة سأتكلم عن طرق التأكد من صحة البيانات
نقصد بصحة البيانات مطابقتها للواقع، كل سجل بيانات يقابله 'شيء' في الواقع، سجل البيانات قد يمثل شيء مثل "شخص" أو "كتاب" أو "مبنى" أو "سيارة" أو ...الخ، لذلك الصحة تعني مطابقة ماسُجل في البيانات مع القيم الحقيقية لهذا الشيء، وهناك عدة عوامل تؤثر في "الصحة" وعدة طرق للتحقق منها
طريقة جمع البيانات تؤثر على مدى صحتها، هناك عدة طرق لجمع البيانات كالاستبانات والمقابلات "subjective"، و الأنظمة الألكترونية وأجهزة الاستشعار "objective"، الأولى أكثر عرضة للاخطاء لوجود العنصر البشري، والثانية يغلب عليها الصحة مالم تكون هناك اخطاء برمجية تُنتج بيانات غير دقيقة
لتوضيح الفرق بين الطريقتين لنفترض أن لدينا موظف يقوم بمحاسبة العملاء، البيانات المقرؤة الكترونياً مثل التاريخ في الغالب تكون دقيقة، الاخطاء المحتملة تكون في البيانات التي يتم إدخالها يدوياً كرقم جوال العميل، لذا فإن معرفة طريقة جمع البيانات تساعدنا في معرفة مدى صحة البيانات
أحد طرق التحقق من صحة البيانات هي أن نقوم بالتواصل مع عينة من العملاء بطريقة عشوائية للتأكد من أن البيانات المسجلة عنهم صحيحة مثل(الاسم، العمر، الجنسية)، طبعاً لو تم التواصل معهم عن طريق الجوال فإن التواصل نفسه يعتبر طريقة عملية للتحقق من صحة رقم الجوال، لو كان الرد الرقم خطأ!
طريقة أخرى هي محاولة البحث عن مصدر آخر لنفس البيانات داخل المنظمة أو خارجها، لو كانت البيانات المطلوب التحقق من صحتها في إدارة المبيعات، بالإمكان الإستعانة بالبيانات المتوفرة في إدارة الشحن، في هذه الحالة يتم التحقق من صحة بيانات إدارة المبيعات عن طريق بيانات إدارة الشحن
قد نضطر أحياناً الاستعانة بمصدر بيانات من خارج المنظمة للتحقق من صحة البيانات، مثلاً في حالة توفر رقم الهوية للعملاء في مستوصف ما بالإمكان التحقق من صحة بياناتهم عن طريق بيانات نظام أبشر، مؤخراً لضمان الحصول على بيانات صحيحة أصبحت المنظمات تميل إلى الربط المباشر مع الجهات اخرى
الربط المباشر يجعل البيانات أكثر دقة بدلاً من الاعتماد على العنصر البشري المتمثل في موظفين المستوصف، فبدلاً من أن يطلب موظف الاستقبال في المستوصف بيانات المريض (الاسم - العمر – الجنس – ...) يطلب منه رقم الهوية ويقرأ البيانات من نظام أبشر مباشرة ويخزنها في قاعدة بيانات المستوصف
بالإمكان التحقق من صحة البيانات عن طريق التأكد من موافقتها للقواعد العامة أو قواعد العمل الخاصة، أحد اخطاء القواعد العامة أن يكون رقم الشهر 15 وهذا غير صحيح لأن عدد أشهر السنة 12، أو أن يكون عمر صاحب الحساب البنكي 12 سنة منافياً قاعدة العمل التي تشترط 18 سنة كحد أدنى لفتح الحساب
كذلك نستطيع التحقق من صحة البيانات من البيانات نفسها باستخدام الطرق الاحصائية، مثل تحليل الصدق والثبات والارتباط مع البيانات التي نجمعها بطريقة الاستبانات والمقابلات، والاختبارات الاحصائية المرتبطة بمدى ومجال البيانات عن طريق أداة Data Validation المتوفرة مع أدوات التحليل
صحة البيانات مختلفة عن جودة البيانات، لقياس جودة البيانات هناك عدة محاور الصحة أحدها، وبالتأكيد أن محور صحة البيانات أهمها وأصعبها، تكرار البيانات ووجود بيانات مفقودة أو بيانات متطرفة لا يعني عدم صحة البيانات، وإنما يعني أن هناك مشاكل في البيانات يجب إصلاحها
البيانات المتطرفة (outliers) لا تعني بالضرورة عدم صحة البيانات، مثلاً عند تحليل المصاريف الشهرية الشهر الذي سيكون فيه دفع قيمة الإيجار (30 ألف مثلاً) سيتم التعامل مع هذه القيمة كقيمة متطرفة رغم أنها صحيحة، لذا إزالة هذه القيمة لا يعني عدم صحتها وإنما تزال لتأثيرها على التحليل
أدوات تصوير البيانات (Data Viz) تساعد على التحقق من صحة البيانات عن طريق استكشاف خصائصها بطريقة بصرية سريعة، كذلك عملية الـ Data Profiling والتي تساعدنا في فهم البيانات وفحصها واعطاء ملخصات مفيدة عنها ، وكذلك اكتشاف مشكلاتها
اختبارات صحة ودقة البيانات تتم على مستويات متعددة، ابتداءً من التشييك على مصادر البيانات وتجميعها وطرق تخزينها وتنسيقها، وتطبيق قواعد العمل عليها، وهذا المخطط يلخص تلك المستويات
عملية التحقق من صحة البيانات عملية شاقة وطويلة تمر بعدة مستويات، الخطأ ربما يكون ناتح من تجميع البيانات من أكثر من مصدر (Data Integration) أو في تنسيق البيانات، وبشكل عام هناك قواعد كثيرة يتم التحقق منها تلخصها هذه الصورة
المصدر: lightsondata.com

جاري تحميل الاقتراحات...