جودة البيانات Data Quality أحد الركائز الأساسية في إدارة البيانات. وغالباً تكون من أول الأسئلة في المقابلات المتعلقة بالبيانات
هناك مجموعة من الخصائص أو الأبعاد تسمى Data Quality Dimensions
وهي عبارة عن سمات characteristics يمكن من من خلالها قياس جودة البيانات
#علم_البيانات
هناك مجموعة من الخصائص أو الأبعاد تسمى Data Quality Dimensions
وهي عبارة عن سمات characteristics يمكن من من خلالها قياس جودة البيانات
#علم_البيانات
هناك ٦ أبعاد يمكن من خلالها قياس دقة البيانات
١- الدقة Accuracy
٢- الاكتمال Completeness
٣- التناسق Consistency
٤- اللحظية/ دقة التوقيت Timeliness
٥- التفرد أو أصالة البيانات Uniqueness
٦- الصلاحية Validity
١- الدقة Accuracy
٢- الاكتمال Completeness
٣- التناسق Consistency
٤- اللحظية/ دقة التوقيت Timeliness
٥- التفرد أو أصالة البيانات Uniqueness
٦- الصلاحية Validity
طبعا هناك عمليات Processes or Procedures مثل تنظيف البيانات Data cleaning و Data Profiling وغيرها
يمكن من خلالها اكتشاف مشاكل هذه الأبعاد واحتساب نسب تحقيق كل بُعد و تصحيح الأخطاء الموجودة
وهذا موضوع أخر. هنا فقط استعراض لأبعاد جودة البيانات
يمكن من خلالها اكتشاف مشاكل هذه الأبعاد واحتساب نسب تحقيق كل بُعد و تصحيح الأخطاء الموجودة
وهذا موضوع أخر. هنا فقط استعراض لأبعاد جودة البيانات
١- الدقة Accuracy
تتمثل في سؤال: هل البيانات المخزنة دقيقة و تعكس الواقع؟
مثلاً عمر المريض مسجل في النظام ٢٥ وهو في الواقع ٢٧.
تتمثل في سؤال: هل البيانات المخزنة دقيقة و تعكس الواقع؟
مثلاً عمر المريض مسجل في النظام ٢٥ وهو في الواقع ٢٧.
٢- الاكتمال Completeness
هل البيانات المخزنة شاملة ومكتملة حسب متطلبات العمل؟
بمعنى هل الحقول المحدد أنها مطلوبة (كما في قواعد البيانات ولا تقبل القيم الفارغة) تم تعبئتها بالبيانات
إذا كنت تخزن الاسم الأول والأخير للمريض يجب أن تكون كل بيانات المرضى تحتوي هذه البيانات.
هل البيانات المخزنة شاملة ومكتملة حسب متطلبات العمل؟
بمعنى هل الحقول المحدد أنها مطلوبة (كما في قواعد البيانات ولا تقبل القيم الفارغة) تم تعبئتها بالبيانات
إذا كنت تخزن الاسم الأول والأخير للمريض يجب أن تكون كل بيانات المرضى تحتوي هذه البيانات.
٣-التناسق Consistency
هل البيانات المخزنة متطابقة مع نفس البيانات في مصدر أخر؟
هذا البعد مرتبط أيضا بتكامل البيانات Integrity
هنا نتأكد من عدة أمور مثلاً أنه لا يوجد نسخ مختلفة من نفس البيانات وأنها تتوافق مع المصدر الرئيسي.
هل البيانات المخزنة متطابقة مع نفس البيانات في مصدر أخر؟
هذا البعد مرتبط أيضا بتكامل البيانات Integrity
هنا نتأكد من عدة أمور مثلاً أنه لا يوجد نسخ مختلفة من نفس البيانات وأنها تتوافق مع المصدر الرئيسي.
كمثال لو كان لدينا ٣ مشاريع حالية لتحليل بيانات المرضى. المفترض كل المشاريع الثلاثة تعمل على نفس البيانات ولا يوجد اختلاف في بيانات المرضى.
٤- اللحظية - إن جازت الترجمة- Timeliness
هل البيانات متاحة بشكل فوري عند الاحتياج لها؟
هنا لابد أن تكون البيانات متاحة بشكل فوري و في أخر صورة صحيحة لها
مثلا عند التعامل مع بيانات الاسهم. لابد يكون سعر السهم مسجل حسب أخر وأحدث سعر له.
هل البيانات متاحة بشكل فوري عند الاحتياج لها؟
هنا لابد أن تكون البيانات متاحة بشكل فوري و في أخر صورة صحيحة لها
مثلا عند التعامل مع بيانات الاسهم. لابد يكون سعر السهم مسجل حسب أخر وأحدث سعر له.
٥- التفرد أو أصالة البيانات Uniqueness
هل يوجد تكرار في البيانات؟
بمعنى المريض أحمد محمد ورقمه ١١١ يكون نسخة واحدة فقط ولا يتكرر نفس الشخص مرتين.
هل يوجد تكرار في البيانات؟
بمعنى المريض أحمد محمد ورقمه ١١١ يكون نسخة واحدة فقط ولا يتكرر نفس الشخص مرتين.
٦- الصلاحية Validity
هل تنسيق أو نطاق البيانات صحيح ومطابق لقواعد العمل؟
مثلا صيغة رقم الجوال أو صيغة العنوان.
المفترض جميع البيانات لرقم الجوال مثلا في السعودية تكون من ١٠ خانات تبدأ ب ٠٥
هل تنسيق أو نطاق البيانات صحيح ومطابق لقواعد العمل؟
مثلا صيغة رقم الجوال أو صيغة العنوان.
المفترض جميع البيانات لرقم الجوال مثلا في السعودية تكون من ١٠ خانات تبدأ ب ٠٥
جاري تحميل الاقتراحات...