محلل بيانات وتسأل نفسك ليه يتم إخفاء بعض البيانات عند معالجتها وليش تكون متحيزة وأيش سبب التحيز؟
راح أتكلم في هذا الثريد عن:
[إخفاء هوية البيانات - Data anonymization]
[انحياز البيانات - Data bias]
[بعض أنواع تحيز البيانات - Some type of data bias]
[Data bias vs Model bias]
راح أتكلم في هذا الثريد عن:
[إخفاء هوية البيانات - Data anonymization]
[انحياز البيانات - Data bias]
[بعض أنواع تحيز البيانات - Some type of data bias]
[Data bias vs Model bias]
[إخفاء هوية البيانات - Data anonymization]
كلنا نعرف مصطلح خصوصية البيانات لكن فيه هناك تقنية من تقنيات معالجة البيانات مساعدة لتحقيق هذي الخصوصية ومنها Data anonymization تساعدنا على حذف او تعديل البيانات الشخصية بحيث تنتج بيانات مجهولة الهوية لا يمكن ربطها بأي شخص بشكل مباشر او غير مباشر
طيب نجي لسؤال مهم ماهي أنواع او مواصفات البيانات اللي تحتاج ل Data anonymization ؟
باختصار هي Personally Identifiable Information او PII
طيب أيش هي PII؟
هي البيانات الشخصية اللي ممكن توصلك للشخص بشكل مباشر او غير مباشر
باختصار هي Personally Identifiable Information او PII
طيب أيش هي PII؟
هي البيانات الشخصية اللي ممكن توصلك للشخص بشكل مباشر او غير مباشر
قائمة ببعض البيانات الشخصية:
- ID Number
- أرقام التواصل
- أسم الشخص
- البطاقات الشخصية بجميع أنواعها
- معرفة الجهاز على سبيل المثال (IP Address, Mac Address)
- السجلات الطبية
- عناوين البريد الإلكتروني
- الصور
وغيرها
- ID Number
- أرقام التواصل
- أسم الشخص
- البطاقات الشخصية بجميع أنواعها
- معرفة الجهاز على سبيل المثال (IP Address, Mac Address)
- السجلات الطبية
- عناوين البريد الإلكتروني
- الصور
وغيرها
ملاحظتين ودي أذكرهم عن هذي الجزئية
- في بعض الأحيان عملنا يكون عمل نموذج ذكاء اصطناعي على أحد هذي البيانات فهنا نعمل على البيانات ونجعلها مجهولة المصدر بحيث لا يتم الوصول لصاحب البيانات بطريقة مباشرة او غير مباشرة
- مع تقدم التكنولوجيا تولد بيانات خاصة جديدة ينبغي الانتباه لها
- في بعض الأحيان عملنا يكون عمل نموذج ذكاء اصطناعي على أحد هذي البيانات فهنا نعمل على البيانات ونجعلها مجهولة المصدر بحيث لا يتم الوصول لصاحب البيانات بطريقة مباشرة او غير مباشرة
- مع تقدم التكنولوجيا تولد بيانات خاصة جديدة ينبغي الانتباه لها
[انحياز البيانات - Data bias]
كلنا نستعين بالبيانات حتى تساعدنا على تحقيق أفضل القرارات لكن ماذا اذا كانت البيانات منحازة لفئة معينة ولا تمثل كامل المجتمع؟
**جميع القرارات سوف تكون خاطئة**
**جميع القرارات سوف تكون خاطئة**
لا ننسى أننا نصرف على البيانات وتحليلها والعمل عليها
- المال
- الوقت
- الجهد
بطبيعة الحال العمل الخاطئ يعني خسارتها كلها لكن القرارات الخاطئة تضاعف الخسارة
- المال
- الوقت
- الجهد
بطبيعة الحال العمل الخاطئ يعني خسارتها كلها لكن القرارات الخاطئة تضاعف الخسارة
[بعض أنواع تحيز البيانات - Some type of data bias]
1- [التحيز التأكيدي - Confirmation Bias]:
- هو خطأ يتضمن السماح لفكرة مسبقة بالتأثير على كيفية تحديد أولويات المعلومات أو تفسيرها
مثال عليه أن يكون عندنا معتقد قوي مما يؤثر على عملية جمع او البحث عن معلومات
مثال أخر إننا نبحث عن أشياء تدعم قرارنا وتبين إننا صح وهذا يعتبر تحيز
- هو خطأ يتضمن السماح لفكرة مسبقة بالتأثير على كيفية تحديد أولويات المعلومات أو تفسيرها
مثال عليه أن يكون عندنا معتقد قوي مما يؤثر على عملية جمع او البحث عن معلومات
مثال أخر إننا نبحث عن أشياء تدعم قرارنا وتبين إننا صح وهذا يعتبر تحيز
2- [التحيز في الاختيار - Selection bias]:
- هو التحيز الناتج عن اختيار الأفراد او المجموعات او البيانات لكن بطريقة لا يتحقق بها التوزيع العشوائي
بمعنى آخر الاختيار المتحيز هذا لا يمثل العينة او المجتمع
مثال : نعمل بحث او دراسة على مدينة جدة ونقول انها دراسة على المدن السعودية
- هو التحيز الناتج عن اختيار الأفراد او المجموعات او البيانات لكن بطريقة لا يتحقق بها التوزيع العشوائي
بمعنى آخر الاختيار المتحيز هذا لا يمثل العينة او المجتمع
مثال : نعمل بحث او دراسة على مدينة جدة ونقول انها دراسة على المدن السعودية
3- [التحيز الخارجي - Outliers bias]:
- هو تحيز ينتشر في البيانات الضخمة غالبا وتمثله قيم متحيزة
مثال عليه يكون عندنا بيانات مبيعات لكن فجأة أحد القيم تكون شاذة عن باقي القيم مما يتسبب في انحياز في المتوسط الحسابي (Average)
- هو تحيز ينتشر في البيانات الضخمة غالبا وتمثله قيم متحيزة
مثال عليه يكون عندنا بيانات مبيعات لكن فجأة أحد القيم تكون شاذة عن باقي القيم مما يتسبب في انحياز في المتوسط الحسابي (Average)
4- [انحياز المراقب - Observer bias]:
- هو تحيز يحدث عندما تؤثر توقعات الباحث أو آرائه أو تحيزاته على ما يدركه أو يسجله في الدراسة، أيضا ميل الناس لملاحظة الأشياء بشكل مختلف
مثال عليه باحثين يستعلمون نفس الأدوات لكن يلاحظون أشياء مختلفة مما يسبب التحيز
- هو تحيز يحدث عندما تؤثر توقعات الباحث أو آرائه أو تحيزاته على ما يدركه أو يسجله في الدراسة، أيضا ميل الناس لملاحظة الأشياء بشكل مختلف
مثال عليه باحثين يستعلمون نفس الأدوات لكن يلاحظون أشياء مختلفة مما يسبب التحيز
5- [انحياز التفسير - Interpretation bias]:
- هو الميل دائما إلى تفسير المواقف الغامضة بطريقة إيجابية أو سلبية
مثال بسيط عليه عند رؤية شخصين وأكثر لنفس الشيء بالضبط لكن كل شخص يفسره بطريقة مختلفة
- هو الميل دائما إلى تفسير المواقف الغامضة بطريقة إيجابية أو سلبية
مثال بسيط عليه عند رؤية شخصين وأكثر لنفس الشيء بالضبط لكن كل شخص يفسره بطريقة مختلفة
6- [انحياز النجاة - Survival bias]:
- هو تحيز يحدث عند التركيز على أفراد او مجموعات او حالات اجتازت نوع من عملية الاختيار وتجاهل الحالات الأخرى
مثال عليه دراسة الطائرات الناجية من الحرب العالمية الثانية لتعزيزها ولم يتم دراسة الطائرات التي لم تنجوا بسبب إطلاق النار
- هو تحيز يحدث عند التركيز على أفراد او مجموعات او حالات اجتازت نوع من عملية الاختيار وتجاهل الحالات الأخرى
مثال عليه دراسة الطائرات الناجية من الحرب العالمية الثانية لتعزيزها ولم يتم دراسة الطائرات التي لم تنجوا بسبب إطلاق النار
[Data bias vs Model bias]
- مثل ما البيانات فيها انحياز أيضا نماذج تعلم الآلة فيها انحياز
- طبعاً التحيز في نموذج تعلم الآلة يعني في الغالب نتائج جيدة أثناء التدريب لكن وقت الاختبار على داتا جديدة يخطئ فيها
- طبعاً التحيز في نموذج تعلم الآلة يعني في الغالب نتائج جيدة أثناء التدريب لكن وقت الاختبار على داتا جديدة يخطئ فيها
أحد الأمثلة على الانحياز الموجود في نماذج تعلم الآلة عندما يكون عندنا بيانات غير متوازنة او Imbalanced فيولد انحياز داخل النموذج لفئة معينة مما يسبب تحيز لفئة او مجموعة من البيانات ذات الخصائص المتشابهة
أحد أفضل الطرق اللي قرأتها للتعامل مع تحيز من هذا النوع هو عمل تحيز عكسي
بمعنى إذا كان عندنا على سبيل المثال بيانات لنوعين A و B وأحتاج اعمل نموذج يتنبأ فيهم لكن فيه تحيز واضح من ناحية الموازنة بحيث A أكثر عدد من B هنا أحد الخيارات اللي نسويها أن نعطي وزن ل B أكبر من A بحيث ...
بمعنى إذا كان عندنا على سبيل المثال بيانات لنوعين A و B وأحتاج اعمل نموذج يتنبأ فيهم لكن فيه تحيز واضح من ناحية الموازنة بحيث A أكثر عدد من B هنا أحد الخيارات اللي نسويها أن نعطي وزن ل B أكبر من A بحيث ...
بحيث يصير التحيز بشكل مساوي لجميع الفئات مما يعطي نتائج أفضل
أخيراً حبيت أقول فيه الكثير من أنواع التحيز لم أتكلم عنها لكن هذي نبذة بسيطة للتوعية وإن شاء الله القادم أفضل
هنا وصلنا لنهاية الثريد
شكراً لوقتكم 🙏
شكراً لوقتكم 🙏
جاري تحميل الاقتراحات...