Ahmed Moharram
Ahmed Moharram

@ABMOHARRAM

27 تغريدة 26 قراءة Jun 07, 2020
في سلسلة سابقة وضعت مقدمة بسيطة لبعض المعوقات التي تجبر الباحثين أحياناً على اللجوء لشراء البيانات للقيام بأبحاثهم. وكيف أن هناك شركات متخصصة تقوم بجمع هذه البيانات بشكل مُجهَّل قبل إعادة بيعها لأعداد كبيرة من الباحثين.
كيف يمكن أن يؤثر ذلك على الأبحاث ؟
شركات جمع البيانات تأتي بمستويات مختلفة سواء من ناحية نوعية البيانات التي تجمعها ثم تعيد بيعها، أو من ناحية طرق حصولها على هذه البيانات أصلاً، أو حتى درجة مرونتها في تقديم أجزاء من هذه البيانات سواء بالفلاتر على الـ Features/Attributes باختيار بعض المعلومات عن كل مريض
أو بفلاتر على صفات المرضى (مثل اختيار مرضى من فئات عمرية معينة أو من خلفيات عرقية بعينها أو من النساء فقط أو الرجال فقط ..)
أضف إلى ذلك أن هذه الشركات تختلف في الطريقة التي تمنحك بها هذه البيانات، فبعضها ستمنحك بيانات تفصيلية تستعملها كما يحلو لك، وأخرى ستمنحك APIs
تلك التي ستمنحك APIs عاده ما تحاسبك كباحث وفقاً لكمية البيانات التي حصلت عليها. الـ APIs للتبسيط هي روبوتس وظيفتها أن تجيب على أسئلتك. هذه الأسئلة عادة تكون الإجابة عليها بكمية من البيانات.
حتى الآن، كل هذه الأمور تبدو جيدة. ومن الواضح أنها ستجعل الباحثين يخططون جيداً
يخططون بالطبع لما يجب أن يتم جمعه من بيانات للبحث، وكذلك يخططون لكمية البيانات التي تجعل البحث ذو قيمة معنوية. أي كمية البيانات التي تجعل أي استنتاجات أو خلاصات للبحث ذات دلالة إحصائية قوية تدفعنا لاعتماد تغيير محدد أو رفضه
فالاستنتاج المبني على 10000 مشاهدة أدق من المبني على 100
الباحثون يعرفون ذلك، وبالتالي يختارون الشركات التي توفر كميات أكبر من البيانات. والشركات تعرف ذلك ويجب أن يدفعها ذلك لجمع مزيد من المعلومات. وفي ظل ضيق الوقت، وفي ظل القيود والإجراءات المفروضة على الملفات الطبية للمرضى، تلجأ الشركات أحياناً لما يفترضون أنه (( الحل ))
كلمة الحل هنا هي كلمة واحدة ولكنها تشمل الكثير من الأدوات التي يظن البعض أنها لا تؤثر في جودة البيانات.
فبعض الشركات مثلاً تجد أن 10% أو 20% من البيانات المتاحة لديها فيها فراغات (أحب أن أسميها فقاعات).
كمثال، أن تجد من بين 10000 ملف طبي، أن 1500 ملف منهم تغيب عنهم بيانات تواريخ التطعيم الحقيقة ضد الأمراض المستوطنة. ولكن حظك عظيم جداً، فأنت تملك تاريخ ميلاد أصحاب هذه الملفات
فيقوم مبرمج قليل الخبرة بإضافة العدد الطبيعي من الأيام لتاريخ الميلاد الذي يجعل تاريخ التطعيم صحيح
ويعرض "إنجازه" على مبرمج أقدم قليلاً، فيكتشف أن بعض أيام التطعيم المحسوبة هي أيام أجازات رسمية ويستحيل أن تكون التطعيمات تمت في تلك الأيام، فيحرك هذه التواريخ قليلاً ليتجنب أيام الأجازات.
ويعترض عليهم عالم بيانات جديد، فيقول لهم أن الآباء نادراً ما يلتزمون بتواريخ التطعيمات
وأن (الفارق) بين تاريخ التطعيم الصحيح وتاريخ التطعيم الحقيقي يتبع توزيعاً طبيعياً (يقوم بحسابه بناء على بيانات الـ 8500 ملف المتاحة وربما بواسطة نتائج منشورة في بحث آخر) وبالتالي يقوم بإنتاج تواريخ جديدة بناء على هذا التوزيع
المشلكة الحقيقية، أنك إذا حاولت باستخدام الاختبارات الإحصائية أن تكتشف مثل هذا النوع من البيانات (المصطنعة) فأن أي اختبار إحصائي سيجدها أصليه.
وإذا عرضتها على خبير في علوم البيانات فسيقول لك فوراً أنها دقيقة لدرجة مقلقة (ما لم يقم عالم البيانات الأول بإضافة خطأ عشوائي مناسب)
كل ما ذكرنا حتى الآن هو نوع واحد من عمليات معالجة البيانات، وإسمه Imputation.
وللحقيقة فإن هذه العمليات ضرورية أحياناً. فتصور أن 1500 ملف آخرين غير واضح فيها عدد مرات الولادة بالنسبة للسيدات، وأن ألف بيان آخرين غير واضح فيهم إذا كان الشخص مدخن أم لا .. إلخ
كما أن بعض البيانات التاريخية تسبق تطبيق الأنظمة أحياناً ويصبح من المستحيل أن ترفض المفقود منها لأنك ستفقد جيلاً بأكمله من المرضى، مثال ذلك المعلومات المتعلقة بنوع الرضاعة للشخص هل كانت طبيعية أم صناعية وكم استمرت. كل من ولدوا قبل تاريخ معين لم يتم تسجيل هذه البيانات لهم
حينئذ سينتهي بك الأمر ولديك عدد قليل جداً من الملفات المكتملة (للأمانة، خلال 20 عاماً من العمل في الذكاء الصناعي وعلم البيانات صادفت بيانات مكتملة فقط في تطبيقات الـ IoT)
وبالتالي فالاعتراض ليس على تطبيق تقنيات الـ Imputation، ولكن على البيانات التي يجب أن نسمح فيها بذلك
وعلى توثيق هذه العملية كجزء من البيانات نفسها فيكون واضحاً بشكل دقيق في البيانات الفارق بين البيان المحسوب والبيان الحقيقي.
لكن هذا ليس كل شيء، ففي بعض الأحيان تكون البيانات المتاحة غير متوازنة إحصائياً.
تخيل أنك تقوم ببحث يهدف إلى فهم العلاقة بين التاريخ الصحي وبين مرض نادر
من ضمن 10 آلاف ملف طبي، يوجد شخصان فقط مصابين بهذا المرض النادر. هنا لا يوجد أي قيمة إحصائية لأي شيء ستفعله بهذه البيانات، حتى لو كانت كلها مكتملة. لأن هذه البيانات غير متوازنة في الأساس، وهنا يجب على الشركة التي تبيع البيانات لك أن توضح حقيقة ذلك بناءً على وصفك للهدف من البحث
لكن كعادة بعض رجال البيع (وليس كلهم بالطبع) في كثير من الشركات يهتمون فقط بتحقيق المبيعات. ولن يخبروك بأنه من المستحيل عملياً أن يستطيعوا إمدادك بمعلومات ذات إفادة حقيقية. وبالتالي سيوقعون معك التعاقد المبدئي ويهرولون للقسم الفني .. ليقذفوا إليهم هذه القنبلة
فقد قاموا للتو ببيع معلومات لا تملكها الشركة من الأساس، وعليهم وبسرعة أن يقوموا بشراء هذه البيانات بأي شكل.
بعد كثير من السب والشتم بدون صوت (وهو ما يصفه البعض تأدباً ببعض الصمت) يتحرك الجميع للبحث عن المؤسسات المتخصصه في علاج أصحاب هذا المرض النادر
لكن المشكلة أن حتى هذه الأماكن لديها أعداد قليلة من الملفات. وأن كل من هذه الملفات يحتاج موافقة من المريض أو من عائلته أو من المستشفى في أحسن الظروف. وقد يتطلب ذلك وقتاً وتكاليف كثيرة ويظل في النهاية لا يقدم الكم الكافي من البيانات لإضفاء أي قوة لأي استنتاج إحصائي ينبني عليها
وتحت دعوى أهمية هذا التعاقد للشركة، وميزة ظهور إسم الشركة في موضوع كهذا وأثر ذلك على المبيعات المستقبلية وعلى ثقة السوق فيها وبالتالي قدرتها لاحقاً على الحصول بسهولة أكبر على معلومات أكثر ..
يضطر فريق علوم البيانات مع الإحصائيين لاستخدام خوارزميات مثل SMOTE
SMOTE
هي عائلة من الخوارزميات التي يتم استخدامها لإنتاج بيانات مصطنعة بناء على معلومات حقيقية باستخدام الذكاء الصناعي. وهي متخصصة في التعامل مع البيانات متعددة الأبعاد. ووظيفتها الأساسية هي زيادة البيانات ذات التمثيل النسبي المنخفض لتصبح البيانات الإجمالية أقرب للتوازن
بمعنى أنه عندما يكون لدينا فقط 100 حالة مصابة بالمرض النادر محل الدراسة من أصل 10000 ملف طبي، يمكننا أن نستخدم بعض خوارزميات الـ Over sampling حتى نحول الـ 10 آلاف ملف إلى 15 ألف ملف، منهم 5100 ملف لأشخاص مصابين بهذا المرض النادر، منهم 5000 غير موجودين في الحياة أساساً
دون الدخول في التفاصيل التقنية، تصور مثال تواريخ التطعيم المذكور سابقاً، ولكن بدلاً من إنتاج تواريخ التطعيم فقط، فإنك ترغب في أن تستنتج كل شيء، كالسن والنوع والأمراض المزمنة وفترة الرضاعة ونوعها والعلاجات الدائمة وأنواع الحساسية .. كل شيء
البعض يسأل نفسه الآن .. هل هذا ممكن؟
والإجابة (دي أقل حاجة ممكنة)
نعم، ولكن لهذا ضروراته أحياناً بشكل لا يمكن تجنبه
ليس فقط في مثال الأمراض النادرة. ولنأخذ مثالاً واضحاً
في دراسة أثر الإصابة السابقة بمرض سارس على اكتساب مناعة ضد مرض COVID19 (لو تمت الدراسة بشكل غير سريري) ستجد نفسك في هذا المأزق
فأنت تحتاج عدد كافي من الأشخاص الذين أصيبوا بمرض سارس قبل ذلك وتعرضوا بالفعل للعدوى بمرض COVID19 فأظهرت أجسادهم رد فعل سواء بالإصابة أو بالمقاومة.
كم عدد من أصيبوا بسارس وظلوا على قيد الحياة ونستطيع تأكيد تعرضهم للعدوى رغم أنهم لم يعلموا أنهم تعرضوا لها ولم يتوجهوا لمستشفى ؟
في هذه الحالة وفي غيرها ستلجأ حتماً لخوارزميات over samlping مثل عائلة SMOTE. لا أحد يستطيع أن يمنعك من ذلك كشركة، لكن لا يمكنك بيع هذه البيانات على أنها ملفات طبية لمرضى حقيقيين، بل عليك الإفصاح عن طبيعة هذه البيانات الخطوات التفصيلية لإنتاجها على هذه الهيئة
هذا كله بالإضافة إلى البيانات التي تم استخدامها لإنتاج هذه البيانات. ويجب أن يكون ذلك جزء من التعاقد ويجب أن يشير الباحث بوضوح لذلك في البحث الخاص به
في سلسلة تالية .. سأتحدث عما هو بعد الـ SMOTE وما استخداماته
وعن خطورة هذه التقنيات جميعاً على استنتاجات البحث العملي
شكراً لكم

جاري تحميل الاقتراحات...