Ahmed Moharram
Ahmed Moharram

@ABMOHARRAM

25 تغريدة 8 قراءة Jun 07, 2020
الجزء الثالث:
في سلسلتين من التغريدات (الرابطين بثاني تغريده)
تحدثت أولاً عن مبررات وجود شركات جمع البيانات بغرض بيعها للباحثين
ثانياً ما الذي يحدث داخل بعذ هذه الشركات لجبر القصور في قدرات الشركات على جمع البيانات
والآن أدخل للمرحلة الثالثة، وهي مرحلة إصطناع بيانات جديدة
السلسلة الأولى:
السلسلة الثانية
أوضحنا سابقاً أن البيانات تجبرنا أحياناً كثيره على معالجات تؤدي إلى إيجاد قيم متوقعة مثلاً بدلاً عن قيم غائبة (Imputation)
أو إنشاء بيانات كاملة (ملف طبي مثلاً) بناء على عدد من الملفات الطبية القليلة المتاحة لنا ضمن عدد كبير من المشاهدات (over sampling for imbalanced datasets)
لكن بعض الشركات تقدم معلومات يجب أن تكون ذات قيمة عالية، وتتقاضى أموالاً مرعبة، ليس من الباحثين فجميعنا يعمل حالهم، حتى هؤلاء الممولين من القطاع الخاص.
ولكن من شركات الأدوية، التي تعيد تقديم هذه البيانات للباحثين في الجامعات ليستخدموها في إجراء أبحاثهم
ولأنني لم أكن يوماً في منصب داخل شركة صناعة أدوية فأفضل أن أفترض أن شركات الأدوي ستقدم البيانات كما هي وأنها لن تتلاعب بها بأي شكل من الأشكال قبل تقديمها للباحثين
المهم، أن الشركات التي تبيع هذه البيانات تدرك جيداً أن شركات الأدوية التي ستدفع لهم أموالاً طائلة ليست ساذجه
هم يعرفون أن شركات الأدوية أيضاً لديها علماء إحصاء وعلماء بيانات متخصصين يستطيعون مع جهد غير مضنٍ أن يكتشفوا أن هناك ملفات مصطنعة. كما أن التعاقدات يتم مراجعتها جيداً،
فلن تكتفي شركات الأدوية بأن ترى في التعاقد بنداً يقول:
"إن البيانات المقدمة قد تم معالجتها بأقصى درجات الحذر المعتادة كي تكون معبرة عن البيئة التي تم جمعها منها"
فمحامي شركة الأدوية بإيعاز من علماء البيانات والإحصائيون سيطلب قائمة كاملة بأنواع المعالجات وشروطها ونسبتها
ليس فقط نسبتها عموماً ، ولكن نسبة كل نوع من أنواع التعديلات وشروط تطبيقه. كما سيطلبون مؤشر واضح يبين لهم ما تم تصحيحة وما ظل على حاله.
كذلك تطلب بعض شركات الأدوية أحياناً البرامج (Source code) الذي تم استخدامه للتعديلات حين يكون المبلغ محترماً
كل هذه الضغوط على الشركات الأعلى مكانة في السوق تدفعها لجمع بيانات أكثر وتحرى دقة أعلى في المعالجات. لكنها أيضاً قد تدفع بعض الشركات تحت ضغط التكلفة الزمنية والمالية للمستوى التالي الذي نتحدث عنه الآن
فاليوم أتحدث عن أحدث طرق صناعة البيانات التي يجب أن تبدو شديدة ( المنطقية ). وهي Generative adversarial network
أو كما يتم اختصارها عاده: GAN
هذا الإسم يتم إطلاقه بالأساس على شكل معين من أشكال الشبكات العصبية الاصطناعية artificial neural network
أو اختصاراً ANN
لا أريد أن أزعجكم كثيراً بالتفاصيل التقنية، ولكنها ببساطة نوع من أنواع التعلُّم الآلي الذاتي اعتماداً على معلومات سابقة حقيقية. هذا التعلُّم ينتج عنه Models. هذه الـ Models قادرة على صناعة بيانات جديدة شديدة القرب من الحقيقة
وعلى الرغم من أن أشهر الأمثلة لاستخداماتها هي إنتاج صور مثلاً لأشخاص غير موجودين، أو فبركة فيديوهات أو تسجيلات صوتية لأشخاص ماتوا منذ زمن طويل، فإن السبب في انتشار هذا النوع من الاستخدامات أنه يستهوي القطاع العريض من غير المتخصصين. لكن الواقع أقوى وأعمق من ذلك بمراحل
أعرض هنا مثالاً لمنتجات هذه النماذج. كل هؤلاء الأشخاص في الصورة غير موجودين أصلاً، هذه صور مصطنعة بواسطة نموذج تم تدريبه على فهم وجوه البشر لإعادة إنتاج وجوه جديدة
مصدر الصورة: futurism.com
ليس هذا فقط، فتدريب هذه النماذج على فهم كيف يتكلم الأشخاص وكيف ينظرون وكيف يتصرفون تسمح بإنتاج العديد من الفيديوهات المخترعة بالكامل
يمكنكم البحث في جوجل عن Deepfake لتروا ما تستطيع هذه النماذج فعله
ربما يسمح الوقت أن أستعرض تطبيقات مختلفة لهذا النوع من الشبكات في سلسلة مستقلة
لكن بالعودة إلى ما نهتم به هنا فإن هذه التقنية قادرة على إنتاج معلومات تتغلب على المشاكل التي تظهر مع خوارزميات SMOTE التي تحدثنا عنها في السلسلة الثانية (الرابط في ثاني تغريدة من هذه السلسلة)
فخوارزميات SMOTE تنظر إلى العدد القليل من المشاهدات كأنها كل المشاهدات الممكنة
وهذا ما يضع حدود على كل البيانات التي يتم إنتاجها، كما أن SMOTE تركز على جزء من المشاهدات وهو الذي نريد زيادته. أما نماذج GAN فإنها تتعلم من كل المشاهدات وتقوم بصناعة مشاهدات جديدة لها كل الصفات المنطقية، وبالتالي فبعضها ليس ما نرغب في زيادته
مثلاً في حالة تطبيق SMOTE لإنتاج الملفات الطبية لعدد من المرضى بمرض نادر لن يتم إنتاج أي ملف لشخص غير مريض بهذا المرض.
أما في حالة استخدام GAN فسيكون هناك عدد كبير من الملفات التي تمثل مرضى وهميين لا يظهر فيهم هذا المرض النادر. وسيكون قلة منهم فقط هم من يظهر فيه هذا المرض
ويكون دور خبراء علم البيانات لاحقاً هو التحقق من دقة النتائج وحذف البيانات الصناعية التي لا يظهر فيها المرض، والاحتفاظ فقط بتلك التي يظهر فيها المرض.
بهذه الطريقة تستطيع الشركات تقديم بيانات دقيقة لدرجة مرعبة، ولا يمكن لأي شخص غير متخصص أن يكشف التلاعب. والأهم أنها بيانات كثيرة
بيانات كثيرة بالدرجة التي تسمح لها بتحقيق شهرة وبالتالي عائدات مالية كبيرة. فكما ذكرنا سابقاً، حين يخطط الباحث لأي بحث يعتمد على بيانات سيتم شراؤها، لا تخلو أولوياته من كمية البيانات التي تجعل استنتاجات بحثه في النهاية موضوعية. وهذا دافع لبعض الشركات للأسف لتصنيع بعض البيانات
حين تجد شركة تعلن عن أن لديها ملفات طبية لـ 100 ألف شخص مصابون بمرض نادر، وأنت تعلم أن أساساً عدد المرضى في العالم كله 100 ألف، فهذا يبدو محض كذب.
في الحقيقة حتى لو أنهم يملكون 50 الف ملف، ستظل علامات الاستفهام قائمة
الباحثون (وبالذات الجدد منهم) لا يملكون أن يشغلوا أنفسهم كثيراً بكل تلك التفاصيل لنقص خبرتهم وهو أمر لا حرج عليهم فيه، لكن المشرفون على الأبحاث أولاً، ومحكمو الأبحاث العلمية ثانياً مسؤولون عن إجراء هذه المراجعات. وربما يدعونا هذا لتغيير مهم في آليات تقييم الأبحاث
مثل أن تشمل عمليات تقييم الأبحاث تقييم للبيانات التي تم على أساسها البحث وصيغة التعاقد على شرائها والـ QoS التي تشرح تماماً كيفية محافظة الشركة على جودة بياناتها وصيانتها وتعديلاتها وحدود ذلك وشروطه وكيفيه عرضه كجزء من البيانات
كذلك يجب أن يكون هناك نوع من الرقابة على شركات جمع وبيع البيانات، أولاً من الناحية الأخلاقية، ومن ناحية التجهيل المطلوب، ومن ناحية الخصوصية،
ثم من ناحية المعالجات التعديلات وأثرها.
كل الباحثين يفهمون جيداً الطبيعة التراكمية للبحث العلمي، وبالتالي للعلم.
حين تقرأ 20 أو 30 ورقة بحثية لتتأكد من أنك تختار نقطة البحث الصحيحة، فإن كل من هذه الأبحاث التي تقرأها ستشارك في صناعة وجهة نظرك وتوجهك وبالتالي بحثك.
قوة هذه الأبحاث هي جزء من قوة بحثك
وضعف أحدها له تأثير مضر على جهدك وعملك (ناهيك عن وقتك الذي سيضيع في محاولات فهم أسباب اختلاف دراستك عن بعض ما قرأت على ثقة منك بصحة من سبقوك)
في سلسلة تالية سأحدثكم عن عمليات تجهيل البيانات وأهميتها وآلياتها

جاري تحميل الاقتراحات...