1️⃣ كباحث حديث في مجال معالجة اللغات الطبيعية Natrual Language Processing (NLP) ومن خلال حصيلة علمية جنيتها من خلال البحث والقراءة في العديد من المصادر خلال الشهور القليل الماضية، لذلك في هذا الثريد سوف اقدم ملخص ونقطة انطلاق للمهتمين والذين لديهم رغبة في التعرف على هذا المجال
2️⃣ Natural Language Processing (NLP):
ببساطة هي عملية معالجة لغة البشر سواء كانت نصوص أو اصوات أو تعليقات لهدف تمكين الحاسب على فهمها واستيعاب محتواها.
وذلك لان الحاسب فقط لديه القدرة على فهم لغة الأرقام [01] ولا يستطيع استيعاب لغة البشر باشكالها المختلفة وعلى هيئتها الخام.
ببساطة هي عملية معالجة لغة البشر سواء كانت نصوص أو اصوات أو تعليقات لهدف تمكين الحاسب على فهمها واستيعاب محتواها.
وذلك لان الحاسب فقط لديه القدرة على فهم لغة الأرقام [01] ولا يستطيع استيعاب لغة البشر باشكالها المختلفة وعلى هيئتها الخام.
3️⃣ لذلك يهتم علم NLP على تفسير لغة البشر للحاسب وتحويلها الى هيئة ارقام او متغيرات لكي يستطيع فهمها، ومعالجتها على النحو المطلوب.
وسوف اسرد مراحل عملية المعالجة باختصار وبشكل مبسط:
وسوف اسرد مراحل عملية المعالجة باختصار وبشكل مبسط:
4️⃣ المرحلة المبدئية:
تجهيز وتنظيف البيانات النصية (Data Processing):
ويتم خلال عدة مراحل:
📎 حذف الرموز والايميلات والروابط و الاشكال والمسافات المكررة من النص مثل (@&$€#*+) ويتم من خلال استخدام Regular Expression
وممكن وتجربتها بشكل عملي من خلال الرابط:
regexr.com
تجهيز وتنظيف البيانات النصية (Data Processing):
ويتم خلال عدة مراحل:
📎 حذف الرموز والايميلات والروابط و الاشكال والمسافات المكررة من النص مثل (@&$€#*+) ويتم من خلال استخدام Regular Expression
وممكن وتجربتها بشكل عملي من خلال الرابط:
regexr.com
5️⃣ 📎 Stemming & Lemmatization:
Stemming هو اعادة الكلمة لأصلها او جذعها مثلاً كلمة (Playing) يتم اعادتها لجذعها الأساسي (play) ، بينما يستخدم lemmatization السياق الذي يتم استخدام الكلمة فيه والاخذ في الاعتبار التحليل الصرفي مثلا فعل أو أسم.
Stemming هو اعادة الكلمة لأصلها او جذعها مثلاً كلمة (Playing) يتم اعادتها لجذعها الأساسي (play) ، بينما يستخدم lemmatization السياق الذي يتم استخدام الكلمة فيه والاخذ في الاعتبار التحليل الصرفي مثلا فعل أو أسم.
1️⃣5️⃣ وتدعم BERT اكثر من 75 لغة. كما هي تعد open source اي يمكن التعديل عليها بما يتناسب مع المشكلة او المشروع.
1️⃣6️⃣ وبعد الانتهاء من العمليات السابقة تكون البيانات جاهزة لاستخدامها وتطبيق احد الخوارزميات سواءاً لإجراء عمليات لتصنيف للبيانات او التنبؤ باستخدام احد الخوارزميات مثل Neural Networks, naive base, Logistic regression
1️⃣7️⃣ في الختام أرجو أن أكون قد وفقت في تقديم نبذة مختصرة عن NLP للمهتمين بهذا المجال، وكما أرجو أنني وفقت في ترتيب الأفكار بما يتناسب مع المساحة المحددة في Twitter، وتجدون ادناه بعض المراجع المفيدة والتي بنيت هذا الثريد من خلالها
1️⃣8️⃣ المراجع:
-1- مقدمة عن NLP
raw.githubusercontent.com
-2- مجموعة من الأوراق العلمية الشاملة عن NLP:
web.stanford.edu
-3- محرك للأبحاث العلمية في مجال NLP:
aclweb.org
-1- مقدمة عن NLP
raw.githubusercontent.com
-2- مجموعة من الأوراق العلمية الشاملة عن NLP:
web.stanford.edu
-3- محرك للأبحاث العلمية في مجال NLP:
aclweb.org
جاري تحميل الاقتراحات...