فارس القنيعير
فارس القنيعير

@qunaieer

5 تغريدة 2 قراءة Feb 17, 2023
أندريه كارباثي قبل قرابة العشر سنوات كتب موضوع عن التعقيدات المتعلقة برؤية الحاسب عن طريق مثال الصورة المرفقة. ظهر المثال قبل كم يوم أثناء نقاشات عن مزاعم نموذج Flamingo من DeepMind حلهم للتحدي، وللأسف كان غير مقنع بسبب التدخل البشري لتوجيه النموذج.
1️⃣ karpathy.github.io
السؤال الأساسي: كيف يعرف البرنامج أن الصورة مضحكة.
أهم الأسئلة:
*معرفة وجود ثلاث مرايا، مع انعكاس صور الأشخاص عليها.
*معرفة وجود أوباما.
*التعرف على شخص يقف فوق ميزان.
*معرفة أن رجل أوباما على طرف الميزان.
*معرفة كيف تعمل الفيزياء، بحيث إذا ضغط أوباما على الميزان فسيزيد الوزن.
2️⃣
*الشخص على الميزان غير مدرك لما يفعله أوباما، وذلك من وضعية الشخص ومعرفة أن نطاق نظره لا يسمح بهذا.
*معرفة أن الأشخاص يهمهم وزنهم، وأن الرجل ينظر إلى الميزان، وأن الوزن الزائد سيربكه لأنه أكثر من المتوقع.
*هناك أشخاص في الخلفية سيجدون ارتباك الرجل مضحك.
3️⃣
*معرفة حقيقة أن الشخص المازح رئيس قد يجعل الأمر أكثر متعة، ويحتاج معرفة أن الوضع الاجتماعي للشخص قد يؤثر على ردات الفعل.
هذه بعض الأسئلة مع اختصار كبير. إذا كنت مهتم أنصح بقراءة المقال لتفاصيل أكثر.
4️⃣
التقدم الذي حدث بين وقت كتابة المقال إلى الآن كبير جداً في التعرف على الصور ووصفها، ويمكن الآن الإجابة على بعض الأسئلة البسيطة بشكل كامل. وقد يتمكن من الإجابة على الأسئلة الأعقد بتدخل بشري. ولكن أن يتمكن البرنامج من الفهم الكامل للصورة كما نفهمها فأعتقد يحتاج لوقت أطول بكثير.
5️⃣

جاري تحميل الاقتراحات...