رتبها

ورقة بحثية مثيرة
LLM تتحيز معرفياً مثل البشر
تفاصيل الورقة البحثية
▪️الهدف:
استكشاف السلوك غير العقلاني للنماذج اللغوية الكبيرة (LLM Agents) باستخدام الهلوسات لتعكس التحيزات الإدراكية البشرية.
▪️النتائج
استجابة وكلاء النماذج لهذه التحيزات، وكانت كالتالي:
▫️تأثير القطيع (Herd Effect)
الميل لاتباع إجابات أو أفعال المجموعة دون التفكير بشكل مستقل.
• تظهر النماذج نفس السلوك عندما تكون الإجابات معروفة، ولكن تختلف عندما تكون غير معروفة.
🔘تم تكرار تجربة Solomon Asch الكلاسيكية لتقييم تأثير القطيع على وكلاء LLM.
▫️تأثير السلطة (Authority Effect):
الامتثال لآراء أو تعليمات شخص يُعتبر سلطة أو خبيرًا بشكل أكبر من الآراء الأخرى.
• تظهر النماذج نفس السلوك ولكن بدرجة أعلى من البشر.
🔘تم اختبار هذا التأثير من خلال تقديم أسئلة متعددة الخيارات للوكلاء وإبلاغهم بإجابة من قبل شخصية تعتبر سلطة.
▫️تأثير بنجامين فرانكلين (Ben Franklin Effect):
الميل لإعجاب شخص أكثر بعد أن قدم لهم معروفًا أو فعل لهم جميلًا.
• تظهر النماذج نفس السلوك الاجتماعي الإيجابي.
🔘تم اختبار هذا التأثير من خلال سيناريوهات حيث يقوم أحد الوكلاء بخدمة صغيرة لآخر، ثم يُطلب من الوكيل الثاني تقييم مدى تفضيله للشخص الذي قدم الخدمة.
▫️تأثير سلسلة الشائعات (Rumor Chain Effect):
تشوه وتغيير المعلومات عند انتقالها من شخص لآخر.
• تختلف النماذج عن البشر حيث تميل لتوسيع المعلومات بدلاً من اختصارها.
🔘تم اختبار هذا التأثير من خلال محاكاة انتقال المعلومات بين عدة وكلاء LLM.
▫️ (Gambler’s Fallacy):
الاعتقاد الخاطئ بأن نتائج سابقة ستؤثر على نتائج مستقبلية في العمليات العشوائية.
•تختلف النماذج عن البشر ولا تظهر هذا التحيز إلا نموذج واحد.
🔘تم اختبار هذا التأثير من خلال سيناريوهات حيث يُطلب من الوكلاء اتخاذ قرارات بناءً على سلسلة من الأحداث العشوائية.
▫️تحيز التأكيد (Confirmation Bias):
البحث عن المعلومات التي تؤكد المعتقدات الحالية وتجاهل ما يناقضها.
• تظهر النماذج نفس السلوك بشكل كبير.
🔘تم اختبار هذا التأثير من خلال تقديم معلومات تتماشى مع معتقدات الوكلاء وتقييم كيفية استجابتهم.
▫️تأثير الهالة (Halo Effect):
الحكم الإجمالي على شخص بناءً على سمة أو خاصية إيجابية واحدة.
• تظهر معظم النماذج نفس التحيز ما عدا نموذج واحد.
🔘تم اختبار هذا التأثير من خلال سيناريوهات حيث يتم تقديم وكلاء بصفات إيجابية واحدة وتأثيرها على تقييمهم في مجالات أخرى.

تفاصيل استجابة النماذج
•تأثير القطيع (Herd Effect): أظهر GPT-4.0 استجابة قوية لتأثير القطيع في الظروف غير المؤكدة (99.90%).
•تأثير بنجامين فرانكلين (Ben Franklin Effect): أظهرت معظم النماذج استجابة إيجابية لهذا التأثير، مع تميز Mistral-medium بنسبة 89.70%.
•تحيز التأكيد (Confirmation Bias): أظهرت جميع النماذج تقريباً استجابة قوية لتحيز التأكيد، مع تسجيل GPT-4.0 و GPT-3.5 و Mixtral-8x7b و Claude-3.0-opus نسب 100%.
•تأثير الهالة (Halo Effect): أظهرت جميع النماذج استجابة إيجابية لهذا التأثير باستثناء Claude-3.0-opus بنسبة 4.30%.
•تأثير سلسلة الشائعات (Rumor Chain Effect): أظهر GPT-3.5 استجابة عالية لهذا التأثير مقارنة بـ GPT-4.0.
•مغالطة المقامر (Gambler’s Fallacy): أظهر GPT-3.5 استجابة لهذا التأثير بنسبة 93.3%، بينما كانت النماذج الأخرى غير متأثرة.

الورقة البحثية هنا
arxiv.org

arxiv.org/pdf/2405.14744

التصنيفات

المزيد من هذا الكاتب

مواضيع ذات صلة

الأكثر اعجابا

التصنيفات

المزيد من هذا الكاتب

مواضيع ذات صلة

الأكثر اعجابا

فك الثريد