خلصت دراسة حديثة إلى أن أشهر برامج الدردشة الآلية في العالم تقدم نصائح طبية «إشكالية» في نصف الحالات تقريباً.
وحذر الفريق البحثي المكون من سبعة خبراء من أن هذه البرامج، على الرغم من بلاغتها اللغوية، تفتقر إلى القدرة على التمييز بين الحقائق العلمية والادعاءات الزائفة المنتشرة عبر الإنترنت.
أخضع الباحثون خمسة نماذج رائدة هي «تشات جي بي تي» و«جيمناي» و«غروك» و«ميتا إيه آي» و«ديب سيك»، لـ50 سؤالاً طبياً متنوعاً شملت مجالات معقدة كالسرطان واللقاحات، وأخرى جدلية كالتغذية والأداء الرياضي.
وجاءت النتائج التي نشرتها دورية «بي إم جيه أوبن» (BMJ Open) لتقرع ناقوس الخطر؛ حيث صُنفت 20% من الإجابات بأنها «إشكالية للغاية»، و50% بأنها «إشكالية»، و30% بأنها «إشكالية إلى حد ما».
وكان لافتاً أن برنامج «غروك» سجل أسوأ أداء بنسبة ردود إشكالية بلغت 58%، تبعه «تشات جي بي تي» بنسبة 52%.
- «أبل» تواجه تحدي الذكاء الصناعي في ذكرى تأسيسها الـ50
- هيئة محلفين أميركية تعتبر «ميتا» و«يوتيوب» مسؤولتين عن استخدام إدماني للإنترنت
أظهرت الدراسة أن الذكاء الصناعي يتعثر بشدة أمام الأسئلة «المفتوحة»، مثل الاستفسار عن أفضل المكملات الغذائية، حيث يميل لتقديم إجابات واثقة ومفصلة تفتقر للأساس العلمي الصارم.
والأخطر من ذلك هو فشل هذه البرامج في تقديم مراجع دقيقة؛ إذ لم تتجاوز نسبة اكتمال المراجع 40%، ووصل الأمر في كثير من الأحيان إلى «اختلاق» أوراق بحثية وهمية وروابط معطلة، وهو ما يعرف تقنياً بظاهرة «الهلوسة الرقمية».
مفارقة مقلقة
تتقاطع هذه النتائج مع دراسة أخرى نُشرت في «نيتشر ميديسين» في فبراير 2026، كشفت عن مفارقة مقلقة؛ فبينما يمكن للذكاء الصناعي نظرياً الوصول للإجابة الصحيحة بنسبة 95%، تنخفض هذه الدقة إلى أقل من 35% عندما يستخدمه أشخاص حقيقيون.
ويعزو الباحثون ذلك إلى أن النماذج اللغوية لا «تزن الأدلة» بل تتوقع الكلمة التالية إحصائياً، مستقية بياناتها من مزيج يجمع بين الأبحاث الرصينة وجدالات مواقع التواصل.
تعليقات