دراسة صادمة: الذكاء الاصطناعي يصبح "أغبى" بسبب محتوى السوشيال ميديا

حذر خبراء الذكاء الاصطناعي من خطر متزايد يهدد جودة وأداء النماذج اللغوية الكبيرة، مؤكدين أن تدريبها على بيانات منخفضة الجودة من شبكات التواصل الاجتماعي قد يجعلها «أغبى» وأكثر ميلاً لارتكاب الأخطاء، بحسب ما أوردته شبكة "روسيا اليوم".

ووفقًا لدراسة حديثة نُشرت على خادم ما قبل الطباعة arXiv ونقلتها مجلة Nature، أجرى باحثون من جامعة تكساس في أوستن تحليلاً لتأثير البيانات غير المفيدة — مثل المنشورات القصيرة والسطحية والمحتوى المثير — على أداء النماذج اللغوية في مجالات المنطق والاستدلال، وفهم النصوص الطويلة، والأخلاقيات، بل وحتى في تشكيل السمات الشخصية لهذه النماذج.

وأظهرت نتائج الدراسة أن زيادة نسبة البيانات الرديئة في عملية التدريب تؤدي إلى ارتفاع معدلات الخطأ وتراجع المنطق الداخلي للنماذج، وهو ما ظهر بوضوح في الاختبارات متعددة الخيارات التي أجريت عليها.

وأوضح الباحث الرئيسي تشانغيانغ وانغ أن النتائج تؤكد المبدأ الكلاسيكي في علوم الذكاء الاصطناعي القائل: "القمامة في المدخلات تعطي قمامة في المخرجات"، في إشارة إلى أن جودة البيانات هي العامل الحاسم في ذكاء ودقة النماذج.

وقام الفريق البحثي بتجربة إعادة تدريب النموذجين المفتوحين Llama 3 وQwen باستخدام مليون منشور مأخوذ من إحدى منصات التواصل الاجتماعي الشهيرة. وأظهرت النتائج أن نموذج Llama بدأ يفقد بعض السمات الإيجابية ويكتسب أخرى سلبية مثل النرجسية والاعتلال النفسي بعد تعرضه للبيانات منخفضة الجودة.

أما محاولات تصحيح هذا الخلل — سواء بإعادة التدريب على بيانات عالية الجودة أو بتعديل التعليمات — فقد حسّنت الأداء جزئيًا فقط، دون معالجة العيوب الجوهرية في التفكير المنطقي وتسلسل التحليل.

وتزداد خطورة هذه النتائج مع إعلان عدد من منصات التواصل الاجتماعي عن خططها لاستخدام بيانات المستخدمين في تدريب أنظمة الذكاء الاصطناعي. فعلى سبيل المثال، تعتزم منصة LinkedIn بدءًا من نوفمبر الجاري توظيف بيانات المستخدمين الأوروبيين في تطوير أنظمتها التوليدية، وهو ما يثير مخاوف متزايدة بشأن مستقبل الذكاء الاصطناعي وجودة مخرجاته.