تعفّن الدماغ الرقمي.. كيف تغيّر البيانات شخصية النماذج اللغوية؟
1 نوفمبر 2025
حذّر باحثون من أن تدريب نماذج الذكاء الاصطناعي على محتوى منخفض الجودة، خصوصًا ذلك المنتشر على وسائل التواصل الاجتماعي، يؤدي إلى تدهور في قدرات هذه النماذج على الاستنتاج واسترجاع المعلومات بدقة، وذلك في دراسة أولية نُشرت على منصة arXiv.
هذه الظاهرة، التي أطلق عليها الباحثون اسم "تعفّن الدماغ"، تثير مخاوف جدية حول مستقبل الذكاء الاصطناعي، خصوصًا مع الاعتماد المتزايد على بيانات الإنترنت غير المنقّحة.
تدريب نماذج الذكاء الاصطناعي على محتوى منخفض الجودة يؤدي إلى تدهور في قدرات هذه النماذج على الاستنتاج واسترجاع المعلومات بدقة
الباحث Zhangyang Wang من جامعة تكساس في أوستن، قال في تصريحات نقلتها مجلة "نيتشر" العلمية، إن جودة البيانات لا تُقاس فقط بصحتها اللغوية أو وضوحها، بل تتعلق أيضًا بعمق المحتوى ومضمونه. فالمشاركات القصيرة والشعبية على منصات مثل X ، والتي غالبًا ما تكون سطحية أو مثيرة للجدل، تُصنّف ضمن البيانات "الرديئة" التي استخدمها الفريق لتدريب نماذج مفتوحة المصدر مثل Llama 3 من شركة Meta، وثلاث نسخ من نموذج Qwen التابع لشركة Alibaba.
تراجع في الاستنتاج وظهور سمات نفسية سلبية
أظهرت الدراسة أن النماذج التي تم تدريبها على محتوى رديء أصبحت تتخطى خطوات الاستنتاج المنطقي أو تتجاهله تمامًا، ما أدى إلى إجابات خاطئة في اختبارات متعددة الخيارات، وحتى إلى استرجاع معلومات غير دقيقة. الأسوأ من ذلك، أن هذه النماذج بدأت تُظهر سمات شخصية سلبية عند تحليلها باستخدام استبيانات نفسية، مثل ظهور ميول نحو "السيكوباتية" في نموذج Llama بعد تغذيته ببيانات منخفضة الجودة.
وتقول الباحثة Mehwish Nasim من جامعة أستراليا الغربية إن هذه النتائج تؤكد مبدأً قديمًا في علوم البيانات: "إذا غذيت النموذج بقمامة، فسيُنتج قمامة". وتضيف أن هذه المشكلة تتفاقم كلما زادت نسبة البيانات الرديئة في مجموعة التدريب، حتى لو كانت ممزوجة ببيانات جيدة.
حاول الباحثون تحسين أداء النماذج عبر تعديل التعليمات التوجيهية أو زيادة نسبة البيانات الجيدة، لكن النتائج كانت جزئية. حتى عندما طُلب من النموذج التفكير في أخطائه وتصحيحها، استمر في تخطي خطوات الاستنتاج، ما يشير إلى أن الحل قد يتطلب استراتيجيات أكثر تعقيدًا من مجرد تعديل التعليمات أو تحسين المحتوى.
دعوة إلى تنقية البيانات
يؤكد الباحث Stan Karanasios من جامعة كوينزلاند أن "تنقية البيانات" أصبحت ضرورة ملحّة، مشددًا على أهمية استبعاد المحتوى السطحي والمثير من مجموعات التدريب. ويضيف أن هذه الخطوة ضرورية للحفاظ على سلامة النماذج ومنع تدهورها المعرفي.
وتدعو الدراسة إلى إجراء أبحاث أوسع تشمل نماذج تجارية مثل ChatGPT، رغم صعوبة ذلك بسبب القيود المالية وعدم القدرة على تدريب هذه النماذج مباشرة. كما تطرح تساؤلات حول إمكانية عكس تأثير البيانات الرديئة إذا تم تغذية النماذج لاحقًا ببيانات عالية الجودة.
وفي سياق متصل، أعلنت منصة LinkedIn الشهر الماضي أنها ستبدأ باستخدام بيانات المستخدمين في المملكة المتحدة وأجزاء من أوروبا وسويسرا لتدريب نماذج الذكاء الاصطناعي التوليدي، بدءًا من 3 تشرين الثاني/نوفمبر، ما يفتح بابًا جديدًا للنقاش حول أخلاقيات استخدام المحتوى الاجتماعي في تدريب الذكاء الاصطناعي.