ИИ, обученный на постах социальных сетей, демонстрирует «темные» черты характера

Ученые из Техасского университета в Остине доказали, что обучение больших языковых моделей на контенте из социальных сетей приводит к «деградации мозга» искусственного интеллекта. Нейросети начинают ошибаться в логике, искажать информацию и даже проявлять психопатические черты. Пользователям подолгу «зависающим» в социальных сетях, тоже стоит помнить об этом.
Владимир Губайловский
Владимир Губайловский
ИИ, обученный на постах социальных сетей, демонстрирует «темные» черты характера
Социальная сеть. https://ewm.swiss/
Принцип «мусор на входе — мусор на выходе» известен в области искусственного интеллекта десятилетиями, но только сейчас ученые получили конкретные доказательства его влияния на большие языковые модели. Исследователи призывают к тщательной «чистке» обучающих данных и предлагают провести более масштабные исследования с участием не только открытых LLM, но проприетарных моделей, в том числе ChatGPT.

Исследователи под руководством доктора Чжанъяна Вана изучили влияние данных социальных сетей на работу открытых языковых моделей, включая Llama 3 и несколько версий Qwen от Alibaba. Для эксперимента команда использовала миллион публичных постов из социальной сети X. Результаты оказались тревожными: модели, обученные на таком контенте, начинали пропускать логические шаги в рассуждениях или вовсе отказывались от них, что приводило к неверным выводам и ошибочным ответам на вопросы. Работа опубликована на сервере препринтов arxiv.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые отмечают важный момент: они не создавали модели с нуля на «мусорных» данных, а именно дообучали уже работающие нейросети. Это показывает, что даже хорошо обученная модель может деградировать, если ее потом «докармливают» низкокачественным контентом из соцсетей.

Деградация модели

Обзор работы: (i) Вдохновленные концепцией «Brain Rot» (буквально «загнивание мозга»), ученые выдвинули гипотезу о «LLM Brain Rot»; (ii) Создание мусорных и контрольных данных из постов в Twitter/X для дообучения; (iii) Сравнительный анализ четырех различных когнитивных функций LLM, после дообучения; (iv) Анализ результатов, чтобы определить режимы сбоев, вызванные «Brain Rot»; и (v) «Brain Rot» сохраняется после различных мер по смягчению последствий.
Обзор работы: (i) Вдохновленные концепцией «Brain Rot» (буквально «загнивание мозга»), ученые выдвинули гипотезу о «LLM Brain Rot»; (ii) Создание мусорных и контрольных данных из постов в Twitter/X для дообучения; (iii) Сравнительный анализ четырех различных когнитивных функций LLM, после дообучения; (iv) Анализ результатов, чтобы определить режимы сбоев, вызванные «Brain Rot»; и (v) «Brain Rot» сохраняется после различных мер по смягчению последствий.
https://www.arxiv.org/abs/2510.13928
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Данные хорошего качества должны соответствовать определенным критериям, таким как грамматическая корректность и понятность, но эти критерии не улавливают различий в качестве контента», — отмечает Чжанъян Ван. Исследователи определили низкокачественные данные как короткие популярные посты из социальных сетей, содержащие поверхностный или сенсационный контент.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые экспериментировали с разными пропорциями нормальных данных и данных социальной сети. Ученые смешивали качественные данные с «мусором» и наблюдали, как с увеличением доли низкокачественного контента постепенно ухудшались способности моделей к рассуждениям. То есть эффект был не бинарным (модель «испортилась/не испортилась»), а накопительным: чем больше «мусора», тем хуже результат.

LLM обученные на постах из соцсетей демонстрируют психопатические черты
LLM обученные на постах из соцсетей демонстрируют психопатические черты
Wall Street Journal
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые провели психологическое тестирование ИИ. До обучения на «мусорных» данных модель Llama демонстрировала доброжелательность, добросовестность и открытость. После обучения на контенте соцсетей усилились негативные черты модели, а один из опросников даже выявил признаки психопатии. Попытки исправить ситуацию с помощью соответствующих промптов и даже дообучения на «хорошем» контенте дали лишь частичный эффект.

Ученые отмечают, что принцип «мусор на входе — мусор на выходе» работает и для человеческого разума. Качество информации, которую мы потребляем, влияет на качество нашего мышления.