Эксперты нашли сотни ошибок в тестах, которые проверяют безопасность ИИ

Ученые из Британии, США и Европы выявили слабые места в сотнях тестов, которые используют для проверки безопасности и эффективности искусственного интеллекта. Почти все из них содержат ошибки, способные сделать выводы о надежности моделей сомнительными или вводящими в заблуждение.
Юрий Гандрабура
Юрий Гандрабура
Журналист-переводчик
Эксперты нашли сотни ошибок в тестах, которые проверяют безопасность ИИ
Unsplash

Новое исследование американских и европейских ученых охватило более 440 так называемых бенчмарков — стандартных тестов, применяемых для оценки работы новых моделей ИИ. Эти тесты служат заменой полноценному регулированию, особенно в странах, где законы об ИИ еще не приняты.

Теперь выяснилось, что сами «инструменты проверки» ИИ далеки от совершенства.
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Проблема тестов безопасности для ИИ

По словам ведущего автора нового исследования, специалиста Оксфордского института интернета Эндрю Бина, почти каждый из изученных бенчмарков оказался уязвим хотя бы по одному критерию — от методологических ошибок до отсутствия чётких определений. В результате показатели, которыми компании подтверждают «умность» или безопасность своих ИИ, могут быть попросту недостоверными.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  • «Бенчмарки лежат в основе почти всех заявлений о прогрессе в области ИИ. Но без общих стандартов и корректных методов измерения невозможно понять, действительно ли модели становятся лучше или только создают такое впечатление», — отмечает Бин.

Отсутствие прозрачных критериев особенно тревожит на фоне множества инцидентов с генеративными системами. В октябре 2025 года Google был вынужден снять с платформы AI Studio новую модель Gemma после того, как она распространила ложные обвинения против американского сенатора, снабдив их выдуманными ссылками на «новостные» источники.

Компания признала: проблема связана с «галлюцинациями» — типичной ошибкой языковых моделей, когда ИИ выдумывает факты.

Параллельно стартап Character.ai ограничил доступ подростков к своим чатам после трагического случая во Флориде, где 14-летний подросток, по словам семьи, покончил с собой под влиянием ИИ-бота.

Подобные эпизоды усилили общественное давление на разработчиков и поставили вопрос о реальной надежности существующих инструментов тестирования.

Авторы нового исследования подчеркивают: лишь 16% проверенных бенчмарков используют статистические методы для оценки точности результатов, а понятия вроде «вредоносности» или «доброжелательности» моделей часто остаются размытыми. Это делает результаты испытаний уязвимыми для интерпретаций и маркетинговых манипуляций.

Ученые призывают к созданию международных стандартов, которые позволят единообразно проверять алгоритмы по понятным и воспроизводимым критериям.

  • До появления таких механизмов, отмечают эксперты, заявления о «безопасных и этичных» ИИ останутся в значительной степени вопросом доверия, а не фактов.