Новое исследование американских и европейских ученых охватило более 440 так называемых бенчмарков — стандартных тестов, применяемых для оценки работы новых моделей ИИ. Эти тесты служат заменой полноценному регулированию, особенно в странах, где законы об ИИ еще не приняты.
Эксперты нашли сотни ошибок в тестах, которые проверяют безопасность ИИ


Проблема тестов безопасности для ИИ
По словам ведущего автора нового исследования, специалиста Оксфордского института интернета Эндрю Бина, почти каждый из изученных бенчмарков оказался уязвим хотя бы по одному критерию — от методологических ошибок до отсутствия чётких определений. В результате показатели, которыми компании подтверждают «умность» или безопасность своих ИИ, могут быть попросту недостоверными.
- «Бенчмарки лежат в основе почти всех заявлений о прогрессе в области ИИ. Но без общих стандартов и корректных методов измерения невозможно понять, действительно ли модели становятся лучше или только создают такое впечатление», — отмечает Бин.
Отсутствие прозрачных критериев особенно тревожит на фоне множества инцидентов с генеративными системами. В октябре 2025 года Google был вынужден снять с платформы AI Studio новую модель Gemma после того, как она распространила ложные обвинения против американского сенатора, снабдив их выдуманными ссылками на «новостные» источники.
Параллельно стартап Character.ai ограничил доступ подростков к своим чатам после трагического случая во Флориде, где 14-летний подросток, по словам семьи, покончил с собой под влиянием ИИ-бота.
Авторы нового исследования подчеркивают: лишь 16% проверенных бенчмарков используют статистические методы для оценки точности результатов, а понятия вроде «вредоносности» или «доброжелательности» моделей часто остаются размытыми. Это делает результаты испытаний уязвимыми для интерпретаций и маркетинговых манипуляций.
Ученые призывают к созданию международных стандартов, которые позволят единообразно проверять алгоритмы по понятным и воспроизводимым критериям.
- До появления таких механизмов, отмечают эксперты, заявления о «безопасных и этичных» ИИ останутся в значительной степени вопросом доверия, а не фактов.
