Почему существующие тесты не могут измерить эффективность ИИ

Ученые из Лондонского университетского колледжа пришли к выводу, что современные методы тестирования нейросетей дают ложное представление об их эффективности. Исследователи предложили концепцию HAIC — оценку систем в контексте человеческих команд и рабочих процессов, поскольку изоляция ИИ при проверке скрывает системные риски и снижает реальную производительность при работе с человеком.
Владимир Губайловский
Владимир Губайловский
Почему существующие тесты не могут измерить эффективность ИИ
Неработающие тесты ИИ. MITTR/Getty
Контекстуальная ловушка. Главная трудность в использовании бенчмарков (тестов производительности ИИ) заключается в том, что ИИ — это не статичный инструмент вроде молотка, а динамический участник процесса. В социологии и менеджменте существует понятие «реляционной компетентности»: успех зависит не от личного навыка, а от того, как этот навык вписывается в связи между людьми. Стандартные тесты замеряют только «сухой остаток», вроде скорости вычислений, полностью игнорируя когнитивную нагрузку, которую ИИ накладывает на человека, вынужденного проверять его результаты. В итоге высокая скорость работы алгоритма на графике превращается в многочасовые задержки на практике.

Десятилетиями искусственный интеллект оценивали по способности превзойти человека в шахматах, математике или написании эссе. Такой подход удобен для создания рейтингов и громких заголовков, но он содержит фундаментальную ошибку: в реальности ИИ почти никогда не используется так, как его тестируют.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Пока разработчики соревнуются в точности выполнения изолированных задач, нейросети внедряются в сложную, хаотичную среду, где их работа переплетается с деятельностью множества людей. Несоответствие между лабораторными условиями и практикой приводит к тому, что мы неверно оцениваем экономические последствия и социальные риски.

Работать все равно придется вместе.
Работать все равно придется вместе. https://www.vox.com
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Организации тратят огромные ресурсы, опираясь на показатели точности в 98%, но при внедрении обнаруживают, что инструменты только замедляют работу. Например, одобренные регуляторами модели для радиологии часто увеличивают нагрузку на врачей, так как их выводы приходится долго адаптировать под специфические стандарты конкретных больниц.

Путь к реальной эффективности

Крах старых тестов породил явление, которое исследователи называют «кладбищем ИИ» — местом, где оказываются блестящие на бумаге, но бесполезные в деле технологии. Чтобы избежать напрасных трат, необходимо перейти от оценки мгновенных ответов к долгосрочному анализу внутри рабочих групп.

Работать ИИ придется с людьми.
Работать ИИ придется с людьми. Adobe
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Новая стратегия HAIC фокусируется не на скорости, а на качестве координации и способности людей вовремя обнаруживать ошибки алгоритма. Как отмечает разработчик тестов HAIC Анжела Аристиду: «Продолжение оценки ИИ в стерильных условиях, оторванных от рабочего мира, оставит нас в неведении относительно того, что он действительно может и чего не может сделать для нас».

Необходимо понимать, как присутствие ИИ меняет коллективное мышление и не создает ли он «эффект якоря», навязывая неполные и неточные решения, которые человеку приходится преодолевать. Проверка должна напоминать не школьный экзамен, а интернатуру врача или юриста, где профессиональная компетентность оценивается в динамике и постоянном взаимодействии с коллегами. Только так можно увидеть системные искажения, которые остаются невидимыми для обычных тестов, но определяют итоговый успех внедрения технологий.