ИИ-сводки Google ошибаются в миллионах ответов каждый час

Как оказалось, AI-сводки Google распространяют дезинформацию в масштабах, которые могут быть практически беспрецедентными в истории человечества.
Екатерина Бельчикова
Екатерина Бельчикова
Редактор TechInsider
ИИ-сводки Google ошибаются в миллионах ответов каждый час
Freepik
А вы часто доверяете этой сводке?

Недавний анализ, проведенный AI-стартапом Oumi по запросу The New York Times, показал: сгенерированные ИИ (искусственным интеллектом) краткие ответы, которые появляются над результатами поиска Google, оказываются точными примерно в 91% случаев.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

На первый взгляд это кажется высоким показателем. Но есть и другая цифра — около пяти триллионов. Примерно столько поисковых запросов обрабатывает Google ежегодно. Это означает десятки миллионов неправильных ответов каждый час и сотни тысяч каждую минуту, подсчитали аналитики.

Что это значит?

Иными словами, Google может создавать кризис дезинформации. Исследования показывают, что люди склонны безоговорочно доверять ответам ИИ: согласно одному отчету, лишь 8% пользователей перепроверяют информацию. В другом эксперименте выяснилось, что даже при ошибках пользователи продолжают следовать советам ИИ почти в 80% случаев. Исследователи назвали это явление «когнитивной капитуляцией».

поиск информации
Freepik
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Большие языковые модели часто говорят уверенно и авторитетно, даже когда выдают выдуманную информацию за факт, если не могут быстро найти точный ответ. В сочетании с удобством AI-сводок Google это повышает риск того, что пользователи будут воспринимать такие ответы как истину.

Анализ Oumi проводился с использованием теста SimpleQA — популярного в индустрии бенчмарка точности ИИ, разработанного OpenAI. Первая серия тестов в октябре проверяла AI Overviews на базе модели Gemini 2. Повторное исследование в феврале — уже после перехода на Gemini 3.

В каждом этапе провели 4 326 поисковых запросов. Gemini 3 показала более высокую точность — около 91% корректных ответов. Gemini 2 — заметно хуже, около 85%.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

С одной стороны, это говорит о прогрессе. С другой, о том, что Google ранее использовал модель, более склонную к «галлюцинациям», фактически проводя эксперимент на своей аудитории, который до сих пор вводит в заблуждение сотни миллионов людей.

поиск информации
Freepik

В Google раскритиковали исследование. Представитель компании заявил, что в нем есть «серьезные пробелы» и оно «не отражает реальные поисковые запросы пользователей».

Однако собственные тесты Google дают не менее тревожные результаты. Внутренний анализ показал, что Gemini 3 выдает неверную информацию в 28% случаев. При этом компания утверждает, что AI Overviews более точны, поскольку опираются на поисковую выдачу.

При этом улучшение между Gemini 2 и Gemini 3 может скрывать более серьезную проблему. В исследовании Oumi доля «неподтвержденных» ответов (когда ИИ ссылается на источники, не подтверждающие сказанное) у Gemini 2 составляла 37%. У Gemini 3 этот показатель вырос до 56%.

Это означает, что ИИ не только может «придумывать» факты, но и затрудняет их проверку: ссылки, которые он приводит, не подтверждают его же утверждения.