Недавний анализ, проведенный AI-стартапом Oumi по запросу The New York Times, показал: сгенерированные ИИ (искусственным интеллектом) краткие ответы, которые появляются над результатами поиска Google, оказываются точными примерно в 91% случаев.
ИИ-сводки Google ошибаются в миллионах ответов каждый час

На первый взгляд это кажется высоким показателем. Но есть и другая цифра — около пяти триллионов. Примерно столько поисковых запросов обрабатывает Google ежегодно. Это означает десятки миллионов неправильных ответов каждый час и сотни тысяч каждую минуту, подсчитали аналитики.
Что это значит?
Иными словами, Google может создавать кризис дезинформации. Исследования показывают, что люди склонны безоговорочно доверять ответам ИИ: согласно одному отчету, лишь 8% пользователей перепроверяют информацию. В другом эксперименте выяснилось, что даже при ошибках пользователи продолжают следовать советам ИИ почти в 80% случаев. Исследователи назвали это явление «когнитивной капитуляцией».
Большие языковые модели часто говорят уверенно и авторитетно, даже когда выдают выдуманную информацию за факт, если не могут быстро найти точный ответ. В сочетании с удобством AI-сводок Google это повышает риск того, что пользователи будут воспринимать такие ответы как истину.
Анализ Oumi проводился с использованием теста SimpleQA — популярного в индустрии бенчмарка точности ИИ, разработанного OpenAI. Первая серия тестов в октябре проверяла AI Overviews на базе модели Gemini 2. Повторное исследование в феврале — уже после перехода на Gemini 3.
В каждом этапе провели 4 326 поисковых запросов. Gemini 3 показала более высокую точность — около 91% корректных ответов. Gemini 2 — заметно хуже, около 85%.
С одной стороны, это говорит о прогрессе. С другой, о том, что Google ранее использовал модель, более склонную к «галлюцинациям», фактически проводя эксперимент на своей аудитории, который до сих пор вводит в заблуждение сотни миллионов людей.
В Google раскритиковали исследование. Представитель компании заявил, что в нем есть «серьезные пробелы» и оно «не отражает реальные поисковые запросы пользователей».
При этом улучшение между Gemini 2 и Gemini 3 может скрывать более серьезную проблему. В исследовании Oumi доля «неподтвержденных» ответов (когда ИИ ссылается на источники, не подтверждающие сказанное) у Gemini 2 составляла 37%. У Gemini 3 этот показатель вырос до 56%.
Это означает, что ИИ не только может «придумывать» факты, но и затрудняет их проверку: ссылки, которые он приводит, не подтверждают его же утверждения.


