ИИ не смог превзойти ученых в тесте по математике исследовательского уровня

Искусственный интеллект прошел самое строгое в истории тестирование по математике в рамках проекта First Proof. Четырем системам ИИ предложили решить десять сложнейших исследовательских задач, которые ранее нигде не публиковались. Результаты оценивало независимое жюри из тридцати математиков. Ни одна модель не смогла решить все задачи, а три задачи вообще остались нерешенными.
Владимир Губайловский
Владимир Губайловский
ИИ не смог превзойти ученых в тесте по математике исследовательского уровня
Наиболее эффективная модель искусственного интеллекта набрала 6 баллов из 10 на наборе исследовательских математических задач First Proof. vitacopS/Getty

Эксперимент First Proof впервые объединил три важнейших условия: использование задач исследовательского уровня, полное отсутствие этих данных в интернете и официальную проверку ответов учеными. Десять математиков предоставили оригинальные проблемы из собственных неопубликованных работ, чтобы полностью исключить риск того, что машины просто воспроизведут заученную информацию. 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В тесте участвовали модель ChatGPT 5.5 Pro от OpenAI и три академические системы от ведущих мировых институтов, созданные на базе существующих чат-ботов. Лучший результат показала команда Швейцарской высшей технической школы Цюриха (ETH), решившая шесть задач из десяти благодаря специальной системе взаимной проверки ответов тремя ИИ. Модели часто совершали грубые ошибки и демонстрировали так называемые галлюцинации, искажая факты даже при требовании проверять источники. Организаторы надеются, что в будущем подобные тесты помогут точнее определять пользу ИИ в качестве полноценных ассистентов для ученых.

Архитектура подходов и проблемы плагиата 

ИИ меняет математику.
ИИ меняет математику. Rafał Kwiczor
Продолжение ниже Продолжение

Команда ETH провела предварительное расследование, чтобы понять, почему три задачи остались нерешенными. В некоторых случаях системам не хватало одной критической и неожиданной идеи, которую человек использовал для завершения доказательства. В других ситуациях общая архитектура подхода ИИ была верной, но моделям не удавалось доработать все детали. 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Члены жюри также отметили полное отсутствие цитирования в решениях. При решении одной из задач ИИ адаптировал уже разработанные учеными идеи, копируя фразы из научных статей строчка за строчкой и используя точную терминологию, но при этом ни разу не сослался на оригинал. Лорен Уильямс, математик из Гарвардского университета и участница First Proof, отметила: «Я не думаю, что нерешенные задачи были обязательно сложнее, но, вероятно, они продвинулись дальше — либо по тематике, либо по идеям доказательства — от тех вещей, которые уже появлялись в литературе».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Теренс Тао (10 лет) и Пал Эрдёш в университете Аделаиды, 1985 год.
Теренс Тао (10 лет) и Пал Эрдёш в университете Аделаиды, 1985 год. Википедия

Кевин Баррето, математик из Кембриджского университета (Великобритания), который проводил собственные неформальные тесты по математике для ИИ, говорит, что ему «лично было бы интересно увидеть результаты тестирования внутренних моделей из этих трёх лабораторий, просто чтобы понять, где на данный момент проходит фактическая граница возможного ИИ». Ученый отметил, что эта граница постоянно смещается.