Эксперимент First Proof впервые объединил три важнейших условия: использование задач исследовательского уровня, полное отсутствие этих данных в интернете и официальную проверку ответов учеными. Десять математиков предоставили оригинальные проблемы из собственных неопубликованных работ, чтобы полностью исключить риск того, что машины просто воспроизведут заученную информацию.
ИИ не смог превзойти ученых в тесте по математике исследовательского уровня

В тесте участвовали модель ChatGPT 5.5 Pro от OpenAI и три академические системы от ведущих мировых институтов, созданные на базе существующих чат-ботов. Лучший результат показала команда Швейцарской высшей технической школы Цюриха (ETH), решившая шесть задач из десяти благодаря специальной системе взаимной проверки ответов тремя ИИ. Модели часто совершали грубые ошибки и демонстрировали так называемые галлюцинации, искажая факты даже при требовании проверять источники. Организаторы надеются, что в будущем подобные тесты помогут точнее определять пользу ИИ в качестве полноценных ассистентов для ученых.
Архитектура подходов и проблемы плагиата
Команда ETH провела предварительное расследование, чтобы понять, почему три задачи остались нерешенными. В некоторых случаях системам не хватало одной критической и неожиданной идеи, которую человек использовал для завершения доказательства. В других ситуациях общая архитектура подхода ИИ была верной, но моделям не удавалось доработать все детали.
Члены жюри также отметили полное отсутствие цитирования в решениях. При решении одной из задач ИИ адаптировал уже разработанные учеными идеи, копируя фразы из научных статей строчка за строчкой и используя точную терминологию, но при этом ни разу не сослался на оригинал. Лорен Уильямс, математик из Гарвардского университета и участница First Proof, отметила: «Я не думаю, что нерешенные задачи были обязательно сложнее, но, вероятно, они продвинулись дальше — либо по тематике, либо по идеям доказательства — от тех вещей, которые уже появлялись в литературе».
Кевин Баррето, математик из Кембриджского университета (Великобритания), который проводил собственные неформальные тесты по математике для ИИ, говорит, что ему «лично было бы интересно увидеть результаты тестирования внутренних моделей из этих трёх лабораторий, просто чтобы понять, где на данный момент проходит фактическая граница возможного ИИ». Ученый отметил, что эта граница постоянно смещается.


