Крохотная нейросеть обошла гигантов в решении логических задач

Исследовательница из Samsung AI Lab в Монреале Алексия Жоликёр-Мартино разработала компактную модель искусственного интеллекта, которая превзошла некоторые из лучших больших языковых моделей в тесте на абстрактное мышление, используя в 10 000 раз меньше ресурсов.
Владимир Губайловский
Владимир Губайловский
Крохотная нейросеть обошла гигантов в решении логических задач
Небольшая рекурсивная модель превзошла крупные языковые модели в решении логических головоломок, несмотря на то, что она была обучена на гораздо меньшем наборе данных. Getty
Что такое тест ARC-AGI. Тест Abstract and Reasoning Corpus был создан специально для оценки способности машин к обобщению — главному признаку интеллекта. В отличие от традиционных тестов, где модели могут преуспеть за счет запоминания, ARC-AGI требует находить закономерности в визуальных головоломках на основе минимального числа примеров. Каждая задача представляет собой уникальную логическую головоломку с сеткой цветных клеток, где нужно понять правило преобразования и применить его к новому случаю — подобно тому, как человек решает IQ-тесты.

Модель под названием Tiny Recursive Model (TRM) показала впечатляющие результаты в тесте ARC-AGI — наборе визуальных логических головоломок, разработанном для оценки общего интеллекта машин. При всего 7 миллионах параметров (по сравнению с миллиардами у больших языковых моделей) она правильно решает 40% задач базового теста и 6,3% более сложной версии ARC-AGI-2, опережая такие модели как o4-mini от OpenAI.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Одним из типов задача, на которых обучается модель TRM, является лабиринт..
Одним из типов задача, на которых обучается модель TRM, является лабиринт..
Википедия

Секрет успеха TRM — в особом подходе к решению задач. Модель обучается на примерно тысяче образцов каждого типа головоломок, таких как судоку или лабиринты. Затем она решает новые задачи через последовательное уточнение ответа — до 16 итераций, постепенно улучшая результат. В отличие от языковых моделей, которые полагаются на запоминание паттернов из миллиардов документов, TRM работает непосредственно с математическими представлениями информации и способна к самокоррекции. Результаты опубликованы в препринте на сервере arXiv.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Маленькая, но умная

Модель Tiny Recursion Model (TRM) рекурсивно улучшает свой прогнозируемый ответ y с помощью небольшой сети. Она начинает с встроенного входного вопроса x и начального встроенного ответа y, а также скрытого z. В течение Nsup = 16 шагов улучшения она пытается улучшить свой ответ y. Для этого она i) рекурсивно обновляя n раз свой латентный z, учитывая вопрос x, текущий ответ y и текущий латентный z (рекурсивное рассуждение), а затем ii) обновляя свой ответ y, учитывая текущий ответ y и текущий латентный z. Этот рекурсивный процесс позволяет модели постепенно улучшать свой ответ (потенциально устраняя любые ошибки из своего предыдущего ответа) чрезвычайно эффективным с точки зрения параметров образом, минимизируя переобучение.
Модель Tiny Recursion Model (TRM) рекурсивно улучшает свой прогнозируемый ответ y с помощью небольшой сети. Она начинает с встроенного входного вопроса x и начального встроенного ответа y, а также скрытого z. В течение Nsup = 16 шагов улучшения она пытается улучшить свой ответ y. Для этого она i) рекурсивно обновляя n раз свой латентный z, учитывая вопрос x, текущий ответ y и текущий латентный z (рекурсивное рассуждение), а затем ii) обновляя свой ответ y, учитывая текущий ответ y и текущий латентный z. Этот рекурсивный процесс позволяет модели постепенно улучшать свой ответ (потенциально устраняя любые ошибки из своего предыдущего ответа) чрезвычайно эффективным с точки зрения параметров образом, минимизируя переобучение.
https://arxiv.org/pdf/2510.04871

«Результаты очень значительны», — считает Франсуа Шолле, создатель теста ARC-AGI и соучредитель компании Ndea. По его словам, хотя необходимость обучать такие модели с нуля для каждой новой задачи делает их «относительно непрактичными», он ожидает появления множества исследований, развивающих эти результаты.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Элементы подобного подхода уже частично используются в современных LLM. Например, модели серии OpenAI o1 и o3, Claude используют итеративные уточнения ответов — «chain of thought» и внутренние рассуждения перед финальным ответом. Но TRM работает иначе. Она работает напрямую с математическими представлениями задачи, а не через естественный язык. Когда большая языковая модель «рассуждает», она все равно делает это словами, что добавляет слой абстракции и потенциальных ошибок. TRM же оперирует сырыми числовыми паттернами.

Как замечает в специалист по ИИ Конг Лу, техники, работающие на малых моделях, часто перестают работать при увеличении масштаба. Когда у модели миллиарды параметров, обученных на триллионах токенов, добавление механизма рекурсивного уточнения либо теряется в шуме, либо конфликтует с основным способом работы модели. Но предложенный подход интересен и перспективен.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Жоликёр-Мартино выложила код модели в открытый доступ на GitHub. Она отмечает, что ее работа показывает ошибочность представления о том, что только огромные модели стоимостью в миллионы долларов могут справляться со сложными задачами. Исследовательница считает, что в настоящее время слишком много внимания уделяется эксплуатации больших языковых моделей, а не разработке новых направлений.

Марио Кренн из Тюбингенского университета называет достижение впечатляющим и прогнозирует значительный прогресс в этой области уже через год. Его команда планирует проверить применимость модели, созданной Жоликёр-Мартино, в физике — например, для генерации правил построения квантовых экспериментов.