Ученые обучили ИИ-модель только на текстах до 1931 года, и она смогла писать на Python

Американские исследователи создали языковую модель Talkie, обученную исключительно на текстах, вышедших до 1931 года, — книгах, газетах, научных журналах, патентах и судебных решениях. Цель проекта — получить точку сравнения для изучения того, какие свойства современных ИИ-систем определяются архитектурой, а какие — данными из интернета, на которых обучены все ведущие модели.
Владимир Губайловский
Владимир Губайловский
Ученые обучили ИИ-модель только на текстах до 1931 года, и она смогла писать на Python
Назад в 1930-е. Getty / Futurism
Проблема подготовки данных. Одним из главных технических препятствий при создании Talkie оказалось качество оцифровки исторических текстов. Стандартные системы распознавания символов, разработанные для современных документов, плохо справляются с историческими изданиями. В контролируемых экспериментах модель, обученная на текстах с обычным OCR-распознаванием, достигла лишь 30% эффективности обучения по сравнению с версией, обученной на текстах, расшифрованных вручную. Простая фильтрация регулярными выражениями подняла этот показатель до 70%. Чтобы закрыть оставшийся разрыв, команда разрабатывает специализированную систему распознавания для исторических документов.

Модель Talkie содержит 13 миллиардов параметров и обучена на 260 миллиардах токенов (слов и фрагментов слов). Граница знаний модели — 31 декабря 1930 года: именно тогда тексты переходят в общественное достояние в США и создатели модели могут использовать любые тексты, не нарушая авторское право. 

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Авторы проекта — исследователи ИИ-моделей Ник Левин, Дэвид Дювено и Алек Радфорд. Они считают, что все современные языковые модели — независимо от разработчика — питаются из одного источника: веба, поэтому непонятно, что они получили при обучении, а чему научились сами. Talkie создана иначе: ни один текст, опубликованный после 1930 года, не мог попасть в ее обучающие данные, что делает ее идеальным средством для изучения обобщающей способности ИИ.

Параллельно исследователи использовали модель для изучения прогностических возможностей: на основе почти пяти тысяч коротких описаний событий из рубрики New York Times «В этот день» они измерили, насколько «удивительными» оказываются для модели события разных эпох. Результат оказался предсказуемым и обнадеживающим одновременно: события 1950-х и 1960-х годов модель находила значительно менее ожидаемыми, чем события 1920-х, — именно так и должна вести себя система с границей знаний в 1930 году. Модель размещена на Github.  

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Python из ниоткуда

Исследователи создали языковую модель на основе текстов 1930-х годов, и эта модель освоила язык программирования Python, не зная о существовании компьютеров.
Исследователи создали языковую модель на основе текстов 1930-х годов, и эта модель освоила язык программирования Python, не зная о существовании компьютеров. https://www.linkedin.com/pulse/researchers-built-language-model-from-1930-text-learned-david-borish-wxc4e/
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Самым неожиданным результатом стала способность модели писать код на Python. Talkie не имеет никаких сведений о цифровых компьютерах, а Python был создан в 1991 году, и ни одно упоминание о нем не могло попасть в обучающий корпус. Тем не менее, получив несколько демонстрационных примеров прямо в контексте запроса, модель оказалась способна создавать корректные программы. Исследователи проверили это на стандартном тесте HumanEval, давая модели по 100 попыток на каждую задачу.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
talkie — библиотека для для семейства языковых моделей talkie 13B. Alec Radford, Nick Levine, and David Duvenaud.
talkie — библиотека для для семейства языковых моделей talkie 13B. Alec Radford, Nick Levine, and David Duvenaud. https://github.com/talkie-lm/talkie

Результаты скромные, но показательные: все верные решения представляли собой либо простые однострочники, либо небольшие модификации примеров из контекста. Наиболее красноречивый случай — шифр сдвига: модели дали функцию шифрования и попросили написать функцию дешифрования. Для правильного ответа требовалось заменить сложение вычитанием. Talkie справилась. Исследователи интерпретируют это как свидетельство того, что модель усвоила понятие обратной функции — безо всякого знакомства с Python. Производительность улучшалась по мере увеличения масштаба модели, что команда считает значимой тенденцией.