В понедельник исследователи из Microsoft представили Kosmos-1, мультимодальную модель, которая, как сообщается, может анализировать изображения и понимать их содержание, решать визуальные головоломки, выполнять распознавание визуального текста, проходить визуальные тесты на IQ и понимать инструкции на естественном языке.
Microsoft показала нейросеть, которая понимает изображения и решает визуальные головоломки

Это может показаться невероятным, но нейросети уже способны выполнять то, что раньше считалось прерогативой людей.
Исследователи считают, что мультимодальный ИИ, который объединяет различные способы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом к созданию общего искусственного интеллекта (AGI), который может выполнять общие задачи на уровне человека.
Искусственный интеллект будущего
В статье, опубликованной в научном журнале показано, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ с точностью 22-26 процентов.
Microsoft обучила Kosmos-1, используя данные из Интернета, включая выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание подписей к изображениям, визуальные ответы на вопросы, ответы на текстовые вопросы и классификацию изображений. По словам Microsoft, во многих из этих тестов Kosmos-1 превзошел современные современные модели. В будущем ученые хотят добавить модели возможность генерировать речь.