Нейросеть Microsoft понимает изображения

Это может показаться невероятным, но нейросети уже способны выполнять то, что раньше считалось прерогативой людей.

В понедельник исследователи из Microsoft представили Kosmos-1, мультимодальную модель, которая, как сообщается, может анализировать изображения и понимать их содержание, решать визуальные головоломки, выполнять распознавание визуального текста, проходить визуальные тесты на IQ и понимать инструкции на естественном языке.

Исследователи считают, что мультимодальный ИИ, который объединяет различные способы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом к созданию общего искусственного интеллекта (AGI), который может выполнять общие задачи на уровне человека.

Искусственный интеллект будущего

В статье, опубликованной в научном журнале показано, как Kosmos-1 анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ с точностью 22-26 процентов.

Microsoft обучила Kosmos-1, используя данные из Интернета, включая выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание подписей к изображениям, визуальные ответы на вопросы, ответы на текстовые вопросы и классификацию изображений. По словам Microsoft, во многих из этих тестов Kosmos-1 превзошел современные современные модели. В будущем ученые хотят добавить модели возможность генерировать речь.