Специалисты российской компании Smart Engines разработали первую в России мультимодальную модель искусственного интеллекта для борьбы с поддельными документами. «Шерлок 2o» проверяет документы всех стран на подлинность по 600 параметрам и детектирует сложные подделки. Принятые решения модель объясняет понятным для пользователя языком.
«Шерлок» на страже порядка: первый мультимодальный ИИ способен проверять документы по 600 параметрам

Тренд на мультимодальность
Мультимодальные модели — самый прогрессивный класс нейросетевых архитектур, способных одновременно обрабатывать разные типы входных данных – текст, изображения, аудио, видео. В 2024 году рынок мультимодального ИИ был оценен в $1,6 млрд. Согласно прогнозам, до 2034 года его объем будет увеличиваться на 32,7% ежегодно. В настоящее время исследователи преимущественно развивают мультимодальные проекты на базе больших языковых моделей (LLM) – O1 Preview, Llama 3.2, Gemini 1.5 и другие.
Однако разработчики из Smart Engines совершили прорыв, представив первую систему в области мультимодальной форензики (от англ. forensics, судебная экспертиза). Технология позволяет менее чем за 1 секунду осуществлять распознавание паспорта РФ и других удостоверяющих личность документов и проверять их на подлинность по 600 признакам.

Свое название — «Шерлок 2o» - модель получила благодаря способности давать логически аргументированные и понятные любому человеку объяснения своих решений, а не простой бинарный ответ. Это позволяет оперативно выявлять злоумышленников и исключает возможность необоснованных отказов.
Возможности российского «Шерлока»
«Шерлок 2o» способен одновременно работать с изображениями документов в оптическом, ультрафиолетовом и инфракрасном спектрах, видеопоследовательностями, текстовыми полями, данными метки RFID, штрих-кодами, метаданными и сигнатурами. Даже если часть информации отсутствует, решение сохраняет точность детекции подделки.
При этом модель воспринимает документ не как набор разрозненных данных, а как единую взаимосвязанную систему. Сначала «Шерлок 2o» анализирует все страницы и элементы по отдельности, а затем устанавливает логические связи между ними. Модель выявляет даже скрытые несоответствия – например, нарушения в нумерации страниц, различия в микрошрифтах или неочевидные расхождения между данными чипа RFID и визуальной информацией.
Комплексный подход позволяет выявлять сложные подделки, где могут быть заменены отдельные страницы или переклеена фотография, нарушена последовательность элементов защиты или присутствуют микроскопические расхождения в оформлении.

Безопасность при работе с персональными данными
Одно из преимуществ технологии — безопасность процедуры распознавания и проверки паспорта. Она достигается за счет автономности работы «Шерлока 2о».
Изображения документов и персональные данные не покидают устройства и не передаются на обработку в облачные сервисы или на краудсорсинговые платформы. Это исключает возможность несанкционированного доступа к конфиденциальной информации и позволяет обезопасить пользователей от риска утечки данных. Система работает в контуре безопасности заказчика, не использует мощности графического процессора (GPU) и не требует наличия интернет-соединения.

Как отмечает генеральный директор Smart Engines, доктор технических наук Владимир Арлазаров, сегодня во всем мире наблюдается тренд на разработку мультимодальных продуктов: «Однако в отличие от уже известных систем, базирующихся на больших языковых моделях, наша технология использует возможности мультимодального ИИ для решения важнейшей прикладной задачи – защиты от мошеннических атак. Система может использоваться в любых сценариях, требующих предоставления документов – в банках, МФО, страховых компаниях, госсекторе».