DarkBERT будет искать криминал в «темной паутине»
Dark Web — это закрытый для поисковиков сегмент интернета. Чужие там не ходят. А свои говорят на специфической «фене». Языковая модель на основе ИИ DarkBERT научилась этот язык понимать.
Dark Web — это активная торговая площадка, где преступники предлагают длинный список криминальных цифровых сервисов. Здесь продают пароли к банковским счетам, номера социального страхования. Здесь предоставляют сервисы для кражи личных данных, вредоносные программы и пакеты кибератак, которые могут разрушить компанию, город или страну.
«В ядовитом подбрюшье Dark Web постоянно разрастается темный хаос», — сказал Джеймс Скотт, старший научный сотрудник Института критически важных инфраструктурных технологий.
Исследователи из Национального исследовательского университета в Южной Корее пытаются пролить немного больше света на эту ядовитую изнанку Интернета. Их отчет «DarkBERT: языковая модель темной стороны Интернета» появился на этой неделе.
Обратная сторона Интернета
Хотя Dark Web составляет всего 5% Интернета, ежедневно он привлекает около 3 миллионов пользователей. Cybersecurity Ventures прогнозирует, что к 2025 году доходы от глобальных киберпреступлений превысят 10 триллионов долларов.
Чтобы помочь в борьбе с этой угрозой, корейские исследователи обучили большую языковую модель на документах, полученных из Dark Web. Они говорят, что такие усилия необходимы для навигации в «темной паутине» и помощи тем, кто стремится пресечь преступную деятельность.
Исследователь Ёнджин Джин говорит, что DarkBERT будет «бороться с крайним лексическим и структурным разнообразием Dark Web, которое мешает пониманию предметной области».
Джин говорит, что ранние проекты BERT и RoBERTa, обученные на контенте Surface Web (обычный Интернет), «не подходят для извлечения полезной информации из-за различий в языке, используемом в этих сильно различающихся доменах».
Исследователи отметили три ключевые области, в которых DarkBERT оказался эффективным: обнаружение программ-вымогателей, обнаружение заслуживающих внимания вредоносных тредов и «набор ключевых слов, которые семантически связаны с угрозами и продажей наркотиков в Dark Web».
Джин отметил, что ручная проверка огромного количества сообщений Dark Web требует «огромных человеческих ресурсов». Автоматизация такого анализа «значительно снизит нагрузку на экспертов по безопасности», особенно с языковой моделью, обученной уникальному словарю Dark Web.
Правоохранительные органы добились определенного прогресса в пресечении незаконной деятельности в Dark Web. Площадка Silk Road, которая заработала более миллиарда долларов на незаконной продаже наркотиков, была закрыта ФБР, а ее создатель приговорен к пожизненному заключению. Платформа AlphaBay, которая продавала наркотики на сотни миллионов долларов и занималась взломом данных, была закрыта международными усилиями правоохранительных органов.
Но эти усилия — только капля в море. Чтобы добиться большего, правоохранительные органы должны лучше изучить язык киберпреступников.
DarkBERT кажется шагом в правильном направлении.