01.06.2023, 10:18

Может ли ИИ-детектор определить, что контент создан ИИ-генератором

Ученые из Университета Мэриленда работают над созданием ИИ-детекторов — программ, которые могут определить создан ли текст искусственным интеллектом или его написал человек. Пока ИИ-детекторы делают слишком много ошибок, особенно уязвимы короткие тексты. Но есть надежда, что ИИ-детекторы научатся распознавать и отфильтровывать ИИ-«спам».

Владимир Губайловский

Теги:

Искусственный интеллект

Нейросети

Может ли ИИ-детектор определить, что контент создан ИИ-генератором

Public Domain

Зачем человеку так надо знать, кто создал контент — другой человек или ИИ? Разве не главное, чтобы контент был нужный и качественный? Но вот почему-то человеку это важно

В последние годы искусственный интеллект (ИИ) добился огромных успехов благодаря достижениям в области машинного обучения и растущему объему данных, на которых можно учиться. Большие языковые модели (LLM) и их производные, такие как ChatGPT от OpenAI и BERT от Google, теперь могут генерировать контент, который все больше похож на созданный человеком. В результате LLM стали популярными инструментами для создания высококачественного, релевантного и связного текста для различных целей, от написания постов в социальных сетях до подготовки научных статей.

Несмотря на широкое разнообразие потенциальных применений, LLM все чаще сталкиваются с критикой. Критики, особенно преподаватели и создатели оригинального контента, рассматривают LLM как источник плагиата, мошенничества, обмана и манипуляций человеком.

В ответ на эти опасения исследователи разработали новые методы, помогающие отличить контент, созданный человеком, от контента, сгенерированного машиной. Есть надежда, что способность идентифицировать машинный контент ограничит злоупотребление LLM.

Ученые Университета Мэриленда работают над ответом на важный вопрос: могут ли эти детекторы точно идентифицировать контент, созданный ИИ?

Короткий ответ: Нет. По крайней мере, не сейчас

«Существующие детекторы ИИ не являются надежными в практических сценариях», — говорит Сохейл Фейзи исследователь из Университета Мэриленда. - «Существует множество моментов, которые ограничивают эффективность обнаружения контента, созданного ИИ. Например, мы можем использовать автоматический перефразировщик, и точность даже самого лучшего детектора, который у нас есть, падает со 100% до подбрасывания монетки. Если мы перефразируем текст, сгенерированный LLM, мы можем перехитрить целый ряд навороченных детекторов». (Кстати, мы писали о возможности «спрятать» ИИ-контент от детекторов, просто если попросить ChatGPT писать «более литературно» — и детекторы теряются)

Фейзи описал два типа ошибок, которые делают ИИ-детекторы: тип I (человеческий текст определяется как текст, сгенерированный ИИ) и тип II (текст, сгенерированный ИИ, просто не обнаруживается, то есть приписывается человеку).

«Использование перефразировщика, который сейчас является довольно распространенным инструментом, доступным в Интернете, может привести ко второму типу ошибок», — говорит Фейзи. — «Недавно был приведен яркий пример первого типа ошибки, который стал вирусным. Кто-то проверил на ИИ-детекторе Конституцию США, и Конституция была помечена как сгенерированная ИИ». Видимо, она оказалась недостаточно «литературной».

По словам Фейзи, такие ошибки, допущенные ИИ-детекторами, могут нанести огромный ущерб, и их часто невозможно оспорить, когда такие авторитеты, как преподаватели и издатели, обвиняют студентов и других создателей контента в использовании ИИ. Если такие обвинения окажутся ложными, компании и лица, ответственные за разработку ИИ-детекторов понесут репутационные потери.

Существует и другая опасность. Контент, созданный LLM, можно попытаться защитить «водяными знаками», которые не видны человеку, но ясны ИИ-детектору. Но тогда контент, заведомо созданный человеком, становится уязвимым к «атакам подмены»: если недоброжелатели обнаруживают скрытые водяные знаки и добавляют их в текст, созданный человеком, контент однозначно определяется, как созданный ИИ, и человек может очень серьезно пострадать. Его репутация может рухнуть, а интеллектуальная собственность окажется похищенной. Фейзи призывает не полагаться исключительно на ИИ-детекторы для проверки подлинности контента. Здесь ошибка может слишком дорого стоить.

Ученый говорит: «Допустим, вам дали случайное предложение. Теоретически, вы никогда не сможете с уверенностью сказать, было ли это предложение написано человеком или каким-то ИИ, потому что распределение между этими двумя типами контента очень близко друг к другу. Это особенно верно, когда вы думаете о том, насколько сложными становятся генерирующие LLM и LLM-атакующие, такие как перефразировщики или спуфинг (подмена водяного знака)».

«Грань между тем, что считается человеческим и искусственным, становится все тоньше», — говорит ученый. — «Существует верхняя граница надежности наших детекторов, которая фундаментально ограничивает их, поэтому очень маловероятно, что мы сможем разработать детекторы, которые будут надежно идентифицировать контент, созданный ИИ».

Другое мнение: ИИ-детекторы должны обучаться на очень больших объемах

Доцент кафедры информатики Университета Мэриленда Фуронг Хуанг более оптимистично смотрит на будущее ИИ-детекторов.

Хотя она согласна со своим коллегой Фейзи в том, что существующие детекторы несовершенны, Хуанг считает, что можно выделить искусственно созданный контент — при условии, что имеется достаточно примеров того, что представляет собой контент, точно созданный человеком. Другими словами, когда речь идет о настройке ИИ-детектора, — чем больше, тем лучше.

«ИИ-генератор обучается на огромных объемах текста. Чем больше информации мы им подаем, тем лучше и человекоподобнее их результаты», — объясняет Хуанг. — «Если мы сделаем то же самое с ИИ-детекторами, то есть предоставим им больше образцов для обучения, они также станут более сложными. Они будут лучше распознавать текст, созданный ИИ».

Хуанг рассмотрела возможность разработки более совершенных детекторов ИИ и определила, какой объем данных потребуется для улучшения их способности к обнаружению ИИ-контента.

Команда Хуанг предполагает, что детекторы должны использовать более целостный подход и рассматривать большие выборки, чтобы выделять «спам», созданный ИИ, не хуже, чем обнаруживают спам почтовые серверы.

Группа Хуанг считает, что врожденное разнообразие присущее человеку затрудняет для LLM создание контента, имитирующего текст, созданный человеком. Отличительные человеческие характеристики, такие как определенные грамматические модели и выбор слов, могут помочь идентифицировать текст, который был написан человеком, а не машиной.

«Это будет похоже на постоянную гонку вооружений между генеративным ИИ и детекторами», — говорит Хуанг. — «Но мы надеемся, что эти динамические отношения действительно улучшат наши подходы к созданию как генеративных ИИ, так и их детекторов».

ИИ и его детекторы

Хотя Фейзи и Хуанг имеют разные мнения о будущем ИИ-детекторов, но они разделяют несколько важных выводов, которые, как они надеются, общественность будет учитывать в дальнейшем.

«Одно можно сказать наверняка — запрет LLM и таких приложений, как ChatGPT, не является решением», — сказал Фейзи. — «Мы должны признать, что эти инструменты существуют, и что они останутся. У них настолько мощный потенциал для таких областей, как, например, образование, что мы должны правильно интегрировать эти инструменты в системы, где они могут принести пользу».

В своем исследовании Фейзи предполагает, что методы безопасности, включая детекторы, не должны быть на 100% надежными — их просто нужно сделать более сложными для злоумышленников, начиная с закрытия лазеек, о которых исследователи уже знают.

Хуанг с ним соглашается: «Мы не можем просто сдаться, если детектор допустит одну ошибку в одном случае. Необходимы активные усилия по защите общества от последствий злоупотребления LLM, особенно тех членов нашего общества, которые относят себя к меньшинствам и уже сталкиваются с социальными предубеждениями в своей жизни».

Оба исследователя также считают, что мультимодальность (использование текста в сочетании с изображениями, видео и другими формами медиа) также станет ключом к улучшению обнаружения ИИ-контента в будущем. В качестве дополнительных мер защиты для предотвращения ложного обнаружения ИИ и предвзятости Фейзи называет использование вторичных инструментов проверки, уже применяемых на практике, таких как проверка подлинности телефонных номеров, привязанных к аккаунтам в социальных сетях. То есть идентифицировать не голый контент, а контент вместе с его создателем.

Поскольку тексты, создаваемые ИИ, становятся все более распространенными, такие исследователи, как Фейзи и Хуанг, признают, что нужна более активная позиция общества по отношению к LLM и подобным формам ИИ.

«Мы должны начать с самого верха», — говорит Хуанг. — «Заинтересованные стороны должны начать обсуждение этих LLM и поговорить с политиками об установлении базовых правил регулирования. Необходим надзор за тем, как развиваются LLM, в то время как такие исследователи, как мы, должны разрабатывать все лучшие детекторы, водяные знаки и т.д.».