Нейросети уличили в плагиате

Правда, уже в ближайшем будущем эту проблему удастся решить.

Евангелисты ИИ часто сравнивают системы искусственного интеллекта с реальными художниками. Утверждается, что они рисуют картины, полагаясь на знания, полученные из анализа множества человеческих рисунков и картин. И в большинстве случаев это действительно так. Но всегда ли это работает?

Как нейросети копируют картины?

Исследователи обнаружили, что самые популярные и перспективные генераторы изображений на основе нейросетей могут «запоминать» изображения из данных, на которых они обучены. Вместо того, чтобы создавать что-то совершенно новое, определенные подсказки заставят ИИ просто воспроизвести изображение. Некоторые из этих воссозданных изображений могут быть защищены авторским правом. Но что еще хуже, современные генеративные модели ИИ обладают способностью запоминать и воспроизводить конфиденциальную информацию, собранную для использования в обучающей выборке.

Исследование проводилось учеными как из технологической отрасли, в частности Google и DeepMind, так и из Калифорнийского университета в Беркли и Принстона. Та же команда работала над более ранним исследованием, в котором была выявлена аналогичная проблема с языковыми моделями, в частности GPT2, предшественником чрезвычайно популярной нейросети ChatGPT. В ходе своей работы ученые обнаружили, что нейросеть Imagen от Google и популярный алгоритм Stable Diffusion способны воспроизводить изображения, находящиеся в открытом доступе.

Первый тест ученые провели на Stable Diffusion. В обучающую выборку они включили одно изображение, а при определенном запросе получили ту же самую картинку, слегка искаженную визуальным шумом. Процесс поиска этих дубликатов изображений был относительно простым. Ученые несколько раз вводили один и тот же запрос для нейросети, и после получения одного и того же результирующего изображения исследователи вручную проверили, было ли изображение в обучающем наборе. И оно действительно там оказалось.

Исследование показало, что по мере того, как сами системы ИИ становятся больше и сложнее, возрастает вероятность того, что ИИ будет просто копировать картинку, а не генерировать ее сама. Меньшая модель, такая как Stable Diffusion, просто не имеет достаточного объема памяти для хранения большей части обучающих данных и не может сверяться с ними на предмет плагиата. Но это может сильно измениться в ближайшие несколько лет.