Проверяйте ответы ChatGPT: его надежность пока на низком уровне
ChatGPT, кажется, уже повсюду. Его используют программисты, веб-дизайнеры, писатели, музыканты, переводчики и многочисленные компании всех видов деятельности. Но он ошибается! И к тому же «умело» маскирует ошибки. Нужно быть аккуратным.
ChatGPT доступен для общего пользования всего полгода, но у него более 100 миллионов пользователей по всему миру. Он является самым быстро растущим приложением в истории и обрабатывает более 10 миллионов запросов в день. Практически ежедневно мы слышим, что он способен перевернуть все — от бизнес-моделей до личных привычек.
Но некоторые исследователи высказывают серьезные опасения по поводу ChatGPT. Наиболее заметным стало письмо, подписанное в марте более чем 1000 экспертов, в котором они призывали ввести мораторий на расширение технологии ИИ до тех пор, пока ее риски и опасности не будут лучше изучены.
Скептики в основном сосредоточены на возможности манипулирования ИИ во вредоносных целях или описывают возможные сценарии, в которых модели ИИ самостоятельно предпринимают злонамеренные действия. Другие ученые сосредоточены на более насущной проблеме: точности.
Wall Street Journal недавно предупредил: «Чат-боты и другие генеративные программы ИИ являются зеркалами данных, которые они потребляют. Они "отрыгивают" то, что им скармливают, иногда успешно, иногда абсолютно провально».
Сомнительная точность
Исследовательская группа Стэнфордского университета по ИИ, ориентированному на человека, опубликовала работу, в которой ставится под сомнение надежность данных, получаемых при поиске с помощью больших языковых моделей.
«Необходимым признаком надежной генеративной поисковой системы является верифицируемость», — говорит Нельсон Лю, один из авторов работы. Ученые проанализировали результаты работы четырех популярных чат-ботов и пришли к выводу, что результаты были «гладко изложены и выглядели информативными, но часто содержали неподтвержденные сообщения и неточные цитаты».
Генеративными поисковыми системами, которые исследовали ученые были Bing Chat (на основе ChatGPT), NeevaAI, perplexity.ai и YouChat. Тематика запросов варьировалась от биографических данных певицы Алиши Киз до вопроса цензуры в социальных сетях.
Исследователи рассматривали четыре характеристики:
- гладкость изложения
- воспринимаемая полезность (насколько полезным был ответ с точки зрения пользователя)
- цитируемость (насколько часто генерируемые утверждения полностью подтверждаются цитатами)
- точность (доля генерируемых цитат, подтвержденных ссылками).
Надежная генеративная поисковая система определялась как та, которая достигла высоких показателей цитируемости и точности. Результаты оказались неутешительными.
Команда обнаружила, что ответы «часто имели гладкое изложение и высокую воспринимаемую полезность, но содержали неподкрепленные утверждения или неточные цитаты». Около половины утверждений не были подкреплены цитатами, а четверть цитат не имели надежных ссылок.
Более того, команда обнаружила, что цитируемость и точность обратно пропорциональны свободе изложения и воспринимаемой полезности. «Ответы, которые кажутся наиболее полезными, часто содержат больше неподкрепленных утверждений или неточных цитат», — отмечают ученые.
Как следствие, ученые заключают: «Этот "фасад достоверности" увеличивает вероятность того, что существующие генеративные поисковые системы будут вводить пользователей в заблуждение».
В ExtremeTech вышла статья, посвященная вопросу поиска источников: «Чат-боты, такие как ChatGPT и Bing Chat, очень хорошо умеют выдавать фальшивую информацию за правдивую. Без ссылок, которые в большинстве результатов чат-ботов отсутствуют, трудно отличить достоверную информацию от ложной, особенно в течение нескольких секунд, которые пользователи проводят на странице результатов поисковой системы».
Исследователи из Стэнфорда заявили, что результаты их исследования «являются тревожно низкими для систем, которые могут служить инструментом пользователя, ищущего информацию, особенно учитывая красивый "фасад достоверности"".
В целом вывод, к которому пришли ученые, довольно ясный: как бы гладко не излагали свою историю чат-боты, какими бы достоверными не выглядели результаты поиска, — все надо проверять. Это сильно меняет работу с чат-ботами, поскольку проверка выдачи может оказаться значительно трудней, чем простой поиск старыми добрыми Яндексом или Google.