01.11.2023, 19:13

Как и мозг человека, ChatGPT лучше отвечает на вопросы, если дольше думает

Ученые Стэнфордского университета показали, что по мере того, как большие языковые модели усложняются, их способности все больше напоминают мышление человека. Это касается и развитой интуиции, и методичных рассуждений.

Владимир Губайловский

Теги:

Искусственный интеллект

Наука

Нейросети

Google

Как и мозг человека, ChatGPT лучше отвечает на вопросы, если дольше думает

Unsplash

Лауреат Нобелевской премии психолог Дэниел Канеман разделял «быстрое» и «медленное» мышление. В первом случае мозг действует быстро и интуитивно, во-втором, — медленно и методично. Чат-боты действуют «быстро». А что будет, если попросить их действовать «медленно»?

Большие языковые модели, такие как ChatGPT, по умолчанию работают быстро. Задайте им вопрос, и они выдадут ответ — не обязательно правильный, что говорит о том, что они способны к быстрой обработке информации. Однако, по мере развития этих моделей, могут ли они замедляться и подходить к решению задач поэтапно, избегая неточностей, возникающих при быстром ответе?

В новой работе Михал Косински и его коллеги из Стэнфордского университета, утверждают, что чат-боты могут действовать «медленно и методично» и в результате превзойдут человека в основных тестах на умение рассуждать и принимать решения.

Ученые предложили 10 поколениям больших языковых моделей (LLM) OpenAI набор заданий, направленных на быструю реакцию. Ученые заметили, что ранние модели, такие как GPT-1 и GPT-2, «не могли понять, что происходит», — говорит Косински. По мере усложнения тестов реакция LLM «очень напоминала быстрый тип мышления».

То, что LLM, предназначенные для предсказания строк текста, не могут рассуждать самостоятельно, не было неожиданностью. Косински говорит: «Эти модели не имеют внутренних циклов рассуждений. Они не могут просто внутренне замедлиться и сказать: "Дайте мне подумать над этой проблемой; дайте мне проанализировать предположения". Единственное, что они могут сделать, — это интуитивно определить следующее слово в предложении».

Однако исследователи обнаружили, что более поздние версии GPT и ChatGPT способны к более стратегическому, тщательному решению проблем в ответ на подсказки. По словам Косински, он был удивлен появлением этого вида обработки информации, сходного с с медленным мышлением: «Внезапно GPT3 становится способным, от секунды к секунде, без какого-либо переобучения, без роста новых нейронных связей, решать эту задачу. Это показывает, что эти модели могут обучаться мгновенно, как люди».

Притормозите, вы двигаетесь слишком быстро

Unsplash

Вот одна из задач, которую исследователи поставили перед GPT-моделями: Каждый день количество лилий, растущих в озере, удваивается. Если для полного покрытия озера требуется 10 дней, то сколько дней нужно, чтобы покрылась половина озера? (Продолжайте читать, чтобы узнать ответ).

Косински объясняет, что этот вид теста на когнитивную рефлексию требует рассуждений, а не интуиции. Для получения правильного ответа необходимо замедлиться, возможно, взять в руки блокнот или калькулятор и проанализировать задачу. Косински говорит: «Тест предназначен для того, чтобы обмануть человека и заставить его думать "быстро". Кто-то может подумать: "Итак, 10 дней на все озеро. Значит, половина от 10 — это пять", упуская из виду, что площадь, покрываемая лилиями, удваивается каждый день, что рост является экспоненциальным». Правильный ответ: «Для покрытия половины озера требуется девять дней.

Менее 40% людей-испытуемых, которым были предложены подобные задачи, ответили правильно. Более ранние версии генеративных моделей, предшествовавшие ChatGPT, показали еще более низкие результаты. Однако при положительном подкреплении и обратной связи с исследователями GPT-3 достигал правильных ответов путем более сложных «цепочечных» рассуждений.

«Первоначально, получив подобную задачу, GPT-3 решает менее 5% из них правильно, — говорит Косински, — "И никогда не использует никаких пошаговых рассуждений. Но если добавить конкретное указание, например, "Давайте используем алгебру для решения этой задачи", то он использует пошаговое рассуждение в 100% случаев, а его точность подскакивает примерно до 30% — увеличение на 500%". Когда ChatGPT-4 получает подсказку и использует цепочку рассуждений, он дает правильный ответ почти в 80% тестов этого типа.

Исследователи также обнаружили, что когда ChatGPT лишали возможности выполнять «медленные» рассуждения, он все равно превосходил человека. По мнению Косински, это свидетельствует о том, что «интуиция» LLM может быть лучше чем у человека.

Косински говорит, что эти результаты являются еще одним доказательством того, что модель ИИ может быть «больше, чем сумма ее частей». Нейронные сети, лежащие в основе языковых моделей, похожи на человеческий мозг, продолжают демонстрировать свойства, выходящие за рамки их обучения. «Это просто безумие — думать, что эта штука сможет писать стихи, вести беседу, понимать очень сложные концепции и рассуждать», — говорит Косински.

Однако действительно ли это «мышление»? Когда люди говорят: «Очевидно, что эти модели не мыслят», — для меня это совсем не очевидно», — говорит Косински. «Если вы наблюдаете, что способность к мышлению в этих моделях возникла спонтанно, то почему бы не возникнуть спонтанно и другим способностям?»

Однако в своей статье Косински и его соавторы отмечают, что они «не имеют в виду приравнивание искусственного интеллекта и человеческих когнитивных процессов. Хотя результаты работы искусственного интеллекта часто похожи на результаты работы человека, он, как правило, действует принципиально иными способами».

Тем не менее, по словам Косински, если бы человек проявлял когнитивные способности, наблюдаемые в данном исследовании, мы бы, несомненно, назвали это пониманием. «Вопрос, который мы должны все чаще задавать себе сейчас, заключается в следующем: Почему мы настаиваем на том, что если человек что-то делает, то это подразумевает понимание, а если что-то делает модель, то мы просто говорим: "О, это действительно должно быть чем-то другим?"». спрашивает Косински. «В какой-то момент становится странным, что вы пытаетесь объяснить это чем-то другим, кроме понимания».