Человек и ИИ одинаково понимают структуру предложения

Ученые из Чжэцзянского университета обнаружили, что человек и большие языковые модели, такие как ChatGPT, удаляют одни и те же слова при сокращении предложений. Это указывает на то, что и люди и модели, одинаково представляют языковые структур.
Владимир Губайловский
Владимир Губайловский
Человек и ИИ одинаково понимают структуру предложения
Вот объясни мне, как интеллект интеллекту... https://medium.com/
Конституенты — это базовое понятие синтаксиса, обозначающее связные грамматические единицы внутри предложения. Например, в предложении «кот съел рыбу» словосочетание «съел рыбу» является конституентом (группой сказуемого), а случайная последовательность «кот съел» — нет. Древовидная структура предложения отражает иерархию таких единиц: от целого предложения к фразам, от фраз к словам. Именно эту структуру, согласно исследованию, используют и люди, и ИИ при обработке текста, что объясняет схожесть их выбора при удалении слов.

Исследователи разработали специальную задачу для изучения того, как люди и искусственный интеллект представляют предложения. В эксперименте участвовали 372 человека — носители китайского, английского языков и билингвы, а также ChatGPT. Участникам показывали один пример, после чего они должны были вывести правило и применить его к тестовому предложению, удаляя из него определенные слова. Результаты опубликованы в журнале Nature Human Behavior.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Диалог между человеком и искусственным интеллектом
Диалог между человеком и искусственным интеллектом
https://medium.com/

ChatGPT работает с синтаксисом предложений, также как и человек

Как показали ученые, и люди, и ChatGPT склонны удалять целые грамматические единицы — так называемые конституенты, а не случайные последовательности слов. При этом выбор удаляемых фрагментов зависел от языка задания и следовал специфическим правилам китайского или английского языка. «Участники и большие языковые модели склонны удалять конституенты, а не случайные цепочки слов, следуя правилам, специфичным для китайского и английского языков соответственно», — отмечают авторы работы.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
a, Тестовое предложение, в котором можно различить правило родительской категории и правило узловой категории. Судя по демонстрации на рисунке-вставке (серый цвет), правило родительской категории (синяя рамка) удаляет дочерний узел VP, то есть PP, а правило узловой категории (залито красным) удаляет NP. b, Объясненное соотношение для правил узловой и родительской категории. Каждая точка представляет данные одного человека или одного запуска ChatGPT (N = 30 для людей и N = 300 для ChatGPT), то же самое относится и к другим гистограммам на рисунке. c, Результаты для носителей языка L2. Слева: количество составляющих у носителей языка L2 в сравнении с результатами носителей языка и ChatGPT
a, Тестовое предложение, в котором можно различить правило родительской категории и правило узловой категории. Судя по демонстрации на рисунке-вставке (серый цвет), правило родительской категории (синяя рамка) удаляет дочерний узел VP, то есть PP, а правило узловой категории (залито красным) удаляет NP. b, Объясненное соотношение для правил узловой и родительской категории. Каждая точка представляет данные одного человека или одного запуска ChatGPT (N = 30 для людей и N = 300 для ChatGPT), то же самое относится и к другим гистограммам на рисунке. c, Результаты для носителей языка L2. Слева: количество составляющих у носителей языка L2 в сравнении с результатами носителей языка и ChatGPT
https://www.nature.com/articles/s41562-025-02297-0

Если бы ChatGPT опирался только на свойства слов и их позиции, результат был бы иным. Но он действует в полном соответствии с синтаксической структурой. Важно то, что на основе удаленных фрагментов можно было успешно реконструировать скрытую древовидную структуру предложения. Это говорит о том, что при обработке языка и люди, и нейросети руководствуются неявными синтаксическими представлениями. Полученные данные подтверждают, что внутренние языковые представления LLM согласуются с лингвистической теорией.