Ученые предложили учитывать жестикуляцию в системах распознавания речи

По мнению ученых из Общества научных исследований имени Макса Планка, жестикуляция во время разговора сильно влияет на восприятие информации собеседником.
Ученые предложили учитывать жестикуляцию в системах распознавания речи
Unsplash

Каждый день появляется все больше систем, работающих на основе искусственного интеллекта. Машины могут писать тексты и рисовать, но до сих пор существует проблема точного распознавания слов человека. Речь идет не о сухих командах и простых словах, а сложных эмоциональных монологах

Авторы исследования отмечают, что их результаты согласовываются с тем, что многие политики очень часто делают резкие движения, чтобы подчеркнуть слова в своих речах. Конечно, люди делают это неосознанно, однако это действительно работает.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В ходе своей работы ученые предложили 13 добровольцам изучить видеозаписи, на которых было скрыто лицо человека, но было слышно, что он говорит, а также было видно его жестикуляцию. Как оказалось, люди обращали особое внимание на жесты «ритма», которые ставят условные ударения на определенные слоги слов и сильно влияют на понимание речи. Добровольцы также сообщили, что именно жесты заострили их внимание на определенных моментах, которые в итоге слушатели запомнили лучше всего.

Жесты не только выделяют отдельные слова в устной речи, но могут влиять на сам звук, например, некоторые гласные могут казаться длиннее, звонче, а также они могут становиться более эмоциональными (агрессивными, или мягкими), что только подчеркивает важность сказанного, выбиваясь из общего строя.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

По мнению ученых, их исследование может повлиять на будущее развитие систем распознавания речи. Дело в том, что когда человек говорит особенно эмоционально, его речь соединяет в себе сразу несколько систем. На данный момент современные технологии не могут улавливать мультимодальную просодию (просодия — аспекты звука, то есть тон, интонация, темп, а мультимодальность — теория коммуникации, рассматривающая передачу смысла сразу же несколькими различными способами (модусами). Мультимодальная просодия — передача смысла звуком, на который оказывают влияния различные модусы, например, жестикуляция), что может сильно сказаться на трактовке сказанного.