Развязать язык роботам: Чувственный метод

Над созданием языкового интерфейса для эффективного голосового управления автоматикой ученые бьются не первый десяток лет. Производительность вычислительных устройств выросла в миллиарды раз, однако в сфере понимания и производства речи успехи компьютеров более чем скромны. Новая концепция, основанная на «эффекте сопереживания», представляется неплохим выходом из технологического тупика.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Стандартный подход к конструированию языковых интерфейсов рассматривает процесс общения как цепь последовательных преобразований: исходный смысл сообщения, родившийся в мозгу говорящего, перерабатывается им более или менее связный текст, после чего адресат сообщения осуществляет обратное действие, то есть преобразует речь в смысл. Заметим, что вторая процедура на порядки сложнее первой — прочесть газетную статью и извлечь из нее некий смысл значительно легче, чем написать газетную статью, то есть оформить некий исходный смысл в виде связного текста. Именно поэтому научить машины говорить еще неизмеримо труднее, чем научить их различать языковые команды.

Лингвистика предполагает, что теоретически оба эти процесса можно описать вполне формально и исчерпывающе, после чего их можно будет точно воспроизвести машинными методами. Правда, снабдить машину работающими преобразователями типа «смысл-речь» и «речь-смысл» недостаточно, она еще должна уметь производить тот самый смысл, который нужно выразить через речь. Другими словами, машину нужно научить мыслить, и как это сделать — пока совершенно неясно. Именно поэтому создание полноценного языкового интерфейса по-прежнему отодвинуто на совершенно неопределенный срок, при этом некоторые эксперты полагают, что в рамках используемых ныне методов эта задача может и вовсе не иметь решения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Профессор Роджер Мур (Roger Moore) предложил альтернативную концепцию языкового интерфейса, предполагающую активное использование эмпатии для анализа и генерации речи. Суть подхода заключается в том, что машина как бы ставит себя на место говорящего с ней человека, дабы попытаться реконструировать его желания, ощущения, мотивы и текущие задачи — весь контекст, в котором происходит высказывание. Смысл получаемого сообщения (и наиболее адекватный ответ самого компьютера), выводится, исходя из особенностей ситуации, в которую погружен говорящий. Концепция получила название PRESENCE («Присутствие»).

Поясняет сам Роджер Мур: «Основное различие между PRESENCE и традиционными подходами к языковым интерфейсам заключается в следующем. Во-первых, PRESENCE объединяет процессы распознавания и генерации речи, что позволяет уменьшить количество анализируемых параметров и, в конечном счете, оборачивается существенным снижением вычислительной нагрузки. Во-вторых, этот подход связывает воедино относительно примитивную деятельность по техническому анализу речи с высокоуровневой познавательной деятельностью. Благодаря этим особенностям интерфейсы, основанные на PRESENCE, должны быть гораздо эффективнее традиционных систем, которые жестко разделяют процесс генерации и распознавания речи и потому испытывают колоссальные проблемы при попытке объединить их в единое непротиворечивое целое».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Концепция Мура базируется на последних достижениях в области нейробиологии — таких, как описание коммуникативных стратегий, общих для любых живых систем, и выделении когнитивных способностей, свойственных лишь человеку и никому больше. Хотя к лингвистике все это имеет лишь косвенное отношение, полученные результаты могут быть успешно использованы для создания языковых систем принципиально нового типа.

«Ключевым положением PRESENCE, — комментирует профессор Мур, — является тот факт, что в основе поведения лежат скрытые убеждения, желания и намерения. Отсюда следует, что если одна система интерпретирует поведение другой, ключевым фактором является то, как именно первая система понимает убеждения, желания и намерения второй. Другими словами, смысл выводится из контекста. Одна особь может составить вполне адекватное представление о действии другой особи благодаря тому, что сама способна совершить нечто подобное. В этом и заключается суть эмпатических или зеркальных отношений, возникающих между представителями одного биологического вида».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

В рамках предварительных исследований команда Мура создала гуманоидного робота АLPHA REX, использующего принципы PRESENSE для решения относительно простой задачи по синхронизации своих действий с действиями человека. Робот показал вполне достойные результаты.

Если человек произносит «раз, два» с регулярными интервалами, робот начинает хлопать в ладоши. Очень простая цепь контроля заставляет робота менять темп хлопков до тех пор, пока он не совпадет с темпом человеческой речи. Высокая степень синхронизации достигается уже на восьмом хлопке — а стандартные методы решения подобной задачи потребовали бы от робота массы сложных логических операций, требующих неизмеримо больших вычислительных мощностей. Поскольку робот действует, основываясь на прогнозе поведения человека, после окончания счета он «по инерции» совершает один лишний хлопок — совсем так, как это сделали бы мы.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Именно способность к оперативной синхронизации, реагированию и прогнозированию, продемонстрированная роботом АLPHA REX (пускай на очень примитивном уровне) является краеугольным камнем модели PRESENCE. Как поясняет Роджер Мур, речь идет не сколько о распознавании речи, сколько о новом методе взаимодействия машины и человека.

Что касается конкретных сроков широкого внедрения языковых интерфейсов, Мур отмечает следующее: «Языковые интерфейсы смогут конкурировать с традиционными устройствами ввода не ранее, чем их способность распознавать речь достигнет половины от того уровня, который демонстрируют сами люди. Сегодня их уровень примерно в 5 раз ниже этого минимума. Сколько времени понадобится им, чтобы ликвидировать этот разрыв? Если нам удастся поддерживать те же темпы развития, что наблюдались в течение последнего десятилетия — около 20 лет».

В то же время, другие исследователи видят будущее нашего взаимодействия с компьютерами в виде нейросетей («По образу и подобию»), а некоторые разрабатывают интерфейс, способный непосредственно воспринимать «мысли» («Мыслю — следовательно, управляю»).