Голосовые помощники в «умных» колонках, смартфонах и других девайсах, как правило, постоянно слушают «эфир», ожидая услышать ключевое слово для активации. После его произнесения они готовы выполнять голосовые команды, но инженеры пытаются найти способ, который бы упростил взаимодействие с голосовыми помощниками, особенно если их несколько. Американские учёные из университета Карнеги-Меллона предложили для этого метод, который позволяет определять направление речи человека при помощи микрофонов.
Голосовых помощников научили понимать направление речи

Принцип работы алгоритма основан на двух особенностях распространения звука при речи. Главная из них заключается в том, что звуки разных частот по-разному распределяются вокруг рта: высокочастотная часть сконцентрирована перед ртом, а по мере удаления снижается. Низкочастотные звуки распределены более равномерно. Таким образом, в записанном микрофоном звуке соотношение низких и высоких частот отличается в зависимости от направления источника звука.
Инженеры использовали это для расчёта направления речи. Алгоритм отдельно рассчитывает мощность колебаний с частотой до семи килогерц и выше, затем проводит быстрое преобразование Фурье и по соотношению мощностей двух диапазонов определяет угол к микрофону, под которым была произнесена речь. Вторая особенность, которую использовали разработчики, заключается в том, что при разговоре в помещении возникает небольшое эхо.
Если человек повёрнут к микрофону, то первый сигнал будет чётким, а за ним могут появиться намного более слабые по интенсивности и чёткости повторения. Если человек повёрнут в другую сторону, то все колебания будут дублироваться и искажаться. Алгоритм анализирует форму сигнала в первые 10 миллисекунд после начала речи и вычисляет величину наибольшего пика интенсивности звука, сравнивает её со средним от остальных пиков за этот временной промежуток и определяет, куда был повёрнут человек.
Алгоритм обучили на записях под разным углом и с разного расстояния. В результате точность определения направления речи достигла 90%. Если алгоритм обучен на конкретном помещении, точность повышается уже до 93%. Учёные отмечают, что это ниже, чем точность, которую пользователи ожидают от штатных функций серийных голосовых помощников, но всё же выше, чем у разработанных ранее методов.