Искусственный интеллект получит ударный курс африканских языков

Ученые из университетов Кении, Нигерии и ЮАР в рамках проекта African Next Voices записали 9000 часов речи на 18 африканских языках и создали крупнейшую базу данных для обучения искусственного интеллекта местным языкам континента.
Владимир Губайловский
Владимир Губайловский
Искусственный интеллект получит ударный курс африканских языков
Продавец DVD-дисков на языке хауса на рынке в Кано, северная Нигерия. Ben Curtis/AP Photo via Alamy
Собранные данные будут использоваться разработчиками для обучения и адаптации больших языковых моделей под африканские языки. Это включает создание систем преобразования речи в текст, автоматического перевода и диалоговых систем. Технологические компании смогут улучшать существующие модели или создавать новые на основе этих локализованных наборов данных.

Более 2000 африканских языков остаются практически не представленными в эпоху искусственного интеллекта. ChatGPT, например, распознает лишь 10-20% предложений на языке хауса, на котором говорят 94 миллиона жителей Нигерии. Проблема кроется в нехватке обучающих данных для больших языковых моделей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Исследователи принимают участие в семинаре по транскрипции записей в Технологическом университете Дедана Кимати в Ньери, Кения. В тренинге участвовали носители языков сомали, кикуйю и масаи.
Исследователи принимают участие в семинаре по транскрипции записей в Технологическом университете Дедана Кимати в Ньери, Кения. В тренинге участвовали носители языков сомали, кикуйю и масаи.
African Next Voices

Исследователи из проекта African Next Voices решили исправить эту ситуацию, создав масштабную инициативу по сбору языковых данных. Они записали 9000 часов речи носителей различных африканских языков и преобразовали записи в цифровые наборы данных, готовые для использования в ИИ.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Когда ИИ заговорит с Африкой

В Кении пожилых матриархов масаи называют «мамами» в знак уважения со стороны остальных членов общины. Это подлинные хранительницы языковой памяти.
В Кении пожилых матриархов масаи называют «мамами» в знак уважения со стороны остальных членов общины. Это подлинные хранительницы языковой памяти.
Mark Williams. https://www.nationalgeographic.com/

Проект охватывает 18 языков в трех странах: Южной Африке, Кении и Нигерии. Участников просили описывать изображения, чтобы получить образцы повседневной речи. Полученные записи затем транскрибировались и переводились людьми с последующей проверкой качества.

Особое внимание уделялось созданию локализованных наборов данных для ключевых секторов развития — здравоохранения, сельского хозяйства и образования. Данные будут доступны в открытом доступе для разработчиков, создающих системы преобразования речи в текст и автоматического перевода.

Фонд Гейтса выделил на проект 2,2 миллиона долларов. Первая партия данных уже выпущена, остальные материалы по всем 18 языкам станут доступны в этом году вместе с методологией исследования для тех, кто захочет продолжить эту работу.