Более 2000 африканских языков остаются практически не представленными в эпоху искусственного интеллекта. ChatGPT, например, распознает лишь 10-20% предложений на языке хауса, на котором говорят 94 миллиона жителей Нигерии. Проблема кроется в нехватке обучающих данных для больших языковых моделей.
Искусственный интеллект получит ударный курс африканских языков


Исследователи из проекта African Next Voices решили исправить эту ситуацию, создав масштабную инициативу по сбору языковых данных. Они записали 9000 часов речи носителей различных африканских языков и преобразовали записи в цифровые наборы данных, готовые для использования в ИИ.
Когда ИИ заговорит с Африкой

Проект охватывает 18 языков в трех странах: Южной Африке, Кении и Нигерии. Участников просили описывать изображения, чтобы получить образцы повседневной речи. Полученные записи затем транскрибировались и переводились людьми с последующей проверкой качества.
Особое внимание уделялось созданию локализованных наборов данных для ключевых секторов развития — здравоохранения, сельского хозяйства и образования. Данные будут доступны в открытом доступе для разработчиков, создающих системы преобразования речи в текст и автоматического перевода.
Фонд Гейтса выделил на проект 2,2 миллиона долларов. Первая партия данных уже выпущена, остальные материалы по всем 18 языкам станут доступны в этом году вместе с методологией исследования для тех, кто захочет продолжить эту работу.