Ошибочные машинные переводы забивают интернет словесным мусором

Исследователи из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре собрали в интернете более 6 миллиардов предложений. Ученые показали, что более половины из случайно выбранных предложений являются переводами с одного языка на другой, и эти переводы часто содержат грубые ошибки. Сильнее всего от неточностей страдают языки, мало представленные в интернете.
Ошибочные машинные переводы забивают интернет словесным мусором
Человек, идущий среди языковых обломков. Конструктор изображений DALLE-3
В конце прошлого века Билл Гейтс увидел перспективу взаимопонимания граждан почти 200 стран, говорящих на более чем 7000 языков: «Интернет становится главной площадью нашей глобальной деревни». Но оказалось, что на этой площади слышно не всех.

Интернет, безусловно, сделал людей ближе и неизмеримо обогатил глобальные коммуникации, торговлю, исследования и развлечения. Но новая работа напоминает нам, что вместе с прогрессом приходят и проблемы.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи из лаборатории искусственного интеллекта Amazon Web Services и Калифорнийского университета в Санта-Барбаре собрали более 6 миллиардов предложений в сети. Ученые показали, что более половины из случайно выбранных предложений являются переводами с одного языка на другой, и эти переводы часто содержат грубые ошибки и неточности. Многие переводы являются многошаговыми (таких шагов ученые находили иногда до восьми-девяти). С каждым последующим переводом на новый язык, результаты становятся все хуже.

Работа получила не вполне академическое название: «Шокирующее количество онлайновых машинных переводов».

«Низкое качество этих переводов указывает на то, что они, вероятно, были созданы с использованием машинного перевода без участия человека», — сообщают авторы. — «Результат нашей работы вызывает серьезные опасения по поводу обучения Больших языковых моделей на многоязычных данных, собранных в Интернете».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

ИИ-моделям не на чем учиться

Интеренет превращается в груду словесного мусора
Интеренет превращается в груду словесного мусора
Конструктор изображений DALLE-3.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи заявили, что тексты не только переводятся искусственным интеллектом, но и создаются с помощью ИИ.

Ученые заметили, что по мере того, как триллионы бит данных обрабатываются для операций по обучению ИИ, языки, недостаточно представленные в сети, например, языки африканских стран, столкнутся с серьезными проблемами в создании надежных переводчиков, основанных на больших языковых моделях. Поскольку ресурсов на таких языках создано мало, языковые модели в значительной степени обучатся на неточных переводах, выполненных ИИ. А таких переводов становится все больше и больше с каждым днем и каждым часом.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Мехак Даливал, соавтор работы говорит: «На самом деле мы заинтересовались этой темой, потому что несколько коллег, которые занимаются машинным обучением и являются носителями редких языков, отметили, что большая часть интернет-ресурсов на их родных языках, похоже, создана с помощью машинного перевода или сгенерирована ИИ. Мы должны предупредить, что необходимо помнить: контент, который вы просматриваете в сети, мог быть создан машиной, — рука человека его даже касалась».

Машинный перевод превращается в разбитое зеркало
Машинный перевод превращается в разбитое зеркало
DALLE-3
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые подчеркнули: «Машинно-генерируемые переводы не только доминируют в общем объеме переводного контента, но более того — они составляют значительную часть всего онлайн-контента на этих языках». Точность материала, сгенерированного ИИ, существенно ниже, чем у оригинальных текстов. Но именно на нем будут продолжать обучаться языковые модели, а это ведет к дальнейшему снижению точности и повышает вероятность галлюцинаций ИИ.

Ученые привели такой пример. Они взяли английскую фразу: «You can take over-the-counter ibuprofen as needed for pain». Ее перевод на русский, выполненный Google Translator, вполне удовлетворительный: «При необходимости от боли вы можете принимать ибупрофен, отпускаемый без рецепта». Но русский язык очень широко представлен в интернете и доступен для обучения ИИ-моделей. А вот перевод на армянский сильно озадачил: «От боли при необходимости можно брать противотанковую ракету» («You may take anti-tank missile as much as you need for pain»). Даже трудно сказать, что имелось ввиду. А на таких текстах учатся Большие языковые модели.