В Китае представили ИИ мощнее DeepSeek: гонка языковых моделей продолжается

Китайская компания Alibaba Cloud представила свою самую продвинутую языковую модель искусственного интеллекта Qwen 2.5-Max, которая, по словам разработчиков, превосходит модель компании DeepSeek.
В Китае представили ИИ мощнее DeepSeek: гонка языковых моделей продолжается
Freepik
В чем заключается инновация и что это значит для отрасли, редакции Techinsider.ru рассказал Иван Гиганов, эксперт по машинному обучению и искусственному интеллекту.

В чем заключается инновация

Модель Alibaba нельзя назвать «моделью рассуждений» (reasoning model), в отличие от ставшей сенсацией на этой неделе DeepSeek-R1. То есть Qwen 2.5-Max не использует «цепочку рассуждений» (chain of thought) для формирования более осмысленных и обоснованных ответов. Поэтому корректнее сравнивать ее с моделями DeepSeek-V3, Llama-3.1 и другими, которые лежат в основе «моделей рассуждений».

ИванГиганов
эксперт по машинному обучению и искусственному интеллекту

Результаты тестирования Qwen 2.5-Max, по сравнению с DeepSeek-V3 и другими моделями, показали следующее.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  • Arena-Hard (предпочтения пользователей): Qwen 2.5-Max набрала 89.4, опередив DeepSeek-V3 (85.5) и Claude 3.5 Sonnet (85.2).
  • MMLU-Pro (задачи уровня высшего образования): Qwen 2.5-Max получила 76.1, немного опередив DeepSeek V3 (75.9), но уступив лидеру Claude 3.5 Sonnet (78.0) и занявшему второе место GPT-4o (77.0).
  • LiveCodeBench (программирование): Qwen 2.5-Max показала 38.7, что примерно соответствует DeepSeek-V3 (37.6), но немного уступает Claude 3.5 Sonnet (38.9).
  • LiveBench (общие возможности решения реальных задачах ИИ): Qwen 2.5-Max заняла первое место с 62.2, обгонав DeepSeek-V3 (60.5) и Claude 3.5 Sonnet (60.3).
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эти данные следует воспринимать с осторожностью: конкретная модель не гарантированно окажется лучшей для конкретной задачи, даже если превосходит все другие в ряде стандартизированных тестов. Тем не менее, тестирование подтверждает, что Qwen 2.5-Max способна конкурировать с ведущими моделями других компаний и потенциально их превосходить.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Языковая модель Qwen 2.5-Max
Языковая модель Qwen 2.5-Max
qwen-ai.com

На чем обучали модель

Как и другие компании, Alibaba не раскрывает источники данных, использованные для обучения Qwen 2.5-Max.

Известно, что модель была предварительно обучена на более чем 20 триллионах токенов — примерно 15 триллионах слов!

Qwen 2.5-Max использует архитектуру Mixture-of-Experts (MoE) – ту же технологию обучения, что и DeepSeek V3. Этот подход позволяет модели масштабироваться, сохраняя при этом разумные вычислительные затраты. Выборочный механизм делает обработку больших объемов данных более эффективной, без чрезмерных затрат вычислительных ресурсов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

После предварительного обучения модель проходит дополнительную настройку с использованием методов Supervised Fine-Tuning (SFT) и Reinforcement Learning from Human Feedback (RLHF). Это означает, что люди тестируют ее и корректируют, помогая становиться точнее.

В отличие от нашумевшей DeepSeek, Alibaba не раскрыла затраты на обучение модели, а также объем использованных вычислительных ресурсов.
обучение языковой модели
Freepik
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как пользоваться моделью

Qwen 2.5-Max не считается моделью с открытым исходным кодом и доступна для использования через платформу Qwen Chat и API на Alibaba Cloud. Пользователи могут взаимодействовать с ней непосредственно через веб-интерфейс или интегрировать ее возможности в свои приложения через API.

Согласно информации на сайте Alibaba Cloud, стоимость использования модели Qwen-Max составляет $10 за 1M входных токенов и $30 за 1M выходных токенов. Для сравнения: GPT-4o стоит $2.5 за 1M входных токенов и $10 за 1M выходных токенов. В свою очередь DeepSeek-V3 на несколько порядков дешевле — $0.14 за 1M входных токенов и $0.28 за 1M выходных токенов.

Пока DeepSeek-V3 оказывается самой дешевой из этих трех моделей, что делает ее привлекательной, особенно для задач, которые требуют обработки больших объемов текста. Но так как Qwen 2.5-Max показывает высокие результаты в тестах, она может быть конкурентоспособной в задачах, где точность важнее цены.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Что новая модель дает рынку и простым пользователям

Для ИИ-индустрии это значит, что, с одной стороны, увеличится конкуренция между компаниями, разрабатывающими ИИ, с другой, потенциально вырастет объем рынка. Все больше клиентов смогут позволить себе внедрение ИИ.

Так как обучение станет дешевле, число стартапов, способных разрабатывать более специализированные модели под конкретные задачи, может возрасти. Рост специализации и разнообразия приведут к снижению доли каждой отдельной крупной компании, например для OpenAI. Этот тренд уже наблюдался в 2024 году, только со стороны крупных облачных провайдеров, расширяющих свое предложение и долю рынка. Снижение барьеров для входа на рынок (стоимость ресурсов для обучения) лишь ускорит тренд, но со стороны новых специализированных игроков.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Что касается бизнеса и простых людей, то ИИ-инструменты станут более доступными. Конечные пользователи смогут «жонглировать» моделями, подбирая лучший вариант под решение той или иной задачи.

гонка ИИ между Китаем и США
Freepik

Станет ли Китай первым в гонке ИИ

Запуски DeepSeek и Qwen 2.5-Max показывают прогресс Китая в области искусственного интеллекта и способность китайских компаний разрабатывать модели, сопоставимые с аналогами из США и даже превосходящие их.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но пока преждевременно говорить о победителе в этой гонке, так как на конкурентоспособность будет влиять множество факторов. В настоящий момент США доминируют в производстве более продвинутых чипов, тогда как Китай производит в разы больше электроэнергии, необходимой для масштабирования ИИ-дата-центров. Обе страны понимают, что ИИ и роботизация будут определять конкурентоспособность экономики в ближайшем будущем, поэтому инвестируют в инфраструктуру и развитие таких технологий.

Однако события этой недели показали, что ограничения доступа к самым продвинутым ИИ-чипам не гарантируют победу в ИИ-конкуренции. Если заявленная стоимость обучения модели DeepSeek, а также отсутствие доступа к новейшим чипам NVIDIA при ее обучении подтвердятся, это докажет, что количество и мощность чипов не являются достаточным условием для удержания технологического разрыва.

Более того, нельзя утверждать, что только китайские компании могут добиваться прорывов в снижении стоимости обучения ИИ-моделей. Всего за неделю до выхода модели DeepSeek команда из лаборатории Sky Computing при университете UC Berkeley представила «модель рассуждений», обучение которой обошлось менее чем в $450. Несмотря на низкую стоимость, она показала впечатляющие результаты. Так что появление барьеров, вроде высокой стоимости или отсутствия ИИ-чипов, только стимулирует исследователей и стартапы искать пути их преодоления.

В будущем нас могут ждать и другие прорывы, которые полностью перевернут правила, еще вчера казавшиеся непреложными.