Помогли Подземелья и дракон! Ученые проверили, как ИИ и люди работают вместе

Исследователи нашли неожиданный полигон для проверки «командной работы» человека и ИИ: Dungeons & Dragons (D&D). Игра «Подземелья и драконы» одновременно держится на строгих правилах и требует творчества — то, на чем языковые модели часто спотыкаются в реальной жизни.
Юрий Гандрабура
Юрий Гандрабура
Журналист-переводчик
Помогли Подземелья и дракон! Ученые проверили, как ИИ и люди работают вместе
Unsplash

В декабре 2025 года американские исследователи представили подход, где игру D&D используют как бенчмарк. Умеют ли ИИ-модели планировать на несколько шагов вперед, соблюдать ограничения, помнить контекст и координироваться с партнерами.

И главное: с кем лучше - ИИ или людьми.
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

ИИ в Dungeons & Dragons и тест работы человека и ИИ

  1. В новой научной статье использовали платформу D&D Agents.
  2. Один ИИ мог быть Dungeon Master — ведущим, который управляет сюжетом и «играет» за монстров, — а также участником команды героев.
  3. Роли можно было распределять по-разному: например, ведущий-ИИ и смешанная группа из людей и моделей среди 4 героев.

Тесты не моделировали целую кампанию: исследователи взяли боевые столкновения из готового приключения Lost Mine of Phandelver.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
  • Для эксперимента выбирали один из 3 сценариев, набор персонажей и уровень их силы (низкий, средний, высокий).
Каждый эпизод длился 10 ходов, после чего собирали метрики.

Через симуляцию прогнали три ИИ-модели: DeepSeek-V3, Claude Haiku 3.5 и GPT-4.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ученые смотрели, как они принимают решения, используют ресурсы (заклинания, способности, зелья) и ведут бой в сложных условиях.

  • В итоге Claude Haiku 3.5 показала лучшую эффективность, особенно в трудных сценариях: она чаще «сжигала» доступные ресурсы ради победы. GPT-4 была рядом, а DeepSeek-V3 чаще проигрывала.

Отдельно оценивали «актерское качество» — насколько модель держит роль и различает голоса. DeepSeek-V3 давала много коротких реплик от первого лица, но часто повторяла один и тот же тон.

  • Claude Haiku 3.5 точнее подстраивала стиль под класс героя или тип монстра. GPT-4 заняла промежуточную позицию, смешивая ролевую речь и мета-тактику.

Авторы исследования считают: подобные тесты помогают понять, может ли ИИ работать автономно долго, оставаясь связным и надежным.

Следующий шаг — полноценные кампании, где важны не только бои, но и импровизация.