В декабре 2025 года американские исследователи представили подход, где игру D&D используют как бенчмарк. Умеют ли ИИ-модели планировать на несколько шагов вперед, соблюдать ограничения, помнить контекст и координироваться с партнерами.
Помогли Подземелья и дракон! Ученые проверили, как ИИ и люди работают вместе
Исследователи нашли неожиданный полигон для проверки «командной работы» человека и ИИ: Dungeons & Dragons (D&D). Игра «Подземелья и драконы» одновременно держится на строгих правилах и требует творчества — то, на чем языковые модели часто спотыкаются в реальной жизни.

Unsplash
И главное: с кем лучше - ИИ или людьми.
ИИ в Dungeons & Dragons и тест работы человека и ИИ
- В новой научной статье использовали платформу D&D Agents.
- Один ИИ мог быть Dungeon Master — ведущим, который управляет сюжетом и «играет» за монстров, — а также участником команды героев.
- Роли можно было распределять по-разному: например, ведущий-ИИ и смешанная группа из людей и моделей среди 4 героев.
Тесты не моделировали целую кампанию: исследователи взяли боевые столкновения из готового приключения Lost Mine of Phandelver.
- Для эксперимента выбирали один из 3 сценариев, набор персонажей и уровень их силы (низкий, средний, высокий).
Каждый эпизод длился 10 ходов, после чего собирали метрики.
Через симуляцию прогнали три ИИ-модели: DeepSeek-V3, Claude Haiku 3.5 и GPT-4.
Ученые смотрели, как они принимают решения, используют ресурсы (заклинания, способности, зелья) и ведут бой в сложных условиях.
- В итоге Claude Haiku 3.5 показала лучшую эффективность, особенно в трудных сценариях: она чаще «сжигала» доступные ресурсы ради победы. GPT-4 была рядом, а DeepSeek-V3 чаще проигрывала.
Отдельно оценивали «актерское качество» — насколько модель держит роль и различает голоса. DeepSeek-V3 давала много коротких реплик от первого лица, но часто повторяла один и тот же тон.
- Claude Haiku 3.5 точнее подстраивала стиль под класс героя или тип монстра. GPT-4 заняла промежуточную позицию, смешивая ролевую речь и мета-тактику.
Авторы исследования считают: подобные тесты помогают понять, может ли ИИ работать автономно долго, оставаясь связным и надежным.
Следующий шаг — полноценные кампании, где важны не только бои, но и импровизация.

