Новое исследование охватило 44 профессии в девяти отраслях, которые дают наибольший вклад в экономику США. В их числе юристы, бухгалтеры, инженеры, медсестры и риелторы. Всего было разработано 1320 заданий, основанных на реальных рабочих кейсах.
ИИ от OpenAI уже может выполнять работу юристов и медсестер


Как ИИ от OpenAI может заменить людей
Новый тест GDPval стал логичным продолжением ряда более узких тестов — от MMLU с академическими заданиями до SWE-Lancer с реальными заказами на фрилансе.
- В отличие от них, GDPval ориентирован на прикладные и экономически значимые задачи. Каждое задание создавалось опытными специалистами с в среднем 14-летним стажем и проходило многоступенчатую проверку.
Тест показал впечатляющие результаты. В «слепых» сравнениях лучшие ИИ-модели сопоставлялись с работами экспертов.
- Например, Claude Opus 4.1 чаще выигрывал за счет качества оформления, а GPT-5 оказался сильнее в точности и знании предмета.
- В целом ИИ выдавал результаты на уровне или лучше профессионалов почти в половине заданий.
- При этом скорость и стоимость выполнения задач моделями оказались в сотни раз ниже, чем у людей.
Тем не менее, авторы подчеркивают ограничения. GDPval оценивает работу в «один заход» и не учитывает ситуации, когда специалист должен возвращаться к задаче, уточнять данные или вносить правки.
Несмотря на результаты, значение теста очевидно. Он показывает, что ИИ уже способен разгружать специалистов от рутинных операций, оставляя им больше пространства для анализа, креативности и сложных решений. Если развитие пойдет дальше по этому пути, экономический эффект может быть сопоставим с внедрением интернета или смартфонов, — заключают эксперты.