ИИ от OpenAI уже может выполнять работу юристов и медсестер

Компания OpenAI представила новый тест GDPval, который оценивает, как ИИ справляется с реальными профессиональными задачами — от написания юридических заключений до составления медицинских планов ухода. Результаты показали: модели приблизились к уровню работы экспертов.
Юрий Гандрабура
Юрий Гандрабура
Журналист-переводчик
ИИ от OpenAI уже может выполнять работу юристов и медсестер
Unsplash

Новое исследование охватило 44 профессии в девяти отраслях, которые дают наибольший вклад в экономику США. В их числе юристы, бухгалтеры, инженеры, медсестры и риелторы. Всего было разработано 1320 заданий, основанных на реальных рабочих кейсах.

Эксперты оценивали, может ли ИИ создавать документы, презентации или отчеты не хуже профессионалов.
Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Как ИИ от OpenAI может заменить людей

Новый тест GDPval стал логичным продолжением ряда более узких тестов — от MMLU с академическими заданиями до SWE-Lancer с реальными заказами на фрилансе.

  • В отличие от них, GDPval ориентирован на прикладные и экономически значимые задачи. Каждое задание создавалось опытными специалистами с в среднем 14-летним стажем и проходило многоступенчатую проверку.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Тест показал впечатляющие результаты. В «слепых» сравнениях лучшие ИИ-модели сопоставлялись с работами экспертов.

  1. Например, Claude Opus 4.1 чаще выигрывал за счет качества оформления, а GPT-5 оказался сильнее в точности и знании предмета.
  2. В целом ИИ выдавал результаты на уровне или лучше профессионалов почти в половине заданий.
  3. При этом скорость и стоимость выполнения задач моделями оказались в сотни раз ниже, чем у людей.
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Тем не менее, авторы подчеркивают ограничения. GDPval оценивает работу в «один заход» и не учитывает ситуации, когда специалист должен возвращаться к задаче, уточнять данные или вносить правки.

Кроме того, в реальной практике многие профессии связаны с неопределенностью, коммуникацией и принятием решений, что пока сложно для ИИ.

Несмотря на результаты, значение теста очевидно. Он показывает, что ИИ уже способен разгружать специалистов от рутинных операций, оставляя им больше пространства для анализа, креативности и сложных решений. Если развитие пойдет дальше по этому пути, экономический эффект может быть сопоставим с внедрением интернета или смартфонов, — заключают эксперты.