Американская Google представила новую ИИ-модель Gemini 2.5 Computer Use. Она дает возможность ИИ-агентам взаимодействовать с сайтами и интерфейсами так, как это делал бы обычный человек.
Google представила Gemini 2.5 Computer Use: ИИ-модель для работы с сайтами

Что умеет ИИ-модель Gemini 2.5 Computer Use
Новая ИИ-модель может выполнять широкий набор действий в браузере, включая клики, ввод текста, скроллинг, наведение курсора мыши, открытие выпадающих списков и навигацию по URL-адресам. Она построена на возможностях визуального восприятия и рассуждения Gemini 2.5 Pro. При этом в Google уточняют, что Gemini 2.5 Computer Use превосходит конкурирующие решения по целому ряду параметров.

В отличие от классических ИИ-моделей, использующих API, разработка Google обрабатывает скриншоты веб-интерфейсов, генерируя в ответ определенные действия. Gemini 2.5 Computer Use поддерживает 13 различных действий и лучше всего работает с браузерами. Компания пока не оптимизировала эту ИИ-модель для использования на уровне задач для десктопных операционных систем.

Несколько команд Google уже используют модель для тестирования интерфейсов и автоматизации задач на платформах Search и Firebase. Что касается сторонних разработчиков, то они уже могли опробовать Gemini 2.5 Computer Use для создания средств автоматизации рабочего процесса и вспомогательных инструментов.
Когда выйдет ИИ-модель Gemini 2.5 Computer Use
Gemini 2.5 Computer Use уже доступна разработчикам на платформах Google AI Studio и Vertex AI, а ее публичная демонстрационная среда имеется в виртуальном браузере Browserbase.