<НА ГЛАВНУЮ

Борьба агентов: как Google, OpenAI и Anthropic строят автономных AI-исполнителей

'Короткий разбор того, как Google, OpenAI и Anthropic формируют agentic AI для бизнеса, с бенчмарками и практическими советами по развёртыванию.'

Google, OpenAI и Anthropic соревнуются в превращении agentic AI в продуктивные решения для восприятия, вызова инструментов, оркестрации и управления. У каждого вендора своя стратегия: OpenAI делает ставку на программистский субстрат, Google — на корпоративное управление и интеграцию, Anthropic — на человеко-центрированный подход и быстрый билд внутренних приложений.

Подход OpenAI: программируемый субстрат

OpenAI связывает три ключевых компонента: Computer-Using Agent (CUA) для управления GUI, Responses API как единый интеграционный интерфейс и AgentKit для жизненного цикла агентов. CUA сочетает в себе зрение и политики, обученные с подкреплением, чтобы выполнять действия на экране — мышь и клавиатура — и стремится обобщаться на web и desktop задачи. Responses объединяет чат, использование инструментов, состояние и мультимодальность в одном эндпойнте. AgentKit предоставляет визуальные конструкторы, коннекторы, хуки для оценки и встраиваемые UI.

Риски и эксплуатация OpenAI

Независимые проверки выявляют хрупкость автоматизаций: ненадежные DOM-таргеты, потеря фокуса окна и проблемы восстановления при изменении макета. Командам стоит внедрять ретраи, стабилизировать селекторы и ставить рискованные шаги под ручной контроль. Проверяйте GUI-задачи с помощью OSWorld и держите надежный раннер для экспериментов с CUA.

Корпоративная стратегия Google

Google позиционирует Gemini 2.0 и проект Astra как слой для восприятия и низкой задержки, а Vertex AI Agent Builder как control plane на GCP для оркестрации агентов. Gemini Enterprise задуман как управляемая точка входа с централизацией политик, видимостью и контекстом между Workspace и Microsoft 365, а также коннекторами для CRM и ERP.

Пользовательская поверхность и соответствие бизнесу

Google выносит агентные функции в пользовательские сценарии через Agent Mode и Project Mariner. Это одновременно тестовая площадка для паттернов безопасности интерфейса и источник данных для ограждений. Если важна централизованная политика, видимость флота агентов и интеграция с корпоративными наборами, то предложение Google наиболее предписывающее.

Anthropic: человек в петле и быстрый билд приложений

Anthropic сочетает Computer Use с системой Artifacts — канвой, которая превратилась в площадку для создания, размещения и шаринга интерактивных мини-приложений. Computer Use имитирует курсор и клавиатуру при осторожной поэтапной раскатке. Artifacts позволяет быстро прототипировать приложения, которые вызывают Claude по API и публиковать их с отдельной моделью биллинга для пользователей.

Операционная позиция Anthropic

Anthropic делает акцент на безопасном, управляемом расширении возможностей с контролем со стороны человека. Это подходит командам, которые хотят быстрые итерации с явными контрольными точками и меньшими операционными издержками.

Важные бенчмарки

  • Вызов функций и инструментов: BFCL V4 измеряет многошаговое планирование, маршрутизацию инструментов и глюкообразование. Используйте для оценки качества оркестрации инструментов.
  • Компьютерное/GUI использование: OSWorld предлагает execution-based тесты по сотням задач и является практическим минимумом для оценки GUI-агентов.
  • Разговорные агенты с инструментами: τ-Bench и τ²-Bench моделируют правила домена и сценарии с двойным контролем пользователя и агента.
  • Инженерные ассистенты: выбирайте SWE-Bench Verified или Pro для полноценных инженерных задач.

Сравнительные выводы

  • OpenAI: программируемый субстрат с единым API (Responses), инструментарием жизненного цикла (AgentKit) и контроллером GUI (CUA). Подходит командам, готовым управлять раннерами и пайплайнами оценки.
  • Google: управляемая корпоративная платформа с Vertex AI Agent Builder и Gemini Enterprise для политик и видимости. Подходит для централизованного IT-управления и широких корпоративных интеграций.
  • Anthropic: человеко-центрированный путь с Computer Use и Artifacts для быстрых внутренних приложений. Подходит для быстрой прототипизации с контролируемыми точками проверки.

Практические рекомендации по внедрению

  1. Закрепите раннер перед выбором модели: поддерживайте стабильные execution harness, селекторы и настройки ОС при итерации по моделям и промптам.
  2. Определите, где живёт управление: Google для централизованного управления флотом, OpenAI для программируемого субстрата с вашей интеграцией политик, Anthropic для продуктовых чекпоинтов и ручной валидации.
  3. Проектируйте под сбои GUI и восстановление: ретраи, проверки текущей страницы и блокировки необратимых действий помогут снизить влияние дрейфа селекторов и потери фокуса.
  4. Оптимизируйтесь под стиль итерации: Anthropic для быстрых прототипов, OpenAI для программируемых pipeline и хостинга инструментов, Google для IT-управляемых развертываний в масштабе.

Коротко о каждом вендоре

  • OpenAI: хорош для команд разработчиков, готовых делать операцию и оценку самостоятельно; тестируйте GUI на OSWorld и диалоги на τ-Bench.
  • Google: наиболее целостное решение для корпоративного управления и кросс-сервисного контекста; верифицируйте на BFCL и OSWorld перед масштабированием.
  • Anthropic: практичный путь с человеческими контрольными точками и быстрыми внутренними приложениями; проверяйте policy adherence и GUI надежность на τ-Bench и OSWorld.

Редакционная мысль

Ландшафт agentic AI в 2025 году уже разделён на три стратегии. Побеждает не только лучшая модель, а платформа, которая решает реальные проблемы внедрения и эксплуатации в организациях.

🇬🇧

Switch Language

Read this article in English

Switch to English