UltraCUA: гибридная модель для агентов, сочетающая клики с программными вызовами

Что такое UltraCUA

UltraCUA — это фундаментальная модель для агентов, работающих с компьютером, которая сочетает низкоуровневые GUI-примитивы (клики, нажатия клавиш, прокрутка) с высокоуровневыми программными вызовами инструментов. Вместо длинных цепочек примитивных действий модель использует гибридное пространство действий, где один вызов инструмента инкапсулирует многошаговую операцию с понятной сигнатурой и докстрингом. Когда программный путь доступен и выгоднее, модель выбирает его; в противном случае агент возвращается к работе с GUI.

Почему нужен гибридный подход

Переход на инструменты как первоклассные действия сокращает каскадные ошибки, которые накапливаются в длинных последовательностях примитивов. Вызов инструмента действует как единичный атомарный шаг, скрывающий сложную навигацию по интерфейсу, а клики и нажатия остаются доступными для задач без программного пути. Модель учится чередовать оба режима и выбирать наиболее надежное и экономичное действие в каждом моменте.

Масштабирование библиотеки инструментов

UltraCUA создает масштабируемую библиотеку инструментов через автоматизированный конвейер. Система извлекает сочетания клавиш и команды из документации программ, интегрирует открытые реализации из тулкитов агентов и использует кодирующих агентов для синтеза новых инструментов. Каждый инструмент оборачивается в вызываемый интерфейс, который заменяет длинную GUI-последовательность. В отчете указано покрытие по 10 десктопным доменам с 881 инструментом: 135 для VS Code, 123 для LibreOffice Writer, а также глубокое покрытие для Thunderbird и GIMP.

Синтетические задачи и проверяемые траектории

Для обучения требовалась заземленная супервизия и стабильные награды, поэтому исследователи создали двойной синтетический движок. Один pipeline комбинирует атомарные верификаторы для браузеров, файлов, изображений и состояния системы и генерирует задачи, удовлетворяющие этим проверкам. Другой pipeline исследует ОС и предлагает контекстные задачи, которые затем проходят верификацию. В результате получено 17 864 проверяемых задачи по 10 доменам, включая Chrome, LibreOffice, GIMP, VS Code, Thunderbird, VLC и мультиприложенческие сценарии. Chrome содержит 2 826 задач, LibreOffice суммарно 5 885, а мультиприложенческих задач 2 113.

Роллауты и супервизионные данные

Многоагентный роллаут генерирует успешные гибридные траектории. Планировщик использует OpenAI o3 для принятия решений, а grounder — GTA1-7B для визуальной локализации. Роллаут дал примерно 26.8K успешных траекторий, показывающих, когда вызвать инструмент, а когда действовать через GUI. Эти траектории составляют основу супервизионной фазы.

Двухэтапное обучение

Обучение проходит в два этапа. Этап 1 — супервизионная донастройка на успешных гибридных траекториях: модели тренируются 3 эпохи с learning rate 2e-5 и используют покомандную потерю, чтобы не перекосить вес ранних шагов. Этап 2 — онлайн обучение с подкреплением: модели тренируются 150 шагов при learning rate 1e-6 на верифицированных задачах, отобранных по сложности. Оптимизация политики следует варианту GRPO с более высоким clip, убираются KL-регуляризация и форматные награды. Награда сочетает разреженный итог задачи с термом использования инструмента. Эксперименты проводились на NVIDIA H100, контекст поддерживали около 32K путем ограничения числа доступных инструментов.

Результаты на OSWorld и экономия шагов

UltraCUA демонстрирует стабильные улучшения по сравнению с GUI-only и другими базовыми моделями на масштабах 7B и 32B. При бюджете в 15 шагов UltraCUA-32B достигает 41.0% успеха против 29.7% у OpenCUA-32B — абсолютный прирост 11.3 пункта. UltraCUA-7B показывает 28.9% против 23.4% у UI-TARS-1.5-7B. Преимущества сохраняются при больших бюджетах и во многих доменах, включая Chrome, Writer и VS Code. Среднее число шагов уменьшается по сравнению с базовыми моделями, что указывает на более качественный выбор действий.

Кроссплатформенная генерализация

Хотя обучение проводилось только на данных OSWorld на базе Ubuntu, UltraCUA демонстрирует перенос на WindowsAgentArena без дообучения. UltraCUA-7B достигает 21.7% успеха на WindowsAgentArena, опережая UI-TARS-1.5-7B с 18.1% и Qwen2, обученный на Windows-данных, с 13.5%. Это свидетельствует о нулевом шот-переносе политик гибридных действий.

Зачем это важно

UltraCUA формализует практический мост между универсальными GUI-агентами и инструментно-ориентированными решениями, позволяя одной политике чередовать программные вызовы и GUI-примитивы. Автоматизированный конвейер инструментов и синтетический движок задач обеспечивают заземленные данные для супервизионной донастройки и онлайн RL, что приводит к измеримым улучшениям надежности и эффективности на бенчмарках десктопной автоматизации.