Alibaba представила GUI-Owl и Mobile-Agent-v3: умные агенты для автоматизации интерфейсов

Почему GUI-агенты важны

Графические интерфейсы остаются основным способом взаимодействия с приложениями на мобильных, настольных и веб-платформах. Традиционная автоматизация опирается на хрупкие скрипты и ручные правила, которые легко ломаются при изменениях интерфейса. Новые визуально-языковые модели позволяют создавать агентов, которые видят экран, понимают задачу, планируют шаги и выполняют действия целиком.

GUI-Owl: единая мультимодальная политика

GUI-Owl создавался как end-to-end мультимодальная модель, инициализированная от Qwen2.5-VL и дополнительно обученная на разнообразных данных взаимодействия с GUI. Вместо раздельных модулей для восприятия, планирования и исполнения, GUI-Owl объединяет заземление элементов, рассуждение, планирование и действия в одной нейросети. Это обеспечивает явное многократное рассуждение и согласованные решения в динамичных интерфейсах.

Ключевые возможности:

Поиск и заземление UI-элементов по естественным запросам
Разбиение сложных инструкций на выполнимые шаги
Понимание семантики действий и их влияния на состояние интерфейса
Дообучение через сочетание супервизированного обучения и RL с фокусом на успешное выполнение задач

Mobile-Agent-v3: координация специализированных агентов

Mobile-Agent-v3 использует GUI-Owl как ядро и координирует несколько ролей для выполнения длинных многозадачных сценариев. Фреймворк разбивает задачу на подцели, динамически обновляет план и сохраняет контекст. Главные роли:

Manager: декомпозирует инструкцию и обновляет план
Worker: выполняет актуальную подцель в текущем состоянии интерфейса
Reflector: оценивает результат действия и генерирует диагностическую обратную связь
Notetaker: сохраняет важный контекст, например коды или учетные данные

Такая организация повышает устойчивость на многозадачных и ошибко-емких сценариях за счет отражения, восстановления и памяти.

Пайплайн обучения и генерации данных

Проблема для GUI-агентов — масштабные качественные данные. Команда разработала саморазвивающийся пайплайн данных:

Генерация запросов: DAG с аннотациями моделирует навигацию и слоты ввода; LLM синтезирует естественные инструкции
Генерация траекторий: агенты взаимодействуют с виртуальными средами (Android, Ubuntu, macOS, Windows) и создают последовательности действий и состояний
Оценка корректности траекторий: двухуровневая система критиков проверяет шаги и всю траекторию с использованием мультимодального рассуждения и консенсуса
Синтез подсказок и итеративное обучение: успешные траектории генерируют пошаговые подсказки и добавляются в обучающую выборку

Также команда синтезирует задачи по заземлению из деревьев доступности и скриншотов, дистиллирует знание планирования из исторических траекторий и больших LLM, и генерирует данные по семантике действий через сравнение скриншотов «до» и «после».

Усиленное обучение и TRPO

GUI-Owl дополняют масштабируемым RL-фреймворком с полной асинхронной тренировкой и вводом Trajectory-aware Relative Policy Optimization (TRPO). TRPO распределяет заслугу по длинным и переменной длины последовательностям действий, что критично для задач с разреженной наградой, где успех виден лишь после завершения всей последовательности.

Результаты на бенчмарках

Модель проверяли на задачах заземления, одноступенчатых решений, вопросов об интерфейсе и полного выполнения задач.

Заземление и понимание UI:

GUI-Owl-7B и GUI-Owl-32B лидируют среди открытых моделей. На MMBench-GUI L2 GUI-Owl-7B набирает 80.49, GUI-Owl-32B достигает 82.97.
На ScreenSpot Pro GUI-Owl-7B получает 54.9, превосходя сопоставимые большие модели.

Одноступенчатые решения и рассуждение:

На MMBench-GUI L1 GUI-Owl-7B показывает 84.5 (easy), 86.9 (medium) и 90.9 (hard).
На Android Control GUI-Owl-7B достигает 72.8, GUI-Owl-32B — 76.6.

Полные многозадачные сценарии:

GUI-Owl-7B получает 66.4 на AndroidWorld и 34.9 на OSWorld.
Mobile-Agent-v3 с ядром GUI-Owl достигает 73.3 и 37.7 соответственно, устанавливая новое открытое состояние искусства.

Интеграция в реальные системы:

GUI-Owl-32B встраивается в другие агентные фреймворки и показывает 62.1% успеха на AndroidWorld и 48.4% на сложной подвыборке OSWorld.

Эти результаты подтверждают широкие возможности заземления и эффективность на длинных сценариях в сочетании с мультиагентной координацией.

Развертывание и набор действий

GUI-Owl поддерживает платформо-специфичные действия: на мобильных устройствах — тап, долгий тап, свайп, ввод текста, системные кнопки и запуск приложений; на десктопе — движение мыши, клики, перетаскивания, прокрутка, ввод с клавиатуры и команды приложений. Действия транслируются в низкоуровневые команды (ADB для Android, pyautogui для десктопа), что упрощает практическое развёртывание.

Агент выполняет прозрачный цикл рассуждения: наблюдение экрана, сжатая история, выбор следующего действия, резюме намерения и выполнение. Явные промежуточные рассуждения облегчают отладку и интеграцию в большие мультиагентные системы.

Значение для автоматизации и исследований

Объединяя восприятие, заземление, рассуждение и действия, а также создав самообучающийся пайплайн, GUI-Owl и Mobile-Agent-v3 делают большой шаг к универсальным автономным GUI-агентам. Открытые результаты модели превосходят многие проприетарные аналоги по ключевым метрикам, открывая практические сценарии для тестирования, автоматизации и помощи пользователю.

Подробности в статье: https://arxiv.org/abs/2508.15144. Репозиторий проекта содержит код, руководства и ноутбуки.