Что такое Smol2Operator

Hugging Face выпустил Smol2Operator, полностью открытый и воспроизводимый рецепт, который превращает небольшую модель зрение-язык (VLM), изначально не обученную работе с интерфейсами, в агента, способного управлять графическими интерфейсами и использовать инструменты. В релиз входят утилиты трансформации данных, скрипты обучения, преобразованные датасеты и чекпойнт модели на 2.2B параметров. Авторы представляют это как полный план для создания GUI-агентов с нуля.

Двухфазный подход к обучению

Smol2Operator использует двухфазную стратегию supervised fine-tuning (SFT) для SmolVLM2-2.2B-Instruct:

Фаза 1: Восприятие и привязка к элементам интерфейса. Модель учат локализовать элементы UI и распознавать базовые аффордансы на скриншотах. Для оценки локализации элементов используется ScreenSpot-v2.
Фаза 2: Агентное рассуждение. После освоения привязки проводится дополнительная SFT, чтобы научить модель планировать шаги и выдавать пошаговые действия в согласии с унифицированным API действий.

Разделение помогает сначала получить надёжное восприятие, а затем добавить планирование и использование инструментов без смешивания целей обучения.

Унифицированное пространство действий

Ключевая идея релиза — конвертер пространства действий, который нормализует разнородные таксономии действий GUI из мобильных, десктопных и веб-источников в единый API. Действия вроде click, type и drag представлены с нормализованными параметрами, например координаты приведены к диапазону [0,1]. Пайплайн также стандартизирует имена параметров, удаляет избыточные действия и конвертирует пиксельные координаты в нормализованные.

Такая унификация снижает инженерные затраты при объединении разных датасетов и делает обучение устойчивым к изменению размера изображений на этапе предобработки VLM.

Стек обучения и путь данных

Предоставляемый стек фокусируется на стандартизации данных и воспроизводимом обучении:

Разбор и нормализация вызовов функций из исходных датасетов, например этапов AGUVIS, в единый набор сигнатур.
Очистка последовательностей действий: удаление избыточности и гармонизация названий параметров.
Конвертация пиксельных координат в нормализованные значения для совместимости разрешений.
Применение SFT Фазы 1 для восприятия и привязки, затем SFT Фазы 2 для планирования и генерации действий, согласованных с унифицированным API.

Команда Hugging Face отмечает стабильный рост качества на ScreenSpot-v2 в процессе обучения привязки и показывает, что метод переносим до ~460M nanoVLM, что говорит о масштабируемости подхода.

Область применения, ограничения и дальнейшие шаги

Авторы позиционируют Smol2Operator как методологию процесса, а не как гонку за рекордами лидербордов. Текущая оценка сосредоточена на метриках восприятия ScreenSpot-v2 и качественных демонстрациях end-to-end. Более широкие кросс-средовые и кросс-ОС бенчмарки, задачи с длительной горизонтом и адаптация на политике с помощью RL или DPO запланированы как дальнейшие направления.

Дорожная карта ScreenEnv включает расширение покрытия ОС, таких как Android, macOS и Windows, что повысит внешнюю валидность обучаемых политик.

Ресурсы и воспроизводимость

Smol2Operator поставляется с преобразованными датасетами на базе AGUVIS, ноутбуками обучения, кодом предобработки, итоговым чекпойнтом на 2.2B и демонстрационной Space. Релиз делает упор на прозрачность и переносимость, снижая инженерный порог для команд, которые хотят воспроизвести или адаптировать GUI-агентов на базе малых VLM.

Для технических деталей, датасетов и демонстраций см. страницы проекта Hugging Face и связанные репозитории, упомянутые в релизе.