Fara-7B: компактная AI-модель Microsoft для локального управления браузером

Что такое Fara-7B

Microsoft Research выпустила Fara-7B, агентную небольшую языковую модель на 7 миллиардов параметров, созданную для непосредственного использования на компьютере. В отличие от чаториентированных LLM, которые возвращают текст, Fara-7B управляет браузером или десктопным UI, анализируя скриншоты и текстовый контекст. Она предсказывает низкоуровневые действия, такие как клики, набор текста и скролл, что позволяет выполнять задачи вроде заполнения форм, бронирования или сравнения цен локально и с меньшей задержкой.

Как модель взаимодействует со страницами

Модель принимает на вход скриншоты и контекст, рассуждает о расположении элементов на странице, затем генерирует цепочку мыслей и выполняет вызов инструмента с аргументами, привязанными к пиксельным координатам, тексту или URL. Предсказание координат непосредственно в пикселях позволяет работать без доступа к дереву доступности во время инференса. Набор инструментов соответствует интерфейсу Magentic-UI и включает такие действия, как key, type, mouse_move, left_click, scroll, visit_url, web_search, history_back, pause_and_memorize_fact, wait и terminate.

FaraGen: синтетические траектории для обучения

Ключевой узкий момент для агентов, использующих компьютер, — это данные с качественными многошаговыми логами взаимодействия. Проект Fara предлагает FaraGen, движок для синтетической генерации и фильтрации веб-траекторий на живых сайтах. FaraGen использует три этапа:

Task Proposal: из наборов публичных URL генерируются реальные, достижимые и проверяемые задачи, которые не требуют логина или оплаты.
Task Solving: мультиагентная система на базе Magentic-One и Magentic-UI координирует Оркестратора, WebSurfer, который выдает действия через Playwright, и UserSimulator для уточнений.
Trajectory Verification: три LLM верификатора проверяют соответствие намерению, оценивают частичное выполнение по рубрике и инспектируют скриншоты вместе с финальным ответом, чтобы отловить галлюцинации.

После фильтрации FaraGen дал 145 603 траекторий с 1 010 797 шагов по 70 117 уникальным доменам. Траектории варьируются от 3 до 84 шагов, в среднем 6.9 шагов. Генерация подтверждённых траекторий с использованием премиум моделей оценивалась примерно в 1 доллар за траекторию.

Архитектура модели и обучение

Fara-7B — это мультимодальная модель decoder only, основанная на Qwen2.5-VL-7B. Она принимает цель пользователя, свежие скриншоты браузера и историю предыдущих мыслей и действий, с контекстным окном в 128 000 токенов. На каждом шаге модель сначала формирует chain of thought, затем выдает вызов инструмента с аргументами, привязанными к экрану.

Для обучения использовали supervised finetuning на примерно 1.8 миллионах примеров. Набор данных объединяет траектории FaraGen, разбитые на observe-think-act шаги, задачи по локализации в UI, визуальные VQA и captioning на основе скриншотов, а также датасеты по безопасности и отказам.

Бенчмарки и эффективность

Fara-7B протестировали на четырех живых бенчмарках. Результаты: 73.5% успеха на WebVoyager, 34.1% на Online-Mind2Web, 26.2% на DeepShop и 38.4% на WebTailBench. Модель превосходит 7B baseline UI-TARS-1.5-7B по всем показателям и сравнима с более крупными SoM системами на базе GPT-4o.

На WebVoyager Fara-7B использует около 124 000 входных токенов и 1 100 выходных токенов на задачу с в среднем 16.5 действий. Команда оценивает среднюю стоимость инференса примерно в 0.025 доллара за задачу, что значительно дешевле по объему выходных токенов, чем у SoM агентов на GPT-5 класса моделей.

Значение разработки

Fara-7B показывает путь от генерации данных мультиагентной системой к компактной модели, способной работать на локальном оборудовании с низкими затратами и улучшенной приватностью. Сочетание Qwen2.5-VL-7B, синтетических траекторий FaraGen и набора WebTailBench предлагает практическую дорожную карту для создания агентных систем, действующих напрямую на устройствах пользователей с разумной точностью и стоимостью.