Early Experience: обучение языковых агентов на собственных результатах без наград

Early Experience предлагает обучение без наград, в котором агент учится на последствиях собственных действий вместо того чтобы полагаться на большие наборы демонстраций людей или на основной цикл reinforcement learning. Исследователи из Meta Superintelligence Labs демонстрируют две практические стратегии, которые превращают состояния, сгенерированные агентом, в обучающие сигналы, и показывают стабильный прирост в восьми бенчмарках.

Как работает метод

Конвейер стартует с ограниченного набора экспертных прогонов, чтобы получить представительную выборку состояний. В выбранных состояниях агент предлагает альтернативные действия, выполняет их и записывает последующие наблюдения. Эти наблюдения становятся источником супервижена вместо скалярной награды или дополнительных экспертных траекторий.

Две конкретные реализации:

Implicit World Modeling (IWM): модель обучается предсказывать следующее наблюдение по текущему состоянию и выбранному действию. Это укрепляет внутреннюю модель динамики среды и снижает дрейф вне политики на долгих горизонтах.
Self-Reflection (SR): агенту показывают экспертное действие и альтернативы в том же состоянии вместе с их наблюдаемыми результатами. Модель генерирует обоснование, почему экспертное действие предпочтительнее в свете этих исходов, и этот контрастный, подтверждённый результатами сигнал используется для донастройки политики.

Обе стратегии используют те же бюджеты оптимизации и настройки декодинга, что и имитационное обучение; единственное отличие — источник данных: ветвления, сгенерированные самим агентом, вместо дополнительных экспертных траекторий.

Бенчмарки и результаты

Метод протестирован на восьми средах для языковых агентов, охватывающих веб-навигацию, планирование с ограничениями, научные и эмбеддед задачи, а также многодоменные API-рабочие процессы. Примеры: WebShop, TravelPlanner, ScienceWorld, ALFWorld, Tau-Bench.

В среднем Early Experience даёт абсолютные приросты +9.6 по успеху и +9.4 по out-of-domain по сравнению с имитационным обучением. Отдельные показатели включают +18.4 для WebShop, +15.0 для TravelPlanner и +13.3 для ScienceWorld при сопоставимых бюджетах.

Эти улучшения устойчивы для проверенных архитектур (3B–8B) и сохраняются в ситуациях вне распределения.

Эффективность по демонстрациям и практические выгоды

Ключевое практическое преимущество — экономия демонстраций. При фиксированном бюджете оптимизации Early Experience достигает или превосходит IL, используя гораздо меньше экспертных демонстраций. На WebShop одна восьмая часть демонстраций с Early Experience уже превосходит IL, обученный на полном наборе; на ALFWorld паритет достигается при половине демонстраций. Преимущество увеличивается при росте числа демонстраций, что указывает на дополнительную ценность состояний, сгенерированных самим агентом.

Как Early Experience сочетается с reinforcement learning

Early Experience не отменяет RL там, где есть проверяемые награды. Это этап предобучения без наград, который даёт более качественную инициализацию. Когда после Early Experience применяется стандартный RL (например, GRPO), обучение обычно достигает более высокого финального результата и делает это быстрее. В работе отмечается до +6.4 абсолютного прироста в конечных показателях по сравнению с RL, запущенным с инициализацией от имитационного обучения.

Почему это важно