Meta ARE и Gaia2: новая планка оценки агентов в асинхронных, событийных условиях
'ARE и Gaia2 переводят оценку агентов в асинхронные, событийные условия, проверяя проактивность, выдержку таймингов и межагентную координацию в верифицируемых сценариях.'
Зачем переходить к асинхронной, событийной оценке
Большинство существующих бенчмарков упрощают взаимодействие, приостанавливая мир, пока модель «подумывает». Такой синхронный подход не отражает реальных требований: агентам нужно действовать в условиях, когда окружение продолжает меняться. ARE разъединяет время агента и окружения, позволяя окружению эволюционировать в процессе рассуждений агента и вводить запланированные или стохастические события — ответы, напоминания, обновления. Это выявляет навыки проактивности, умения справляться с прерываниями, соблюдать дедлайны и восстанавливаться после неожиданных изменений.
Архитектура ARE: все как события
Agents Research Environments (ARE) — модульный симулятор, управляемый временем, который рассматривает «всё как событие». ARE структурирует симуляции пятью ключевыми концепциями:
- Apps: состоят из состояния интерфейсы инструментов или сервисов, которыми может пользоваться агент. Инструменты имеют типы read или write, что позволяет точно проверять действия, изменяющие состояние.
- Environments: наборы приложений, правил и данных, определяющие симулируемый мир.
- Events: записываемые события, которые управляют временем и поведением в симуляции.
- Notifications: настраиваемые примитивы наблюдаемости, определяющие, что агент видит и когда.
- Scenarios: начальное состояние плюс запланированные события и верификатор для оценки поведения агента.
Окружение Mobile в экспериментах имитирует смартфон с почтой, сообщениями и календарём, создавая реалистичные условия многозадачности.
Что измеряет Gaia2
Gaia2, построенная поверх ARE, смещает фокус оценки от одношаговой корректности к навыкам, важным при изменениях. Основные направления оценки:
- Адаптивность к ответам окружения и неожиданным событиям
- Работа с неоднозначностью и шумными вводами
- Учет временных ограничений, выполнение действий в допустимых временных толерансах
- Взаимодействие агентов, где субагенты представляют приложения и должны координироваться
Сценарии Gaia2 верифицируемы и воспроизводимы: используются детерминированные seed-ы и эталонные (oracle) трассы для повторяемой оценки.
Масштаб и доступные наборы данных
Есть нюанс в количестве сценариев: публичный релиз на Hugging Face содержит 800 сценариев в 10 вселенных, тогда как в статье упоминаются 1 120 верифицируемых аннотированных сценариев в окружении Mobile, использованных в экспериментах (отражающих расширенные конфигурации). Практики чаще всего столкнутся с релизом на 800 сценариев, а статья показывает, как набор может масштабироваться.
Как оценивают агентов в меняющемся мире
Gaia2 сравнивает последовательности write-действий агента с эталонными действиями посредством проверки аргументов на уровне аргументов. Валидация аргументов может быть строгой (точное совпадение) или мягкой (судья на базе LLM) в зависимости от типа аргумента. Оценка сохраняет причинность и учитывает относительные временные ограничения, чтобы не начислять баллы только за итоговое состояние, если промежуточные траектории были небезопасны или нарушали политику.
Зачем это важно для production-агентов
ARE и Gaia2 повышают требования с «статической корректности» до «корректности в условиях изменений». Если агент позиционируется как готовый к продакшену, он должен демонстрировать работу с асинхронностью, прерываниями, неоднозначностью, шумом, временными ограничениями и координацией нескольких агентов, при этом предоставляя верифицируемые трассы write-действий. Meta предоставляет контролируемый симулятор, вызовный бенчмарк и прозрачный цикл оценки, которые помогают протестировать эти реальные сценарии.
Ресурсы
Читать статью и изучать код, учебные материалы и ноутбуки можно на странице исследования Meta AI и в репозитории проекта:
https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/
Switch Language
Read this article in English