<НА ГЛАВНУЮ

Meta ARE и Gaia2: новая планка оценки агентов в асинхронных, событийных условиях

'ARE и Gaia2 переводят оценку агентов в асинхронные, событийные условия, проверяя проактивность, выдержку таймингов и межагентную координацию в верифицируемых сценариях.'

Зачем переходить к асинхронной, событийной оценке

Большинство существующих бенчмарков упрощают взаимодействие, приостанавливая мир, пока модель «подумывает». Такой синхронный подход не отражает реальных требований: агентам нужно действовать в условиях, когда окружение продолжает меняться. ARE разъединяет время агента и окружения, позволяя окружению эволюционировать в процессе рассуждений агента и вводить запланированные или стохастические события — ответы, напоминания, обновления. Это выявляет навыки проактивности, умения справляться с прерываниями, соблюдать дедлайны и восстанавливаться после неожиданных изменений.

Архитектура ARE: все как события

Agents Research Environments (ARE) — модульный симулятор, управляемый временем, который рассматривает «всё как событие». ARE структурирует симуляции пятью ключевыми концепциями:

  • Apps: состоят из состояния интерфейсы инструментов или сервисов, которыми может пользоваться агент. Инструменты имеют типы read или write, что позволяет точно проверять действия, изменяющие состояние.
  • Environments: наборы приложений, правил и данных, определяющие симулируемый мир.
  • Events: записываемые события, которые управляют временем и поведением в симуляции.
  • Notifications: настраиваемые примитивы наблюдаемости, определяющие, что агент видит и когда.
  • Scenarios: начальное состояние плюс запланированные события и верификатор для оценки поведения агента.

Окружение Mobile в экспериментах имитирует смартфон с почтой, сообщениями и календарём, создавая реалистичные условия многозадачности.

Что измеряет Gaia2

Gaia2, построенная поверх ARE, смещает фокус оценки от одношаговой корректности к навыкам, важным при изменениях. Основные направления оценки:

  • Адаптивность к ответам окружения и неожиданным событиям
  • Работа с неоднозначностью и шумными вводами
  • Учет временных ограничений, выполнение действий в допустимых временных толерансах
  • Взаимодействие агентов, где субагенты представляют приложения и должны координироваться

Сценарии Gaia2 верифицируемы и воспроизводимы: используются детерминированные seed-ы и эталонные (oracle) трассы для повторяемой оценки.

Масштаб и доступные наборы данных

Есть нюанс в количестве сценариев: публичный релиз на Hugging Face содержит 800 сценариев в 10 вселенных, тогда как в статье упоминаются 1 120 верифицируемых аннотированных сценариев в окружении Mobile, использованных в экспериментах (отражающих расширенные конфигурации). Практики чаще всего столкнутся с релизом на 800 сценариев, а статья показывает, как набор может масштабироваться.

Как оценивают агентов в меняющемся мире

Gaia2 сравнивает последовательности write-действий агента с эталонными действиями посредством проверки аргументов на уровне аргументов. Валидация аргументов может быть строгой (точное совпадение) или мягкой (судья на базе LLM) в зависимости от типа аргумента. Оценка сохраняет причинность и учитывает относительные временные ограничения, чтобы не начислять баллы только за итоговое состояние, если промежуточные траектории были небезопасны или нарушали политику.

Зачем это важно для production-агентов

ARE и Gaia2 повышают требования с «статической корректности» до «корректности в условиях изменений». Если агент позиционируется как готовый к продакшену, он должен демонстрировать работу с асинхронностью, прерываниями, неоднозначностью, шумом, временными ограничениями и координацией нескольких агентов, при этом предоставляя верифицируемые трассы write-действий. Meta предоставляет контролируемый симулятор, вызовный бенчмарк и прозрачный цикл оценки, которые помогают протестировать эти реальные сценарии.

Ресурсы

Читать статью и изучать код, учебные материалы и ноутбуки можно на странице исследования Meta AI и в репозитории проекта:

https://ai.meta.com/research/publications/are-scaling-up-agent-environments-and-evaluations/

🇬🇧

Switch Language

Read this article in English

Switch to English