VISTA: самосовершенствующийся агент Google для оптимизации текст‑видео на этапе инференса

Что такое VISTA

VISTA (Video Iterative Self improvemenT Agent) — это черный ящик в виде многозвенной системы агентов, которая на этапе инференса совершенствует текстовые подсказки и пересоздаёт видео. Система работает над тремя направляющими одновременно: визуалом, звуком и контекстным соответствием с намерением пользователя.

Как VISTA разбирает подсказку

Система декомпозирует пользовательскую подсказку на сцены с таймингом. Каждая сцена описывается девятью атрибутами: длительность, тип сцены, персонажи, действия, диалоги, визуальная среда, камера, звуки и настроения. Мультимодальная LLM дополняет недостающие свойства и применяет ограничения на реализм, релевантность и креативность. Оригинальная подсказка остаётся в наборе кандидатов, чтобы модели, которым разбиение не помогает, могли сохранять шансы.

Отбор видео через турниры

Система генерирует несколько пар «подсказка‑видео» и использует MLLM в роли судьи для парных бинарных турниров с двунаправленным обменом, чтобы снизить порядок‑зависимость токенов. Базовые критерии оценки включают визуальную достоверность, физический здравый смысл, соответствие текста и видео, согласование аудио и вовлечённость. Судья сначала получает диагностические критики, затем проводит попарные сравнения и применяет настраиваемые штрафы за распространённые ошибки.

Многомерные критики с профильными судьями

Чемпион‑кандидат получает развернутую оценку по трём измерениям: визуал, аудио и контекст. Для каждого измерения используется триада судей — обычный судья, адвесариальный судья и мета‑судья, который объединяет мнения. Визуальные метрики охватывают качество изображения, динамику движения, временную согласованность, фокус камеры и визуальную безопасность. Аудио оценивается по качеству, синхронизации с видео и безопасности аудио. Контекстные метрики включают ситуационную уместность, семантическую связность, соответствие текста и видео, физический здравый смысл, вовлечённость и формат. Оценки ставятся по шкале от 1 до 10, что помогает целенаправленно находить ошибки.

Deep Thinking Prompting Agent: целевые правки подсказок

Модуль рассуждений читает метакритики и выполняет шестишаговую интроспекцию: выявляет низкие метрики, уточняет ожидаемые результаты, проверяет достаточность подсказки, отделяет ограничения модели от проблем подсказки, обнаруживает конфликты или неясности, предлагает действия по изменениям и затем генерирует уточнённые подсказки для следующего цикла. Этот агент переводит диагностические данные в конкретные правки подсказок и новые варианты генерации.

Результаты и оценка

Автоматическая оценка использует MLLM‑судью для подсчёта выигрышей/ничьих/потерь по десяти критериям с двунаправленными сравнениями. Результаты VISTA улучшаются с итерациями и достигают примерно 45.9% выигрыша над прямым применением подсказок в одиночных сценах и 46.3% в мультисценных настройках на пятой итерации. VISTA также превосходит каждую базовую линию при равном бюджете вычислений.

В человеческих исследованиях аннотаторы с опытом оптимизации подсказок предпочли выходы VISTA в 66.4% парных испытаний на итерации пять. Эксперты оценивают траектории оптимизации VISTA выше и отмечают лучшую визуальную и аудиокачество по сравнению с прямыми подсказками.

Затраты, аблации и устойчивость

Среднее потребление токенов на итерацию составляет около 0.7 миллиона для этапов отбора и критики (без токенов генерации). Увеличение числа сэмплируемых видео и токенов на итерацию обычно повышает долю выигрышей. Аблации показывают важность каждого компонента: удаление планирования подсказки ухудшает инициализацию, отказ от турниров дестабилизирует поздние итерации, использование только одного типа судьи снижает результат, а исключение Deep Thinking Prompting Agent уменьшает финальные показатели. Повторная проверка с альтернативными моделями‑оценщиками дала схожую динамику улучшений, что подтверждает устойчивость подхода.

Почему VISTA важна

VISTA — практический шаг к более надёжной генерации текст‑видео, поскольку оптимизация проводится на этапе инференса без изменения генератора. Структурированное планирование сцен даёт конкретный чек‑лист для prompt engineering. Турнирный отбор и триада судей выявляют разнообразные слабые места, а Deep Thinking Prompting Agent превращает диагностику в прицельные правки подсказок. Отчётные выигрыши и предпочтения людей показывают, что такой многозвенный тестовый цикл может сделать системы текст‑видео более последовательными и соответствующими целям пользователя.

Ссылки

Paper: https://arxiv.org/pdf/2510.15831