Microsoft AI представил VibeVoice-Realtime: Легкая TTS

Обзор VibeVoice-Realtime

Microsoft выпустил VibeVoice-Realtime-0.5B, модель синтеза речи в реальном времени, поддерживающую потоковый ввод текста и создание длинных речевых строк, идеальную для агентов и живой озвучки данных. Модель начинает производить слышимую речь примерно за 300 мс, что критично, когда языковая модель продолжает генерировать ответ.

Где VibeVoice Realtime вписывается в стек VibeVoice

VibeVoice входит в более широкий фреймворк, сосредоточенный на диффузии следующего токена с использованием непрерывных токенов речи. Он включает варианты, предназначенные для длинного многоголосого звука, таких как подкасты. Основные модели VibeVoice могут синтезировать до 90 минут речи с четырьмя голосами в контексте 64k, используя непрерывные токенизаторы речи на 7.5 Гц. Вариант Realtime 0.5B разработан для низкой задержки, сообщая о длине контекста 8k и времени генерации около 10 минут для одного говорящего, что достаточно для голосовых агентов, системных рассказчиков и информационных панелей.

Архитектура взаимодействия потоков

Этот вариант использует пересекаемую оконную архитектуру; входящий текст разбивается на куски. Модель постепенно кодирует новые текстовые фрагменты, одновременно продолжая акустическое создание на основе предыдущего контекста. Эта настройка позволяет достичь латентности первого аудио примерно 300 мс на подходящем оборудовании.

В отличие от длинных вариантов, использующих как семантические, так и акустические токенизаторы, модель реального времени полагается только на акустический токенизатор на 7.5 Гц. Этот токенизатор, основанный на VAE, использует зеркально-симметричную архитектуру с семью уровнями модифицированных блоков трансформеров и выполняет 3200-кратное уменьшение с 24 кГц аудио.

Диффузионная единица прогнозирует акустические характеристики, обусловленные скрытыми состояниями Qwen2.5-0.5B, используя Denoising Diffusion Probabilistic Models и Classifier Free Guidance.

Качество на LibriSpeech и SEED

VibeVoice-Realtime достигает нулевой точности на чистом тесте LibriSpeech с показателем ошибок слов (WER) 2.00% и схожестью говорителей 0.695. По сравнению с VALL-E 2 (WER 2.40; схожесть 0.643) и Voicebox (WER 1.90; схожесть 0.662), его производительность конкурентоспособна.

На SEED для коротких высказываний он показывает 2.05% WER и 0.633 схожести, что сравнимо с другими моделями, имеющими разные компромиссы, такими как SparkTTS (WER 1.98) и Seed TTS (WER 2.25; схожесть 0.762).

Паттерн интеграции для агентов и приложений

Рекомендуется запустить VibeVoice-Realtime-0.5B рядом с разговорным LLM, где LLM передает токены, которые сразу поступают на сервер VibeVoice для параллельной синтезы аудио. Эта конфигурация напоминает небольшую микрослужбу и подходит для типичных диалогов агентов с фиксированным контекстом 8k для примерно 10 минут аудио на запрос.

Ключевые выводы

Низкозадерживающий потоковый TTS: Первые звуковые фреймы появляются примерно за 300 мс, идеально подходя для интерактивных агентов и живой озвучки.
LLM с непрерывными токенами речи: Использует языковую модель Qwen2.5 для обработки текста, улучшая масштабирование для длинных последовательностей.
~1B всего параметров: Полный стек в реальном времени, включая акустическую и диффузионную единицы, важен для планирования развертывания.
Конкурентное качество: Сравнимо с ведущими системами TTS и сосредоточено на долговременной устойчивости.

Дополнительные сведения можно найти в Model Card on HF.