VibeVoice-1.5B: открытая TTS-модель Microsoft для 90 минут мультиспикерного синтеза

О VibeVoice кратко

Microsoft представила VibeVoice-1.5B как открытую TTS платформу, ориентированную на длинные и мультиспикерные генерации речи. Модель выпущена под лицензией MIT и предназначена для исследовательских и девелоперских задач, где требуется выразительная и связная речь на продолжительных отрезках. VibeVoice может синтезировать до 90 минут непрерывного аудио и поддерживать до четырех различных говорящих в одной сессии, а также выполнять кросс-языковой синтез и базовую генерацию пения.

Основные возможности

Большой контекст и поддержка нескольких говорящих: генерация длинных монологов или многоповоротных диалогов с до четырех участников.
Одновременная генерация: модель поддерживает параллельные аудиопотоки, имитирующие естественный обмен репликами, а не простое склеивание голосовых клипов.
Кросс-языковой и певческий синтез: несмотря на основную тренировку на английском и китайском, модель умеет кросс-язычный рассказ и базовое пение.
Открытая лицензия: MIT лицензия для исследований, прозрачности и воспроизводимости.
Масштабируемая архитектура для стриминга: оптимизирована для длительной синтетики с анонсированной 7B версией, нацеленой на сценарии с низкой задержкой.
Эмоции и выразительность: управление эмоциями и натуральная просодия подходят для подкастов, аудиокниг и разговорных агентов.

Основные архитектурные детали

VibeVoice построена на LLM с 1.5 миллиарда параметров (Qwen2.5-1.5B) и использует два токенизатора вместе с диффузионной декодирующей головой:

Акустический токенизатор: вариант sigma VAE с зеркальной encoder decoder архитектурой, примерно по 340M параметров на сторону, достигает 3200x даунсемплинга от сырых 24 kHz аудиоданных.
Семантический токенизатор: только энкодер, обученный через ASR прокси задачу, спроектирован для низкой частоты кадров и консистентного моделирования длинных последовательностей.
Диффузионная декодирующая голова: легкий условный диффузионный модуль около 123M параметров, предсказывает акустические фичи с использованием classifier free guidance и DPM Solver для улучшенного восприятия.
Учебная кривая контекста: обучение масштабируется от 4k токенов до 65k токенов, что позволяет генерировать связную длинную речь.

Разделение семантики и акустики помогает сохранять идентичность говорящего и достигать детализированной синтеза на больших интервалах времени.

Ограничения и ответственное использование

Языковая поддержка: модель обучена только на английском и китайском, другие языки могут быть нечитаемыми или генерировать небезопасный контент.
Отсутствие наложения речи: поддерживается последовательная смена реплик, но не моделируется перекрывающаяся речь.
Только речь: VibeVoice генерирует только речь, без фоновых эффектов, звуков фоли или музыки.
Юридические и этические риски: Microsoft запрещает использование для подделки голосов, дезинформации или обхода аутентификации, требуется маркировка AI сгенерированного контента и соблюдение законов.
Не для профессионального реального времени: текущая версия 1.5B не оптимизирована под низкую задержку и живые трансляции; эти цели адресуются будущей 7B версии.

С чего начать

Модель и документация доступны на Hugging Face и GitHub. По тестам сообщества, 1.5B чекапойнт можно запускать на 8 GB игровом GPU вроде RTX 3060, с потреблением примерно 7 GB VRAM для мультиспикерных диалогов. Для загрузки и примеров посетите страницу модели на Hugging Face: https://huggingface.co/microsoft/VibeVoice-1.5B

Кому это будет полезно

VibeVoice интересна командам, работающим с подкастами, длинной озвучкой, мультиспикерными демо и исследованиями выразительного TTS. Открытая лицензия и ориентация на стриминг делают модель удобной отправной точкой для лабораторий и разработчиков, исследующих синтез длительной и многоголосой речи.