VibeVoice-1.5B: открытая TTS-модель Microsoft для 90 минут мультиспикерного синтеза
'Microsoft выпустил VibeVoice 1.5B — открытую TTS модель, способную генерировать до 90 минут выразительной речи с поддержкой до четырех говорящих и кросс языкового синтеза.'
О VibeVoice кратко
Microsoft представила VibeVoice-1.5B как открытую TTS платформу, ориентированную на длинные и мультиспикерные генерации речи. Модель выпущена под лицензией MIT и предназначена для исследовательских и девелоперских задач, где требуется выразительная и связная речь на продолжительных отрезках. VibeVoice может синтезировать до 90 минут непрерывного аудио и поддерживать до четырех различных говорящих в одной сессии, а также выполнять кросс-языковой синтез и базовую генерацию пения.
Основные возможности
- Большой контекст и поддержка нескольких говорящих: генерация длинных монологов или многоповоротных диалогов с до четырех участников.
- Одновременная генерация: модель поддерживает параллельные аудиопотоки, имитирующие естественный обмен репликами, а не простое склеивание голосовых клипов.
- Кросс-языковой и певческий синтез: несмотря на основную тренировку на английском и китайском, модель умеет кросс-язычный рассказ и базовое пение.
- Открытая лицензия: MIT лицензия для исследований, прозрачности и воспроизводимости.
- Масштабируемая архитектура для стриминга: оптимизирована для длительной синтетики с анонсированной 7B версией, нацеленой на сценарии с низкой задержкой.
- Эмоции и выразительность: управление эмоциями и натуральная просодия подходят для подкастов, аудиокниг и разговорных агентов.
Основные архитектурные детали
VibeVoice построена на LLM с 1.5 миллиарда параметров (Qwen2.5-1.5B) и использует два токенизатора вместе с диффузионной декодирующей головой:
- Акустический токенизатор: вариант sigma VAE с зеркальной encoder decoder архитектурой, примерно по 340M параметров на сторону, достигает 3200x даунсемплинга от сырых 24 kHz аудиоданных.
- Семантический токенизатор: только энкодер, обученный через ASR прокси задачу, спроектирован для низкой частоты кадров и консистентного моделирования длинных последовательностей.
- Диффузионная декодирующая голова: легкий условный диффузионный модуль около 123M параметров, предсказывает акустические фичи с использованием classifier free guidance и DPM Solver для улучшенного восприятия.
- Учебная кривая контекста: обучение масштабируется от 4k токенов до 65k токенов, что позволяет генерировать связную длинную речь.
Разделение семантики и акустики помогает сохранять идентичность говорящего и достигать детализированной синтеза на больших интервалах времени.
Ограничения и ответственное использование
- Языковая поддержка: модель обучена только на английском и китайском, другие языки могут быть нечитаемыми или генерировать небезопасный контент.
- Отсутствие наложения речи: поддерживается последовательная смена реплик, но не моделируется перекрывающаяся речь.
- Только речь: VibeVoice генерирует только речь, без фоновых эффектов, звуков фоли или музыки.
- Юридические и этические риски: Microsoft запрещает использование для подделки голосов, дезинформации или обхода аутентификации, требуется маркировка AI сгенерированного контента и соблюдение законов.
- Не для профессионального реального времени: текущая версия 1.5B не оптимизирована под низкую задержку и живые трансляции; эти цели адресуются будущей 7B версии.
С чего начать
Модель и документация доступны на Hugging Face и GitHub. По тестам сообщества, 1.5B чекапойнт можно запускать на 8 GB игровом GPU вроде RTX 3060, с потреблением примерно 7 GB VRAM для мультиспикерных диалогов. Для загрузки и примеров посетите страницу модели на Hugging Face: https://huggingface.co/microsoft/VibeVoice-1.5B
Кому это будет полезно
VibeVoice интересна командам, работающим с подкастами, длинной озвучкой, мультиспикерными демо и исследованиями выразительного TTS. Открытая лицензия и ориентация на стриминг делают модель удобной отправной точкой для лабораторий и разработчиков, исследующих синтез длительной и многоголосой речи.
Switch Language
Read this article in English