Революция в улучшении речи с помощью предобученных генеративных аудиоэнкодеров и вокодеров

Использование предобученных аудиомоделей для улучшения речи

Современные достижения в области улучшения речи сместили акцент с традиционных методов маскирования и предсказания сигналов на использование предобученных аудиомоделей, которые извлекают более богатые и переносимые аудиоэмбеддинги. Модели, такие как WavLM, предоставляют значимые аудиопредставления, значительно повышающие качество улучшения речи. Некоторые подходы используют эти эмбеддинги для предсказания масок или комбинируют их с спектральными данными, другие применяют генеративные нейронные вокодеры для прямой реконструкции чистой речи из зашумлённых эмбеддингов.

Ограничения существующих методов

Многие существующие методы замораживают предобученные модели или требуют значительной донастройки, что снижает адаптивность и увеличивает вычислительные затраты. Это усложняет перенос моделей на другие задачи, такие как устранение реверберации или разделение источников звука.

Лёгкая и гибкая система улучшения речи

Исследователи из MiLM Plus, Xiaomi Inc., предложили новую, эффективную и адаптивную систему улучшения речи на основе предобученных генеративных аудиоэнкодеров и вокодеров. Сначала из зашумлённой речи извлекаются аудиоэмбеддинги с помощью замороженного аудиоэнкодера. Затем эти эмбеддинги очищаются небольшим денойз-энкодером и передаются вокодеру для генерации чистой речи.

В отличие от специализированных моделей, аудиоэнкодер и вокодер предобучены отдельно, что позволяет системе легко адаптироваться к другим задачам. Экспериментальные результаты показывают, что генеративные модели превосходят дискриминативные по качеству речи и сохранению голоса. Несмотря на простоту, этот подход превосходит ведущие модели улучшения речи в субъективных тестах.

Архитектура системы и обучение

Система состоит из трёх основных компонентов:

Предобученный аудиоэнкодер: преобразует зашумлённую речь в аудиоэмбеддинги.
Денойз-энкодер: улучшает эмбеддинги, снижая шум.
Вокодер: восстанавливает чистую речь из очищенных эмбеддингов.

Денойз-энкодер и вокодер обучаются отдельно, оба используют замороженный аудиоэнкодер. Обучение направлено на минимизацию среднеквадратичной ошибки между зашумлёнными и чистыми эмбеддингами, полученными из парных образцов речи. Денойз-энкодер построен на архитектуре Vision Transformer (ViT) с применением стандартных слоёв активации и нормализации.

Вокодер обучается в самообучающемся режиме, используя только чистую речь. Он восстанавливает звуковые волны, предсказывая коэффициенты спектра Фурье, которые затем преобразуются обратно в аудио с помощью обратного коротковременного преобразования Фурье. Вокодер основан на модифицированной версии фреймворка Vocos и использует генеративно-состязательную сеть (GAN) с генератором на базе ConvNeXt и дискриминаторами нескольких периодов и разрешений. В потери обучения включены состязательные, реконструкционные и согласование признаков. Аудиоэнкодер остаётся неизменным, с весами из общедоступных моделей.

Результаты и оценка

Генеративные аудиоэнкодеры, такие как Dasheng, значительно превосходят дискриминативные модели. На датасете DNS1 Dasheng достиг схожести голоса 0.881 в сравнении с 0.486 и 0.489 у WavLM и Whisper. Метрики качества речи, такие как DNSMOS и NISQAv2, показали заметные улучшения даже с небольшими денойз-энкодерами; например, ViT3 достиг DNSMOS 4.03 и NISQAv2 4.41.

Субъективные тесты с участием 17 человек показали среднюю оценку звучания (MOS) 3.87 для Dasheng, что превосходит Demucs (3.11) и LMS (2.98), подтверждая высокое качество восприятия.

Итоги

В исследовании представлена эффективная и адаптивная система улучшения речи, использующая предобученные генеративные аудиоэнкодеры и вокодеры без необходимости полной донастройки моделей. Очистка аудиоэмбеддингов с помощью лёгкого денойз-энкодера и восстановление речи посредством предобученного вокодера обеспечивают высокую вычислительную эффективность и превосходное качество звука. Подход демонстрирует универсальность и улучшенную сохранность голоса, делая его привлекательным решением для современных задач улучшения речи.

Для подробностей ознакомьтесь с оригинальной статьёй и репозиторием на GitHub этого проекта.