Оценка голосовых ассистентов в 2025: от WER к задаче-успеху, перехватам и галлюцинациям под шумом

Почему WER недостаточен

Word Error Rate (WER) показывает точность расшифровки, но не отражает, помогает ли ассистент пользователю выполнить задачу или вести диалог корректно. Два решения с похожим WER могут кардинально отличаться в пользовательском опыте из-за задержек, управления очередью хода, обработки прерываний, восстановления после недопонимания и устойчивости к акустическим и содержательным искажениям. Практические исследования показывают: для прогнозирования удовлетворенности нужны сигналы взаимодействия и метрики на уровне задач, а не только точность ASR.

Что измерять и как

Сквозной успех задачи

Метрика: Task Success Rate (TSR) с четкими критериями успеха для каждой задачи, плюс Task Completion Time (TCT) и количество ходов до успеха.
Почему: пользователи оценивают ассистента по результатам; TSR отражает реальную полезность.
Протокол: описать проверяемые задания с верифицируемыми конечными состояниями (например, составить список покупок с N элементами и условиями). Использовать слепых человеческих оценщиков и автоматические логи для подсчета TSR/TCT/Turns. Для многоязычной и SLU-нагруженной области брать intents/slots из MASSIVE.

Перехват речи (barge-in) и управление ходом

Метрики: задержка обнаружения barge-in (мс), доля корректных/ложных перехватов, задержка завершения (endpointing) в мс.
Почему: гладкое прерывание и быстрое завершение речи формируют восприятие отзывчивости; ошибки приводят к потере ввода или раздражению.
Протокол: скриптовать прерывания на контролируемых временных точках и SNR, логировать времена подавления и распознавания с точностью до кадров, включать шумные и дальние условия, измерять ложные срабатывания.

Галлюцинации под шумом (HUN)

Метрика: HUN Rate — доля беглых ответов, семантически не связанных с аудио, при контролируемом шуме или не-спич вставках.
Почему: стэки ASR+audio-LLM могут генерировать убедительный, но неверный текст при наличии не-речевых звуков; такие галлюцинации влияют на последующие действия.
Протокол: собрать наборы аудио с наложенным окружающим шумом, не-речевыми отвлекателями и дизфлюенсиями; оценивать семантическую связность с участием людей и вычислять HUN; отслеживать влияние на downstream-действия.

Следование инструкциям, безопасность и робастность

Набор метрик: точность следования инструкциям (формат и соблюдение ограничений), процент отказов по безопасности на злонамеренные устные подсказки, изменение производительности по осям — возраст/акцент/тембр, окружение (шум, реверберация).
Почему: ассистент должен корректно выполнять инструкции и отказывать в небезопасных запросах, сохраняя работоспособность для разных говорящих и условий.
Протокол: использовать VoiceBench для широкого покрытия инструкций и безопасности; SLUE/Phase-2 для SLU-специфики (NER, dialog acts, QA, суммаризация).

Перцептуальное качество речи (TTS и enhancement)

Метрика: Mean Opinion Score по ITU-T P.808 (краудсорс ACR/DCR/CCR).
Почему: качество воспроизведения влияет на взаимодействие; P.808 дает валидированный краудсорс-протокол и инструменты.

Обзор бенчмарков

VoiceBench: мультиаспектная оценка голосовых ассистентов по знаниям, следованию инструкциям, безопасности и устойчивости к вариациям говорящего/окружения/контента; использует реальные и синтетические записи. Ограничение: не покрывает barge-in/endpointing или тесты реального выполнения задач на устройствах.
SLUE / SLUE Phase-2: задачи SLU — NER, sentiment, dialog acts, QA, суммаризация; полезны для изучения чувствительности к ошибкам ASR.
MASSIVE: >1M фраз для виртуальных ассистентов на 51–52 языках с intents/slots; хорош для многоязычных task-сьютов.
Spoken-SQuAD / HeySQuAD: наборы для устных вопросов и ответов, проверяющие понимание и устойчивость к акцентам.
DSTC-треки: качество диалога, устойчивость и безопасность в условиях речи с человеческими оценками.
Alexa Prize TaskBot: реальные многозадачные сценарии с пользовательскими рейтингами и критериями завершения — полезный эталон для определения TSR.

Заполнение пробелов

KPI для barge-in и endpointing: добавить инфраструктуру для измерений, опираться на существующие исследования по верификации перехватов и непрерывной обработке.
Протоколы HUN: принять определения ASR-галлюцинаций и контролируемые тесты с не-речью; отмечать HUN и его влияние на downstream.
Задержки на устройстве: измерять time-to-first-token, time-to-final и локальную нагрузку, чтобы соотнести с субъективной отзывчивостью.
Кросс-осевые матрицы устойчивости: комбинировать оси VoiceBench с вашим task-сьютом, чтобы выявить поверхности отказов (например, barge-in при дальнем эхо; успех задачи при низком SNR).
Перцептуальное качество воспроизведения: мерить P.808 в сквозной цепочке, а не только для изолированного TTS.

Конкретный воспроизводимый план

Собрать набор: VoiceBench для ядра взаимодействия; SLUE/Phase-2 для SLU; MASSIVE для многоязычия; Spoken-SQuAD для устного QA.
Добавить отсутствующие возможности: harness для barge-in/endpointing с контролируемыми офсетами и SNR, HUN-audio и аннотации, блок задач со строгими проверками успеха для TSR/TCT/Turns.
Перцептуальное качество: запустить P.808 с использованием открытых тулкитов.
Структура отчета: таблица с TSR/TCT/Turns, задержками и ошибками barge-in, задержкой endpointing, HUN rate, агрегатными и осевыми оценками VoiceBench, SLU-метриками и P.808 MOS; графики нагрузки — TSR и HUN vs SNR и реверберация, barge-in latency vs timing.

Практические замечания

Используйте слепые человеческие оценки там, где нужна семантическая интерпретация, и комбинируйте их с подробными логами для метрических таймингов.
Публикуйте определения задач, скрипты для искажений аудио и ноутбуки анализа для воспроизводимости.
Ставьте акцент на кросс-осевых анализах вместо единой лидерборд-метрики: отслеживайте, где системы терпят неудачу при одновременном возникновении нескольких неблагоприятных условий.