Microsoft и Salesforce выявили значительное падение эффективности LLM в реальных многошаговых диалогах

Проблемы разговорного ИИ с многошаговыми инструкциями

Разговорный искусственный интеллект стремится позволить большим языковым моделям (LLM) понимать и реагировать на постепенно раскрывающиеся потребности пользователя в ходе многошагового диалога. В отличие от одноступенчатых запросов, где все данные предоставляются сразу, реальные разговоры развиваются постепенно, требуя от моделей поддерживать контекст и динамически адаптироваться. Однако LLM часто сталкиваются с трудностями в таких условиях, так как ранние предположения о неполных инструкциях приводят к стойким ошибкам и неправильным ответам.

Ограничения существующих методов оценки

Большинство текущих оценок сосредоточены на одноступенчатых полностью заданных запросах или многошаговых задачах, рассматриваемых как изолированные подзадачи. Такие подходы не учитывают сложность реальных диалогов, где информация фрагментирована и должна интегрироваться со временем. В результате современные бенчмарки не отражают трудности моделей при работе с неполными входными данными, распределёнными по нескольким шагам.

Метод шардированной симуляции

Исследователи из Microsoft и Salesforce разработали метод шардированной симуляции, имитирующий постепенное раскрытие информации пользователем в реальных диалогах. Они разделяют полные инструкции на меньшие логически связанные части — «шарды», которые последовательно раскрываются. Симулированный пользователь на базе LLM решает, какой шард раскрыть следующим, и естественно формулирует его в контексте текущего диалога. Ответы ассистента классифицируются, чтобы определить, пытается ли он решить задачу или запрашивает уточнения.

Масштабное тестирование моделей и задач

В исследовании проверили 15 LLM на шести задачах генерации: программирование, SQL-запросы, действия через API, математические задачи, генерация описаний и суммаризация документов. Использовались известные датасеты, такие как GSM8K, Spider и ToTTo. Всего проведено более 200 000 симуляций, сравнивающих одноступенчатые полные инструкции и многошаговые шардированные вводы.

Существенное падение производительности в многошаговых сценариях

Результаты показали стабильное снижение среднего результата с 90% в одноступенчатом режиме до 65% при многошаговом — падение на 25 пунктов. Главная проблема — резкий рост ненадёжности, а не снижение возможностей моделей. Ненадёжность возросла на 112%, что свидетельствует о частых сбоях и непоследовательных ответах при обработке фрагментированной информации. Даже ведущие модели, такие как GPT-4.1 и Gemini 2.5 Pro, демонстрировали ухудшение на 30-40%. Увеличение вычислительных ресурсов или снижение случайности генерации лишь незначительно улучшали стабильность.

Значение для развития ИИ

Исследование подчёркивает острую необходимость повысить надёжность LLM при реальных разговорах, где детали задачи раскрываются постепенно. Метод шардированной симуляции выявляет фундаментальные слабости современных моделей в работе с неполными и эволюционирующими инструкциями. Улучшение понимания многошаговых диалогов критично для развития разговорного ИИ, который должен естественно и эффективно взаимодействовать с пользователями на протяжении длительных бесед.

Подробности доступны в оригинальной статье и на GitHub. Следите за обновлениями в Twitter и присоединяйтесь к обсуждению на ML SubReddit.