Alibaba открыла исходники Tongyi DeepResearch — 30B MoE LLM для длительных веб-исследований

Что такое Tongyi DeepResearch

Tongyi-DeepResearch-30B-A3B от лаборатории Tongyi (Alibaba) — открытая модель, ориентированная на агентскую работу и длительные исследования с использованием веб-инструментов. Модель использует архитектуру mixture-of-experts (MoE) с примерно 30.5 миллиардами общих параметров и около 3.0–3.3 миллиардами активных параметров на токен. Такая конструкция позволяет сохранять низкую стоимость вывода, приближенную к небольшим плотным моделям, при наличии экспертной емкости для сложного рассуждения в многократных сессиях.

Результаты бенчмарков

В релизе указаны конкурентные результаты на задачах глубокого поиска и агентских тестах. Ключевые показатели:

Humanity's Last Exam (HLE): 32.9
BrowseComp: 43.4 (EN) и 46.7 (ZH)
xbench-DeepSearch: 75

Также отмечены сильные результаты на WebWalkerQA, GAIA, FRAMES и SimpleQA. Команда утверждает, что модель сопоставима или превосходит существующие проприетарные и открытые решения для этих задач.

Архитектура и профиль вывода

Основные архитектурные и эксплуатационные характеристики:

MoE-маршрутизация в духе Qwen3-MoE: ≈30.5B общих параметров и ≈3.0–3.3B активных на токен.
Контекстное окно: 128K токенов, что подходит для длительных сессий с браузингом и накоплением доказательств.
Два режима вывода:
- ReAct (нативный) для оценки встроенных способностей к рассуждению и использованию инструментов.
- IterResearch "Heavy" для масштабирования на этапе тестирования с пораундовой реконструкцией контекста и снижением накопления шума.

Такое сочетание ориентировано на баланс пропускной способности и экспертной производительности в задачах глубоких исследований.

Тренировочный пайплайн: синтетические данные и on-policy RL

Модель тренируется как агент в полном цикле, а не просто как чат-LLM. В релизе выделена автоматизированная масштабируемая система генерации данных:

Agentic continual pre-training (CPT): крупномасштабные синтетические траектории, собранные из кураторских корпусов, исторических логов работы с инструментами и граф-структурированных знаний для обучения поиску, браузингу и слиянию источников.
Agentic SFT для холодного старта: траектории в форматах ReAct и IterResearch для совместимого планирования и использования инструментов.
On-policy RL с Group Relative Policy Optimization (GRPO): градиенты политики на уровне токенов, оценка преимущества leave-one-out и фильтрация негативных примеров для устойчивости обучения в нестабильной веб-среде.

Эти механизмы направлены на повышение надежности при многопроходных взаимодействиях с инструментами и уменьшение галлюцинаций.

Роль в рабочих процессах документальных и веб-исследований

Задачи глубоких исследований требуют: планирования на длинную перспективу, итеративного поиска и верификации по нескольким источникам, отслеживания доказательств с низкой долей галлюцинаций и синтеза в больших контекстах. Tongyi DeepResearch обеспечивает это через:

128K токенов контекста для накопления и повторного использования доказательств.
IterResearch-раскатку, которая реструктурирует контекст на каждом раунде, оставляя только существенные артефакты и уменьшая разрастание контекста и накопление ошибок.
ReAct-базу, демонстрирующую, что поведение модели изучено, а не только сконструировано подсказками.

Сообщенные улучшения по бенчмаркам указывают на большую устойчивость в задачах с многопереходным доступом к инструментам и источникам.

Ключевые особенности

Эффективность MoE: ~30.5B общих параметров с ~3.0–3.3B активных на токен, низкая стоимость вывода при высокой емкости.
Контекст 128K: длительные rollouts с накоплением доказательств для многошагового веб-исследования.
Два режима вывода: нативный ReAct и IterResearch Heavy для глубокого многораундового синтеза.
Автоматизированный агентский движок данных: CPT, SFT и RL на одном пайплайне.
On-policy RL с GRPO для стабильности в веб-среде.
Сообщенные SOTA-результаты на наборах для глубокого поиска.

Практическая значимость и где найти материалы

Для команд, строящих агенты для длительных исследований, релиз предлагает воспроизводимый открытый стек с реальными инструментами: веса под лицензией Apache-2.0, скрипты для инференса и утилиты для оценки. Репозиторий размещен на GitHub и модели доступны на Hugging Face вместе с техническими заметками, туториалами и ноутбуками, что упрощает воспроизведение и доработку.