PokeeResearch-7B: открытый 7B агент исследований на RLAIF и многонишевой логике рассуждений
Как работает агент
PokeeResearch-7B — открытый агент глубоких исследований с 7 миллиардами параметров, который выполняет полный цикл исследования. Для каждого запроса он декомпозирует задачу, выполняет поисковые и операции чтения страниц, формирует промежуточные ответы, проверяет кандидатов по найденным доказательствам и синтезирует несколько исследовательских нитей в итоговый ответ. Такая организация снижает хрупкость траекторий рассуждений и улавливает явные ошибки до финализации.
Цикл исследования и верификации
Агент чередует этапы исследования и верификации. На этапе исследования он вызывает внешние инструменты для веб-поиска и чтения страниц или предлагает промежуточный ответ. На этапе верификации он сопоставляет кандидатный ответ с извлеченными доказательствами и либо принимает его, либо перезапускает исследование. Эта структура помогает выявлять некорректные вызовы инструментов и ранние ошибки, повышая качество итогового ответа.
Рецепт обучения: RLAIF с RLOO
PokeeResearch-7B дообучен от Qwen2.5-7B-Instruct с помощью annotation-free Reinforcement Learning from AI Feedback (RLAIF), используя оцениватель REINFORCE Leave-One-Out (RLOO). Обучение оптимизирует вознаграждение за семантическую корректность, верность цитирования и соблюдение инструкций, а не за совпадение токенов. В карточке модели указаны следующие настройки: batch size 64, 8 исследовательских нитей на запрос во время RL, learning rate 3e-6, 140 шагов, контекст 32,768 токенов, bf16 точность, чекпойнт около 13 ГБ. Исследователи отмечают, что RLOO даёт несмещённую оценку on-policy градиента и противопоставляют его семейству PPO, которое является приблизительно on-policy и смещённым.
Скаффолд рассуждения и синтез исследовательских нитей
Скаффолд включает три механизма: самокоррекция, самопроверка и Research Threads Synthesis. Самокоррекция обнаруживает некорректные вызовы инструментов и повторяет попытку. Самопроверка сверяет собственный ответ агента с доказательствами. Research Threads Synthesis запускает несколько независимых исследовательских нитей для каждого вопроса, суммаризует каждую нить и синтезирует итоговый ответ из этих суммаризаций. По отчетам команды, синтез повышает точность на сложных бенчмарках.
Протокол оценки
Команда оценила текстовые вопросы из 10 датасетов: NQ, TriviaQA, PopQA, HotpotQA, 2WikiMultiHopQA, Musique, Bamboogle, GAIA, BrowseComp и Humanity’s Last Exam (HLE). В выборке по 125 вопросов на датасет, за исключением GAIA с 103 вопросами, всего 1,228 вопросов. Для каждого вопроса запускались 4 исследовательских нити, и рассчитывалась средняя точность mean@4, корректность определялась моделью Gemini-2.5-Flash-lite. Максимальное число интеракций ограничено 100 ходами.
Результаты на масштабе 7B
PokeeResearch-7B демонстрирует лучшую mean@4 точность среди 7B deep research агентов на наборе из 10 датасетов. Примеры результатов: HLE 15.2 без RTS и 17.6 с RTS; GAIA 36.9 без RTS и 41.3 с RTS; BrowseComp 5.4 без RTS и 8.4 с RTS. На семи QA-бенчмарках (Bamboogle, 2WikiMultiHopQA, TriviaQA, NQ, PopQA, Musique, HotpotQA) модель превосходит недавние 7B базовые решения. Наибольший выигрыш от RTS наблюдается для HLE, GAIA и BrowseComp.
Релиз и практические заметки
Проект выпущен под лицензией Apache-2.0, код и веса доступны на Hugging Face и GitHub. Стэк использует Serper и Jina, и авторы отмечают, что настройка работает на одной A100 80 GB и масштабируется дальше. Репозиторий и статья доступны для воспроизведения экспериментов и дальнейших исследований.