Reinforcement-Learned Teachers от Sakana AI: Революция в эффективном обучении рассуждению LLM

Представляем Reinforcement-Learned Teachers (RLTs)

Sakana AI разработала инновационную систему Reinforcement-Learned Teachers (RLTs), направленную на улучшение способности больших языковых моделей (LLM) к рассуждению с акцентом на эффективность и повторное использование. В отличие от традиционных методов обучения с подкреплением (RL), где модели решают задачи самостоятельно и сталкиваются с редкими сигналами вознаграждения и высокими вычислительными затратами, RLTs переосмысливают роль учителя: обучают небольшие модели генерировать подробные пошаговые объяснения, а не решать задачи с нуля.

Переосмысление целей обучения с подкреплением

В традиционном RL модели обучаются решать задачи автономно, используя редкие вознаграждения, основанные на правильности решения. После этого они генерируют трассировки рассуждений для обучения меньших моделей-учеников, что приводит к несоответствию между целью RL и фактическим использованием — обучением. RLTs решают эту проблему, предоставляя модели и задачу, и решение, а затем поручая ей создавать педагогические объяснения. Система вознаграждения плотная и ориентирована на понимание учеником: она измеряет, насколько хорошо ученик может воспроизвести решение на основе объяснения.

Ключевые показатели вознаграждения: оценка решения и объяснения

Фреймворк RLT использует два основных компонента вознаграждения:

Solution Score (rSS): Оценивает способность ученика воссоздать правильное решение, используя объяснение и задачу.
Explanation Score (rKL): Измеряет логическую связность объяснения с точки зрения ученика.

Эти показатели формируют плотный сигнал вознаграждения, стимулирующий создание четких и обучающих объяснений, при этом обходя ограничение традиционного RL, связанное с исследованием, что позволяет эффективно обучать небольшие модели.

Впечатляющая эффективность малых моделей-учителей

Эксперименты показали, что RLT с 7 миллиардами параметров превосходит гораздо более крупные модели (более 32 миллиардов параметров) на нескольких сложных наборах данных, включая AIME 2024, MATH 500 и GPQA Diamond. В корпусе из 17 000 вопросов:

RLT-7B обходит DeepSeek R1, Bespoke-7B и постобработанные RL-трассировки.
RLT-32B превосходит все базовые модели с 32B параметров, несмотря на то, что был дистиллирован с меньшего учителя.

RLT демонстрируют не только эффективность по числу параметров, но и лучшее обобщение, меньше ошибок форматирования и более высокую интерпретируемость.

Холодный старт обучения с подкреплением с помощью RLT

Трассировки рассуждений, сгенерированные RLT, служат превосходным материалом для холодного старта RL-тренировок по сравнению с трассировками от крупных RL-моделей. Даже без дополнительной постобработки или доработки эти объяснения значительно повышают производительность после дообучения RL.

Обобщение вне домена и zero-shot перенос

RLT показывают сильные способности к zero-shot переносу. При применении к новой задаче, например, арифметической "Countdown", модели-ученики, обученные на объяснениях RLT, превосходят модели, обученные напрямую RL. Это свидетельствует о том, что навык "объяснять решение" легче переносится между задачами, чем навык "решать с нуля", что подтверждает лучшую переиспользуемость моделей обучения с подкреплением, ориентированных на обучение.

Эффективный и масштабируемый тренировочный процесс

Процесс обучения RLT характеризуется вычислительной экономичностью:

Около 250 шагов RL (~1 эпоха)
Размер батча 256, группа 64
Обучение на одном узле с Qwen2.5-7B-Instruct

Весь код и предобученные чекпоинты доступны на GitHub. В отличие от традиционных RL-процессов, RLT не требуют постобработки, корректировки формата или фильтров верификации — их сырые выходные данные сразу пригодны к использованию.

Итоги

Reinforcement-Learned Teachers от Sakana AI предлагают масштабируемый и экономичный способ дистилляции способностей к рассуждению в LLM. Фокусируясь на обучении вместо решения задач, RLT позволяют небольшим моделям превосходить более крупные аналоги, обеспечивая лучшую переносимость и интерпретируемость.