Сигмоидное масштабирование делает RL пост-тренинг предсказуемым для LLM

Проблема предсказуемости в RL пост-тренинге

Пост-тренинг с подкреплением стал ключевым инструментом для моделей, ориентированных на рассуждение, но до недавнего времени у команд не было надежных правил масштабирования для прогнозирования отдачи. Группы тратили десятки тысяч GPU-часов без принципиального способа понять, принесет ли дополнительный вычислительный бюджет ощутимый прогресс. Исследование от Meta, UT Austin, UCL, Berkeley, Harvard и Periodic Labs предлагает вычислительно-производственную модель, валидация которой охватывает более 400 000 GPU-часов, моделируя прогресс RL сигмоидной кривой и предлагая проверенный рецепт ScaleRL, который следует этим кривым до 100 000 GPU-часов.

Сигмоида вместо степенных законов

В предобучении часто действуют степенные законы между loss и compute. Для RL-файнтюнинга же метрики ограничены (например, pass rate или средняя награда), и степенные аппроксимации оказываются ненадежными при экстраполяции с небольших запусков. Исследователи показывают, что аппроксимация сигмоидой pass rate относительно compute дает более устойчивые и предсказуемые экстраполяции, если исключить очень ранний шумный режим (порядка первых ~1.5k GPU-часов). Параметры сигмоида интуитивны: один задает асимптотическую производительность (потолок), другой — эффективность/крутизну, третий — середину, где улучшения идут быстрее.

Практический смысл: после ~1–2k GPU-часов можно подогнать кривую и спрогнозировать, стоит ли тянуть до 10k–100k GPU-часов. Степенные аппроксимации могут давать вводящие в заблуждение оценки потолка, если их подгонять на низких вычислительных бюджетах.

ScaleRL: рецепт для предсказуемого масштабирования

ScaleRL — это не одна новая формула, а набор инженерных и loss-решений, обеспечивших стабильное масштабирование в исследовании. Основные компоненты:

Асинхронный Pipeline RL (разделение генератора и тренера по GPU) для офф-полиси пропускной способности
CISPO (усечённый importance-sampling REINFORCE) как RL loss
FP32 точность на логитах для избежания численной несовместимости между генератором и тренером
Усреднение loss на уровне промпта и нормализация advantage на батче
Принудительные прерывания длины для ограничения runaway traces
Фильтрация нулевой дисперсии (drop prompts без градиентного сигнала)
No-Positive-Resampling (исключение промптов с высоким pass rate >=0.9 на поздних эпохах)

Командa проверила каждый компонент с помощью leave-one-out абляций на 16k GPU-часах и показала, что подгнанные кривые ScaleRL надежно экстраполируют с 8k -> 16k, а затем сохраняют поведение при гораздо больших масштабах, включая единичный прогон до 100k GPU-часов. Подробности в статье: https://arxiv.org/pdf/2510.13786

Валидация на моделях и задачах

Два ключевых подтверждения генерализации. Во-первых, для плотной модели 8B и MoE 17B×16 Llama-4 под названием 'Scout' длительное обучение следовало сигмоидным экстраполяциям, полученным из меньших сегментов вычислений. Во-вторых, улучшения pass rate на iid валидационном сете коррелировали с downstream-оценками (например, AIME-24), что указывает на то, что кривая не является артефактом конкретного датасета.

Исследование также сравнивает подогнанные кривые для распространенных рецептов (например, DeepSeek (GRPO), Qwen-2.5 (DAPO), Magistral, MiniMax-M1) и сообщает о более высокой асимптотической производительности и лучшей эффективности по compute для ScaleRL в их настройках.

Какие настройки меняют потолок, а какие — эффективность

Рамка позволяет классифицировать дизайнерские решения по их эффекту:

Движущие потолок: масштаб модели (например, MoE), более длинные длины генерации (до 32 768 токенов) и больший глобальный батч могут поднять асимптотическую производительность, хотя замедлят ранние улучшения.
Формирователи эффективности: агрегация loss, нормализация advantage, учебная программа данных и офф-полиси pipeline главным образом влияют на скорость приближения к потолку, а не на сам потолок.

Операционное руководство: подгоняйте сигмоидную кривую рано, затем сначала приоритетизируйте изменения, которые поднимают потолок, и только после этого настраивайте параметры, ускоряющие достижение этого потолка при фиксированном compute.

Основные выводы

Исследование моделирует прогресс RL пост-тренинга сигмоидными compute-performance кривыми (pass-rate против log compute), что делает экстраполяцию надежной в отличие от степенных аппроксимаций для ограниченных метрик. Рецепт ScaleRL объединяет PipelineRL-стиль асинхронной генерации/обучения, CISPO loss, FP32 логиты и набор процедур по агрегации и фильтрации данных. Авторы предсказали и подтвердили поведение на продленных запусках до 100k GPU-часов (8B dense) и ~50k GPU-часов (17B×16 MoE 'Scout'). Абляции показывают, какие изменения поднимают асимптоту, а какие в основном улучшают эффективность вычислений.