QeRL позволяет обучать 32B RL на одном H100 с NVFP4 — быстрее роллауты и лучшее исследование

QeRL — открытая рамочная система, которая переносит веса в 4-битный NVFP4 для этапа посттрейнинга Reinforcement Learning, сохраняя при этом стабильность обновлений с помощью LoRA. Подход направлен на ускорение этапа роллаутов, где генерация токенов занимает большую часть времени, и использует эффективные аппаратные FP4×BF16 ядра для ускорения сэмплинга без необходимости хранить полную FP политику.

Как работают NVFP4 и LoRA вместе

QeRL квантизирует веса модели в NVFP4 (FP4) с двухуровневым масштабированием и держит логиты и операции градиентов в более высокой точности через LoRA-обновления. Пути роллаута и prefilling используют Marlin-ядра FP4, поэтому сэмплинг выполняется с BF16-уровнем точности и меньшим объёмом памяти. Обратное распространение остаётся стабильным, поскольку обучаемые изменения ограничены модулями LoRA, которые считаются в более высокой точности.

Адаптивный квантизационный шум как управляемый сигнал исследования

Ключевое наблюдение — детерминированная FP4 квантизация повышает энтропию политики на ранних этапах обучения, выравнивая распределение токенов и стимулируя исследование по сравнению с 16-битным LoRA и NF4-QLoRA. QeRL делает этот эффект управляемым, вводя Adaptive Quantization Noise (AQN): поканальные гауссовы возмущения, отображаемые в параметры масштаба LayerNorm и аннируемые по экспоненциальному графику. AQN сохраняет слияние ядер и не требует дополнительных тензоров весов, при этом плавно переводя политику от исследования к эксплуатации.

Интеграция и преимущества в производительности

Реализация включает Marlin FP4-ядра в роллауте и prefilling и ограничивает число обучаемых параметров с помощью LoRA, что напрямую снижает стоимость и задержку этапа, доминирующего в RLHF-пайплайнах при длинных трассах рассуждений. В отчёте указаны более чем 1.5× ускорения в роллауте, примерно 1.8× ускорение от начала до конца по сравнению с QLoRA в представительном случае, и более 2× пропускная способность роллаута на 14B/32B моделях против QLoRA в некоторых бенчмарках.

Точность и выигрыш в памяти

На экспериментах с Qwen2.5 команда показала, что NVFP4+LoRA сопоставим или превосходит модели с более высокой точностью в математических задачах: для 7B модели сообщены GSM8K = 90.8% и MATH500 = 77.4%, что лучше 16-битного LoRA и QLoRA в их настройке и сопоставимо с полным тонкой настройкой всех параметров. Экономия памяти от weight-only FP4 позволила обучить 32B политику с GRPO на одном H100-80GB, что авторы называют первой такой демонстрацией.

Где применим QeRL и его ограничения

QeRL — это weight-only FP4 с LoRA-обновлениями; он не заявляет FP4 точности для логитов или градиентов. Основные выгоды лежат в пропускной способности роллаута и сокращении памяти, а наблюдаемые преимущества в исследовании исходят от квантизационно-индуцированной энтропии, контролируемой AQN. Обобщение за пределы отчётных задач по математике или к задачам с безопасностью и использованием инструментов будет зависеть от дизайна вознаграждений, длины последовательностей и поддержки NVFP4 ядер, таких как Marlin.

Основные выводы

Для полных технических деталей, кода и инструкций по воспроизведению см. статью и репозиторий проекта, указанные авторами.