QeRL позволяет обучать 32B RL на одном H100 с NVFP4 — быстрее роллауты и лучшее исследование
QeRL — открытая рамочная система, которая переносит веса в 4-битный NVFP4 для этапа посттрейнинга Reinforcement Learning, сохраняя при этом стабильность обновлений с помощью LoRA. Подход направлен на ускорение этапа роллаутов, где генерация токенов занимает большую часть времени, и использует эффективные аппаратные FP4×BF16 ядра для ускорения сэмплинга без необходимости хранить полную FP политику.
Как работают NVFP4 и LoRA вместе
QeRL квантизирует веса модели в NVFP4 (FP4) с двухуровневым масштабированием и держит логиты и операции градиентов в более высокой точности через LoRA-обновления. Пути роллаута и prefilling используют Marlin-ядра FP4, поэтому сэмплинг выполняется с BF16-уровнем точности и меньшим объёмом памяти. Обратное распространение остаётся стабильным, поскольку обучаемые изменения ограничены модулями LoRA, которые считаются в более высокой точности.
Адаптивный квантизационный шум как управляемый сигнал исследования
Ключевое наблюдение — детерминированная FP4 квантизация повышает энтропию политики на ранних этапах обучения, выравнивая распределение токенов и стимулируя исследование по сравнению с 16-битным LoRA и NF4-QLoRA. QeRL делает этот эффект управляемым, вводя Adaptive Quantization Noise (AQN): поканальные гауссовы возмущения, отображаемые в параметры масштаба LayerNorm и аннируемые по экспоненциальному графику. AQN сохраняет слияние ядер и не требует дополнительных тензоров весов, при этом плавно переводя политику от исследования к эксплуатации.
Интеграция и преимущества в производительности
Реализация включает Marlin FP4-ядра в роллауте и prefilling и ограничивает число обучаемых параметров с помощью LoRA, что напрямую снижает стоимость и задержку этапа, доминирующего в RLHF-пайплайнах при длинных трассах рассуждений. В отчёте указаны более чем 1.5× ускорения в роллауте, примерно 1.8× ускорение от начала до конца по сравнению с QLoRA в представительном случае, и более 2× пропускная способность роллаута на 14B/32B моделях против QLoRA в некоторых бенчмарках.
Точность и выигрыш в памяти
На экспериментах с Qwen2.5 команда показала, что NVFP4+LoRA сопоставим или превосходит модели с более высокой точностью в математических задачах: для 7B модели сообщены GSM8K = 90.8% и MATH500 = 77.4%, что лучше 16-битного LoRA и QLoRA в их настройке и сопоставимо с полным тонкой настройкой всех параметров. Экономия памяти от weight-only FP4 позволила обучить 32B политику с GRPO на одном H100-80GB, что авторы называют первой такой демонстрацией.
Где применим QeRL и его ограничения
QeRL — это weight-only FP4 с LoRA-обновлениями; он не заявляет FP4 точности для логитов или градиентов. Основные выгоды лежат в пропускной способности роллаута и сокращении памяти, а наблюдаемые преимущества в исследовании исходят от квантизационно-индуцированной энтропии, контролируемой AQN. Обобщение за пределы отчётных задач по математике или к задачам с безопасностью и использованием инструментов будет зависеть от дизайна вознаграждений, длины последовательностей и поддержки NVFP4 ядер, таких как Marlin.
Основные выводы
- QeRL сочетает NVFP4 4-битную квантизацию весов с LoRA для ускорения роллаута и уменьшения памяти, что позволяет обучать 32B LLM на одном H100-80GB.
- Квантизация повышает энтропию политики на ранних этапах; AQN назначает поканальный шум через масштабы LayerNorm для управления исследованием.
- Сообщённые показатели: >1.5× ускорение роллаута против 16-битного LoRA, ~1.8× end-to-end против QLoRA в представительной настройке, >2× пропускная способность роллаута против QLoRA на 14B/32B.
- Точность конкурентоспособна: Qwen2.5-7B достиг GSM8K = 90.8% и MATH500 = 77.4% в экспериментах авторов.
Для полных технических деталей, кода и инструкций по воспроизведению см. статью и репозиторий проекта, указанные авторами.