Революция в LLM: Самообучающиеся языковые модели без меток с помощью Test-Time Reinforcement Learning

Преодоление зависимости LLM от размеченных данных

Большие языковые модели (LLM) достигли значительных успехов в области рассуждений благодаря методам обучения с подкреплением (RL). Тем не менее, они по-прежнему сильно зависят от размеченных данных и человеческой обратной связи, что ограничивает их адаптивность в динамичных реальных условиях. Существующие методы, такие как RLHF, улучшают выполнение инструкций, но требуют дорогих размеченных наборов данных.

Введение в Test-Time Reinforcement Learning (TTRL)

Исследователи из Университета Цинхуа и Шанхайской лаборатории искусственного интеллекта разработали Test-Time Reinforcement Learning (TTRL) — новую методику, которая позволяет LLM учиться во время инференса, используя только неразмеченные тестовые данные. TTRL использует внутренние априорные знания модели для оценки псевдо-наград посредством агрегирования нескольких сгенерированных ответов с помощью голосования большинства.

Вместо явных меток TTRL рассматривает наиболее частый ответ среди сгенерированных как псевдо-метку. Ответы, совпадающие с этим консенсусом, получают положительное подкрепление, превращая инференс в процесс самообучения и адаптации без внешнего надзора.

Принцип работы TTRL

TTRL работает в два этапа:

Оценка меток через голосование большинства: Для каждого запроса модель генерирует несколько ответов. Наиболее часто встречающийся ответ принимается как оценочная метка.
Назначение награды и оптимизация политики: Ответы, совпадающие с псевдо-меткой, получают бинарную награду. С помощью градиентных алгоритмов RL (например, PPO или GRPO) модель обновляет свою стратегию, чтобы максимизировать согласие с псевдо-метками.

Этот простой и эффективный подход использует выборку с контролем температуры (обычно температура=1.0), с 64 образцами для голосования и 16 для обновления, не требуя истинных меток.

Успехи в математических задачах

TTRL был протестирован на трех математических бенчмарках: AIME 2024, AMC и MATH-500. Результаты показали значительный прогресс:

Точность Qwen2.5-Math-7B на AIME 2024 выросла с 16.7% до 43.3% (pass@1), что на 159.3% больше без использования размеченных данных.
В среднем по трем бенчмаркам модель показала относительный прирост в 84.1%.
Меньшая модель Qwen2.5-Math-1.5B улучшилась с 33.0% до 80.0% на MATH-500.

Эти результаты демонстрируют способность TTRL улучшать качество работы даже выше точности псевдо-меток, что свидетельствует о самоусиливающемся цикле обучения. Кроме того, TTRL хорошо обобщается, сохраняя прирост производительности на задачах, не используемых для обучения.

Значение и перспективы

TTRL представляет собой сдвиг в применении RL для LLM, позволяя моделям непрерывно адаптироваться без использования размеченных данных, опираясь на собственные генерации как источник обучения. Совместимость с разными алгоритмами RL и масштабируемость по размеру модели делают этот подход перспективным для реальных приложений.

Хотя первоначально метод продемонстрирован на математических задачах, идеи TTRL — самооценка, адаптация во время инференса и обучение без меток — могут применяться и в других областях. Для полного раскрытия потенциала необходимы дальнейшие исследования теоретических свойств и применение в интерактивных или мультиагентных системах.