Революция в LLM: Самообучающиеся языковые модели без меток с помощью Test-Time Reinforcement Learning
Исследователи из Университета Цинхуа и Шанхайской лаборатории ИИ представили TTRL — новый метод, позволяющий большим языковым моделям улучшать свои результаты без размеченных данных, используя самооценку и обучение с подкреплением во время инференса.
Преодоление зависимости LLM от размеченных данных
Большие языковые модели (LLM) достигли значительных успехов в области рассуждений благодаря методам обучения с подкреплением (RL). Тем не менее, они по-прежнему сильно зависят от размеченных данных и человеческой обратной связи, что ограничивает их адаптивность в динамичных реальных условиях. Существующие методы, такие как RLHF, улучшают выполнение инструкций, но требуют дорогих размеченных наборов данных.
Введение в Test-Time Reinforcement Learning (TTRL)
Исследователи из Университета Цинхуа и Шанхайской лаборатории искусственного интеллекта разработали Test-Time Reinforcement Learning (TTRL) — новую методику, которая позволяет LLM учиться во время инференса, используя только неразмеченные тестовые данные. TTRL использует внутренние априорные знания модели для оценки псевдо-наград посредством агрегирования нескольких сгенерированных ответов с помощью голосования большинства.
Вместо явных меток TTRL рассматривает наиболее частый ответ среди сгенерированных как псевдо-метку. Ответы, совпадающие с этим консенсусом, получают положительное подкрепление, превращая инференс в процесс самообучения и адаптации без внешнего надзора.
Принцип работы TTRL
TTRL работает в два этапа:
- Оценка меток через голосование большинства: Для каждого запроса модель генерирует несколько ответов. Наиболее часто встречающийся ответ принимается как оценочная метка.
- Назначение награды и оптимизация политики: Ответы, совпадающие с псевдо-меткой, получают бинарную награду. С помощью градиентных алгоритмов RL (например, PPO или GRPO) модель обновляет свою стратегию, чтобы максимизировать согласие с псевдо-метками.
Этот простой и эффективный подход использует выборку с контролем температуры (обычно температура=1.0), с 64 образцами для голосования и 16 для обновления, не требуя истинных меток.
Успехи в математических задачах
TTRL был протестирован на трех математических бенчмарках: AIME 2024, AMC и MATH-500. Результаты показали значительный прогресс:
- Точность Qwen2.5-Math-7B на AIME 2024 выросла с 16.7% до 43.3% (pass@1), что на 159.3% больше без использования размеченных данных.
- В среднем по трем бенчмаркам модель показала относительный прирост в 84.1%.
- Меньшая модель Qwen2.5-Math-1.5B улучшилась с 33.0% до 80.0% на MATH-500.
Эти результаты демонстрируют способность TTRL улучшать качество работы даже выше точности псевдо-меток, что свидетельствует о самоусиливающемся цикле обучения. Кроме того, TTRL хорошо обобщается, сохраняя прирост производительности на задачах, не используемых для обучения.
Значение и перспективы
TTRL представляет собой сдвиг в применении RL для LLM, позволяя моделям непрерывно адаптироваться без использования размеченных данных, опираясь на собственные генерации как источник обучения. Совместимость с разными алгоритмами RL и масштабируемость по размеру модели делают этот подход перспективным для реальных приложений.
Хотя первоначально метод продемонстрирован на математических задачах, идеи TTRL — самооценка, адаптация во время инференса и обучение без меток — могут применяться и в других областях. Для полного раскрытия потенциала необходимы дальнейшие исследования теоретических свойств и применение в интерактивных или мультиагентных системах.
TTRL закладывает фундамент для эффективного и непрерывного саморазвития LLM, снижая зависимость от дорогой аннотации и повышая устойчивость моделей к новым задачам вне обучающего распределения.
Switch Language
Read this article in English