FILTER MODE ACTIVE

#GPU-часы

Найдено записей: 1

#GPU-часы18.10.2025

Сигмоидное масштабирование делает RL пост-тренинг предсказуемым для LLM

'Новое исследование показывает, что прогресс RL пост-тренинга следует сигмоидным кривым, и предлагает ScaleRL — рецепт, подтверждённый до 100k GPU-часов для предсказуемого масштабирования LLM.'