FILTER MODE ACTIVE

#'RA3

Найдено записей: 1

#'RA309.10.2025

RA3: Темпоральные абстракции действий для ускорения RL-посттренинга в кодовых LLM

'RA3 формализует mid-training как отсечение пространства действий и сокращение горизонта планирования, используя темпоральные абстракции для ускорения RL-посттренинга и улучшения генерации кода.'