PARSCALE: Революция в масштабировании языковых моделей с помощью параллельных вычислений
PARSCALE предлагает новый подход к масштабированию языковых моделей через параллельные вычисления, снижая использование памяти и задержки при улучшении производительности.
Проблемы масштабирования языковых моделей
Языковые модели растут за счет увеличения числа параметров или вычислительной мощности, что требует больших ресурсов памяти и вычислений. Традиционные методы, такие как Dense Scaling и Mixture-of-Experts, увеличивают число обучаемых параметров, что ведет к высокому потреблению памяти, тогда как масштабирование во время инференса удлиняет последовательности или увеличивает количество шагов рассуждений, вызывая задержки и замедляя развертывание. Эти подходы плохо подходят для устройств с ограниченными ресурсами, таких как мобильные или встроенные системы.
Введение в PARSCALE
Исследователи из Университета Чжэцзян и Alibaba Group предложили PARSCALE (Parallel Scaling) — новый метод, который улучшает производительность модели за счет увеличения параллельных вычислений, а не размера модели или длины вывода. PARSCALE применяет несколько обучаемых трансформаций к входу, позволяя выполнять несколько прямых проходов параллельно, после чего результаты динамически агрегируются. Это сохраняет исходное количество параметров и повышает вычислительное разнообразие.
Технические детали PARSCALE
PARSCALE добавляет несколько уникальных обучаемых префиксов к одному входу, создавая параллельные потоки, которые обрабатываются одновременно. Выходы этих потоков объединяются с помощью динамической взвешенной суммы, вычисляемой многослойным перцептроном. Это добавляет лишь около 0,2% параметров на поток, что значительно меньше по сравнению с традиционным масштабированием. Префиксное тюнингование позволяет каждому потоку использовать уникальные кеши ключ-значение, что эффективно экономит память. Метод оптимизирован для параллелизма на GPU, что снижает задержки при дополнительной нагрузке. Важно, что PARSCALE не требует изменений базовой архитектуры и подходит для замороженных предварительно обученных моделей, обучая только новые префиксы и параметры агрегации.
Результаты экспериментов
Широкие эксперименты с моделями от 0,5 до 4,4 миллиарда параметров и количеством параллельных потоков (P) от 1 до 8 показали, что модели с P=8 достигают производительности, сопоставимой с гораздо большими моделями, но с существенно меньшими затратами памяти и задержек. Например, модель с 1,6 миллиарда параметров и PARSCALE использовала в 22 раза меньше дополнительной памяти и в 6 раз меньше увеличения задержки по сравнению с масштабированием параметров при одинаковой производительности. На задачах GSM8K и MMLU улучшение достигало 34% и 23% соответственно. Производительность в программировании также значительно выросла — модель с 1,6 миллиарда параметров и P=8 показала результаты, сопоставимые с моделью в 4,4 миллиарда параметров. PARSCALE сохранял эффективность при дообучении и параметрически эффективной тонкой настройке, при этом основные параметры модели оставались неизменными.
Значение и перспективы
PARSCALE предлагает новый взгляд на масштабирование языковых моделей, фокусируясь на эффективном повторном использовании вычислений вместо увеличения размера модели или длины вывода. Этот подход решает проблемы с памятью и временем, сохраняя или улучшая производительность, и позволяет масштабируемо разворачивать модели в условиях ограниченных ресурсов. Это перспективное направление для будущих исследований и практического применения продвинутых языковых моделей.
Switch Language
Read this article in English