Meta AI представила масштабируемую байтовую модель AU-Net, превосходящую трансформеры в языковом моделировании
Исследователи Meta AI разработали AU-Net — масштабируемую байтовую авторегрессионную модель U-Net, которая превосходит традиционные токен-базированные трансформеры по языковым задачам и обеспечивает более быструю и эффективную генерацию текста.
Развитие языкового моделирования
Языковое моделирование играет ключевую роль в обработке естественного языка, позволяя машинам предсказывать и генерировать текст, похожий на человеческий. Модели эволюционировали от статистических методов к нейронным архитектурам и современным крупномасштабным трансформерам. Они используются в чат-ботах, переводчиках и системах автодополнения, интерпретируя и генерируя последовательности слов или байтов. Эффективность зависит от архитектуры и представления данных. С ростом требований к эффективности и масштабируемости исследователи обращаются к сочетанию сверточных архитектур и авторегрессионных методов.
Ограничения токен-базированных трансформеров
Современные модели в основном используют токен-базированные трансформеры, которые требуют больших вычислительных ресурсов и неэффективны для байтового уровня и многоязычности. Токенизация, например Byte Pair Encoding, контролирует длину последовательностей, но вызывает проблемы с согласованностью между языками и доменами. Трансформеры имеют квадратичную сложность, что ограничивает масштабируемость. Методы разреженного внимания жертвуют простотой или производительностью. Байтовое моделирование на плоских трансформерах показало лишь частичный успех, подчеркивая необходимость новых архитектур для работы с сырыми байтами без токенизации.
Представляем AU-Net: авторегрессионный U-Net для байтового моделирования
Исследователи из Meta AI (FAIR), TAU, INRIA и других институтов создали AU-Net — новую модель авторегрессионного U-Net, работающую напрямую с байтами без токенизации. Она объединяет сверточный дизайн U-Net с авторегрессионным декодированием для параллельной и эффективной генерации текста. AU-Net использует иерархическое сжатие и восстановление последовательностей через сверточные слои с понижением и повышением размера. Особый механизм разбиения позволяет предсказывать подотрезки параллельно, что обеспечивает линейную сложность по длине последовательности вместо квадратичной.
Архитектура и обучение AU-Net
AU-Net реализован с несколькими масштабами, уменьшающими и восстанавливающими входные данные с помощью сверточных слоев со страйдом. Во время обучения сегменты входа предсказываются с маскированием для сохранения авторегрессионной природы. Обучаемая функция разбиения делит последовательности на неперекрывающиеся группы для параллельного предсказания, которые затем объединяются в полный вывод. Модель поддерживает конфигурации от 3% до 75% вычислительных затрат по сравнению с базовыми моделями. Например, 8-миллиардная модель, обученная на 200 миллиардах токенов, показала конкурентоспособные результаты, а 1-миллиардная модель на 60 миллиардах токенов достигла 35.7 BLEU на задачах перевода, превосходя базовые модели. AU-Net также обеспечивает более высокую скорость генерации благодаря параллельному декодированию, что важно для приложений с низкой задержкой.
Результаты на тестах и многоязычные возможности
AU-Net продемонстрировала сильные результаты на различных бенчмарках. На Enwik8 (байтовое сжатие) модель достигла 1.01 бита на байт (bpb), превзойдя трансформер с 1.02 bpb. На PG-19 (длинный контекст) AU-Net показал 2.61 bpb против 2.75 у трансформеров. В многоязычном тесте FLORES-200 8-миллиардная модель набрала 43.3 BLEU, превзойдя токен-базированные трансформеры, особенно на языках с низкими ресурсами. Модель показала лучшую кросс-лингвистическую генерализацию и устойчивость к шуму, достигая до 33.0 BLEU в различных конфигурациях. При равных вычислительных ресурсах AU-Net сопоставима или лучше трансформеров и ускоряет генерацию на 20–30 %.
Основные достижения и преимущества
- Исключает необходимость токенизации, работая с сырыми байтами.
- Превосходит трансформеры на байтовых и многоязычных задачах.
- Обеспечивает масштабируемость с линейной сложностью по длине последовательности.
- Быстрая параллельная генерация для приложений с требованиями по задержке.
- Устойчива к шуму и эффективна в многоязычных сценариях.
- Эффективно использует вычисления, достигая лучших результатов при меньших затратах.
Перспективы и значение
AU-Net следует известным законам масштабирования, улучшая результаты с ростом размера модели и объема данных. Модель успешно масштабируется до 8 миллиардов параметров и хорошо работает на downstream задачах: генерации, переводе и байтовом предсказании. AU-Net проще в обучении и более устойчива, чем токен-базированные системы, предлагая перспективную альтернативу для будущих масштабных и многоязычных моделей. Исследование ставит под вопрос доминирование токен-базированных трансформеров, предлагая более эффективную и масштабируемую архитектуру для NLP.
Подробнее об исследовании можно узнать из оригинальной статьи и репозитория на GitHub, поддерживаемого авторами проекта.
Switch Language
Read this article in English