Meta AI представила масштабируемую байтовую модель AU-Net, превосходящую трансформеры в языковом моделировании

Развитие языкового моделирования

Языковое моделирование играет ключевую роль в обработке естественного языка, позволяя машинам предсказывать и генерировать текст, похожий на человеческий. Модели эволюционировали от статистических методов к нейронным архитектурам и современным крупномасштабным трансформерам. Они используются в чат-ботах, переводчиках и системах автодополнения, интерпретируя и генерируя последовательности слов или байтов. Эффективность зависит от архитектуры и представления данных. С ростом требований к эффективности и масштабируемости исследователи обращаются к сочетанию сверточных архитектур и авторегрессионных методов.

Ограничения токен-базированных трансформеров

Современные модели в основном используют токен-базированные трансформеры, которые требуют больших вычислительных ресурсов и неэффективны для байтового уровня и многоязычности. Токенизация, например Byte Pair Encoding, контролирует длину последовательностей, но вызывает проблемы с согласованностью между языками и доменами. Трансформеры имеют квадратичную сложность, что ограничивает масштабируемость. Методы разреженного внимания жертвуют простотой или производительностью. Байтовое моделирование на плоских трансформерах показало лишь частичный успех, подчеркивая необходимость новых архитектур для работы с сырыми байтами без токенизации.

Представляем AU-Net: авторегрессионный U-Net для байтового моделирования

Исследователи из Meta AI (FAIR), TAU, INRIA и других институтов создали AU-Net — новую модель авторегрессионного U-Net, работающую напрямую с байтами без токенизации. Она объединяет сверточный дизайн U-Net с авторегрессионным декодированием для параллельной и эффективной генерации текста. AU-Net использует иерархическое сжатие и восстановление последовательностей через сверточные слои с понижением и повышением размера. Особый механизм разбиения позволяет предсказывать подотрезки параллельно, что обеспечивает линейную сложность по длине последовательности вместо квадратичной.

Архитектура и обучение AU-Net

AU-Net реализован с несколькими масштабами, уменьшающими и восстанавливающими входные данные с помощью сверточных слоев со страйдом. Во время обучения сегменты входа предсказываются с маскированием для сохранения авторегрессионной природы. Обучаемая функция разбиения делит последовательности на неперекрывающиеся группы для параллельного предсказания, которые затем объединяются в полный вывод. Модель поддерживает конфигурации от 3% до 75% вычислительных затрат по сравнению с базовыми моделями. Например, 8-миллиардная модель, обученная на 200 миллиардах токенов, показала конкурентоспособные результаты, а 1-миллиардная модель на 60 миллиардах токенов достигла 35.7 BLEU на задачах перевода, превосходя базовые модели. AU-Net также обеспечивает более высокую скорость генерации благодаря параллельному декодированию, что важно для приложений с низкой задержкой.

Результаты на тестах и многоязычные возможности

AU-Net продемонстрировала сильные результаты на различных бенчмарках. На Enwik8 (байтовое сжатие) модель достигла 1.01 бита на байт (bpb), превзойдя трансформер с 1.02 bpb. На PG-19 (длинный контекст) AU-Net показал 2.61 bpb против 2.75 у трансформеров. В многоязычном тесте FLORES-200 8-миллиардная модель набрала 43.3 BLEU, превзойдя токен-базированные трансформеры, особенно на языках с низкими ресурсами. Модель показала лучшую кросс-лингвистическую генерализацию и устойчивость к шуму, достигая до 33.0 BLEU в различных конфигурациях. При равных вычислительных ресурсах AU-Net сопоставима или лучше трансформеров и ускоряет генерацию на 20–30 %.

Основные достижения и преимущества

Исключает необходимость токенизации, работая с сырыми байтами.
Превосходит трансформеры на байтовых и многоязычных задачах.
Обеспечивает масштабируемость с линейной сложностью по длине последовательности.
Быстрая параллельная генерация для приложений с требованиями по задержке.
Устойчива к шуму и эффективна в многоязычных сценариях.
Эффективно использует вычисления, достигая лучших результатов при меньших затратах.

Перспективы и значение

AU-Net следует известным законам масштабирования, улучшая результаты с ростом размера модели и объема данных. Модель успешно масштабируется до 8 миллиардов параметров и хорошо работает на downstream задачах: генерации, переводе и байтовом предсказании. AU-Net проще в обучении и более устойчива, чем токен-базированные системы, предлагая перспективную альтернативу для будущих масштабных и многоязычных моделей. Исследование ставит под вопрос доминирование токен-базированных трансформеров, предлагая более эффективную и масштабируемую архитектуру для NLP.

Подробнее об исследовании можно узнать из оригинальной статьи и репозитория на GitHub, поддерживаемого авторами проекта.