Odyssey: 102-миллиардная модель Anthrogen для белков с Consensus вместо внимания и обучением через дискретную диффузию

Мультимодальная модель для последовательностей и структуры

Anthrogen представила Odyssey — семейство мультимодальных языковых моделей для белков, предназначенных для генерации последовательностей и структуры, редактирования белков и условного дизайна. Производственные версии охватывают диапазон от 1.2B до 102B параметров. Команда описывает Odyssey как практичную систему для реальных задач дизайна белков и сообщает о раннем доступе к API.

Представление входных данных и токенизация структуры через FSQ

Odyssey объединяет токены последовательности, дискретные токены структуры и легкие функциональные подсказки в единое скрытое представление. Для преобразования 3D-геометрии в компактные токены используется finite scalar quantizer (FSQ) — «алфавит форм», который позволяет модели «читать» структуру так же просто, как последовательность аминокислот. Функциональные подсказки включают доменные теги, подсказки по вторичной структуре, метки ортологичных групп или короткие текстовые описания, обеспечивая доступ к локальным последовательностям и дальнодействующим геометрическим связям.

Consensus вместо глобального self-attention

Odyssey заменяет глобальное self-attention новым правилом распространения Consensus. Consensus выполняет итеративные, ориентированные на локальность обновления по разреженному графу контактов или последовательности: соседства сначала достигают локального согласия, затем это согласие распространяется по цепочке и графу контактов. Anthrogen указывает, что Consensus масштабируется как O(L) по длине последовательности L, в отличие от O(L²) у self-attention, что снижает вычислительные затраты для длинных белков и многодоменных конструкций. Также отмечается более устойчивая зависимость от скорости обучения на больших масштабах, что уменьшает число сбоев и перезапусков тренировок.

Обучение через дискретную диффузию

Odyssey обучается на токенах последовательности и структуры с использованием дискретной диффузии. Прямой процесс вводит маскирующий шум, имитирующий мутации, а обратный денойзер учится совместно восстанавливать последовательность и координаты. При генерации обратный процесс поддерживает условную генерацию и редактирование: можно зафиксировать каркас, удерживать мотив, замаскировать петлю или добавить функциональную метку, а модель дополнит остальное, сохраняя согласованность последовательности и структуры.

Производительность и эффективность данных

В сопоставимых экспериментах Anthrogen сообщает, что обучение через диффузию превосходит masked language modeling на этапе валидации, демонстрируя более низкие perplexity при обучении по сравнению со сложным маскированием и сравнимые или лучшие показатели против простого маскирования. Компания также отмечает, что Odyssey достигает хороших результатов примерно на в 10 раз меньших объёмах данных по сравнению с конкурирующими моделями, что важно в областях с ограниченными размеченными данными. Система направлена на многокритериальный дизайн: активность, специфичность, стабильность и пригодность к производству.

Последствия для рабочих процессов по дизайну белков

Odyssey объединяет FSQ, Consensus и дискретную диффузию для практической совместной работы с последовательностью и структурой. Такое сочетание позволяет выполнять условный дизайн и целенаправленное редактирование при реальных ограничениях, снижая потребности в вычислениях и данных для крупных задач белкового инжиниринга. Подробнее о технических деталях можно прочитать в статье Anthrogen и на связанных ресурсах проекта.