C2S-Scale 27B от Google превращает scRNA-seq в 'предложения клеток' для анализа с помощью LLM

Что делает C2S-Scale 27B

Команда Google Research, DeepMind и Yale выпустила C2S-Scale 27B — модель-основу с 27 миллиардами параметров для анализа одноклеточных данных, построенную на Gemma-2. Модель формализует профили scRNA-seq как ранжированные списки генов — 'предложения клеток' — чтобы языковая модель могла напрямую парсить и рассуждать о состоянии клеток.

C2S-Scale выбирает топ-K генов по рангу и эмитирует последовательность символов с названиями генов, преобразуя многомерный вектор экспрессии в текст. Такое текстовое представление согласуется со стандартными инструментами LLM и позволяет формулировать задачи — предсказание типа клетки, классификация ткани, описание кластеров, предсказание эффектов возмущений и биологические вопросы — как промпты и завершения.

Тренировка, архитектура и релиз

C2S-Scale-Gemma-2-27B — это декодерный трансформер на базе Gemma-2 27B, обученный на Google TPU v5 и выпущенный под лицензией CC-BY-4.0. Корпус предобучения агрегирует более 800 публичных наборов scRNA-seq, охватывающих свыше 57 миллионов клеток человека и мыши с метаданными и текстовым контекстом. Предобучение объединяет транскриптомные токены и биологический текст в единый мультимодальный корпус, что позволяет модели рассуждать и по последовательностям генов, и по естественному языку.

Открытые веса и документация для вариантов 27B и 2B доступны для исследовательского использования на Hugging Face и в репозитории проекта на GitHub.

Открытие: интерферон-зависимый усилитель

В рамках виртуального скрининга с двумя контекстами команда просканировала более 4 000 соединений в поисках препаратов, которые усиливают представление антигенов (программу MHC-I) только в иммунно-контекстных образцах с низким тоном интерферона и практически не влияют на иммунно-нейтральные клеточные линии.

Модель выделила сильный контекст-зависимый эффект для силмитасертиба (ингибитор CK2): выраженное повышение MHC-I при совместном применении с низкой дозой интерферона и минимальное действие без интерферона. Исследователи подтвердили предсказание в лаборатории на человеческих нейроэндокринных моделях, не входивших в обучающую выборку. В их экспериментах комбинация силмитасертиба и низкой дозы интерферона дала синергетическое увеличение представления антигена — примерно на 50% по сравнению с отдельными лечениями.

Данные проточной цитометрии указывают на то, что комбинация понижает порог реакции на интерферон, а не инициирует представление антигена с нуля: апрегуляция HLA-A,B,C наблюдается только при комбинированном лечении (включая IFN-β и IFN-γ) в двух моделях, с показательными приростами MFI, например 13.6% при 10 нM и 34.9% при 1000 нM силмитасертиба в одной модели.

Значение и оговорки

C2S-Scale 27B демонстрирует практический рабочий процесс для анализа одноклеточных данных на базе LLM: текстовое представление профилей позволяет выполнять скрининг и контекстно-зависимые запросы по тысячам возмущений. Выявление ингибитора CK2 как интерферон-зависимого усилителя показывает, что методика может генерировать экспериментально проверяемые гипотезы.

При этом все данные носят доклинический и лабораторный характер. Правильная интерпретация — 'AI для генерации гипотез', инструмент для приоритизации экспериментов, а не клинических рекомендаций. Авторы выкладывают открытые веса и документацию, чтобы сообщество могло воспроизвести результаты и протестировать метод.

Где найти материалы