DeepSomatic: ИИ от Google находит скрытые мутации опухолей на разных платформах секвенирования

Универсальный инструмент для соматических вариаций

Исследователи из Google Research и UC Santa Cruz представили DeepSomatic — модель ИИ для обнаружения соматических малых вариантов в геноме опухолей, работающую на разных платформах секвенирования. В партнёрстве с Children’s Mercy команда нашла 10 вариантов в образцах детского лейкоза, которые пропустили другие инструменты. DeepSomatic основан на подходе DeepVariant и нацелен на однонуклеотидные варианты (SNV) и небольшие вставки/удаления (indels) в данных WGS и WES.

Принцип работы

DeepSomatic преобразует выровненные риды в нечто вроде изображений — тензоры, кодирующие пайлапы, качества нуклеотидов и контекст выравнивания. Эти тензоры суммируют локальные гаплотипные и ошибочные паттерны, что делает метод независимым от платформы. Сверточная нейросеть классифицирует кандидатные позиции как соматические или нет, а конвейер выдаёт стандартные VCF или gVCF файлы. Модель поддерживает как режим tumor-normal, так и tumor-only, включая модели для FFPE образцов.

Датасеты и бенчмаркинг

Для обучения и оценки использовался CASTLE (Cancer Standards Long read Evaluation) — набор из шести пар опухоль/норма клеточных линий, секвенированных на Illumina, PacBio HiFi и Oxford Nanopore. Команда опубликовала эталонные наборы и accession’ы для повторного использования, что закрывает пробел в ресурсах для обучения и тестирования на нескольких технологиях.

Результаты

По сравнению с распространёнными методами DeepSomatic показал стабильные улучшения для SNV и indels. Основные результаты:

В качестве базовых методов сравнения использовались SomaticSniper, MuTect2, Strelka2 для коротких ридов и ClairS для длинных ридов. Авторы подчёркивают существенное улучшение точности обнаружения indels.

Применимость к реальным образцам

Команда проверила переносимость модели на случаи вне обучающей выборки. В образце глиобластомы DeepSomatic восстановил известные драйверные мутации. В образцах детского лейкоза использовали режим tumor-only и восстановили известные вызовы, а также выявили дополнительные варианты. Это указывает на хорошую обобщаемость представления и схемы обучения как на новые заболевания, так и на ситуации без чистой нормали.

Практическое значение

DeepSomatic предлагает практичный единый подход к вызову соматических вариантов на разных платформах. Сохраняя представление в виде тензоров и CNN из DeepVariant, конвейер обеспечивает согласованную обработку и выходы от Illumina до PacBio HiFi и Oxford Nanopore. Набор CASTLE усиливает воспроизводимость, предоставляя совпадающие пары опухоль/норма на трёх технологиях. Поддержка WGS и WES, режимов tumor-normal и tumor-only, а также FFPE делает инструмент удобным для реальных лабораторных задач, особенно в части улучшенной детекции indels.

Доступность

Конвейер, бенчмарки, доступы к датасету и код опубликованы на GitHub. В технической публикации и посте исследователей доступны дополнительные детали и ссылки на репозиторий и обучающие материалы.