DeepSomatic: ИИ от Google находит скрытые мутации опухолей на разных платформах секвенирования
Универсальный инструмент для соматических вариаций
Исследователи из Google Research и UC Santa Cruz представили DeepSomatic — модель ИИ для обнаружения соматических малых вариантов в геноме опухолей, работающую на разных платформах секвенирования. В партнёрстве с Children’s Mercy команда нашла 10 вариантов в образцах детского лейкоза, которые пропустили другие инструменты. DeepSomatic основан на подходе DeepVariant и нацелен на однонуклеотидные варианты (SNV) и небольшие вставки/удаления (indels) в данных WGS и WES.
Принцип работы
DeepSomatic преобразует выровненные риды в нечто вроде изображений — тензоры, кодирующие пайлапы, качества нуклеотидов и контекст выравнивания. Эти тензоры суммируют локальные гаплотипные и ошибочные паттерны, что делает метод независимым от платформы. Сверточная нейросеть классифицирует кандидатные позиции как соматические или нет, а конвейер выдаёт стандартные VCF или gVCF файлы. Модель поддерживает как режим tumor-normal, так и tumor-only, включая модели для FFPE образцов.
Датасеты и бенчмаркинг
Для обучения и оценки использовался CASTLE (Cancer Standards Long read Evaluation) — набор из шести пар опухоль/норма клеточных линий, секвенированных на Illumina, PacBio HiFi и Oxford Nanopore. Команда опубликовала эталонные наборы и accession’ы для повторного использования, что закрывает пробел в ресурсах для обучения и тестирования на нескольких технологиях.
Результаты
По сравнению с распространёнными методами DeepSomatic показал стабильные улучшения для SNV и indels. Основные результаты:
- Indels на Illumina: примерно 90% F1 у DeepSomatic против ~80% у следующего по качеству метода.
- Indels на PacBio: выше 80% F1 у DeepSomatic против менее 50% у конкурентов.
- В сумме исследование зафиксировало 329 011 соматических вариантов по образцам эталона и дополнительной сохранённой пробе.
В качестве базовых методов сравнения использовались SomaticSniper, MuTect2, Strelka2 для коротких ридов и ClairS для длинных ридов. Авторы подчёркивают существенное улучшение точности обнаружения indels.
Применимость к реальным образцам
Команда проверила переносимость модели на случаи вне обучающей выборки. В образце глиобластомы DeepSomatic восстановил известные драйверные мутации. В образцах детского лейкоза использовали режим tumor-only и восстановили известные вызовы, а также выявили дополнительные варианты. Это указывает на хорошую обобщаемость представления и схемы обучения как на новые заболевания, так и на ситуации без чистой нормали.
Практическое значение
DeepSomatic предлагает практичный единый подход к вызову соматических вариантов на разных платформах. Сохраняя представление в виде тензоров и CNN из DeepVariant, конвейер обеспечивает согласованную обработку и выходы от Illumina до PacBio HiFi и Oxford Nanopore. Набор CASTLE усиливает воспроизводимость, предоставляя совпадающие пары опухоль/норма на трёх технологиях. Поддержка WGS и WES, режимов tumor-normal и tumor-only, а также FFPE делает инструмент удобным для реальных лабораторных задач, особенно в части улучшенной детекции indels.
Доступность
Конвейер, бенчмарки, доступы к датасету и код опубликованы на GitHub. В технической публикации и посте исследователей доступны дополнительные детали и ссылки на репозиторий и обучающие материалы.