Google DeepMind представила модель искусственного интеллекта AlphaGenome, которая может помочь ученым разгадать тайны человеческого генома. Спустя почти 25 лет после завершения проекта расшифровки генома человека, 98% его содержимого, не кодирующего белки, остается загадкой для науки.
Новая ИИ-модель поможет объяснить функции «темной» ДНК человека

AlphaGenome представляет собой модель «последовательность-функция», способную анализировать длинные участки ДНК и предсказывать различные их свойства, включая уровни экспрессии генов и влияние мутаций. Модель может обрабатывать до миллиона букв ДНК одновременно и делать тысячи предсказаний о биологических свойствах генетического материала.

Особенность AlphaGenome заключается в комплексном подходе к анализу генома. В отличие от предыдущих моделей, сосредоточенных на отдельных задачах, эта система объединяет множество функций в одном инструменте. Модель способна предсказывать последствия мутаций с точностью до одной буквы ДНК, что открывает новые возможности для понимания генетических заболеваний.
В качестве примера исследователи применили AlphaGenome для анализа мутаций у пациентов с лейкемией. Модель точно предсказала, что некодирующие мутации косвенно активируют близлежащий ген, являющийся распространенным драйвером этого типа рака.
Динамика клетки

Однако у модели есть ограничения. AlphaGenome обучалась только на данных человека и мыши, испытывает трудности с идентификацией последовательностей, влияющих на гены на расстоянии более 100 000 пар оснований. Модель работает с «чистой» ДНК и не учитывает динамическую природу клеток.
Биолог Питер Ку говорит: «Уровни белков, химические метки на ДНК и другие условия могут изменяться со временем или между типами клеток — и это может изменить то, как ведет себя одна и та же последовательность». Эту динамику AlphaGenome пока отразить не может. Но как отмечают биологи, AlphaGenome — это серьезный прорыв в исследовании генома.
В настоящее время исследователи могут получить доступ к модели через серверы DeepMind для некоммерческих целей. Планируется более полный релиз, который откроет возможности для более сложных применений, включая разработку регуляторных последовательностей ДНК и виртуальные эксперименты по моделированию клеточных ответов на генетические изменения.