Чтобы нормально функционировать, ДНК — а это 46 длинных макромолекул в каждой клетке - должна не просто содержать правильный набор генов, но и иметь определенную пространственную конфигурацию. Ее определением традиционно занимается полимерная физика. Та форма, в которую сворачиваются полимерные цепи ДНК, влияет на активность генов, деление клеток и их способность дифференцироваться при развитии эмбриона — превращаться в специализированные подвиды клеток. Дефектная архитектура ДНК играет роль в развитии отклонений и заболеваний, таких как рак.
Генеративный ИИ помог физикам заполнить пробелы в данных с микроскопа. Что это значит для генетики?

Зачем ученым изучать архитектуру ДНК

Сравнивая архитектуру ДНК здорового и больного организма, можно найти биомаркеры для диагностики болезней и получить персонализированные рекомендации по лечению. Ученые могут обнаружить новые мишени для терапевтического воздействия, разработать лекарства для восстановления нормальной работы генов и даже подходы, связанные с точечным редактированием генов.
Флуоресцентная микроскопия по-новому: ИИ против неполных данных
Один из наиболее распространенных экспериментальных методов анализа пространственной структуры ДНК — флуоресцентная микроскопия. Это вид оптической микроскопии, при использовании которого большое количество коротких участков ДНК снабжаются флуоресцентными метками и тем самым делаются заметными.
Сложность в том, что в полученных данных по определению будут пробелы: так устроен метод их сбора. Каждая флуоресцентная метка прикрепляется к своему участку ДНК при помощи специально синтезированной комплементарной последовательности азотистых оснований («букв» генетического кода). Но не с любым участком это сработает. Скажем, если одна и та же «буква» повторяется много раз подряд, то на такую цепочку оснований не получится поставить метку: последовательность не достаточно уникальна. В связи с этим неполные данные до сих пор считались суровой правдой жизни.

«Если узнать расстояния между достаточным количеством пар генов, поиск расстояний между остальными парами, для которых нет экспериментальных данных, принимает вид математической задачи с конкретным решением, — рассказывает Кирилл Половников, руководитель исследования, старший преподаватель Сколтеха из Центра нейробиологии и нейрореабилитации имени Владимира Зельмана. — Мы впервые показали, что такие задачи могут решать генеративные модели. Это нетипичное применение такого рода ИИ-систем, ведь обычно их используют для более "креативных" задач, вроде генерации изображений или текста на основе указаний пользователя. В то же время это новый подход к изучению структуры хроматина, где исторически правила бал полимерная физика».
С практической точки зрения предложенный и испытанный метод позволяет дополнять данные флуоресцентной микроскопии так, чтобы в дальнейшем лучше понимать пространственную структуру ДНК и в конечном счете улучшить терапию и диагностику генетических заболеваний. С фундаментальной точки зрения работа демонстрирует потенциал генеративного искусственного интеллекта за пределами привычной сферы его применения.