Фармакология — гигантский рынок. Только в США его объем достигает 600 млрд долларов в год. При этом собственно исследования и поиск новых лекарств занимают всего десятую часть пирога. ИИ-фармакология и вовсе пока крошечная: примерно 2 млрд долларов в США. Но перспективы серьезные: через 10 лет ожидается рост данного сегмента до 12 млрд. Причина понятна: классическая разработка требует 10–15 лет и до 1,5 млрд долларов на каждый успешный препарат.
Интеллектуальная таблетка: может ли ИИ помочь в разработке новых лекарств

Фарма под законом Ерума
Лекарства представляют собой огромный спектр различных веществ. Самые распространенные — малые органические молекулы, которые легко синтезировать. Далее следуют пептиды (в частности, инсулин), белки и антитела. По мере усложнения препарата длительность и стоимость его разработки увеличиваются на порядки — так отличается создание новой модели велосипеда от конструирования реактивного лайнера.
Как рождается лекарство
Процесс включает три стадии.
- Все начинается с фундаментальной науки, которая годами ищет мишень для будущего лекарства — например, белок, виновный в болезни Альцгеймера. Большие научно-исследовательские институты изучают механизмы, лежащие в основе тех или иных заболеваний, ставят опыты, секвенируют ДНК, пытаются найти закономерности и понять, что именно в организме идет не так. Эта работа может занимать годы, но в конце концов появляется публикация, авторы которой утверждают, что открыли связь, скажем, между активацией какого-то рецептора и болезнью Альцгеймера.
- Затем в дело вступает химия: нужно найти или создать ключ — молекулу, которая идеально свяжется с замком — мишенью. Сначала ученые ищут любые молекулы, которые хоть как-то цепляются к целевому белку. Еще год уходит на то, чтобы из всего ассортимента выбрать самые эффективные варианты. Потом выполняется оптимизация: молекула должна быть безопасной, селективной и не цепляться ни к чему другому.
- Когда кандидат наконец найден и доработан, начинаются доклинические исследования на мышах — это еще год-полтора. В итоге, даже если ученые уже знают, как устроена болезнь, на подбор правильной молекулы — ключа к замку — потребуется еще от трех до пяти лет.
Клиника
Но главный пожиратель денег и времени впереди: наступает этап клинических испытаний. Нужно найти пациентов, организовать логистику в клиниках, наладить производство препарата в нужных объемах. Сначала на здоровых добровольцах проверяют, насколько лекарство безопасно. Затем его дают маленькой группе больных. И только потом смотрят эффект на большой выборке пациентов. Каждый из этих этапов и дорог, и чудовищно рискован.
По статистике, 70% программ сворачиваются уже на этапе доклинических исследований — в среднем это означает потерю пяти с лишним лет работы и 17 млн долларов. На последующих стадиях цена неудачи удваивается. Поэтому каждый успешный препарат в итоге обходится компании в те самые 1,5 млрд. Если фантастически повезет. И как гласит Eroom’s Law, и стоимость, и сроки будут лишь расти.
Таких задач десятки. Например, нужны ИИ системы для поиска пациентов, которые с высокой вероятностью хорошо отреагируют на новое лекарство на первой фазе клинических испытаний, и модели, способные генерировать дизайн новых молекул с нужными свойствами. Уже появляются системы, которые с помощью машинного обучения могут заметно сократить сроки и расходы. «Мне кажется, что каждый из этапов удастся сжать вдвое или даже втрое. Когда все эти системы будут созданы и натренированы, мы сумеем уложиться в три года вместо десяти лет», — прогнозирует Дороничев.
Проблема в масштабе
Еще один пожиратель времени — собственно наука. Ученый долго размышляет, читает статьи и в итоге выдвигает некую гипотезу. Потом проводит множество экспериментов, которые либо подтверждают, либо опровергают его догадки. И все это на относительно небольших массивах данных. На таком фоне у многих возникла соблазнительная идея: раз большие языковые модели (LLM) способны писать стихи и программный код, значит, скоро они смогут создать и лекарство от рака. В качестве аргумента энтузиасты ИИ приводят программу Google AlphaFold для предсказания пространственной структуры белков. Но это опасное упрощение.
Одна-единственная живая клетка с точки зрения количества молекул и взаимодействий между ними на порядки сложнее человеческого языка. Нам кажется, что если мы выдали большим моделям огромное количество информации и после этого они научились писать приличные стихи, то почему бы не повторить трюк с биологией. Но для того чтобы появились современные языковые модели, им потребовалось «скормить» почти триллион токенов (токен — дискретная единица текста, которую обрабатывает языковая модель). А о взаимодействии малых молекул с белками человечество на сегодняшний день накопило примерно 20 млн записей. Несопоставимые величины.
И это еще не все. В языке, чтобы сгенерировать новый токен, достаточно напечатать на клавиатуре еще одно слово. А в биологии — синтезировать исследуемые молекулы и провести эксперимент на очень дорогом оборудовании. Каждый такой эксперимент стоит минимум 1000 долларов. Чтобы сгенерировать триллион токенов, надо потратить тысячу триллионов долларов. Квадриллион.
Другая Вселенная
Есть и еще одна фундаментальная проблема — так называемый validation loop, цикл проверки качества ИИ на новых данных. С генерацией картинок все просто: нейросеть нарисовала кошку, человек посмотрел – и сразу сказал: «Нет, это не кошка, а собака». Модель получила обратную связь и усовершенствовалась. В биологии так не работает. Нейросеть сгенерировала новую молекулу, но человек, по сути, может только пожать плечами: будет она работать или нет, неизвестно. Далее формулу отправляют в лабораторию, где минимум шесть недель предложенную ИИ молекулу будут синтезировать, затем еще несколько месяцев тестировать, и только через полгода станет понятно, оказалась ли идея стоящей.
Предположим, вам повезло: капнули новое вещество на тестовые белки — и увидели активность. Ура, мы молодцы, публикуем статью! Прославимся и обогатимся! Но станет ли молекула вести себя так же в живом организме? Организм — фантастически сложная система. Препарат может вообще не добраться до нужных клеток, разложиться в печени, связаться с десятком других белков, оказаться токсичным — и это лишь верхушка айсберга.
Сейчас в мире вкладывают фантастические деньги в попытки смоделировать хотя бы одну клетку целиком. Большинство ученых относятся к идее скептически, считая, что создать подобную имитацию в ближайшее время вряд ли получится. И это всего одна клетка, а в человеческом теле их около 50 трлн. Потом нужно научиться моделировать ткани, затем органы и только после — организм в целом. «Мы не то что не близки к решению этой задачи, — говорит Андрей Дороничев, — мы вообще в другой вселенной».
Язык ДНК
Однако не все так безнадежно. Биология — это тоже язык. Язык ДНК: аминокислота — буква, белок — слово, клетка — книга. А значит, здесь имеются свои закономерности. И поскольку языковые модели на больших объемах текстов научились улавливать структуру человеческой речи, есть шанс, что на больших массивах генетических данных они начнут понимать и законы биологии.
Интересный проект в этой области ведет директор по фундаментальным исследованиям AIRI Михаил Бурцев: он намерен построить самую большую языковую модель ДНК. Ключевая гипотеза звучит так: если секвенировать ДНК у всего подряд (людей, растений, животных, бактерий), можно набрать условный триллион токенов. Стоимость секвенирования сейчас быстро падает, и вполне вероятно, что геном скоро станут расшифровывать каждому при рождении практически бесплатно.
А когда мы соберем такой гигантский датасет, появится шанс получить эффект ChatGPT: если долго кормить нейросеть данными, в какой-то момент она начинает видеть глубокие закономерности. Если такое произойдет в биологии, человечество ждет по-настоящему впечатляющий прорыв. Пока же миссия компании Bioptic гораздо более приземленная: мы хотим использовать современные достижения в области искусственного интеллекта, чтобы быстрее и дешевле поставлять реальные лекарства реальным пациентам.





