Ученые из Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ разработали программный пакет для определения связей и степени связи в молекулах. Компьютерная программа, получившая название Knodle (от KNOwledge-Driven Ligand Extractor), упростит один из этапов разработки новых лекарств.
Создание препаратов с заранее заданными свойствами называют драг-дизайном. Лекарство, попав в организм человека, должно воздействовать на причину болезни. На молекулярном уровне это нарушение работы каких-то белков и генов их кодирующих (в драг-дизайне они называются мишенью). К примеру, если лекарство противовирусное, то оно должно помешать вирусам встраивать свой геном в человеческий (для дальнейшего воспроизведения). В этом случае мишенью будет какой-то белок вируса. Структура белка встраивающегося вируса известна, и даже известно, какое место у него самое важное – место, или сайт связывания. Если вставить в сайт связывания «затычку» в виде определённой молекулы, белок не сможет “вживиться” в геном человека, и вирус умрет, не достигнув свой цели.
Определением этих состояний и занимается разработанная российскими учёными компьютерная система Knodle. С помощью новых технологий можно сузить область поиска с сотен тысяч веществ всего до сотни. Эту сотню уже гораздо реалистичнее получить и проверить. Так, например, было создано лекарство ралтегравир, которое с 2011 года активно используется для профилактики ВИЧ.
Со школы все привыкли представлять себе структуру органических веществ как буквы с палочками. Понятно, что на самом деле никаких палочек нет — так обозначаются связи электронов, которые подчиняются законам квантовой химии. В случае одной простой молекулы (как на иллюстрации) опытный химик интуитивно чувствует, какими должны быть гибридизации (со сколькими соседними атомами он соединен), и за несколько часов кропотливой работы со справочниками он сможет восстановить все связи в молекуле.
В своей работе аспирантка МФТИ Мария Кадукова и научный сотрудник лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин решили доверить эту интуитивную работу компьютеру, используя технологии машинного обучения.
Сравните определения: «твердый полый предмет с ручкой, отверстием сверху и удлинением сбоку, в конце которого тоже есть отверстие» и «сосуд для приготовления чая». И то, и другое определения достаточно хорошо описывают чайник, но второе объяснение проще. Так же и в машинном обучении: лучший алгоритм — это самый простой из работающих. Поэтому исследователи выбрали нелинейный метод опорных векторов(SVM), который себя зарекомендовал в распознавании рукописного текста и изображений. На вход ему давали расположения соседних атомов, а на выходе получали данные по гибридизации.
Хорошее обучение требует множества примеров, и учёные составили их из 7605 соединениям с известной структурой и состояниями атомов.
«В этом кроется решающая сила разработанного пакета, так как при обучении на большей базе результат распознавания лучше. Сейчас Knodle находится на шаг впереди подобных себе программ: он допускает всего 3.9% ошибок, тогда как ближайший конкурент 4.7%», — объясняет Мария Кадукова.
И это не единственное преимущество. Программный комплекс легко изменять под конкретную задачу. Например, в данный момент Knodle не работает с веществами, содержащими атомы металлов, потому что эти соединения относительно редки. Но если окажется, что, например, лекарство от болезни Альцгеймера будет заметно эффективнее, если в нём будет присутствовать металл, то для адаптации программы потребуется лишь изучить базу с металлическими соединениями.
Поэтому остаётся только догадываться, для какой неизлечимой на данный момент болезни найдут лекарство, используя этот инструмент.
Подробнее о разработке рассказывает научная статья, опубликованная в журнале Chemical Information and Modeling.