ИННОВАЦИОННЫЕ ПОДХОДЫ К РАЗРАБОТКЕ ЛЕКАРСТВ
А.В. Мелерзанов, Я.А. Иваненков
Московский физико-технический институт (государственный университет), г. Долгопрудный, Московская область, Россия
Авторы заявляют об отсутствии возможных конфликтов интересов.
INNOVATIVE APPROACH FOR DRUG DESIGN AND DEVELOPMENT
A.V Melerzanov, Ya.A. Ivanenkov
Moscow Institute of physics and technology (state University), Dolgoprudny, Moscow region, Russia
Authors declare lack of the possible conflicts of interests.
Понятие инновационности затрагивает не только область медицинских изделий, но и фармацевтических препаратов. В последние годы появился целый ряд лекарственных молекул, которые помогают в излечении (или достижении стойкой ремиссии) считавшихся ранее неизлечимыми болезнями, в число которых входят ВИЧ-инфекция, гепатит С, онкологические и аутоиммунные заболевания.
Разработка лекарств занимает значительный период времени и является высоко затратным процессом.
По данным отчета, подготовленного аналитиками Центра по исследованию в области разработки лекарственных средств Университета Тафтс (США), расходы на разработку нового лекарственного препарата в целом составляют 2,6 млрд долл. по сравнению с 1,04 млрд долл. в
2003 г. (по курсу 2013 г.), сообщает FirstWord-Pharma.
Эксперты Центра проанализировали данные о 106 наименованиях лекарственных средств (87 химических и 19 биологических), разрабатываемых 10 фармацевтическими компаниями. Они пришли к выводу, что расходы из собственных средств компаний в среднем составляют 1,4 млрд долл., еще 1,2 млрд долл. вкладывают инвесторы.
По подсчетам аналитиков, только 11,8% лекарственных препаратов, вступивших в клинические испытания, получают одобрение регуля-торных органов. Послерегистрационные расходы составляют в среднем 312 млн долл. Таким образом, общие расходы на разработку нового лекарственного препарата составляют около 2,9 млрд долл. [1].
Соответственно все эти расходы включаются в стоимость лекарств при их выводе на рынок. При этом значительную часть себестоимости лекарства составляют расходы на научные исследования, которые проводились при поиске необходимой молекулы, однако были прерваны на разных стадиях разработки по различным причинам, которые делали их неперспективными для выхода на рынок.
Поэтому актуальной являлась проблема снижения стоимости создания лекарств, в том числе за счет снижения количества неудачных разработок. Для решения этой проблемы появились возможности, связанные с развитием и интеграцией целого ряда научных дисциплин. Новые направления, такие как биологическая и медицинская химия, ОМИКСные технологии, био- и хемоин-форматика, развитие основанной на теории ней-ро-сетей технологии «искусственного интеллекта». В лексикон представителей медицинской науки вошли такие понятия, как «большие данные» (big data) и обработка больших данных в поисках корреляций и получения новых знаний (data mining).
Развитие новых направлений ведет к генерации колоссальных объемов новых данных, анализ и систематизация которых требуют новых подходов и методик, которые объединяются в целую систему методик, что приводит к появлению новых научных направлений. Одним из таких направлений является медицинская химия, объединяющая в себе достижения многих фундаментальных дисциплин: химию, включая орга-
ническую и комбинаторную химию, биохимию; биологию, включая энзимологию, физиологию, генетику, клеточную и молекулярную биологию; математику, включая статистику и математическое моделирование; физику, включая молекулярную и химическую физику; информатику.
Медицинская химия позволяет проводить поиск новых молекул, использует методологию компьютерного моделирования и прогнозирования биологической активности, включая в себя следующие основные этапы:
I. Сбор, фильтрация и анализ специализированных химических баз данных.
II. Расчет и отбор наиболее значимых молекулярных дескрипторов [2].
III. Построение компьютерной модели, ее ва-лидация и тестирование.
IV. Экспериментальное обоснование полученных результатов на основе фундаментальной науки.
Молекулярный дескриптор — в большинстве случаев расчетный числовой параметр, характеризующий свойство молекулы, например, площадь полярной поверхности, количество потенциальных доноров и акцепторов водородной связи, липофильность, распределение заряда и т.д. Основой такого подхода в создании новых лекарств являются наукоемкие дисциплины:
• виртуальный скрининг (virtual screening);
• комбинаторный синтез (combinatorial synthesis);
• высокопроизводительный биологический скрининг (high-throughput biological screening, HTS).
Сегодня почти любое органическое вещество может быть синтезировано. При этом затраты на получение новых, в том числе сложных комплексных структур, минимальны при подходе, используемом в комбинаторной химии. Параллельные высокопроизводительные схемы в сочетании с передовыми методами экспериментального тестирования позволяют создавать представительные коллекции новых веществ. Для оптимизации процесса применяют методики виртуального скрининга. Виртуальный скрининг позволяет осуществлять отбор наиболее перспективных молекул (в перспективе новых лекарственных препаратов) при помощи компьютерного моделирования еще до осуществления типовых экспериментальных процедур. Метод позволяет
также оценить потенциальное действие молекул (лигандов) на биологические мишени (преимущественно белки), участвующие в развитии заболевания, что является основой терапевтического действия. В понятие виртуального скрининга входят:
• конструирование молекул на основе известных структур соединений с установленной активностью (Structure-based design);
• создание молекул на основе знания структуры биомишени (Target-based design). Виртуальный скрининг имеет два аспекта:
удешевление процесса и возможность направленного создания лекарственных средств для воздействия на конкретную биомишень (или группу мишеней) для терапии отдельно взятого заболевания.
Работы по молекулярному скринингу стали возможны с развитием технологий искусственного интеллекта, которые позволяют обрабатывать огромные объемы данных и находить неочевидные зависимости (корреляции) в системе: дескрипторы — активность.
Искусственные нейронные сети (ИНС) — основа искусственного интеллекта, позволяющего реализовать описанные методы работы с большими данными. Нейронные сети создаются по аналогии с функционированием центральной нервной системы человека. По сути — это математическая модель, имитирующая в упрощенном виде структуру и принципы функционирования головного мозга. Способ обработки информации человеческим мозгом отличается от существовавших ранее способов обработки информации компьютерными программами. Для построения нейронных сетей используются знания о функционировании головного мозга человека. Воссоздается топологическая структура на основе так называемых искусственных нейронов — базовых элементов нейросетей с установлением взаимосвязей между ними и определением весового коэффициента. Искусственные нейроны в состоянии получать, обрабатывать и передавать далее информацию. При этом тонкая настройка и изменение весовых коэффициентов — значимости полученной информации и обнаружения связей — является процессом самообучения системы. Именно это является основой для аналитической обработки и поиска нетривиальных связей в больших объемах данных, что позволяет делать
выводы, которые было бы невозможно получить путем простого анализа. По сути, речь идет об имитации нелинейного восприятия мира человеческим мозгом, способным к одномоментному комплексному анализу, превосходящему по скорости существовавшие ранее вычислительные машины (мощности). Примером могут являться популярные программы распознавания образов, используемые в радиологии и гистологии (морфологии). Суть этих программ — имитация глаз и мозга исследователя, обладающего значительным опытом и способного быстро увидеть, например, атипичную клетку в анализе биоптата.
За основу создания базовых элементов нейросетей взята классическая модель нейрона с аксоном и дендритными отростками, а также синапсами и нейромедиаторами для передачи информации. Именно значительное количество нейронов, создающее еще многократно большее количество синаптических связей между собой, позволяет крайне быстро и комплексно обрабатывать информацию несмотря на простоту каждого отдельного структурного элемента.
Даже если упростить понимание работы нейрона человеческого мозга до машинной системы двоичного алгоритма, работающего по принципу «Все или ничего» — допороговый импульс «0», запороговый — «1», то все равно понятно, что огромное количество нейронов головного мозга человека и число связей между ними позволяет перерабатывать поступающую разноплановую информацию в доли секунды. Современные искусственные нейросети создаются по такому же принципу, как и человеческий мозг на уровне современных, далеко не полных, знаний о нем. В попытке воссоздать функцию нейронов человеческого мозга создаются различные математические модели.
В какой-то степени по аналогии накоплению опыта человеком происходит обучение нейросетей. Возможны два подхода к такому обучению — с учителем и без. В системах распознавания образов и обучающих системах в здравоохранении используется преимущественно первый подход — обучение с учителем.
При таком подходе в систему вносятся данные не только о входных сигналах — информации, но и об ожидаемых выходных сигналах. В этом случае изменение весовых коэффициентов происходит в направлении приближения к заданно-
му изначально «истинному» выходному сигналу. То есть результирующий вектор стремится к известному значению выходного сигнала с учетом ошибки нелинейной аппроксимации.
Например, при создании систем автоматического поиска атипичных клеток в биоптатах в систему предварительно вносится большой объем информации в виде уже описанных образцов. После того как система получает первоначальный объем информации, достаточный для дальнейшего анализа «по аналогии», она сама начинает анализировать образцы на предмет поиска указанного типа атипичной клетки. При этом, учитывая, что все клетки имеют свои индивидуальные особенности, система продолжает накапливать информацию о возможных вариациях, тем самым проводя процесс самообучения и повышая чувствительность (точность определения) с анализом каждого нового образца.
Другим примером является создание обучающих аналитических программ по типу Watson (IBM). По мере накопления данных по конкретным пациентам на популяционном уровне по определенной нозологии система может начать давать рекомендации, отличающиеся от стандартов и учитывающие особенности конкретного человека — генетические, метаболические и т.п. Также система перерабатывает всю новую научно-исследовательскую информацию, поступающую в нее в режиме реального времени, что невозможно для человека. Таким образом, происходит непрерывная адаптация системы для применения популяционных данных к конкретному случаю.
Еще более сложной является система обучения без учителя. На каждой итерации определяется наиболее близкий (например, в эвклидовой метрике) к поступившему образу нейрон-победитель и происходит адаптация его весовых коэффициентов и близлежащих нейронов (окрестность), в зависимости от номера итерации, текущего значения скорости и радиуса обучения. В результате исследователь получает объективное отображение векторов исходного пространства признаков (молекулярных дескрипторов) в пространство меньшей размерности, в большинстве случаев 2D или 3D, что облегчает визуальное восприятие результата. При таком отображении объекты (молекулы) удаленные друг от друга в исходном пространстве признаков будут занимать отдельные положения или области в
пространстве меньшей размерности, при этом сохраняется общая кластерная топология пространства. Построенная таким образом компьютерная модель может быть использована для оценки/прогноза биологической активности новых структур еще до стадии их синтеза, а также многих других свойств, включая фармакокинети-ческие параметры, токсичность, растворимость, стабильность. Одним из наиболее используемых методов машинного обучения без учителя для анализа объемных мультипараметрических данных является метод самоорганизующихся карт Кохонена [2, 3].
Частным примером такого подхода является столь важная часть современной медицинской компьютерной химии как моделирование мишень-специфической активности. Иными словами — прогнозирование механизма действия активной фармацевтической субстанции, в результате которого проявляется физиологический ответ, относящийся к категории терапевтического эффекта. С учетом того, что ИНС позволяют осуществлять высокопроизводительные исследования больших объемов данных, этот подход был положен в основу компьютерного поиска новых активных субстанций, что позволило значительно сократить время до экспериментальной части разработки лекарственных средств. В том числе стало возможным прогнозирование потенциальных токсических свойств лекарственных препаратов. Такой подход значительно удешевляет процесс создания новых лекарственных молекул, тем самым внося основной вклад в отнесение данного подхода к инновационным методикам.
На основании проведенной теоретической и экспериментальной работы Я.А. Иваненкову (МФТИ) удалось разработать компьютерную модель для прогнозирования токсичности («offtarget» и «on-target», structure-based и metabolite-associated) органических молекул, в том числе известных лекарственных препаратов. Технология была успешно внедрена в процесс разработки лекарственных препаратов партнерами биофар-мкластера «Северный», что является прекрасным примером внедрения инновационных технологий в фарминдустрию.
Также на основании разработанной модели возможно проведение анализа потенциальной противоопухолевой активности лекарственных
веществ, что также значительно сокращает и удешевляет путь их вывода на рынок инновационных противоопухолевых лекарственных средств.
Существуют и другие математические модели и алгоритмы исследования больших объемов мультипараметрических данных. В том числе алгоритм Сэммона, позволяющий визуализировать и получать в частности дву- или трехмерные отображения исходного мультипараметрическо-го пространства дескрипторов. В отличие от карт Кохонена в алгоритме Сэммона сохраняются все дистанции между всеми объектами из исходного пространства в полученной проекции. Однако процедура тестирования новых структур более трудоемка. Алгоритм Сэммона часто используют для исключения аутлайеров в исходном хими-
ческом пространстве. При помощи указанного алгоритма можно, например, исследовать проникновение органических веществ через липид-ные мембраны. Схематическое изображение современных технологий виртуального скрининга представлено на рисунке.
Для создания новых активных молекул также применяют 3D-фармакофорное моделирование. 3D-фармакофорная гипотеза — это набор пространственных и электронных признаков, необходимых для обеспечения оптимальных супра-молекулярных взаимодействий с определенной биологической мишенью, которые могут вызывать (или блокировать) ее биологический ответ. Модель фармакофора позволяет объяснить за счет чего структурно разнородные лиганды взаимо-
Двумерная проекция Самоорганизующиеся по Сэммону карты Кохонена
Нейронносетевые и другие методы нелинейного анализа мультипараметрических данных
Корреляционные и регрессионные зависимости
Методы картирования
ЗР-фармакофорный анализ ЗР-молекулярный
докинг
Рекурсивное разбиение Методы структурного анализа Алгоритмы кластеризации1 1 Двоичный код («bit-string»)
Современные хемогеномные подходы
высокая вероятность
маловероятно
Алгоритмы 2Р-структурного подобия ингибит°р . ^ ингибитор и биоизостерные модификации гистамина Н1 дофаминовых рецепторов
О5Р-г-—¿йгсг"
1
гистамин Н1 гистамйн'Н2 дофамин-Р2 p-адренорецептор
i95% 15% 90% подобия Б подобия В подобия Г I-II-II-II-1
Генетический код
Современные технологии виртуального скрининга
действуют с одними и теми же сайтами связывания [2]. С использованием таких фармакофоров появляется возможность рационального отбора из доступного пространства трехмерных кон-формаций молекул наиболее перспективных. Заметим, что суррогатное фармакофорное моделирование не предусматривает знание структуры и сайта связывания биологической мишени. Для его осуществления достаточно знать трехмерную структуру активной конформации молекулы или молекул. 3D-Молкекулярный докинг является наиболее точным методом прогнозирования аффинности лиганда по отношению в выбранному сайту связывания, поскольку он учитывает и геометрию сайта связывания, и конформации лиганда одновременно. Докинг может осуществляться в статическом и динамическом режимах, с учетом молекул воды и без них. В каждом конкретном случае это определяется спецификой решаемой задачи и доступными вычислительными ресурсами.
Сегодня компьютерное моделирование на основе использования искусственных нейросетей является одной из основных составляющих инновационного подхода к разработке лекарств. Развитие технологий т ъШсо позволяет существенно сократить объем экспериментальной (дорогостоящей) исследовательской работы. Учитывая появление новых инфекционных и других патогенных агентов, компьютерная медицинская химия является сегодня безальтернативным путем для разработки лекарственных препаратов для нейтрализации действия новых патогенов.
Таким образом, современная медицинская химия основана на суперпозиции органического синтеза, биологического скрининга и компьютерного моделирования. Именно в таких условиях сегодня рождаются новые лекарственные молекулы и удается значительно снизить затраты на их разработку. Рациональность такого подходя не вызывает сомнений и удовлетворяет всем критериям инновационности. Однако основная проблема всех методов компьютерного моделирования состоит не в их работоспособности и точности анализа данных, а в том, какого качества данные подаются им на вход. Кроме того, единственной адекватной и оправданной мерой оценки их прогностической способности является биологическое тестирование и хит-рейт. При этом
нужно учитывать воспроизводимость результатов тестирования и правильность постановки биологического эксперимента. Еще большую неопределенность вносит сам компьютерный химик, у которого недостаточно знаний в области органической химии, биохимии и лекарственной химии, что не дает ему возможности собрать и подготовить правильную обучающую выборку и верно оценить результаты моделирования и прогноза, а также корреляцию с результатами биологического тестирования. Однако, если речь идет о высокопроизводительном скрининге на первом этапе тестирования, в рамках которого анализируются десятки и сотни тысяч молекул, указанными ограничениями можно пренебречь, поскольку, как правило, в крупных фармацевтических компаниях задача формулируется следующим образом — рационально отобрать из миллионов доступных молекул несколько сотен тысяч наиболее перспективных. При этом хит-рейт будет в любом случае выше рандомного, что и преследуется с целью экономии средств. Для решения таких задач применяют нейросетевые подходы, адаптированные для анализа больших объемов информации и множества молекул. В случае представительной обучающей выборки и исчерпывающей статистики многие ограничения нивелируются, и работает эффект масштаба. Полярная ситуация наблюдается в случае решения более специфических задач, где на первый план выходят указанные выше ограничения. В этом случае в качестве основной прогностической функции выступает эксперт-исследователь, который на основании своего опыта, интуиции и профессиональных знаний в нескольких сопряженных научных дисциплинах, а также значений виртуального скоринга принимает решение о том, какие молекулы или хемотипы являются наиболее перспективными.
Все компьютерные методы медицинский химик должен рассматривать исключительно в качестве удобного и объективного инструмента для формулирования своего субъективного экспертного мнения. В связи с этим в суперпозицию современной медицинской химии помимо перечисленных выше научных дисциплин настоятельно стоит вписать качество и глубину знаний, полученных в ходе фундаментального образовательного процесса.
ЛИТЕРАТУРА
REFERENCES
1. Аналитики: Стоимость разработки нового препарата составляет около 2,6 миллиардов долларов США. Доступно по: http://www.pharmvestnik.ru/publs/lenta/obzory/ anaШki-stoimostj-razrabotki-novogo-preparata-sostavljaet-okolo-2-6-mlrd-doll.html. Ссылка активна на 05.05.2017.
1. Analysts: the Cost of developing a new drug is around 2.6 billion USD. Available at: http://www.pharmvestnik.ru/ publs/lenta/obzory/analitiki-stoimostj-razrabotki-novogo-preparata-sostavljaet-okolo-2-6-mlrd-doll.html. Accessed on 05.05.2017.
2. Определение микрофлоры. Доступно на: https://ru.wiki-pedia.org/wiki/Микрофлора. Ссылка активна на
2. Determination of microflora. Available at: https://ru.wiki-pedia.org/wiki/Микрофлора. Accessed on 05.05.2017.
05.05.2017.
3. Ivanenkov Y.A., et al. Computational mapping tools for drug discovery. Drug Discovery Today. 2009, 14, 767—75.
Поступила 17.05.2017 Принята к опубликованию 07.06.2017
3. Ivanenkov Y.A., et al. Computational mapping tools for drug discovery. Drug Discovery Today. 2009, 14, 767—75.
Received 17.05.2017 Accepted 07.06.2017
Сведения об авторах:
Мелерзанов Александр Викторович — канд. мед. наук, декан факультета биологической и медицинской физики МФТИ. 141700, Московская область, г. Долгопрудный, Институтский пер., 9. E-mail: [email protected]
Иваненков Ян Андреевич — канд.биол. наук, заведующий лабораторией медицинской химии и биоинформатики МФТИ. 141700, Московская область, г. Долгопрудный, Институтский пер., 9. E-mail: [email protected]
About the authors:
Melerzanov Alexander Viktorovich — MD PhD, Dean of the Department of Biological and Medical Physics, MIPT. 9 Institutskiy per., Dolgoprudny, Moscow Region, 141700, Russian Federation. E-mail: [email protected]
Ivanenkov Yan Andreevich — PhD Head of Laboratory of Medical Chemistry and Bioinformatics, MIPT. 9 Institutskiy per., Dolgoprudny, Moscow Region, 141700, Russian Federation. E-mail: [email protected]