Научная статья на тему 'Применение многомерной квантильной функции в задаче пептид-белок докинг'

Применение многомерной квантильной функции в задаче пептид-белок докинг Текст научной статьи по специальности «Математика»

CC BY
104
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ГЛОБАЛЬНАЯ ОПТИМИЗАЦИЯ / ЭВОЛЮЦИОННЫЕ АЛГОРИТМЫ / ЭМПИРИЧЕСКАЯ КВАНТИЛЬНАЯ ФУНКЦИЯ / ДОКИНГ / GLOBAL OPTIMIZATION / EVOLUTIONARY ALGORITHMS / EMPIRICAL QUANTILE FUNCTION / DOCKING

Аннотация научной статьи по математике, автор научной работы — Полуян Сергей Владимирович, Ершов Николай Михайлович

Настоящая работа посвящена исследованию применения стохастических эволюционных алгоритмов оптимизации к задаче пептид-белок докинга. В статье продемонстрированы основные положения, сводящие докинг к задаче непрерывной глобальной оптимизации. Представлены основные особенности рассматриваемой задачи и возникающие трудности применения эволюционных алгоритмов оптимизации. Предложен способ применения эволюционных алгоритмов, включающий использование эмпирической квантильной функции. Приведено краткое «рекурсивное» определение структуры многомерной квантильной функции с использованием одномерного квантильного преобразования. Представлен сеточный подход применения квантильной функции и указаны его недостатки. Предложен детерминированный алгоритм построения выборки, приведена схема его распараллеливания и получаемое ускорение. Для квантильной функции описана схема использования параллельных вычислений, включающая вычисления на графических ускорителях. Предложено несколько способов параллелизации с использованием выборки в явном виде. Продемонстрирована их производительность в зависимости от размера выборки. Представлены результаты докинга с использованием эволюционного алгоритма и его модификации с применением квантильной функции. Выполнено сравнение с актуальным методом докинга в рамках одного силового поля. Проведен анализ результатов вычислительных экспериментов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Полуян Сергей Владимирович, Ершов Николай Михайлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING MULTIVARIATE QUANTILE FUNCTION FOR PEPTIDE-PROTEIN DOCKING

The paper presents an exploration of using evolutionary optimization algorithms in protein-peptide docking. The main assumptions that reduce docking to the continuous global optimization problem are described. Some special features of the given problem and the difficulties of using evolutionary algorithms are discussed. The paper provides a way of using evolutionary optimization algorithms based on using empirical quantile function. The multivariate quantile function structure is defined recursively using univariate quantile transform. The grid-based approach of using quantile function is presented. The disadvantages of this approach are indicated. The deterministic sampling algorithm is proposed. The used scheme of parallel sampling and the resulting speed-up are described. The GPU-accelerated approach for quantile function evaluation is presented. This paper provides multiple GPU-based ways which use a sample in explicit form. Their speed-up depending on sample size is shown. The paper presents the results of docking using an evolutionary algorithm and its quantile-function-based modification. The comparison with the relevant docking method within a particular force-field is made. The results of the experiments are analyzed.

Текст научной работы на тему «Применение многомерной квантильной функции в задаче пептид-белок докинг»

УДК 519.6 DOI: 10.14529/cmsel90204

ПРИМЕНЕНИЕ МНОГОМЕРНОЙ КВАНТИЛЬНОЙ ФУНКЦИИ В ЗАДАЧЕ ПЕПТИД-БЕЛОК ДОКИНГА*

© 2019 С.В. Полуян1, Н.М. Ершов2

1 Государственный университет «Дубна»

(141982 Дубна, ул. Университетская, д. 19),

2Московский государственный университет имени М.В. Ломоносова (119991 Москва, ул. Ленинские горы, д. 1)

E-mail: [email protected], [email protected] Поступила в редакцию: 03.11.2018

Настоящая работа посвящена исследованию применения стохастических эволюционных алгоритмов оптимизации к задаче пептид-белок докинга. В статье продемонстрированы основные положения, сводящие докинг к задаче непрерывной глобальной оптимизации. Представлены основные особенности рассматриваемой задачи и возникающие трудности применения эволюционных алгоритмов оптимизации. Предложен способ применения эволюционных алгоритмов, включающий использование эмпирической квантильной функции. Приведено краткое «рекурсивное» определение структуры многомерной квантильной функции с использованием одномерного квантильного преобразования. Представлен сеточный подход применения квантильной функции и указаны его недостатки. Предложен детерминированный алгоритм построения выборки, приведена схема его распараллеливания и получаемое ускорение. Для квантильной функции описана схема использования параллельных вычислений, включающая вычисления на графических ускорителях. Предложено несколько способов параллелизации с использованием выборки в явном виде. Продемонстрирована их производительность в зависимости от размера выборки. Представлены результаты докинга с использованием эволюционного алгоритма и его модификации с применением квантильной функции. Выполнено сравнение с актуальным методом докинга в рамках одного силового поля. Проведен анализ результатов вычислительных экспериментов.

Ключевые слова: глобальная оптимизация, эволюционные алгоритмы, эмпирическая квантилъная функция, докинг.

ОБРАЗЕЦ ЦИТИРОВАНИЯ

Полуян С.В., Ершов Н.М. Применение многомерной квантильной функции в задаче пептид-белок докинга // Вестник ЮУрГУ. Серия: Вычислительная математика и

информатика. 2019. Т. 8, № 2. С. 63-75. DOI: 10.14529/cmsel90204.

Введение

В задаче пептид-белок докинга необходимо найти оптимальное место связывания белка и пептида при взаимодействии друг с другом, а также соответствующую этой связи конформацию комплекса. Традиционными экспериментальными методами определения места связывания и соответствующих конформаций белка и пептида являются кристаллография, ядерный магнитный резонанс, а также другие техники [1]. Несмотря на их точность и эффективность, они требуют значительных лабораторных ресурсов и материальных затрат. Более того, пептид-белок комплекс сложнее кристаллизовать, чем отдельный белок. В то время как докинг менее затратный финансово, это лишь компьютерный метод предсказания структуры комплекса. В связи с этим вычислительные методы приобретают все большую популярность. Большинство из них на различных

‘Статья рекомендована к публикации программным комитетом Международной конференции «Суперкомпьютерные дни в России - 2018».

этапах работы включает в себя разнообразные методы стохастической оптимизации [2, 3]. Одним из основных преимуществ использования стохастических методов оптимизации является возможность напрямую использовать различную статистическую информацию. Кроме того, использование методов оптимизации более привлекательно в вычислительном отношении, чем, например, применение методов молекулярной динамики.

В основе большинства подходов к докингу лежит термодинамическая гипотеза Анфинсена, основное утверждение которой следующее: оптимальное состояние комплекса уникально и находится в глобальном минимуме свободной энергии. Поэтому задача пептид-белок докинга может быть рассмотрена как задача глобальной оптимизации, в которой необходимо найти конформацию комплекса с минимальной энергией.

Статья организована следующим образом. В разделе 1 приводится постановка задачи и рассматриваются возникающие трудности применения эволюционных алгоритмов оптимизации. Раздел 2 посвящен эмпирической квантильной функции. Предложен сеточный подход применения квантильной функции, представлен способ построения выборки и описана параллельная реализация. В разделе 3 представлены результаты численных экспериментов. В разделе Заключение приводятся результаты выполненной работы и указываются направления дальнейших исследований.

1. Постановка задачи

В общем случае задачи пептид-белок докинга решаются комбинированными методами, включающими в себя несколько различных по структуре этапов и учитывающих разнообразную статистическую информацию. Такого рода комбинированные предсказания выходят за рамки текущего исследования. В большинстве случаев заключительным этапом является поиск в полноатомном разрешении оптимальной структуры комплекса в окрестности места связывания, так называемый прямой докинг. Именно на этом этапе используются стохастические методы оптимизации в сочетании с методами локальной оптимизации. Важно отметить, что применяемые на данном этапе методы оптимизации (как глобальной, так и локальной) обладают высокой степенью универсальности относительно решаемой задачи, т.е. структура и параметры алгоритмов, как правило, независимы от сложности целевой функции и соответствующего энергетического ландшафта. Примером, подчеркивающим указанную универсальность, может служить протокол докинга Rosetta FlexPepDock [2], структура и применяемые алгоритмы которого не зависят от фундаментально меняющегося состава стандартной скоринг-функции силового поля.

Необходимо отметить, что на заключительном этапе поиск оптимальной структуры комплекса ведется, как правило, с учетом структурных особенностей [1] предполагаемого места связывания. Здесь необходимо подчеркнуть специфику рассматриваемой задачи. В силу структурых особенностей пептиды обладают высокой гибкостью. Торсионные углы главной цепи каждого аминокислотного остатка пептида являются ротамерами. В связи с этим докинг даже простейших пептидов длиной 2-5 аминокислотных остатка в полноатомном разрешении представляет собой сложную (иногда невыполнимую) задачу даже для специально разработанных пакетов [1].

Поиск в окрестности места связывания довольно просто организовать с помощью методов сэмплирования. Однако, предлагаемые в настоящее время эвристические подходы к глобальной оптимизации, в частности, эволюционные алгоритмы, требуют непрерывного пространства поиска без ограничений, кроме границ поиска для каждого параметра.

Возникает вопрос, каким образом не допустить значительного смещения пептида в окрестности области поиска и сохранить непрерывность пространства поиска? При этом избежать грубого подхода с использованием штрафных функций и сохранить условия для прямого применения эволюционных алгоритмов оптимизации. Ответом может послужить применение многомерного квантильного преобразования.

Настоящая работа посвящена исследованию применения эволюционных алгоритмов оптимизации к задаче пептид-белок докинга с использованием квантильного преобразования. При этом ставится задача удержания пептида в некоторой локальной окрестности области поиска.

Задача оптимизации формулируется как задача минимизации энергии связывания (1), которая вычисляется как разница между энергией комплекса в связанном состоянии и энергией в свободном состоянии, т.е. когда белок и пептид друг с другом не взаимодействуют.

Взаимодействие между пептидом и белком может быть описано целевой функцией. В численных экспериментах использовалось силовое поле Rosetta 3.8 [4]. Выбор силового поля обусловлен широкой распространенностью и ориентированностью к проблеме пептид-белок докинга. Детальное описание постановки задачи пептид-белок докинга, описание степеней свободы пептида и белка представлено в [5, 6]. В настоящей работе эксперименты проводились с комплексом 1JWG (код PDB) с линейным интерфейсом связывания [1, 7]. Комплекс представлен на рис. 1.

Рис. 1. Покрытие непрерывной области поиска и рассматриваетмый пептид-белок комплекс

2. Многомерная эмпирическая квантильная функция

Определение многомерной эмпирической квантильной функции (или эмпирического квантильного преобразования) естественно выводится из определения эмпирической функции распределения. Впервые понятие многомерной квантильной функции введено в [8], однако, наиболее распространеное определение приведено в [9]. Здесь будет приведено краткое «рекурсивное» описание структуры квантильной функции.

Пусть дано вероятностное пространство и на нем определена случайная величина X. Функцией распределения случайной величины X назовем функцию Fx : R —> [0,1],

(1)

2

а) Сетка, два исходных узла, выборка и 2-103 распределенных точек

б) Стартовая позиция и границы смещения пептида комплекса 1JWG (код PDB)

задаваемой формулой Fx{x) = Р(Х ^ ж). Для заданной функции квантильное

преобразование F^1 : [0,1] —R определяется следующей формулой:

F^1(p) = inf {ж G R : Р(Х ^ ж) ^ р}. (2)

Определим эмпирическую функцию распределения следующим образом:

1 п

$х(и) = -^1(хй ^и),

i=1

(з)

где 1 - индикаторная функция.

Важно отметить, что здесь и далее рассматриваются случайные величины, распределенные на сетке. Это связано с двумя факторами. Во первых, в процессе дальнейшего применения построенного преобразования важна только доступность той или иной области поиска, поэтому достаточно равномерного распределения. Во вторых, если значения будут распределены просто равномерно, а не по сетке, то в формуле (3) количество найденных элементов может стать равно нулю.

Процедура использования одномерного квантильного преобразования для непрерывного числа из отрезка [0,1] выглядит следующим образом (см. рис. 2). Для заданной выборки sample на сетке grid и всех значений в узлах сетки выполняется процедура двоичного поиска необходимого узлового значения сетки. Вначале выбирается значение середины сетки, производится подсчет количества элементов в выборке меньше данного значения середины, которое затем делится на общее количество элементов в выборке. Аналогичные действия производятся для соседнего узла сетки. Затем производится шаг, аналогичный двоичному поиску: если непрерывное значение меньше полученного числа, то меняется верхняя граница поиска по сетке. В противном случае аналогично меняется нижняя граница. Однако, если непрерывное значение больше узлового значения и меньше соседнего значения, то процедура поиска нужного значения сетки заканчивается. Затем для поддержания непрерывности используется линейная интерполяция.

Используя определение многомерной эмпирической функции -

FXuX2,...,Xd(ui,U2, ■ ■ ■ ,ud) = -£l(xM] ^Wl,X[i)2] s; U2, ... ,X[M] ^Ud),

(4)

i=1

где d - размерность, n - размер выборки, можно определить многомерную квантильную функцию [0, l]rf —> Rrf. Пусть F - d-мерная функция распределения и Х\,..., Хп - выборка. Используя одномерное квантильное преобразование (2) и выбрав вектор z £ [0,1]п можно определить рекурсивно квантильную функцию Y = Tp1(z):

Yi =F^(Zl),

Yk = Fk\i,...,k-i(zk\Yi, ■■■, Yk-1), 2 SC к SC d.

(5)

(6)

2.1. Построение выборки

Построение выборки для квантильной функции выглядит следующим образом. Пептид помещается в произвольную область поиска в окрестности места связывания. Поскольку структура интерфейса связывания известна, пептид располагается в приблизительно линейной структуре. Как указывалось выше, рассматривается только заключительный этап оптимизации, и, в общем случае, структура может быть произвольной. В координатах атома а-углерода первого и последнего аминокислотного остатка пептида создаются области поиска, которые будут определять границы степени свободы для положения

float getval(std::vector<float> &sample, std::vector<float> &grid, float valOl)

{

size_t count = grid.sizeO - 1, step, cl =0, c2 = 0; float fl, f2, n = sample.size();

std::vector<float>::iterator first = grid.beginO, it; while(count > 0)

{

it = first; step = count / 2; std::advance(it, step); cl = std::count_if(sample.beginO, sample.end(),

[&it](const float &v){ return v < *it;l); c2 = std::count_if(sample.beginO, sample.end(),

[&it](const float &v){ return v < *(it + l);}); fl = cl/n; f2 = c2/n; if(valOl > fl && valOl < f2) break;

if(f1 < valOl)

■C

first = ++it; count -= step + 1;

>

else

count = step;

>

// Обработка исключительного случая равенства cl и с2 // доступна в открытом репозитории [13] сервиса GitHub return *it + (valOl - fl) * (*(it + 1) - *it) / (f2 - fl);

>

Рис. 2. Одномерное квантильное преобразование по сетке с линейной интерполяцией

выбранных атомов, которые зависят от оптимизируемых параметров. Поскольку положение первого а-углерода определяет смещение пептида относительно белка для отображения в сферу используется трехмерное квантильное преобразование, построенное по плотности распределения, которое уже использовалось в [5]. Положение пептида в определенной сферами области поиска зависит от параметров смещения пептида, угла и вектора поворота, а также торсионных углов главной цепи пептида. Для каждого параметра создается собственная сетка. Важно отметить, что границы каждого параметра переведены в диапазон [0,1]. Параметры, определяющие смещение пептида и часть углов главной цепи пептида, уже находятся в диапазоне [0,1]. Остальных параметры переводятся в этот диапазон и преобразуются в искомые с помощью линейной интерполяции. В итоге пространство поиска сведено в единичный гиперкуб.

Для каждого параметра, принадлежащего гиперкубу, производится разбиение на независимое заданное число равных частей, которое будет определять узлы сетки. Для каждого параметра определяется ближайшее значение в полученной сетке. Если область поиска в ближайших узлах сетки не найдена, то происходит поиск в n-мерной окрестности фон Неймана или Мура.

Теперь можно приступить к процедуре построения выборки. Для этого используется n-мерный аналог алгоритма заливки Flood-fill [10] с использованием n-мерной окрестности

фон Неймана. Алгоритм Flood-fill в процессе своей работы может посетить одно и тоже значение узла в сетке несколько раз. В связи с тем, что смещение пептида и присвоение ему параметров требует вычислительных ресурсов, посещенные и вычисленные значения сетки добавляются в префиксное дерево. Поиск и проверка требуют значительно меньших ресурсов.

Важно отметить, что сам процесс построения выборки является обходом графа со структурой «решетка», но без определения самого графа. Выбор алгоритма обусловлен простотой реализации и исследованиями в [10], а также собственными экспериментами. Также необходимо отметить, что при обходе сетки невозможно использовать окрестность Мура для всех параметров в силу высокого количества соседних узлов. Например, в рассматриваемой задаче количество параметров в гиперкубе п = 15, для каждой точки окрестность фон Неймана 2п узлов, окрестность Мура Зп узлов. Однако, алгоритм Flood-fill позволяет использовать окрестность Мура для части параметров.

На рис. 1 представлен результат построения выборки по двумерной сетке (5x6) с помощью реализованного алгоритма Flood-fill для произвольной области. Также на рис. 1, выражаясь в терминах компьютерной графики, отмечен «затравочный» узел и результат квантильного преобразования равномерно распределенных векторов 2-103. На рис. 3 показан результат покрытия параметров равномерной сеткой. Сами параметры кодируются в отрезке [0,1], на рис. 3 показаны получаемые в результате преобразования узлов сетки значения.

♦ ♦ ♦ ♦ ♦ ♦ к ♦ ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦ ч> ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦ ♦

♦ ♦ ♦ ♦

♦ ♦ ♦ ♦

♦ ♦ ♦

♦ ♦ ♦ ♦ -71 ♦ ♦ ♦ ♦

а) Лейцин б) Гистидин

Рис. 3. Покрытие распределений углов главной цепи пептида DLLHI комплекса 1JWG

Необходимо отметить, что в приведенных примерах явно указаны основные недостатки построения выборки по сетке и квантильного преобразования. Во первых, алгоритм подходит только для определения связанной области. В случае несвязанности области из других областей для алгоритма также нужен исходный узел. Во вторых, значительная часть области поиска может оказаться недоступной из-за большого шага сетки и использования окрестности фон Неймана. В третьих, часть области поиска, рядом с границей непрерывной области, недоступна. В четвертых, граница поиска может выйти за границы непрерывной области. Однако, последний недостаток не столь важен, так как незначительный выход за границы поиска несущественен.

В настоящей работе произведена параллельная реализация алгоритма построения выборки с применением технологии ОрепМР. Произведено сравнение с последовательной версией алгоритма. На рис. 4 представлена схема распараллеливания и получаемое ускорение. Каждый узел сетки, который необходимо проверить на принадлежность к

области поиска, добавляется в очередь. Если текущий узел принадлежит области, в очередь добавляется его окрестность, за исключением уже посещенных узлов. В отличие от последовательной версии, где проверка и добавление в дерево с вычисленными значениями происходит на каждом шаге, в параллельной реализации некоторые узлы вычисляются несколько раз.

Параллельная часть.

Определение принадлежности к области поиска.

Добавление окрестности для каждой новой точки.

а) Добавление в очередь окрестности каждой б) Производительность при использовании принадлежащей области поиска точки технологии ОрепМР

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Рис. 4. Используемая схема распараллеливания и ее производительность

2.2. Параллельная реализация

При использовании многомерной квантильной функции (5-6) для преобразования одного вектора z £ [0, l]rf необходимо d раз пройти по всей выборке размера п и

каждый раз отмечать удовлетворяющие всем предыдущим условиям значения, которые затем будут использоваться в одномерном квантильном преобразовании. Каждый элемент выборки - d-мерный вектор. Таким образом производится покоординатное сравнение вектора из выборки с двумя известными векторами (верхней и нижней границей). В случае невыполнения хотя бы одного условия при сравнении, т.е. непопадания координаты вектора в диапазон значений между границами, вектор из выборки не рассматривается.

На данном этапе довольно просто применить параллельные вычисления. Поскольку заранее неизвестно количество удовлетворяющих всем условиям векторов в текущей реализации одномерное квантильное преобразование выполняется на хосте.

В результате выполненной работы реализованы три различных способа выбора необходимых значений с использованием технологии OpenCL. Во всех трех случаях вся выборка располагается на графическом ускорителе. При этом используется тип данных float.

В первом случае используется простейшая схема распараллеливания. Ядро OpenCL запускается с максимальным возможным размером рабочей группы. Используя единственный глобальный номер потока в ядре происходит покоординатное сравнение с использованием цикла и условного оператора if. В случае невыполнения хотя бы одного условия происходит выход из ядра. Если все условия выполнены, последнее значение, для одномерного преобразования, записывается в возвращаемый с ускорителя на хост вектор длины п. При этом в параметры ядра передается только два необходимых для сравнения вектора. Данная реализация обозначена на рис. 6 как GPU 1.

Во втором случае используется дополнительный массив типа char аналогичный выборке. В данном массиве сохраняются знаки покоординатного сравнения, которое

производится по формуле (ад — mini)-{maxi — ад). При запуске ядра в параметрах используются рабочие группы 16x16. Поскольку рассматриваемая задача имеет размерность 15, массив расширен до размера рабочей группы. Следующее ядро выполняет процедуру покоординатного сложения каждой строки дополнительного массива, так называемый SumReduction. При этом используется локальный массив и обеспечивается когерентность запросов. Полученные значения суммы записываются в вектор длины п и копируются с ускорителя на хост. Искомый вектор найден, если сумма битов равна текущей размерности задачи. Данная реализация обозначена на рис. 6 как GPU 2. Также на рис. 5 представлена схема распараллеливания.

TS = 16

<---------►

d = 15 <------->

___global lb I I |-

___global ub Ш-

П

П

local sums

___global in

___global b

___global out

Рис. 5. Используемая схема распараллеливания GPU 2 с дополнительным массивом

В третьем случае исключается работа с дополнительным массивом. Ядро выполняет процедуру покоординатного сравнения аналогично GPU 2 и сразу же выполняет процедуру сложения полученных знаковых битов. При этом также используется локальный массив и обеспечивается когерентность запросов. Полученные значения суммы записываются в вектор длины п и копируются с ускорителя на хост. Данная реализация обозначена на рис. 6 как GPU 3.

а) Линейный масштаб

б) Логарифмический масштаб

Рис. 6. Производительность применяемых схем параллельных вычислений

Результаты предложенных схем приведены на рис. 6. Для каждой выборки выполнено 10 запусков. Представлено среднее арифметическое время работы одного квантильного преобразования и среднеквадратическое отклонение. Несмотря на детерминированность получаемых выборок, предсказать их размер довольно трудно. Этим обусловлены представленные округленные размеры. В представленных результатах учитывается время полного квантильного преобразования, т.е. при каждом запуске произошло 15 проходов по

выборке и столько же раз с ускорителя на хост скопирован результирующий вектор. Также учитывается произведенное 15 раз одномерное квантильное преобразование.

Несмотря на полученное во всех случаях ускорение, оно остается приблизительно постоянным для каждой выборки. Максимально полученное ускорение дает первая, простейшая, реализация, со средним ускорением в 3,14 раза. Худший результат со средним ускорением в 2,18 раза дает версия с дополнительным массивом.

Причины плохой производительности следующие. Во первых, при каждом преобразовании 15 раз с ускорителя на хост копируется массив, равный размеру выборки. Во вторых, высокая скорость выполнения операции сравнения. В третьих, большое количество обращений к глобальной памяти ускорителя. В первой, простейшей реализации, меньше всего такого рода обращений, поскольку при невыполнении хотя бы одного условия происходит выход из функции. Этим обусловлено максимально полученное ускорение этой реализации.

Все вычисления выполнены на кластере ОИЯИ HybriLIT [11] с использованием одного ускорителя NVIDIA Tesla K40s. Необходимо отметить, что используемый вычислительный узел имеет три графических ускорителя. Используя дополнительные ресурсы можно несколько увеличить ускорение, разбив выборку на равные части.

3. Результаты численных экспериментов

В настоящих экспериментах выполнялся докинг пептида DLLHI в белок 1JWG:B (см. рис. 1). Размерность задачи составила 54 параметра. Квантильное преобразование применялось к 15-ти параметрам, которые отвечают за положение пептида в определенной выше окрестности. Радиус сфер равен четырем ангстремам.

Сравнение адаптивной дифференциальной эволюции JADE [12] производилось с протоколом Rosetta FlexPepDock [2]. Условием применения данного протокола является присутствие пептида в радиусе пяти ангстрем от места связывания. Работа протокола включает в себя несколько различных этапов, заключительная стадия которого -алгоритм Монте-Карло с локальной оптимизацией. Выбор эволюционного алгоритма JADE обусловлен проведенными в [5, 6] исследованиями.

На рис. 7 представлены результаты использования алгоритма JADE, его модификации с использованием квантильной функции qJADE и протокола Rosetta FlexPepDock (FPD). Указано среднеквадратичное отклонение атомов главной цепи пептида относительно нативной структуры, которая прошла процедуру локальной оптимизации стандартными средствами пакета Rosetta. Нативное состояние комплекса имеет значение скоринг-функции приблизительно —280.

Начальная позиция пептида для эволюционных алгоритмов и FPD представляла собой перевернутый на 180 градусов относительно нативного состояния вдоль места связывания пептид. Приемлемым результатом докинга является субангстремное значение отклонения.

Результаты проведенных численных экспериментов показывают, что с поставленной задачей докинга справился только протокол FPD. Применением квантильного преобразования удалось сократить пространство поиска и добиться лучших результатов для эволюционного алгоритма JADE. Под сокращением пространства поиска имеется в виду не сокращение размерности, а удержание пептида в окрестности места связывания. На это указывает меньшее среднеквадратичное отклонение атомов пептида. Для худшего найденного значения результат изменился приблизительно в два раза. Однако в среднем

-220

-230

-240

й

о -250

И

-260

-270

-280

I ■* ■

У'*"

---1---1—

FPD • JADE • qJADE •

:.•••% у- • ft'.. • . ....

_l______I_____I___

6 8 10 12 14 16

Ca RMSD

а) Среднеквадратичное отклонение атомов б) Среднеквадратичное отклонение атомов и значения скоринг-функции главной цепи (диаграмма размаха)

Рис. 7. Результаты десяти независимых запусков JADE, qJADE и 103 запусков FlexPepDock

для лучших найденных значений энергия связывания практически аналогична. Это указывает и неспособность используемого эволюционного алгоритма оптимизации преодолеть сложный энергетический ландшафт.

В данном случае использовалась выборка размером приблизительно 75 миллионов. Построение такой выборки для приведенного пептида на одном узле заняло приблизительно 5 часов. Задаваемое количество вызовов целевой функции выбиралось из расчета сопоставимости времени вычислений.

Заключение

В результате выполненной работы проведена реализация многомерной эмпирической квантильной функции. Предложен сеточный подход к построению детерминированный выборки, произведена параллельная реализация и получено приемлемое ускорение. Произведена параллельная реализация квантильной функции.

На основании проведенных исследований можно заключить, что с помощью квантильной функции возможно свести задачу пептид-белок докинга в непрерывный единичный гиперкуб. При этом учитываются остальные параметры, которые также проходят процедуру преобразования [5]. Такая постановка задачи позволяет создать платформу для объективного сравнения различных алгоритмов глобальной оптимизации, таких как эволюционные, роевые, алгоритмы оценки распределений, алгоритмы со множественной оценкой и без оценки константы Липшица.

Недостатком использования квантильной функции является экспоненциальный рост выборки. Проведенные исследования показывают, что используемая размерность 15 параметров является верхней допустимой границей. Необходимо отметить, что во многих актуальных задачах пептид-белок докинга необходимо рассматривать пептиды длиной 10-15 аминокислотных остатков. Таким образом, размерность степеней свободы белка возрастает в 2-3 раза, что приводит к невозможности использования квантильной функции в текущей постановке.

Целью дальнейшей работы является расширение возможностей применения квантильной функции в задаче пептид-белок докинга. Смещение пептида определяет позицию первого а-углерода. В настоящей работе использовалось преобразование позиции пептида только в одну из двух ограничивающих сфер. Однако, довольно просто построить

отображение в две. Таким образом, можно рассматривать одновременно два потенциальных положения пептида в линейном интерфейсе связывания.

Важно отметить, что предложенный подход с применением квантильной функции может быть применен для широкого спектра задач со схожей формулировкой. Реализация аналога алгоритма заливки Flood-fill и реализация эмпирической квантильной функции доступны в открытом репозитории [13] сервиса GitHub.

Литература

1. Rentzsch R., Renard B.Y. Docking Small Peptides Remains a Great Challenge: An

Assessment Using AutoDock Vina // Briefings in Bioinformatics. 2015. Vol. 16, No. 6. P. 1045-1056. DOI: 10.1093/bib/bbv008.

2. Raveh B., London N., et al. Rosetta FlexPepDock ab-initio: Simultaneous Folding, Docking and Refinement of Peptides onto Their Receptors // PLoS ONE. 2011. Vol. 6, No. 4. DOI: 10.1371 /journal.pone.0018934.

3. Lopez-Camacho E., Garcia Godoy M.J., et al. Solving Molecular Flexible Docking Problems with Metaheuristics: A Comparative Study // Applied Soft Computing. 2015. DOI: 10.1016/j.asoc.2014.10.049.

4. Alford R.F., Leaver-Fay A., Jeliazkov R., et al. The Rosetta All-Atom Energy Function for Macromolecular Modeling and Design. 2017. DOI: 10.1101/106054.

5. Полуян C.B., Ершов Н.М. Применение параллельных эволюционных алгоритмов оптимизации в задачах структурной биоинформатики // Вестник УГАТУ. 2017. Т. 21, № 4(78). С. 143-152.

6. Poluyan S., Ershov N. Parallel Evolutionary Optimization Algorithms for Peptide-Protein Docking // EPJ Web of Conferences. 2018. Vol. 173. P. 06010-06010. DOI: 10.1051 /epjconf/201817306010.

7. Sellers M.S., Hurley M.M. XPairlt Docking Protocol for Peptide Docking and Analysis // Molecular Simulation. 2015. Vol. 42. P. 149-161. DOI: 10.1080/08927022.2015.1025267.

8. O’Brien G.L. The Comparison Method for Stochastic Processes // The Annals of Probability. 1975. Vol. 3, No. 1. P. 80-88. DOI: 10.1214/aop/1176996450.

9. Einmahl J.H.J., Mason D.M. Generalized Quantile Processes // The Annals of Statistics. 1992. Vol. 20, No. 2. P. 1062-1078. DOI: 10.1214/aos/1176348670.

10. Vuckovic V., Arizanovic B., Le Blond S. Generalized N-way Iterative Scanline Fill Algorithm for Real-Time Applications // Journal of Real-Time Image Processing. 2017. DOI: 10.1007/sl 1554-017-0732-1.

11. Heterogeneous Platform HybriLIT. URL: http://hlit.jinr.ru/en/ (дата

обращения: 03.11.2018).

12. Zhang J., Sanderson A. JADE: Adaptive Differential Evolution with Optional External Archive // IEEE Transactions on Evolutionary Computation. 2009. Vol. 13, No. 5. P. 945-958. DOI: 10.1109/TEVC.2009.2014613.

13. GitHub repositories. URL: https://github.com/poluyan (дата обращения: 03.11.2018).

Полуян Сергей Владимирович, аспирант, кафедра распределенных информационно-вычислительных систем, институт системного анализа и управления, Государственный университет «Дубна» (Дубна, Российская Федерация)

Ершов Николай Михайлович, к.ф.-м.н., с.и.с., кафедра автоматизации научных исследований, факультет вычислительной математики и кибернетики, Московский государственный университет имени М.В. Ломоносова (Москва, Российская Федерация)

DOI: 10.14529/cmsel90204

USING MULTIVARIATE QUANTILE FUNCTION FOR PEPTIDE-PROTEIN DOCKING

© 2019 S.V. Poluyan1, N.M. Ershov2

1Dubna State University ( Universitetskaya 19, Dubna, 141982 Russia),

2Lomonosov Moscow State Universisty (GSP-1, Leninskie Gory 1, Moscow, 119991 Russia) E-mail: [email protected], [email protected] Received: 03Л1.2018

The paper presents an exploration of using evolutionary optimization algorithms in protein-peptide docking. The main assumptions that reduce docking to the continuous global optimization problem are described. Some special features of the given problem and the difficulties of using evolutionary algorithms are discussed. The paper provides a way of using evolutionary optimization algorithms based on using empirical quantile function. The multivariate quantile function structure is defined recursively using univariate quantile transform. The grid-based approach of using quantile function is presented. The disadvantages of this approach are indicated. The deterministic sampling algorithm is proposed. The used scheme of parallel sampling and the resulting speed-up are described. The GPU-accelerated approach for quantile function evaluation is presented. This paper provides multiple GPU-based ways which use a sample in explicit form. Their speed-up depending on sample size is shown. The paper presents the results of docking using an evolutionary algorithm and its quantile-function-based modification. The comparison with the relevant docking method within a particular force-field is made. The results of the experiments are analyzed.

Keywords: global optimization, evolutionary algorithms, empirical guantile function, docking.

FOR CITATION

Poluyan S.V., Ershov N.M. Using Multivariate Quantile Function for Peptide-Protein Docking. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2019. vol. 8, no. 2. pp. 63-75. (in Russian) DOI: 10.14529/cmsel90204.

This paper is distributed under the terms of the Creative Commons Attribution-Non Commercial 3.0 License which permits non-commercial use, reproduction and distribution of the work without further permission provided the original work is properly cited.

References

1. Rentzsch R., Renard B.Y. Docking Small Peptides Remains a Great Challenge: An

Assessment Using AutoDock Vina. Briefings in Bioinformatics. 2015. vol. 16, no. 6. pp. 1045-1056. DOI: 10.1093/bib/bbv008.

2. Raveh B., London N., et al. Rosetta FlexPepDock ab-initio: Simultaneous Folding, Docking and Refinement of Peptides onto Their Receptors. PLoS ONE. 2011. vol. 6, no. 4. DOI: 10.1371 /journal.pone.0018934.

3. Lopez-Camacho Е., Garcia Godoy M.J., et al. Solving Molecular Flexible Docking

Problems with Metaheuristics: A comparative study. Applied Soft Computing. 2015.

DOI: 10.1016/j.asoc.2014.10.049.

4. Alford R.F., Leaver-Fay A., Jeliazkov R., et al. The Rosetta All-Atom Energy Function for Macromolecular Modeling and Design. 2017. DOI: 10.1101/106054.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5. Poluyan S.V., Ershov N.M. Parallel Evolutionary Algorithms for Solving Optimization Problems in Structural Bioinformatics. Vestnik Ufimskogo gosudarstvennogo aviatsionnogo tekhnicheskogo universiteta [Bulletin of the Ufa State Aviation Technical University]. 2017. vol. 21, no. 4(78). pp. 143-152. (in Russian)

6. Poluyan S., Ershov N. Parallel Evolutionary Optimization Algorithms For Peptide-Protein Docking. EPJ Web of Conferences. 2018. vol. 173. pp. 06010-06010. DOI: 10.1051 /epjconf/201817306010.

7. Sellers M.S., Hurley M.M. XPairlt Docking Protocol for Peptide Docking and Analysis. Molecular Simulation. 2015. vol. 42. pp. 149-161. DOI: 10.1080/08927022.2015.1025267.

8. O’Brien G.L. The Comparison Method for Stochastic Processes. The Annals of Probability. 1975. vol. 3, no. 1. pp. 80-88. DOI: 10.1214/aop/1176996450.

9. Einmahl J.H.J., Mason D.M. Generalized Quantile Processes. The Annals of Statistics. 1992. vol. 20, no. 2. pp. 1062-1078. DOI: 10.1214/aos/1176348670.

10. Vuckovic V., Arizanovic B., Le Blond S. Generalized N-way Iterative Scanline Fill Algorithm for Real-Time Applications. Journal of Real-Time Image Processing. 2017. DOI: 10.1007/sll554-017-0732-l.

11. Heterogeneous Platform HybriLIT. Available at: http://hlit.jinr.ru/en/ (accessed:

03.11.2018).

12. Zhang J., Sanderson A. JADE: Adaptive Differential Evolution with Optional External Archive. IEEE Transactions on Evolutionary Computation. 2009. vol. 13, no. 5. pp. 945-958. DOI: 10.1109/TEVC.2009.2014613.

13. GitHub repositories. Available at: https://github.com/poluyan (accessed: 03.11.2018).

i Надоели баннеры? Вы всегда можете отключить рекламу.