Компьютерная программа predicto @ designer для прогнозирования и проектирования белковых структур. Теория. Дизайн. Применение

Карасев Владимир Александрович; Калинин Станислав Борисович

УДК 004.42 + 577.322.4 + 577.29 В. А. Карасев, С. Б. Калинин

Компьютерная программа

PREDICTO @ DESIGNER

для прогнозирования и проектирования

белковых структур.

Теория. Дизайн. Применение.

Ключевые слова: компьютерная программа, прогнозирования вторичных структур белка, проектирование первичной структуры белка, применение.

Keywords: computer program, prediction of protein secondary structures, design of protein secondary structures, applications of computer program.

Работа посвящена разрабатываемой авторами компьютерной программе PREDICTO @ DESIGNER, предназначенной для прогнозирования вторичных структур белка и проектирования первичной структуры белка, принимающего заданную вторичную структуру. Проанализированы теоретические основы подхода, лежащего в основе алгоритмов программы, описаны устройство программы, состояние ее разработки, возможности дальнейшего совершенствования и перспективы использования для научных и практических целей.

ВВЕДЕНИЕ

Проблемы прогнозирования и проектирования (дизайна) белковых структур имеют длительную историю. ^временное состояние этих вопросов описано в монографии [1]. Известно, что количество первичных структур белков, получаемых на основе сек-венирования кодирующей ДНК, возрастает в геометрической прогрессии, а возможности установления третичных структур (далеко не все белки поддаются структурным исследованиям) — в арифметической прогрессии. Существует проблема точного прогнозирования надмолекулярной структуры белков по их аминокислотной последовательности. В то же время для создания новых белков, обладающих заданными структурой и функциями, необходимо уметь их конструировать. Эта проблема также до конца не решена. Наличие нерешенных проблем позволяет утверждать, что их актуальность по-прежнему сохраняется.

В последнее время в литературе встречаются попытки решать обе проблемы на единой основе. К ним относится, например, пакет компьютерных

программ «Розетта» [2], предназначенный для моделирования и анализа белковых структур, включая прогнозирование и дизайн. Их решение, по утверждению основателя этого подхода Дэвида Бейкера, имеет непосредственное отношение к биомедицине и служит объективным тестом нашего понимания фундаментальных основ молекулярной биологии.

Развитие подхода, использованного в программе «Розетта», имеет большую интеллектуальную и финансовую поддержку многих научных институтов и университетов, входящих в «сообщество Розетта» [3]. Казалось бы, уже нет никаких альтернативных путей для развития походов. Тем не менее, несмотря на огромное количество расчетных методов (в основном квантово-химических и физических), используемых в этом подходе, со стороны биологов можно поставить вопрос: насколько адекватны эти походы с точки зрения использования в них биологических принципов. Не стреляют ли эти методы «из пушек по воробьям»?

В настоящей статье описывается компьютерная программа PREDICTO @ DESIGNER, разрабатываемая в Центре микротехнологий и диагностики (ЦМиД). Эта программа также является комплексом, поскольку она предназначена как для прогнозирования, так и для дизайна вторичных структур белка (отсюда и название этого комплекса) [4]. В отличие от комплекса «Розетта» наша программа не имеет полного охвата описанных проблем, поскольку мы считаем, что прежде чем переходить к вопросам прогнозирования и дизайна третичных структур, необходимо однозначно решить проблему предыдущего уровня — формирование вторичных структур белка.

Цели работы: описание принципов, назначения и работы программы PREDICTO @ DESIGNER, оценка перспективности дальнейшей разработки, определение областей ее практического использования.

Нанотехнологии и наноматериалы

1. Теоретическое обоснование подхода

Проведению работ, направленных на использование биологических принципов для прогнозирования и проектирования белковых структур, рассматриваемых нами в качестве наноэлектронных устройств [5], способствовала модель пространственной структуры генетического кода, разработанная в ЦМиД [6-9]. Как и другие подобные модели [10, 11], она также изоморфна булеву гиперкубу В6, но имеет многоуровневую иерархическую зонную структуру. При построении модели была использована следующая схема соответствия азотистых оснований кода (С, О, и, А) парам булевых переменных [6-9]:

С = 00, И = 01, О =10, А = 11.

(1)

Эти соответствия в отличие от других вариантов соответствий [12] позволили применить нашу модель к описанию конформации 4-звенного цепного графа, математического аналога фрагмента белка, состоящего из пяти аминокислот (пента-фрагмента — ПФ). В 4-звенном графе, показанном на рис. 1, имеются структурные ребра, связывающие смежные вершины I — 1-1, ..., I — 1-4 (аналоги связей X = И—QH между I — ¿-1, ..., I — 1-4 а-углеродными атомами цепных полимеров, рис. 1) и ребра связности, которые соединяют несмежные вершины (например, I — ¿-4). Это аналоги Н-связей в полимере (на рис. 1, а — Q¿H...X¿-4 = И). В белках X = И—QH-группы представлены пептидными связями (группы О = С—ЫН).

Рассмотрение всех конформаций цепного графа [8, 9] позволило показать, что они образуют суперматрицу из 64 элементов, состоящую из четырех блоков по 16 графов, причем два блока содержат ациклические конформации (ребра связности для вершин ¿ — ¿-4 отсутствуют). Два других блока содержат циклические конформации (ребра связности для вершин ¿ — ¿-4 имеются). На основе соответствий схемы (1) матричные описания этих конфор-маций (рис. 1, в) были преобразованы в триплеты (рис. 1, г) и получена структура, идентичная генетическому коду [8, 9]. Таким образом, нами была

показана возможность связи между конформацией белков и триплетным генетическим кодом.

Белки являются частным случаем цепных полимеров, что позволило обобщить эту идею на другие полимеры и развить в теорию топологического кодирования цепных полимеров [5, 6, 13-15].

В рамках этой теории боковые цепи полимера (в белках — боковые цепи аминокислот — АК) рассматриваются в качестве физических операторов, которые воссоздают конформацию ПФ. Полярные АК белков воссоздают циклические конформации белка (операторы связности), а неполярные АК препятствуют образованию замкнутых циклов (операторы антисвязности) [5, 6, 9, 13, 14]. В теории нашли объяснение многие свойства генетического кода и природа соответствий триплет-АК.

Попытка провести декодирование триплетов в виде квазидиагональной матрицы ^-матрицы) из трех элементов для прогнозирования вторичной структуры белка [5, 8, 9] оказалась неудачной. Описание структуры белка, получаемое на Q-матрицах, необходимо было переводить в более совершенное. Правила для такого перевода найти не удалось.

По этой причине мы обратились к анализу боковых цепей полимера и, для конкретности, свойств канонического набора аминокислот. Была предложена модель структуры канонического набора АК на додекаэдре на основе принципов антисимметрии [5, 6, 16-19]. Попытка объяснить природу антисимметрий АК привела к идее молекулярной векторной машины (МВМ), в основе которой также лежит ПФ белка (рис. 2) [5, 6, 16-21].

Как видно на рис. 2, в центре додекаэдра расположен атом О£-4 ПФ белка. Одна из вершин додекаэдра (АК — О1у) относится к атому образующему Н-связь О£-4. От атома C¿а идет стрелка с обозначением И^, символизирующая набор из 20 боковых цепей АК, каждая из которых, ориентируясь к своей вершине на додекаэдре, воссоздает один из векторов, действующих на связь ^Н..^^ внутри додекаэдра, и задает направление связи С а — са+1. Таким образом, МВМ белка с помощью сменяемых боковых цепей канонического набора

а)

Г----?

х;-1

1

¿-4

QH Х

\ / Х^хг^

7-2

Q¿_зH Ъ ¿-3

б)

7-1

¿-4

¿-.з

¿

¿-1

¿-2

г)

¿-2

¿-2 ¿-З ¿-4

Х1 х2 х4

ХУ7

х3

х5 х6

Рп.с 1

Пентафрагмент цепного полимера (а), его аналог — 4-звенный цепной граф (б), описание конформации графа с помощью верхней угловой матрицы из 6 переменных х1 - х6 (1, 0) (в); кодирование матрицы с помощью триплета: Х1Х2 = X, х3х4 = У, х5х6 = 2 (г)

ь

iii

Рис. 2 Модель молекулярной векторной машины белка

АК реализует в процессе биосинтеза закодированную конформацию белка.

Воспользоваться моделью МВМ можно либо путем моделирования МВМ, либо используя результаты работы МВМ. Первый подход [22] из-за трудностей компьютерного моделирования не был далее продолжен авторами. В то же время в рамках второго направления на основе анализа нарезок ПФ была создана база данных белковых ПФ [23], получены патенты на способ прогнозирования вторичных структур белка [24] и способ проектирования первичных структур по заданной вторичной структуре [25], написана предлагаемая компьютерная программа [4].

Подводя итог, можно сказать, что выбор ПФ белков как основы для создания БД и написания программы является далеко не случайным, как это иногда делается [26], а имеет глубокие биологические основания.

2. Компьютерная программа PREDICTO @ DESIGNER

2.1. База данных пентафрагментов белка

Начальной задачей второго направления был анализ разнообразия нарезок ПФ белков. Эти нарезки получали из текстовых файлов, сформированных на основе PDB-файлов Protein Data Bank и продуцируемых программой Protein 3D [27]. Вскоре, однако, обнаружилось, что файлы, содержащие одинаковые по своей конформации ПФ, выстраиваются таким образом, что часть файлов оказывается в начале а-спирали, часть — в середине, а некоторые — в конце. Перспектива использовать обнаруженные свойства файлов ПФ для целей прогнозирования вторичной структуры белка стала проясняться после разработки их номенклатуры и формирования первой базы данных ПФ (БД4), учитывавшей только H-связи NjH.-.O^ [23]. Систематический теоретический анализ БД4 проведен в работах [28, 29].

В табл. 1 приведены обозначения, принятые в работах [6, 23, 28, 29].

Тестовые PDB-файлы были нарезаны на ПФ (табл. 1) и сортированы в файлы, а описание их структуры с помощью введенной кодировки связей было вынесено в 10-значное название файлов. После обработки ПФ были существенным образом упрощены. Полученные файлы составили первую БД [6, 23, 28, 29].

Отметим, что свойства программы всецело зависят от БД, ее объема и состава ПФ. По этой причине одним из путей улучшения работы программы является разработка новых БД. Нами были получены

Таблица 1 Обозначения связей в текстовых PDB-файлах, типы Н-связей, их кодировка с помощью булевых пар переменных, пример пентфрагмента и его 10-значное описание

Обозначения в текстовых PDB-файлах Типы Н-связей Кодировка Пример ПФ; кодировка ПФ 10-значное описание ПФ

XiX2 Abc Нет Н-связей 00 51 Gln O-55 Glu N 01 51 Gln 50 Pro 00 49 Ala 00 0100000000

X^2 Abc O -Deh XiX2 Abc - YiY2 N Н-связь только при С = О-группе 01

XiX2 Abc N -Ehf XiX2 Abc - Y3Y4 O Н-связь только при ЫН-группе 10 48 Asp 00 47 Ser 00

XiX2 Abc O -Deh XiX2 Abc N -XiX2 Abc - Y^2 N Y3Y4 Ehf O Н-связи как при С = О, так и при ЫН-группе 11

еще две БД: учитывающая разнообразие Н-связей в белках — БД34 [30, а], и теоретическая база данных — БДР [30, б], построенная с использованием БД34.

2.2. Краткое описание программы

Программа PREDICTO @ DESIGNER, работающая на единой БД, может быть применена как для целей прогнозирования вторичной структуры бел-

ков (раздел PREDICTO), так и для целей дизайна первичных структур на основе заданной вторичной структуры (раздел DESIGNER). Переход в соответствующий раздел программы осуществляется кликом на соответствующее поле в названии программы, выведенном в заставку. Программа имеет русскую (начальная установка) и английскую версии.

Основные управляющие команды в обоих разделах программы являются аналогичными и содержатся в иконках, представленных на рис. 3, а. Рабочие поля программы показаны на рис. 3, б и в.

а)

б)

ü Predictodesigner V4.8.5.4

Ф й! -

BABOON.dbk N = 154 Fies:

BABOON.dbk

5 XXX G Gly 0000000000

4 XXX D Asp bbbbbbbbbb

3 XXX S Ser bbbbbbbbbb

2 XXX L Leu bbbbbbbbbb

1 XXX G Gly bbbbbbbbbb

0 ATG M MET bbbbbbbbbb

Для и а ч ала

прогноз ирования

нажмите ПРОБЕЛ..

Comments

в)

Рис. 3

Иконки и рабочие поля программы PREDICTO @ DESIGNER: а — иконки с командами управления программой; б — рабочее поле раздела PREDICTO; в — поле раздела DESIGNER

Как следует из рис. 3, а, в верхней строке программы находятся название программы и ее версия. Ниже располагаются названия семи иконок: «Файл», «Информация», «База», «Корректоры», «Рендеринг», «Опции» и «Справка». С содержанием иконок и командами в них легко ознакомиться опытным путем.

Каждый раздел программы содержит по два рабочих поля (рис. 3, б, в): цифровое поле (слева) и поле визуализации структуры. На цифровом поле раздела PREDICTOR (рис. 3, б) выводится результат прогнозирования вторичной структуры белка в виде 10-значных цифр, описывающих конформа-цию ПФ на каждой стадии прогнозирования, а на поле визуализации — вторичная структура прогнозируемого белка. Имеется также поле с информацией о файлах, подлежащих прогнозированию (вверху справа), и поле комментариев (внизу справа), поясняющих по ходу прогнозирования характер операций, проводимых над исходным файлом.

На цифровом поле DESIGNER (рис. 3, в) изображается последовательность АК, созданная программой, и 10-значное описание ее проектируемой структуры. Поле визуализации (на рис. 3, в частично перекрыто табличками) используется для наблюдения над структурой, которая создается оператором.

На рис. 3, в выведены также пульт 1 (вверху в центре), используемый для проектирования первичной структуры белка на основе БД4, и тип проектируемой вторичной структуры (вверху справа) из классификации вторичных структур на основе БД4. К настоящему времени имеется еще один пульт, предназначенный для работы с БД34. Внизу, под пультом, расположены таблички с информацией о ПФ, используемых в процессе проектирования.

2.3. Работа программы:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

текущее состояние и перспективы дальнейшей

разработки

2.3.1. Прогнозирование вторичной структуры белка

Описание процесса прогнозирования. В общих чертах процедура прогнозирования вторичной структуры белка описана в патенте [24]. Она состоит в выделении ПФ в файле со специальным образом форматированной первичной структурой белка и их поиске в БД. Поскольку в БД ПФ обозначены 10-значными числами, описывающими структуру ПФ (кодовыми номерами), программа считывает кодовый номер найденного ПФ и выдает его на цифровое рабочее поле в последовательности снизу вверх, по мере выделения ПФ от начала до конца белковой цепи. Сама процедура состоит из двух этапов: на первом этапе отыскивается начальный ПФ (НПФ), и если он обнаружен правильно, то на втором этапе проводится последующее прогнозирование остального белка.

Как сказано в разделе 2.1, прогнозирование вторичной структуры белка может осуществляться с помощью трех БД: БД4, БД34 и БДР. Пример прогнозирования показан в табл. 2 (фрагмент мио-глобина свиньи [30]). На этом фрагменте видно, что весь представленный фрагмент предсказывается в виде последовательности 10-значных чисел. Сравнение с экспериментом (известна третичная структура этого белка [30]) позволило установить, что прогнозирование этой структуры программой проведено правильно.

В результате многочисленных проверок нами было установлено, что вторичная структура всех белков, использованных для создания БД, предсказывается с точностью, близкой к 100 %. Это объясняется тем, что в отличие от других методов, связанных со статистической обработкой структуры белковых фрагментов [1], такой подход использует однозначно установленное описание конформации того или иного ПФ.

Коррекция прогнозирования. Поскольку наш подход использует точное цифровое описание кон-формации ПФ, замена даже одной АК в ПФ сказывается на степени прогнозирования. Если в БД отсутствует тот или иной ПФ, то на прогнозируемой структуре возникает пробел. Методы коррекции, разработанные нами к настоящему моменту, направлены на устранение этих пробелов. Было предложено три метода коррекции, отраженных в иконке «Корректоры»: замена АК в ПФ (работает на любой БД), использование БД34 (предназначен для БДР) и достраивание структуры путем ввода пар переменных (ручной ввод). С деталями этих методов можно ознакомиться в нашей публикации [30, в]. В качестве примера мы остановимся на методе замены АК.

Предположим, что на какой-то i-й стадии программа выделила для поиска ПФ, который не обнаружен под кодовым номером, заданным на основе алгоритма для поиска. Если на предыдущей, i—1-й стадии такой ПФ обнаруживался, то значит, все дело в АК, появившейся в ПФ на i-й стадии. Такие изменения (называемые обычно мутациями) часто наблюдаются для белков одного типа, но выделенных из разных видов организмов.

В нашей работе был использован белок мио-глобин, который по многим причинам (небольшой размер, доступность для изучения и т. д.) удобно рассматривать в качестве модели для апробации программы. Их структуру (первичную и третичную), а также ссылки на оригинальные источники можно получить по ключевым словам в домене http://www.ncbi.nlm.nih.gov баз данных Protein и Structure.

В качестве примеров в табл. 2 приведены фрагменты миоглобинов свиньи и аллигатора. В них жирным шрифтом выделены стадии, на которых наблюдаются мутационные изменения. Поскольку поиск ПФ с отсутствующей i-й АК должен прово-

Таблица 2 Прогнозирование вторичной структуры миоглобинов без коррекции и с применением коррекции на основе замены аминокислот в ПФ

Без коррекции Коррекция по АК

Свинья Аллигатор Аллигатор

141 XXX D Asp 1111111111 142 XXX D Asp 1111111111 142 XXX D Asp 1111111111

140 XXX N Asn 1111111111 141 XXX N Asn 1111111111 141 XXX N Asn 1111111111

139 XXX R Arg 1111111111 140 XXX R Arg 1111111111 140 XXX R Arg 1111111111

138 XXX F Phe 1111111111 139 XXX F Phe 1111111111 139 XXX F Phe 1111111111

137 XXX L Leu 1111111111 138 XXX L Leu 1111111121 138 XXX L Leu 1111111111

136 XXX E Glu 1111111111 137 XXX E Glu 137 XXX E Glu 1111111111

135 XXX L Leu 1111111111 136 XXX L Leu 136 XXX L Leu 1111111111

134 XXX A Ala 1111111111 135 XXX A Ala 135 XXX A Ala 1111111111

133 XXX K Lys 1111111111 134 XXX K Lys 134 XXX K Lys 1111111111

132 XXX S Ser 1111111111 133 XXX R Arg 133 XXX R Arg 1111111111 ASN

131 XXX M Met 1111111101 132 XXX M Met 132 XXX M Met 1111111101

130 XXX A Ala 1111110101 131 XXX A Ala 131 XXX A Ala 1111110101

129 XXX G Gly 1111G1G1G1 13G XXX A Ala 13G XXX A Ala 1111G1G1G1 GLY

128 XXX Q Gln 11G1G1G1G1 129 XXX Q Gln 129 XXX Q Gln 11G1G1G1G1

127 XXX A Ala G1G1G1G11G 128 XXX S Ser 128 XXX S Ser G1G1G1G11G ALA

126 XXX D Asp 0101011000 127 XXX D Asp 127 XXX D Asp 0101011030

125 XXX A Ala 0101100000 126 XXX A Ala 126 XXX A Ala 0101103000

124 XXX G Gly 0110000010 125 XXX G Gly 125 XXX G Gly 0110300000

123 XXX F Phe 1000001011 124 XXX F Phe 124 XXX F Phe 1030000012

122 XXX D Asp 0000101110 123 XXX D Asp 123 XXX D Asp 3000001210

121 XXX G Gly GG1G111G1G 122 XXX A Ala G2GGGGGGGG 122 XXX A Ala GGGG121G1G GLY

120 XXX P Pro 1011101011 121 XXX P Pro 0000000000 121 XXX P Pro 0012101010

119 XXX H His 111G1G1111 12G XXX Y Tyr 12G XXX Y Tyr 121G1G1G11 HIS

118 XXX K Lys 1010111111 119 XXX K Lys 0000000000 119 XXX K Lys 1010101111 ARG

117 XXX S Ser 1G11111111 118 XXX E Glu 118 XXX E Glu 1G1G111111 SER

116 XXX Q Gln 1111111111 117 XXX A Ala GGGGGGGGGG 117 XXX A Ala 1G11111111 HIS

115 XXX L Leu 1111111111 116 XXX I Ile 116 XXX I Ile 1111111111 LEU

114 XXX V Val 1111111111 115 XXX V Val 115 XXX V Val 1111111111

диться под тем же номером папки, что и другие ПФ аналогичной структуры, но с другими АК в им положении, то можно временно подменить поиск исходного ПФ на поиск ПФ аналогичной структуры, но с измененной в ьм положении АК.

Результат реализации этой идеи показан на примере миоглобина аллигатора. В правом столбце табл. 2 в результате использования этого способа участок со 115-й по 138-й аминокислоты полностью прогнозируется, в отличие от среднего столбца, в котором коррекция не применялась. Сравнение прогнозированной структуры миоглобина аллигатора с миогло-бином свиньи (табл. 2, левый столбец) показывает, что в целом обе структуры имеют сходное положение а-спиралей в этом фрагменте. Улучшение качества прогнозирования наблюдается также для БДР при использовании коррекции с помощью БД34.

2.3.2. Проектирование первичной структуры белка по заданной вторичной структуре

Процедура проектирования первичной структуры белка в нашей программе может осуществляться двумя способами:

• с помощью пультов, один из которых показан на рис. 3, в;

• на основе системы вторичных структур (последовательности 10-значных числе для того или иного типа структур).

В первом случае оператор вводит 10-значное описание структуры на каждой стадии, выбирает АК после вывода на пульт группы АК на каждой стадии, вводит АК в проектируемую последовательность и т. д.

Во втором случае должна существовать удобная система вторичных структур. Такая система была

создана для БД4 и включает порядка 50 вторичных структур [6]. На рис. 3, в (вверху) в качестве примера показана структура 3—2—4, входящая в эту систему. Оператор использует эту структуру в качестве направляющей основы в процессе проектирования белковой цепи, но выбор АК при проектировании остается за оператором. Сам процесс проектирования занимает в зависимости от степени сложности белка от получаса до 2—3 ч, в отличие от многочасовых расчетов, используемых в подходе [2].

Предположение, что проектируемые последовательности АК должны принимать именно ту структуру, которая задана программой, основано на том, что прогнозируемая программой вторичная структура с аналогичной последовательностью АК прогнозируется правильно и совпадает с экспериментальной. Тем не менее, несмотря на логичность этого предположения, раздел проектирования, прежде чем быть запущен в широкую практику, безусловно, должен быть многократно апробирован экспериментально. При этом, поскольку в основе наших алгоритмов лежит механизм биосинтеза белка на рибосоме, синтез спроектированных белков также должен осуществляться с помощью рибосом (через синтез информационной РНК). Только в этом случае можно ожидать, что вторичная структура будет принимать спроектированный вид. К сожалению, химический синтез на матрицах, происходящий на основе принципиально иного механизма, получение заданной структуры не гарантирует.

2.3.3. Пути дальнейшего совершенствования программы

Визуализация прогнозированных и проектируемых структур. В предыдущем разделе показано, что прогнозируемая структура выводится на цифровое рабочее поле в виде последовательности 10-значных чисел, описывающих вторичную структуру белка. Такое описание, при наличии определенного опыта, легко читается. Однако для ряда целей, как при прогнозировании, так и при проектировании белков, необходимо иметь визуальное пространственное представление этих структур. В частности, при проектировании белка визуальная структура начинает складываться в третичную структуру и это может быть увидено и скорректировано (при необходимости) уже в процессе проектирования. Тот факт, что мы имеем дело с цифровым описанием структуры, создает предпосылки для их детальной визуализации с показом каждой Н-связи во вторичной структуре.

В настоящее время разрабатывается процедура визуализации, которая будет происходить синхронно с процедурой прогнозирования. Для файлов, полученных на основе структур белков из Protein Data Bank, планируется также визуализация на основе координат атомов. Это позволит сравнивать

прогнозируемые структуры с экспериментальными данными.

Совершенствование БД. Как было отмечено выше, эффективность нашей программы зависит от качества БД. Мы полагаем, что в дальнейшем БД может развиваться в двух направлениях.

Создание специализированных баз данных. Метод коррекции прогнозирования путем замены AK открывает перспективу его использования на основе БД, содержащих гомологичные белковые структуры, которые выступают в качестве архетипов. Например, наличие в БД нескольких миоглобинов позволяет правильно прогнозировать вторичную структуру большого количества белков этой группы, полученных из разных видов. По этой причине, если прогнозирование связано с работой, например в области систематизации какой-либо группы белков, можно поставить задачу создания специальных БД, полученных на основе обработки структур белков этой группы. Процедура получения таких БД, как мы убедились в своей работе, занимает совсем немного времени (1—2 дня) и может быть проведена при наличии программного обеспечения самим пользователем.

Разработка теоретической базы данных. Появление неизвестных белков при изучении новых видов ставит задачу создания теоретической БД, которая бы не зависела от выборки белков, использованных для ее создания. Первый опыт разработки теоретической БД (БДР) [3O, б] показал, что такая возможность вполне реальна. Однако, как выяснилось, хотя размер прогнозируемых участков в незнакомых белках на основе БДР увеличивается, они по-прежнему прогнозируются слабо. Необходим дальнейший анализ общих закономерностей формирования структуры полученных наборов ПФ. То, что такие закономерности реально существуют, можно видеть из табл. 3, в которой приведены данные о соотношении AK в ПФ в файле 2O1O1O1311.

Как следует из этой таблицы, i-е положение в 8O % случаев занимают четыре A^ Gly (более 56 %), Ser, Asn и Lys (в сумме около 2O %). В то же время в положении i—4 неполярные ЛК Ala, Leu, Met, Phe, Val, Ile в сумме составляют около 7O %. Эти факты указывают на то, что степень вариабельности ПФ в этом файле существенно снижена. Мы предполагаем, что на основе анализа закономерностей структуры этого файла может быть воссоздан полный набор ПФ без использования обработки белковых файлов. Созданные для этих целей программы (TABULA [31] и ALUBAT [32]) позволяют анализировать структуру файлов с ПФ и использовать найденные закономерности для создания файлов БДР [3O, б]. Отметим, что в настоящее время появились перспективы разработки новой полуэмпирической универсальной БД, которая, возможно, заменит все предыдущие БД.

Систематизация вторичных структур белка. Разрабатываемая программа, как было описано выше

Таблица 3 Соотношение аминокислот в различных положениях пентафрагмента для файла 2010101311

АК i i-1 i-2 i-3 i-4

n % n % n % n % n %

Gly 734 56,4 33 2,5 27 2,1 12 0,9 31 2,4

Pro 0 0,0 1 0,1 0 0,0 0 0,0 0 0,0

Ala 30 2,3 236 18,2 207 15,9 119 9,2 257 19,8

Leu 27 2,1 212 16,3 109 8,4 155 11,9 361 27,8

Ser 55 4,2 72 5,6 78 6,0 48 3,7 39 3,0

Thr 19 1,5 14 1,1 24 1,8 51 3,9 28 2,2

Cys 12 0,9 11 0,8 7 0,5 4 0,3 23 1,8

Met 12 0,9 37 2,9 26 2,0 28 2,2 67 5,2

His 22 1,7 45 3,5 25 1,9 33 2,5 14 1,1

Trp 2 0,2 7 0,5 9 0,7 9 0,7 25 1,9

Phe 7 0,5 42 3,2 23 1,8 38 2,9 71 5,5

Tyr 2 0,2 45 3,5 21 1,6 50 3,9 40 3,1

Asp 40 3,1 34 2,6 88 6,8 44 3,4 26 2,0

Glu 42 3,2 79 6,1 173 13,3 134 10,3 35 2,7

Asn 112 8,6 79 6,1 55 4,2 23 1,8 17 1,3

Gln 35 2,7 89 6,9 85 6,5 77 5,9 32 2,5

Arg 47 3,6 106 8,2 107 8,2 102 7,9 47 3,6

Lys 90 6,9 110 8,5 162 12,5 150 11,6 37 2,9

Val 7 0,5 29 2,2 35 2,7 93 7,2 64 4,9

Ile 6 0,5 16 1,2 39 3,0 128 9,9 83 6,4

N 1301 1297 1300 1298 1297

(разд. 2.3.2), может быть использована для проектирования вторичных структур белка.

Созданный для программы пульт, использующий для проектирования БД34, учитывает значительно большее разнообразие вторичных структур. В связи с этим возникает проблема систематизации структур на основе БД34, работа над которой ведется в настоящее время. Предполагается, что количество вторичных структур, которые будут охвачены новой системой, составит порядка нескольких тысяч.

2.3.4. Перспективы использования программы

Состояние разработки программы PREDICTO @ DESIGNER уже сейчас позволяет ставить вопрос о путях ее практического использования, т. е. обсуждать маркетинговые проблемы. Можно выделить две основные сферы возможного ее применения: сугубо научное и практическое применение. Рассмотрим эти сферы более подробно.

А. И с п о л ь з о в а н и е п р о г р а м м ы д л я н а у ч н ы х ц е л е й

Возможность построения древ эволюции белков на основе прогнозированных вторичных структур. В качестве примера рассмотрим миоглобины че-

тырех групп приматов: человек, человекообразные обезьяны, мартышки и капуцины (табл. 4). На основе фрагментов прогнозированной вторичной структуры этих миоглобинов можно сделать следующие наблюдения.

1. Все приведенные миоглобины имеют близкие первичные структуры, и положение их вторичных структур прогнозируется сходным образом (например, а-спиральный участок от 100-й до 117-й АК).

2. Трудно заранее предсказать, какие замены АК, наблюдаемые в первичной структуре белка, сказываются на вторичной структуре белка.

Использование программы в процессе прогнозирования позволяет видеть, какие замены влияют на вторичную структуру белка, а какие — нет. Например, в миоглобинах человекообразных обезьян и человека (табл. 4) ни одна из проведенных программой замен не повлияла на прогнозируемую вторичную структуру. В то же время замена Glu 109 на Asp 109 в семействе капуцинов сказалась на составе АК и структуре прогнозируемого последующего участка белка.

3. Для каждого из приведенных семейств имеется своя группа замен АК, которая их отличает от других семейств. Например, для человекообразных приматов и человека это замены АК в положениях 87, 110, 113 и 116, мартышковых — 86, 87, 106 и 110, капуцинов — 112, 116, 117, 118.

Таблица 4 Фрагменты прогнозированной вторичной структуры миоглобинов приматов

АК чел. 1 2 Прогноз втор. стр. Замена Макака Замена Капуцин Замена

123 РЬе РЬе РЬе 0000001010 РЬе 1000001011 РЬе 1030000012

122 Аэр Аэр Аэр 0000101010 Аэр 0000101110 Аэр 3000001210

121 &1у &1у &1у 0010101010 01у 0010111010 01у 0000121010

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

120 Рго Рго Рго 1010101021 Рго 1011101011 Рго 0012101010

119 Шэ Шэ Шэ 1010102111 Шэ 1110101111 Шэ1210101011

118 Ьуэ Ьуэ Ьуэ 1010211111 Ьуэ 1010111111 Lys 1010101111 Arg

117 Бег Бег Бег 1021111112 Бег 1011111111 Lys 1010111111 Ser

116 Gln His Gln 2111111211 His Gln 1111111111 Gln 1011111111 His

115 Ьеи Ьеи Ьеи 1111121111 Ьеи 1111111111 Ьеи 1111111111

114 Уа1 Уа1 Уа1 1112111121 Уа1 1111111111 Уа1 1111111111

113 Gln Gln Gln 1211112121 His 01п 1111111111 Шэ 1111111111

112 Ш Пe Ile 1111212111 Ш 1111111111 Val 1111111111 Пe

111 11е 11е 11е 1121211112 11е 1111111111 11е 1111111111

110 Ala Cys Ser 2121111212 Ala Ser1111111111 Ala Ala 1111111111

109 01и 01и 01и 2111121211 01и 1111111121 Asp 1111111111

108 Бег Бег Бег 1112121121 Бег 1111112121 Бег 1111111121

107 11е 11е 11е 1212112131 11е 1111212131 11е 1111112131

106 РЬе РЬе РЬе 1211213101 Leu 1121213102 Phe РЬе 1111213101

105 01и 01и 01и 1121310102 01и 2121310202 01и 1121310102

104 Ьеи Ьеи Ьеи 2131010202 Ьеи 2131020202 Ьеи 2131010202

103 Туг Туг Туг 3101020200 Туг 3102020200 Туг 3101020200

102 Ьуэ Ьуэ Ьуэ 0102020000 Ьуэ 0202020000 Ьуэ 0102020000

101 Уа1 Уа1 Уа1 0202000000 Уа1 0202000000 Уа1 0202000000

100 Рго Рго Рго 0200000010 Рго 0200000010 Рго 0200000010

99 11е 11е 11е 0000001010 11е 0000001010 11е 0000001010

98 Ьуэ Ьуэ Ьуэ 0000101010 Ьуэ 0000101010 Ьуэ 0000101010

97 Шэ Н1э Шэ 0010101010 Шэ 0010101010 Шэ 0010101010

96 Ьуэ Ьуэ Ьуэ 1010101011 Ьуэ1010101011 Ьуэ 010101011

95 ТЬг ТЬг ТЬг 1010101111 ТЬг 1010101111 ТЬг1010101111

94 А1а А1а А1а 1010111111 А1а 1010111111 А1а 1010111111

93 Шэ Шэ Шэ 1011111101 Шэ 1011111131 Шэ 1011111101

92 Бег Бег Бег 1111110101 Бег 1111113101 Бег 1111110101

91 01п 01п 01п 1111010111 01п 1111310111 01п 1111010111

90 А1а А1а А1а 1101011111 А1а 1131011112 А1а 1101011111

89 Ьеи Ьеи Ьеи 0101111100 Ьеи 3101111230 Ьеи 0101111100

88 Рго Рго Рго 0111110000 Рго 0111123000 Рго 0111110000

87 Lys Lys Lys 1111000001 Gln Lys1112300001 Thr Ьуэ 1111000001

86 11е 11е 11е 1100000101 Ile 1230000102 Leu Ьеи 1100000101

О б о з н а ч е н и я: чел. — человек; 1 — шимпанзе, гиббон, горилла; 2 — орангутанг; втор. стр. — вторичная структура.

Приведенные наблюдения позволяют предположить, что программу можно использовать, например, для построения древ эволюции различных белков на основе анализа их вторичных структур. На наш взгляд, эти древа будут более правильно отражать пути эволюции по сравнению с их постро-

ением на основе первичных структур, поскольку на основе прогнозирования легко отличать существенные замены АК в белках, приводящие к изменениям структуры, от несущественных замен.

Влияние замен АК в первичной структуре белка на функциональную активность. В научной лите-

ратуре имеется направление исследований, связанное с выяснением влияния замен АК в первичной структуре белка (например, фермента) на проявление функциональной активности белка. Такие исследования дороги, поскольку связаны с получением белков с заменой АК (на основе отбора мутантов), их кристаллизацией и рентгеноструктурным анализом (РСА). При этом далеко не все замены АК в белках радикальным образом могут сказаться на их активности. В этом случае предварительный анализ замен АК в прогнозированной программой вторичной структуре позволит быстро отделить существенные замены, влияющие на ее формирование, от несущественных. Таким образом, программа позволит уменьшить количество вариантов для анализа и снизить стоимость исследований.

Б. И с п о л ь з о в а н и е п р о г р а м м ы д л я п р и к л а д н ы х р а б о т

Лучшей рекламой для любого инструмента являются его надежность и качество. Компьютерную программу PREDICTO @ DESIGNER также можно рассматривать в качестве инструмента. По этой причине получение качественных результатов с использованием этой программы является главным критерием при ее разработке. Хотя вопрос о проектировании новых белков с помощью нашей программы требует уточнения с помощью экспериментальных исследований, тем не менее уже на этой стадии стоит наметить пути возможного применения программы.

Бионическая наноэлектроника. Имеются многочисленные примеры белков — молекулярных машин [5], которые могут быть использованы при создании сверхминиатюрных молекулярных устройств. В частности, это преобразователи энергии АТФ в механические движения (мышечные белки, жгутики), ферменты, обеспечивающие получение новых соединений при комнатной температуре, белки-переносчики кислорода (гемоглобин, миоглобин), преобразователи света в растениях (фо-тосинтезирующие коплексы), синтез макроэргиче-ских соединений (АТФ-синтетаз) и др. Структура многих из них тесно связана с конкретными биообъектами, из которых они выделяются. Однако для технических целей далеко не всегда необходима вся структура того или иного белка. С помощью программы, в ее завершенном виде, можно проектировать минибелки, выполняющие те же функции, что и реальные, природные, белки. В зависимости от технических требований минибелки по сравнению с природными могут обладать специальными свойствами, например большей стабильностью при повышенных температурах, устойчивостью к радиации и т. д.

Создание упрощенных аналогов рецепторных белков с помощью программы сулит перспективы изготовления датчиков, предназначенных для восприятия определенных видов запахов (например, датчиков с рецепторами наркотических веществ),

обладающих большей стабильностью по сравнению с использованием природных белков.

Медицина и фармакология. Можно привести много различных областей медицины и фармакологии, где будет использоваться наша программа. В качестве примера можно назвать группу белковых гормонов [4], имеющих у животных и человека соответствующие мембранные рецепторы. Эти гормоны через взаимодействие с рецепторами оказывают сильно выраженное биологическое воздействие на состояние организма. Третичная структура многих гормонов исследована. Это позволяет использовать нашу программу (в частности, пульт из раздела DESIGNER) для создания набора вторичных структур этих гормонов и направленного поиска замен АК, которые могут влиять на их физиологическую активность. По аналогии с гормонами такие же исследования могут быть проведены и с другими биологически важными белками в целях использования в фармакологии, например при поиске белков, ингибирующих развитие опухолевых клеток, белков, влияющих на продолжительность жизни.

Сельское хозяйство. К числу прикладных отраслей, связанных с биологией и использованием белковых соединений, относится и сельское хозяйство. Гербициды (ингибиторы развития сорняков) могут быть созданы на основе природных белков и их упрощенных аналогов. То же можно сказать и об инсектицидах, среди которых встречаются белки, способные приманивать насекомых-вредителей для их последующего уничтожения. Все эти отрасли нуждаются в создании новых эффективных белковых аналогов (возможно максимально простых), которые будут конструироваться с помощью разрабатываемой программы.

Простота работы с программой делает ее перспективной для практического использования как в научных институтах, так и в лабораториях при крупных промышленных производствах.

Заключение

В настоящей работе описана разрабатываемая авторами компьютерная программа PREDICTO @ DESIGNER, предназначенная для прогнозирования вторичных структур белка и проектирования первичной структуры белка, принимающего заданную вторичную структуру. Теоретической основой при разработке программы послужили развитые авторами подходы, основанные на анализе принципов построения пространственной структуры генетического кода, структуры канонического набора аминокислот и модели молекулярной векторной машины белков. Подходы привели к идее, что фрагменты белка, состоящие из пяти аминокислот (пентафрагменты — ПФ), являются элементарными единицами белков, обеспечивающими переход

от первичной структуры белка ко вторичной. Идея ПФ положена в основу алгоритмов программы.

Описаны общее устройство программы, состояние ее разработки и пути дальнейшего развития. Ближайшей задачей по ее совершенствованию является создание теоретической базы данных (БД) и системы вторичных структур, построенной на основе этой БД, которые позволят сделать универсальными прогностические и дизайнерские свойства программы.

Обсуждены различные аспекты использования программы как для научных, так и для практических целей. Показано, что применение программы в ее законченном виде открывает широкие перспективы для создания и использования искусственных белков в бионической наноэлектронике, медицине, сельском хозяйстве и других сферах деятельности человека.

Авторы выражают искреннюю благодарность профессору В. В. Лучинину за постоянное внимание и поддержку данного направления исследований.

Литература

1. Финкельштейн А. В., Птицын О. Б. Физика белка. М.: КДУ, 2012. 456 с.

2. Пакет компьютерных программ Розетта https://www. rosettacommons.org/software

3. Сообщество Розетта https://www.rosettacommons.org/about

4. Калинин С. Б., Карасев В. А., Лучинин В. В. Компьютерная программа для прогнозирования вторичной структуры белков и конструирования первичной структуры белков с заданной вторичной структурой (Predicto @ Designer). Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС № 2015622295 от 17.02.2015 г.

5. Карасев В. А., Лучинин В. В. Введение в конструирование бионических наносистем. М.: Физматлит, 2009. 463 с.

6. Карасев В. А. Принципы топологического кодирования цепных полимеров и структура белков. СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2014. 239 с.

7. Карасев В. А., Сорокин С. Г. О топологической структуре генетического кода // Генетика. 1997. Т. 33. С. 744—751.

8. Karasev V. A., Demchenko E. L., Stefanov V. E. Topological coding of polymers and protein structure prediction. In: Chemical topology: applications and techniques / Ed. D. Bonchev, D. Rouvray. // Ser. Math. Chem. 2000. Vol. 6. P. 295-345.

9. Karasev V. A., Stefanov V. E. Topological nature of the genetic code // Jurn. Theor. Biol. 2001. Vol. 209. P. 303-317.

10. Klump H. H. The physical basis of the genetic code: the choice between speed and precision // Arch. Biochem. Bio-phys. 1993. Vol. 301. P. 207-209.

11. Jimenez-Montaro M. A., de la Mora-Basaсez C. R., Poschel Th. The hypercube structure of the genetic code explains conservative and non- conservative aminoacid substitutions in vivo and in vitro // BioSystems. 1996. Vol. 39. P. 117-125.

12. Jimenez-Montaro M. A. Applications of hyper genetic code to bioinformatics // Ser. Math. Biol. And Med. Proc. Intern. Conf. Advances In Вioinformatics And Its Applications / Ed. M. He, G. Narasimhan, S. Petoukhov. 2005. Vol. 8. P. 473-481.

13. Karasev V. A., Luchinin V. V., Stefanov V. E. Topological coding: Towards new materials for molecular electronics // Adv. Funct. Mater. 2002. N 12. P. 461-469.

14. Карасев В. А., Лучинин В. В. Модель топологического кодирования цепных полимеров для бионической наноэлектроники. I. Топологический код и соответствия физических операторов триплетам кода // Биотехносфера. 2009. № 1. C. 2-10.

15. Карасев В. А. Принципы топологического кодирования белков. http://genetic-code.narod.ru/

16.

17.

18.

19.

20.

21.

22.

23.

24.

25.

26.

27.

28.

29.

30.

31.

32.

Karasev V. A., Luchinin V. V., Stefanov V. E. A dodecahedron-based model of spatial representation of the canonical set of amino acids // Ser. Math. Biol. and Med. Proc. Intern. Conf. „Advances in Вioinformatics and its Applications" / Ed. M. He, G. Narasimhan, S. Petoukhov. 2005. Vol. 8. P. 482-493. Карасев В. А. Пространственная структура канонического набора аминокислот. http://amino-acids-20.narod.ru/ Karasev V. A., Luchinin V. V., Stefanov V. E. A model of the „molecular vector machine" for protein folding // Proceedings of the 3-rd Moscow conference on computational molecular biology. Moscow, Russia. July 27-31, 2007. P. 134-136. Карасев В. А., Лучинин В. В. Модель топологического кодирования цепных полимеров для бионической наноэлектроники. II. Молекулярная векторная машина и структура канонического набора физических операторов // Биотехносфера. 2009. № 2. С. 6-12.

Karasev V. A. Theory of topological coding of proteins and nature of antisymmetry of the amino acids canonical set // Symmetry: Culture and Science. 2012. Vol. 23, N 3-4. P. 427-447.

Карасев В. А. Молекулярная векторная машина белков. http://vector-machine.narod.ru/

Калишенко Е. Л., Кринкин К. В. Система топологического моделирования структуры белковых молекул // Прикладная информатика. 2009. № 4. С. 114-124. Карасев В. А. Беляев А. И., Лучинин В. В. База данных пентафрагментов белков. Зарегистрирована Федеральным агентством по интеллектуальной собственности «РосПатент». 2010. № 2010620364.

Пат. РФ № 2425837 от 10.08.2011 г. Способ прогнозирования вторичной структуры белка / В. А. Карасев, В. В. Лучинин. 2011.

Пат. РФ № 2511003 от 06.02.2014 г. Способ проектирования первичной структуры белка с заданной вторичной структурой / В. А. Карасев, В. В. Лучинин. Liang Dai, Yuedong Yang, Hyung Rae Kim, Yaoqi Zhou. Improving computational protein design by using structure-derived sequence profile // Proteins. 2010. Vol. 78, N 10. P. 23-38.

Демченко Е. Л., Карасев В. А. Компьютерная программа «Декодер надмолекулярной структуры белка — Протеин 3Д». СПбЭУ РАПО РФ. 05.03.1998 г. № 980143. Карасев В. А. О принципах построения цепных полимеров. I. Система пентафрагментов // Биотехносфера. 2009. №. 5. С. 7-17 (а); II. Пространственная структура системы пентафрагментов и алгоритмы формирования вторичных структур. Биотехносфера. 2009. №. 6. С. 2-13 (б); III. Минорные элементы и полная пространственная структура пентафргаментов на гиперкубе В4 // Биотехносфера. 2011. № 1-2. С. 66-74 (в).

Karasev V. A., Stefanov V. E. 10-digits boolean system in description of protein pentafragments // Symmetry: Culture and Science. 2013. Vol. 24, N 1-4. P. 275-293. Карасев В. А., Калинин С. Б. Компьютерная программа PREDICTO @ DESIGNER для прогнозирования и проектирования вторичных структур белка: UPGRADE. I. База данных пентафрагментов белков, учитывающая NiH.Oi_3, NiH.Oi_4, и другие типы Н-связей во вторичных структурах белков // Биотехносфера. 2016. № 1. C. 49-55 (а); II. Принципы создания теоретической базы данных пентафрагмен-тов белков // Биотехносфера. 2016. № 2. C. 29-38 (б). III. Алгоритмы поиска пентафрагментов в базах данных и методы коррекции прогнозирования вторичной структуры белка // Биотехносфера. 2016. № 2. C. 39-48 (в). Карасев В. А., Калинин С. Б. Компьютерная программа TABULA. Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС. № 2016614705 от 28.04.2016 г.

Карасев В. А., Калинин С. Б. Компьютерная программа ALUBAT. Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС. № 2016614706 от 28.04.2016 г.

Аннотация научной статьи по медицинским технологиям, автор научной работы — Карасев Владимир Александрович, Калинин Станислав Борисович

Похожие темы научных работ по медицинским технологиям , автор научной работы — Карасев Владимир Александрович, Калинин Станислав Борисович

Computer program predicto @ designer. Theory. Design. Application

Текст научной работы на тему «Компьютерная программа predicto @ designer для прогнозирования и проектирования белковых структур. Теория. Дизайн. Применение»