УДК 004.42 + 577.322.4 + 577.29 В. А. Карасев, С. Б. Калинин
Компьютерная программа PREDicro @ DEsiGNER для прогнозирования и проектирования вторичных структур белка: Upgrade
ii. Принципы создания теоретической базы данных пентафрагментов белков*
Ключевые слова: компьютерная программа, вторичные структуры белка, прогнозирование, теоретическая база данных пентафрагментов белка.
Keywords: computer program, secondary protein structure, prediction, design, theoretical database of proteins pentafragments.
На основе теоретического анализа базы данных пентафрагментов (ПФ) белков, полученной из эксперимента, предложены принципы для создания расширенной теоретической базы данных (БДР), пригодной для прогнозирования и проектирования вторичных структур белка. На первом этапе из начальных ПФ получают выборку тетрад аминокислот, отыскивают среди них тетрады, перекрывающиеся на три аминокислоты с тетрадами исходной выборки и путем наложения получают новые ПФ для БДР. На втором этапе используют тетрады ПФ файлов предыдущих и последующих стадий, переходных между различными типами вторичных структур. Для создания БДР и анализа результатов написаны программы ALUBAT и TABULA и получен упрощенный вариант БДР, использованный в программе PREDICTO @ DESIGNER.
Введение
С позиции бионической наноэлектроники белки можно рассматривать в качестве органических молекулярных электронных наноустройств [1]. Для их создания необходимо уметь точно предсказывать структуру белков и конструировать их первичные структуры таким образом, чтобы после синтеза они принимали заданную надмолекулярную структуру. Достижению этих целей способствуют современные разработки методов прогнозирования и проектирования белковых структур, активно ведущиеся во всем мире [2, 3].
* Окончание. Начало в журнале «Биотехносфера» № 1 (43) 2016.
Созданная нами компьютерная программа PREDICTO @ DESIGNER [4] находится в русле этих исследований и задумана как программный комплекс, обеспечивающий реализацию развитого нами способа прогнозирования вторичной структуры белков [5] (часть PREDICTO) и способа проектирования последовательностей аминокислот, принимающих после синтеза заданную вторичную структуру белка (часть DESIGNER). Основой работы программы является база данных пентафрагментов (ПФ) белков [6], полученных путем их нарезки с трансляционным сдвигом в одну аминокислоту на основе сканирования файлов с двумерным описанием водородных связей главной цепи белка. Мы обозначили эту базу как БД4. Однако БД4 не учитывала разнообразия типов связей во вторичной структуре белка. Этот недостаток был исправлен благодаря созданию новой базы данных, обозначенной как БД34. Статья, в которой подробно описана БД34 [6], открывает серию статей, связанных с совершенствованием этого программного комплекса.
На белках, использованных для создания БД, программа PREDICTO @ DESIGNER на основе как БД4, так и БД34 проявляет близкую к 100 % точность предсказания вторичных структур. В то же время на белках, ПФ которых отсутствуют в БД, точность предсказания существенно ниже. В связи с этим возникла задача создания теоретической БД (БДР), которая смогла бы преодолеть отмеченный выше недостаток. В работе [6] был сделан вывод о том, что основой для разработки принципов создания БДР после детального анализа структуры файлов ПФ может служить БД34. Целью настоящей работы является попытка предложить ряд принципов, пригодных для создания БДР, и реализовать их в виде упрощенного варианта универсальной БДР.
1. Общая стратегия создания теоретической базы данных
1.1. Предпосылки к поиску принципов создания универсальной базы данных пентафрагментов
Уже в процессе создания БД4 было отмечено [6], что получаемые разнообразные файлы ПФ имеют различное соотношение аминокислот, находящихся в i-м - i-4-м положениях ПФ. Аналогичный анализ файлов БД34 показал, что подобные различия имеют еще более ярко выраженный характер. Приведем примеры.
Как следует из табл. 1, соотношение аминокислот в файле 000000000 (БД34), который содержит ПФ ß-структуры, в каждом положении ПФ примерно совпадает, причем присутствуют все двадцать аминокислот канонического набора. Среднестатистическое содержание каждой аминокислоты, если считать их распределение в белках равновероятным, должно составлять 1/20. В отличие от равновероятного распределения в этом файле в наибольшем количестве в каждом положении ПФ содержатся аминокислоты Gly (7,7—8,2 %), Leu (7,9— 8,0 %) и Val (9,0—9,4 %). В то же время содержание четырех аминокислот (Cys, Met, His, Trp) существенно ниже среднего и варьирует от 1,3 до 2,4 %.
Похожее распределение аминокислот наблюдается положениях i - i—4-м ПФ для файла 1111111111, однако при этом отсутствует Pro и повышено содержание Ala и Leu (порядка 13 %).
Другой пример. В табл. 2 приведены данные о соотношении аминокислот в ПФ для файла 010000000 (БД34), который является первой стадией на пути перехода от ß-структуры (файл 0000000000) к а-сприрали (файл 1111111111). Как видно из таблицы, во всех положениях ПФ, кроме i-го, соотношение аминокислот примерно такое же, как и в файле 0000000000. В то же время в i-м положении это соотношение существенно меняется: аминокислоты Ser (15,8 %), Thr (11,7 %), Asp (17,9 %) и Asn (11,2 %) в сумме составляют 56,6 % (в файле 000000000 они составляют 22,7 %). Изменение соотношения аминокислот в i-м положении файла указывает на то, что для воссоздания структуры пары переменных, появившейся в названии этого файла (01), требуются боковые цепи аминокислот, способные к образованию Н-связей: Ser, Thr, Asp и Asn. В рамках нашего подхода они рассматриваются как физические операторы связности [1]. Таким образом, имеется взаимосвязь между соотношением аминокислот в различных положениях ПФ и названием файла, отражающим структуру его ПФ.
Таблица11 Соотношение аминокислот в различных положениях ПФ (файл 000000000)
АК i i-1 i-2 i-3 i-4
n % n % n % n % n %
Gly 10777 8,2 10663 8,1 10543 8,0 10399 7,9 10099 7,7
Pro 7503 5,7 7501 5,7 7576 5,8 7691 5,8 7934 6,0
Ala 8843 6,7 8825 6,7 8718 6,6 8704 6,6 8770 6,7
Leu 10488 7,9 10519 8,0 10583 8,0 10572 8,0 10484 8,0
Ser 8401 6,4 8282 6,3 8144 6,2 8011 6,1 7988 6,1
Thr 8793 6,7 8639 6,6 8615 6,5 8452 6,4 8480 6,4
Cys 1844 1,4 1808 1,4 1774 1,3 1721 1,3 1676 1,3
Met 2229 1,7 2167 1,6 2143 1,6 2065 1,6 2210 1,7
His 3113 2,4 3034 2,3 3013 2,3 3017 2,3 3004 2,3
Trp 2069 1,6 2032 1,5 2007 1,5 1980 1,5 1954 1,5
Phe 6053 4,6 6051 4,6 6020 4,6 5891 4,5 5627 4,3
Tyr 5541 4,2 5472 4,2 5497 4,2 5447 4,1 5295 4,0
Asp 7124 5,4 6909 5,3 6816 5,2 6894 5,2 7060 5,4
Glu 6847 5,2 6853 5,2 6825 5,2 6848 5,2 7040 5,4
Asn 5526 4,2 5399 4,1 5424 4,1 5436 4,1 5500 4,2
Gln 4021 3,0 3996 3,0 3991 3,0 4065 3,1 4119 3,1
Arg 5867 4,4 5871 4,5 5884 4,5 6053 4,6 6108 4,6
Lys 6253 4,7 6288 4,8 6365 4,8 6654 5,1 7076 5,4
Val 11945 9,0 12170 9,3 12423 9,4 12400 9,4 12039 9,2
Ile 8900 6,7 9073 6,9 9231 7,0 9247 7,0 9089 6,9
N 132 137 131 552 131 592 131 547 131 552
Таблица 2 1 Соотношение аминокислот в различных положениях ПФ (файл 010000000)
АК i i-1 i-2 i-3 i-4
n % n % n % n % n %
Gly 750 10,4 608 8,4 687 9,5 664 9,2 601 8,4
Pro 312 4,3 401 5,6 529 7,3 460 6,4 398 5,5
Ala 249 3,4 461 6,4 583 8,1 521 7,2 515 7,2
Leu 197 2,7 677 9,4 501 6,9 565 7,8 590 8,2
Ser 1144 15,8 458 6,4 480 6,7 467 6,5 426 5,9
Thr 849 11,7 451 6,3 455 6,3 437 6,1 482 6,7
Cys 155 2,1 87 1,2 122 1,7 92 1,3 103 1,4
Met 46 0,6 169 2,3 111 1,5 113 1,6 117 1,6
His 135 1,9 160 2,2 178 2,5 169 2,3 146 2,0
Trp 48 0,7 124 1,7 90 1,2 93 1,3 94 1,3
Phe 117 1,6 364 5,1 300 4,2 332 4,6 359 5,0
Tyr 138 1,9 299 4,1 290 4,0 262 3,6 310 4,3
Asp 1296 17,9 462 6,4 435 6,0 387 5,4 351 4,9
Glu 251 3,5 329 4,6 382 5,3 365 5,1 339 4,7
Asn 811 11,2 323 4,5 270 3,7 279 3,9 243 3,4
Gln 136 1,9 172 2,4 206 2,9 191 2,7 216 3,0
Arg 173 2,4 270 3,7 305 4,2 308 4,3 299 4,2
Lys 174 2,4 260 3,6 341 4,7 322 4,5 345 4,8
Val 133 1,8 592 8,2 559 7,8 672 9,3 741 10,3
Ile 112 1,5 538 7,5 387 5,4 506 7,0 521 7,2
N 7226 7205 7211 7205 7196
Приведенные данные могут служить отправной точкой к поиску принципов создания БДР.
1.2. Получение файлов с начальными ПФ
Для того чтобы приступить к разработке БДР, необходимо иметь генеральную идею, как можно ее построить. Согласно алгоритму прогнозирования вторичных структур [5] на первом этапе прогнозирования должен быть найден начальный ПФ, который ищется в папках 0000000000 или 1111111111. Как мы видели в табл. 1, все положения ПФ в файле 0000000000 примерно одинаковы: в каждом положении должен быть полный набор АК. Ана-
логичная ситуация найдена в файле 1111111111. Кроме того, в обоих файлах имеется пониженное содержание четырех аминокислот: Cys, Met, His, Trp. Получение файлов этих двух вариантов в процессе создания баз данных происходило на основе обработки протяженных участков ß-структуры или а-спирали. Это означает, что ПФ в этих файлах должны перекрываться, оставаясь в пределах исходной структуры. Для этого ПФ должны иметь «полные наборы» вариантов.
Попытаемся понять, почему в файле 0000000000 во всех положениях ПФ соотношение аминокислот примерно одинаково. Рассмотрим в качестве примера серию ПФ, содержащих, для общности, две аминокислоты: Abc и Bcd (табл. 3).
Таблица 31 Пример распределения АК в ПФ, образующих циклические структуры
№ Циклический набор ПФ Относительное содержание АК
i % i-1 % i-2 % i-3 % i-4 %
1 Abc-Abc-Abc-Abc-Bcd Abc 20 Abc 20 Abc 20 Abc 20 Bcd 20
2 Abc-Abc-Abc-Bcd-Abc Abc 20 Abc 20 Abc 20 Bcd 20 Abc 20
3 Abc-Abc-Bcd-Abc-Abc Abc 20 Abc 20 Bcd 20 Abc 20 Abc 20
4 Abc-Bcd-Abc-Abc-Abc Abc 20 Bcd 20 Abc 20 Abc 20 Abc 20
5 Bcd-Abc-Abc-Abc Abc Bcd 20 Abc 20 Abc 20 Abc 20 Abc 20
N 5 5 5 5 5
Таблица 4 Возможные способы получения наборов ПФ
На основе перекрывания триад На основе перекрывания тетрад
Abc-Bcd-Cde Bcd-Cde-Def Abc-Bcd-Cde-Def Bcd-Cde-Def-Efg
Abc-Bcd-Cde-Def Cde-Def- Efg Abc-Bcd-Cde-Def-Efg
Abc-Bcd-Cde-Def-Efg Abc-Bcd-Cde-Def Bcd-Cde-Def-Ghi
Abc-Bcd-Cde-Def-Ghi
В левой части табл. 3 приведен ряд ПФ. Если к 5-му ПФ со сдвигом приписать первый ПФ, то этот ряд образует непрерывный цикл. В правой части таблицы эти же ПФ записаны в столбик. Подсчет в нем относительного содержания АК показывает, что во всех положениях содержание Bcd составляет 20 %, а ЛЬс — 80 %, что моделирует идентичное распределение АК в каждом положении ПФ в табл. 1. Таким образом, в качестве рабочей гипотезы можно принять, что причина совпадения относительного содержания аминокислот в каждом положении ПФ в файле 0000000000 состоит в том, что все наборы ПФ образуют циклически повторяющиеся группы ПФ.
Такие наборы могут быть получены путем двукратного перекрывания двух аминокислот на основе двух триад (слева) или перекрывания трех аминокислот из двух тетрад (справа) (табл. 4). Очевидно, что правый вариант существенно экономичнее. Из приведенных рассуждений можно сделать вывод, что для создания теоретических наборов ПФ файлов, содержащих начальные ПФ (0000000000 и 1111111111), необходимо получить из них тетрады и использовать эти же тетрады для генерации наборов ПФ.
1.3. Получение файлов ПФ переходных участков вторичных структур
В соответствии с алгоритмом прогнозирования вторичных структур [5] последующие этапы в прогнозировании вторичных структур состоят в поиске
ПФ, находящихся в переходных файлах между начальными ПФ 0000000000 и 1111111111. Имеется множество вариантов таких переходных файлов, однако всех их объединяет одно: при переходе от стадии к стадии номер файла изменяется на одну пару переменных.
В качестве примера рассмотрим файл 0100000000, данные для которого были приведены в табл. 2. Как мы видели, наибольшие изменения в этом файле наблюдались в i-м положении ПФ. По аналогии с получением ПФ файла 0000000000 мы предполагаем, что если взять за основу тетрады (с i-й по i—3-ю аминокислоты) ПФ файла 0100000000 и сложить их путем наложения трех идентичных аминокислот с тетрадами файла 0000000000 (также с i-й по i—3-ю аминокислоты), то в результате мы получим набор ПФ, сохраняющий соотношение аминокислот во всех положениях файла 0100000000, но количество ПФ будет увеличено.
В качестве иллюстрации в табл. 5 приведены примеры генерации трех ПФ для БДР.
Таким образом, общим принципом для получения новых ПФ в файлах может быть получение тетрад в файле, для которого создается новая база ПФ, и сложение их с тетрадами, полученными для файла предыдущей стадии.
Для реализации этого принципа на практике необходимо создать две программы: одна из них должна быть способна использовать предложенный принцип для получения теоретических файлов ПФ, а вторая — анализировать получаемые файлы. Эти задачи были решены с помощью программ ALUBAT [7] и TABULA [8], описанных ниже.
2. Разработка компьютерных программ 2.1. Компьютерная программа ALUBAT
Назначение. Компьютерная программа ALUBAT предназначена для создания теоретической базы-данных пентафрагментов (БДР) на основе экспериментальных файлов пентафрагментов белков с последующим ее использования в компьютерной программе PREDICTO @ DESIGNER для целей про-
Таблица 51 Генерация пентафрагментов файла 0100000000 для БДР
Исходные ПФ файла 0100000000 Сложение тетрад файлов 0100000000 и 0000000000 Готовые ПФ для БДР
Asp-Gly-Gly-Pro-Gly Asp-Gly-Gly-Pro Gly-Gly-Pro-Gly Asp-Gly-Gly-Pro-Gly
Gly-Gly-Pro-Ala-Leu Asp-Gly-Gly-Pro Gly-Gly-Pro-Ala Asp-Gly-Gly-Pro-Ala
Gly-Gly-Pro-Leu-Leu Asp-Gly-Gly-Pro Gly-Gly-Pro-Leu Asp-Gly-Gly-Pro-Leu
гнозирования и проектирования вторичной структуры белков.
Принцип работы. В качестве основы для получения БДР используются ПФ экспериментальной базы данных (БД4 или БД34). Каждый файл, используемый для создания теоретических файлов, предварительно нумеруют и помещают в папку [sre]. Программа последовательно их обрабатывает, получает из них тетрады аминокислот. Далее среди них программа отыскивает тетрады с тремя перекрывающимися аминокислотами, из которых путем сложения получает теоретические ПФ и печатает их в файлах с индексами R в папке [res].
Устройство и работа программы. Программа ALUBAT [7] использует папки [sre] для загрузки файлов и [res] для записи результатов, находящиеся в одной директории с исполняемым файлом (ALUBAT.exe).
Ряд файлов, используемых для создания теоретической базы, пронумерованных в том порядке, в котором они должны следовать в процессе обработки: 1-0000000000, 2-0100000000, 3- 0101000000 и т. д., помещают в папку [sre] и запускают исполняемый файл. В папке [res] на основе исходных файлов получается группа теоретически созданных файлов с индексом R (0000000000-R, 0100000000-R, 0101000000-R и т. д.). Получаемые при этом ПФ нумеруются одинаково (1-5, с нумерацией снизу вверх), а в заголовке на основе однобуквенных обозначений аминокислот ПФ, читаемых сверху вниз, записывается слева направо пятизначное описание ПФ, например: IGGGK
5 Ile 4 Gly 3 Gly 2 Gly 1 Lys.
Их можно анализировать с помощью имеющихся в нашем распоряжении программ, в частности Schet-chik, TABULA и др. Результаты использования программы приведены в разделе 3.
преобладает ряд аминокислот (см. табл. 2). Это означает, что для анализа сочетаний AK в ПФ, содержащих данные AK, необходимо построить таблицы по принципу вложения нижележащих фрагментов в вышележащие. Однако все сочетания одновременно представить невозможно. По этой причине для написания программы иерархию вложений построили следующим образом.
1. Парные сочетания аминокислот, занимающие i-е и i-1-е положения, были представлены в виде файлов. Общее их количество — 4OO (число размещений из 2O по 2). В названиях файлов отражены сами парные сочетания аминокислот: Gly — Gly, Gly — Pro, Gly — Ala и т. д.
2. Внутри каждого файла, содержащего только один вариант парных сочетаний, вложены все остальные сочетания: 2O вариантов аминокислот, занимающих i-2-е положение, в каждом из вариантов — по 2O вариантов аминокислот, занимающих i-3-е положение, и блок из 20 аминокислот, занимающих i-4-е положение. Таким образом, в каждом файле получается иерархическая таблица, в которой нижележащий уровень вкладывается в вышележащий.
Устройство и работа программы. Программа TABULA [8] использует папки [src] для загрузки файлов и [res] для записи результатов, находящиеся в одной директории с исполняемым файлом (TABULA.exe).
Файл, подлежащий анализу, помещают в папку [src] и запускают исполняемый файл. В результате в папке [res] получаются:
• папка с файлами в формате csv;
• файл со списком тетрад исходного файла (название файла со знаком «+», например 2010101311+);
• файл со списком отсутствующих отдельных аминокислот, диад и триад, со знаком «-», например — 2O1O1O1311-.
Последние два файла оказались весьма полезными для анализа. Использование программы приведено в разделе 3.
2.2. Компьютерная программа TABULA
Назначение. Компьютерная программа TABULA (от лат. таблица) предназначена для анализа структуры ПФ как экспериментальных, так и теоретических файлов на основе таблиц, наглядно представляющих структуру изучаемых файлов. В качестве дополнения программа выдает информацию о содержании тетрад в анализируемых файлах, а также об отсутствующих в файлах групп ПФ по отдельным аминокислотам, диадам и триадам аминокислот.
Принцип построения. В основе принципов анализа было положено наблюдение, что на некоторых этапах формирования вторичных структур образуются группы ПФ, в которых в i-м положении
3. Результаты и их обсуждение
3.1. Создание серий теоретических файлов ПФ
с помощью программы ALUBAT
3.1.1. Файлы с начальными ПФ
Анализ соотношения аминокислот с помощью программы Schetchik. Как было рассмотрено в разделе 1.2, файлами, содержащими начальные ПФ, являются 0000000000 и 1111111111. С помощью программы ALUBAT на основе этих файлов, взятых из БД34, были получены теоретические файлы. Результаты этой работы приведены ниже. Для сравнения они показаны рядом с экспериментальными файлами, на основе которых они были получены.
биотехносфера
I № 2(44)/201Б
Экспериментальный Мб Теоретический Мб
0000000000 б,84 0000000000-R 43,1
1111111111 1,53 1111111111-R 7,Q7
Как видно, количество теоретически созданных ПФ для файла 0000000000-R увеличивается по сравнению с исходным файлом в 6,6 раза, а для файла 1111111111-R — в 4,6 раза, что можно рассматривать как существенный прогресс.
Представляет интерес соотношение аминокислот в положениях i — i-4 ПФ файлов 0000000000-R и 1111111111-R. Используя мини-программу Schet-chik, которая подсчитывает АК в ПФ, эти данные были получены. Для файла 0000000000-R они приведены в табл. 6.
Сопоставление с данными для файла 0000000000, приведенными в табл. 1, позволяет сделать следующие выводы:
1) общее количество ПФ в файле увеличилось более чем в 6 раз, что примерно соответствует увеличению размера файла;
2) пониженное содержание аминокислот Cys, Met, His Trp, которое было отмечено для файла 000000000, также наблюдается и в файле 000000000-R;
3) соотношение других аминокислот в файле 000000000-R, особенно в положениях i-1 — i-3,
очень близко воспроизводит эти соотношения в файле QQQQQQQQQQ;
4) в положениях i и i-4 количество некоторых аминокислот, например Gly, Val, немного снижено, а некоторых (Cys, Met, His Trp) — несколько повышено по сравнению с другими положениями.
Сходные наблюдения были сделаны для файлов 1111111111 и 1111111111-R. Например, в файле 1111111111-R, как и в файле 1111111111, полностью отсутствовал Pro. Близкие к эксперименту наблюдались соотношения аминокислот Ala, Leu и т. д. В целом можно считать, что соотношения аминокислот в теоретических файлах довольно точно воспроизводят данные экспериментальных файлов.
Применение программы TABULA для анализа файлов. Для сопоставления исходных файлов с начальными ПФ с теоретическим файлами была применена программа TABULA, дающая много больше информации, чем Schetchik. В качестве примера проанализируем результаты применения этой программы для файлов QQQQQQQQQ и QQQQQQQQQ-R.
1. Количество отсутствующих триад аминокислот в файлах QQQQQQQQQ и QQQQQQQQQ-R оказалось идентичным.
2. Количество тетрад, полученных программой TABULA на основе обработки файлов QQQQQQQQQ и QQQQQQQQQ-R, оказалось идентичным и составило по 2,бб Мб.
Таблица б Соотношение аминокислот в различных положениях ПФ (файл GGGGGGGGG-R)
АК i i-1 i-2 i-3 i-4
n % n % n % n % n %
Gly 5411б б,5 б7855 8,1 б9б29 8,3 б858б 8,2 545Q9 б,5
Pro 47335 5,7 496Q5 5,9 49393 5,9 498б2 6,Q 47б38 5,7
Ala 5QQ67 6,Q 562Q5 б,7 5582б б,7 55б13 б,б 5Q332 6,Q
Leu 546Q5 б,5 бб227 7,9 66Q58 7,9 ббб39 8,Q 545б9 б,5
Ser 49244 5,9 547б8 б,5 54134 б,5 53Q37 б,3 48959 5,8
Thr 5Q322 6,Q 5б222 б,7 556Q4 б,б 55985 б,7 5Q334 6,Q
Cys 19077 2,3 8704 1,0 8042 1,0 8061 1,0 17997 2,1
Met 22444 2,7 11036 1,3 10908 1,3 10533 1,3 20879 2,5
His 28433 3,4 17817 2,1 17551 2,1 17199 2,1 27447 3,3
Trp 21231 2,5 10288 1,2 9664 1,2 9257 1,1 20047 2,4
Phe 42535 5,1 3981б 4,8 4QQ82 4,8 3933б 4,7 42255 5,Q
Tyr 413Q6 4,9 3бб24 4,4 36Q95 4,3 3б1б4 4,3 4Q633 4,9
Asp 45341 5,4 4599б 5,5 45211 5,4 448б1 5,4 44995 5,4
Glu 45Q21 5,4 45529 5,4 453б4 5,4 45Q43 5,4 45278 5,4
Asn 4Ю2б 4,9 3б587 4,4 3б342 4,3 3581Q 4,3 4Q822 4,9
Gln 33234 4,Q 24б5б 2,9 249Q1 3,Q 25489 3,Q 34247 4,1
Arg 42QQ8 5,Q 382Q4 4,б 38819 4,б 4Q181 4,8 43Q49 5,1
Lys 4323Q 5,2 413Q9 4,9 41Q98 4,9 4251б 5,1 4492Q 5,4
Val 55884 б,7 719Q1 8,б 73214 8,7 73458 8,8 5б7б5 б,8
Ile 51237 б,1 58347 7,Q 597б1 7,1 6QQ66 7,2 52Q21 б,2
N 837 б9б 837 б9б 837 б9б 837 б9б 837 б9б
3. Для каждого из файлов начальных ПФ получено по 400 файлов формата еву, причем их размер для вариантов 000000000-К всегда был больше, чем для 000000000.
Для выяснения вопроса, что происходит конкретно в файлах еву, мы просмотрели гомологичные файлы для 000000000 и 000000000-Е. Как и ожидалось, все изменения произошли в последнем положении ПФ. Для примера приводим данные, взятые для 000000000 и 000000000-Е. из файлов в Лвп-Сув.еву (табл. 7). По сравнению с оригиналами они немного уплотнены. Как следует из приведенных данных, в файле Лвп-Сув.еву для 000000000 присутствует лишь один ПФ, содержащий в ¿—4-м положении 01у. В то же время для файла 000000000-Е было получено 9 ПФ, с различными АК в ¿—4-м положении, включая 01у. Аналогичные изменения, связанные с увеличением разнообразия АК в ¿—4-м положении ПФ, были найдены во всех 400-ах еву-файлах 000000000-Е. Для еву-файлов 1111111111-Е наблюдались сходные особенности. Отметим, что лишь в
немногих из них в ¿—4-м положении появляются все АК. В большинстве случаев наблюдаются неясные пока закономерности избирательных вариантов, которые еще предстоит выяснить. В целом, однако, идея получения теоретических файлов на основе экспериментальных начальных ПФ оказалась полностью реализована.
3.1.2. Серии файлов переходных участков вторичных структур
Согласно избранной модели получения теоретических файлов за основу берутся файлы ПФ, полученные путем обработки экспериментальных данных (БД34). В соответствии с алгоритмом прогнозирования вторичных структур [5] последующие этапы поиска ПФ происходят в переходных файлах, расположенных между файлами 0000000000 и 1111111111. Наиболее часто встречаются группы файлов, образующие так называемые канони-
Таблица 7 Состав ПФ в файлах Asn-Cys.csv для вариантов 0000000000 и 0000000000-R, полученный с помощью программы TABULA
i i-1 i-2 i-3 i- 4
Файл 0000000000
AK ASN AK CYS AK GLY AK GLY
N 5526 N 60 N 5 N 1 AK N %
% 4,18202 % 1,08578 % 8,33333 % 20 GLY 1 100
Файл 0000000000-R
AK ASN AK CYS AK GLY AK GLY AK N %
N 41026 N 329 N 31 N 9 GLY 1 11,1111
% 4,89748 % 0,80193 % 9,42249 % 29,0323 PRO 1 11,1111
ALA 1 11,1111
LEU 0 0
SER 1 11,1111
THR 1 11,1111
CYS 0 0
MET 1 11,1111
HIS 0 0
TRP 1 11,1111
PHE 0 0
TYR 0 0
ASP 0 0
GLU 1 11,1111
ASN 0 0
GLN 0 0
ARG 1 11,1111
LYS 0 0
VAL 0 0
ILE 0 0
ческие переходы от Р-структуры к а-спирали и от а-спирали к Р-структуре [2]. Мы использовали их в качестве примеров для получения теоретических файлов. Результаты этой работы приведены в табл. 8.
Как следует из таблицы, для большинства стадий, начиная со второй, размер теоретических файлов в основном увеличивается в 2—2,5 раза по сравнению с исходными файлами. Обращает на себя внимание существенное увеличение размера теоре-
тических файлов для стадий 0100000000 (примерно в 10 раз) и 1011111111-Е (примерно в шесть раз). Мы предполагаем, что это связано с тем, что данные файлы являются основой для формирования нескольких направлений получаемых теоретических файлов. В процессе получения отдельные направления ответвляются от канонического, поэтому объем последнего увеличивается не столь сильно.
Для нас представлял интерес выяснить, каково соотношение АК в получаемых теоретических
Таблица 8 Сопоставление размеров исходных и теоретических файлов в канонических переходах бета-альфа и альфа-бета
Переход бета-альфа Переход альфа-бета
№ Экспериментальный Теоретический Экспериментальный Теоретический
Стадии Мб Стадии Мб Стадии Мб Стадии Мб
8 1111111101 0,38 1111111101-R 0,81 0000000010 0,43 0000000010_R 0,GG
7 1111110101 0,42 1111110101-R 0,84 0000001010 0,28 0000001010_R 0,77
G 1111010101 0,42 1111010101-R 0,92 0000101010 0,27 0000101010_R 0,78
5 1101010101 0,42 1101010101-R 0,70 0010101010 0,29 0010101010_R 0,89
4 0101010100 0,40 0101010100-R 0,88 1010101011 0,30 1010101011_R 0,71
3 0101010000 0,38 0101010000-R 0,80 1010101111 0,29 1010101111_R 0,80
2 0101000000 0,38 0101000000-R 0,90 1010111111 0,30 1010111111_R 0,78
1 0100000000 0,48 0100000000-R 4,43 1011111111 0,29 1011111111_R 1,88
0 0000000000 G,84 0000000000-R 43,1 1111111111 1,53 1111111111-R 7,07
Таблица 9 Соотношение аминокислот в различных положениях ПФ (файл 010000000-Р)
AK i i-1 i-2 i-3 i-4
n % n % n % n % n %
Gly 8G92 10,3 8300 9,9 8938 10,G 90G2 10,8 53G5 G,4
Pro 373G 4,4 4757 5,7 G0G9 7,2 5448 G,5 4747 5,G
Ala 2994 3,G 5749 G,8 G9G2 8,3 G33G 7,5 5045 G,0
Leu 2375 2,8 888G 10,G G549 7,8 7452 8,9 5352 G,4
Ser 127S3 15,2 5G87 G,8 5785 G,9 5G4G G,7 4843 5,8
Thr 9S6S 11,7 5740 G,8 5728 G,8 5439 G,5 4918 5,8
Cys 1842 2,2 483 0,6 664 0,8 599 0,7 1974 2,3
Met 574 0,7 1084 1,3 725 0,9 697 0,8 2196 2,6
His 1633 1,9 1243 1,5 1343 1,6 1330 1,6 2883 3,4
Trp 599 0,7 733 0,9 538 0,6 539 0,6 2112 2,5
Phe 1397 1,7 38G9 4,G 3344 4,0 35G3 4,2 425G 5,1
Tyr 169S 2,0 31G1 3,8 300G 3,G 283G 3,4 41GG 5,0
Asp 14047 1в,7 5304 G,3 512G G,1 4419 5,3 4483 5,3
Glu 3190 3,8 3834 4,G 4541 5,4 43G4 5,2 4502 5,4
Asn 9331 11,1 3488 4,1 2825 3,4 2824 3,4 4099 4,9
Gln 1797 2,1 1547 1,8 189G 2,3 1711 2,0 3503 4,2
Arg 2210 2,G 2842 3,4 3301 3,9 3271 3,9 4393 5,2
Lys 225G 2,7 3084 3,7 39G1 4,7 3G9G 4,4 4513 5,4
Val 1GG5 2,0 7G84 9,1 7G01 9,0 8G37 10,3 5538 G,G
Ile 1384 1,G G59G 7,8 51G9 G,1 G202 7,4 5183 G,2
N 84 071 84 071 84 071 84 071 84 071
файлах по сравнению с исходными файлами БД34. Для этого была использована мини-программа schetchik, результаты работы которой для файла Q1QQQQQQQQ-R приведены в табл. 9. В табл. 2 были приведены данные для исходного файла Q1QQQQQQQQ.
Как мы уже отмечали, количество ПФ в теоретическом файле по сравнению с исходным увеличено более чем в 1Q раз (сравнить N в табл. 2 и 9). В i-м положении в обоих файлах наблюдается повышенное содержание Gly (1Q,4 и 1Q,3 %), Ser (15,8 и 15,2 %), Thr (11,7 и 11,7 %), Asp (17,9 и 1б,7 %) и Asm (11,2 и 11,1 %). В i—1-м положении в обоих файлах наблюдается повышенное содержание Gly (8,4 и 9,9 %), Leu (9,4 и Ю,б %) и Val (8,2 и 9,1 %) и т. д. Содержание редко встречающихся АК (Cys, Met, His, Trp) в теоретическом файле Q1QQQQQQQ-R, так же как и в файле из БД34, снижено.
В целом можно сказать, что, несмотря на небольшие различия, структура теоретического файла Q1QQQQQQQ-R, по данным, полученным с помощью программы Schetchik, полностью воспроизводит структуру файла Q1QQQQQQQ. Проведенное нами с помощью программы TABULA более детальное сопоставление табличных данных формата csv для этих файлов также выявило существенное увеличение количества вариантов АК, занимающих i—4-е положение (как в табл. 7), в то время как количество триад и тетрад практически совпадает.
Таким образом, приведенные результаты показывают, что идея получения теоретических файлов на основе экспериментальных как для файлов начальных ПФ, так и для файлов ПФ переходных между двумя типами структур, оказалась полностью реализована.
3.1.3. Процедура создания упрощенной
теоретической базы данных
Процедуру получения серий файлов для канонических переходов от ß-структуры к a-спирали и от a-спирали к ß-структуре можно рассматривать в качестве примеров создания БДР. В дальнейшем в качестве основы для получения теоретических файлов были использованы файлы БД34. В принципе, их количество очень велико (несколько тысяч), однако для получения упрощенной БДР были использованы файлы, имевшие объем не менее 3—4 кб. В сумме объем таких файлов составил около 9Q % от общего объема файлов БД34. Из выбранных файлов формировали последовательности, образующие аналоги канонических переходов, и помещали их в папку [src] для обработки программой ALUBAT. Полученные серии таких файлов, имевшие индекс R, сортировали в папки, в названия которых входил только номер первой пары переменных, единой для обозначений всех помещенных туда файлов, а вместо последней пары было оставлено ХХ (как
в табл. 4 из работы [6]). Полученная таким образом упрощенная БДР содержала не все варианты файлов. Однако в сочетании с методом коррекции, учитывающим возможность использования редких файлов из БД34, БДР была успешно применена для прогнозирования белков. Отметим также, что факт существенного увеличения количества ПФ в ряде файлов, в частности 0000000000, 1111111111, потребовал разработки более точного алгоритма поиска ПФ. О методах коррекции и новых алгоритмах поиска ПФ будет подробно рассказано в последующих работах этой серии.
3.2. Перспективы дальнейшего развития подхода
Показателем успешности предлагаемого подхода для получения теоретической БД явилось бы ее использование для прогнозирования не только вторичной структуры белков, из которых были получены ПФ для БД34, но и новых, не исследованных ранее белков. Апробация БДР на новых белках выявила прогнозирование участков со структурой типа 0000000000 и 1111111111, тогда как переходные участки не прогнозируются.
Предложенный метод создания БДР, как мы показали, позволяет увеличить количество ПФ лишь за счет вариабельности АК в положении i—4, но никак не влияет на появление новых вариантов в других положениях ПФ. Анализ ситуации привел нас к идее, что для создания БДР необходимо ввести в исходную базу максимальное разнообразие белков-прототипов. Если белки-прототипы присутствуют, например в БД34, то и новые белки, имеющие с этими прототипами частичную аналогию, не будут представлять проблем для БДР. Если же белков-прототипов нет, то успешность прогнозирования существенно снижается. При получении БД34 нами было использовано лишь 2500 белков, которые были скачаны из Protein Data Bank пять лет назад. Количество белков в этом банке с каждым годом увеличивается, и потребуется не очень много усилий, чтобы существенно увеличить исходную базу данных обработанных белков, ориентируясь при этом на максимальное разнообразие белков. Мы полагаем, что, в конце концов, количество белков-прототипов достигнет предельного значения и наш подход к созданию БДР вплотную приблизится к универсальному. Пока других вариантов расширения БДР мы не видим. В идеале такой подход, возможно, будет создан на чисто теоретических основаниях (с использованием модели молекулярной векторной машины).
Заключение
В настоящей работе описаны принципы получения ПФ для создания теоретической базы данных (БДР), основанные на использовании файлов
биотехносфера
I № 2(44)/201Б
экспериментальной базы данных (БД34). По аналогии с алгоритмом поиска ПФ при прогнозировании вторичной структуры белка [4] на первом этапе на основе начальных ПФ папок 0000000000 или 1111111111 создают выборку тетрад АК, в которой производится поиск тетрад, перекрывающихся на три аминокислоты с тетрадами исходной выборки. Получаемые в результате наложения теоретические ПФ записывают в новом формате в папки, имеющие исходные номера, но с индексом R.
На втором этапе используют тетрады ПФ файлов предыдущих и последующих стадий, переходных между различными типами вторичных структур. Для создания БДР и анализа результатов написаны программы ALUBAT и TABULA и получен упрощенный вариант БДР, использованный в программе PREDICTO @ DESIGNER. Предложенный подход для создания теоретической базы данных оценивается как перспективный.
Литература
1. Карасев В. А., Лучинин В. В. Введение в конструирование бионических наносистем. М.: Физматлит, 2009. 463 с.
2. Карасев В. А. Принципы топологического кодирования цепных полимеров и структура белков. СПб.: Изд-во СПБГЭТУ «ЛЭТИ», 2014. 239 с.
3. Runthala A. Protein structure prediction: challenging targets for CASP10 // Jurn. Biomol. Struct. Dyn. 2012. Vol. 30 (5). P. 607-615.
4. Калинин С. Б., Карасев В. А., Лучинин В. В. Компьютерная программа для прогнозирования вторичной структуры белков и конструирования первичной структуры белков с заданной вторичной структурой (PREDICTO @ DESIGNER). Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС № 2015622295 от 17.02.2015 г.
5. Патент РФ № 2425837. Способ прогнозирования вторичной структуры белка / В. А. Карасев, В. В. Лучинин. 2011.
6. Карасев В. А., Калинин С. Б. Компьютерная программа PREDICTO @ DESIGNER для прогнозирования и проектирования вторичных структур белка: UPGRADE. I. База данных пентафрагментов белков, учитывающая N;H... O;-3, NîH.Oî-4 и другие типы Н-связей во вторичных структурах белков // Биотехносфера. 2016. № 1. С. 49-55.
7. Карасев В. А., Калинин С. Б. Компьютерная программа ALUBAT. Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС (№ 2016614706 от 28.04.2016).
8. Карасев В. А., Калинин С. Б. Компьютерная программа TABULA. Свидетельство о государственной регистрации программы для ЭВМ в ФС по ИС (№ 2016614705 от 28.04.2016).