УДК 577.151.34; 577.151.64
Сравнительный биоинформатический анализ структур активных центров эволюционно удаленных гомологов суперсемейства ферментов а,в-гидролаз
Д. А. Суплатов12, В. К. Аржаник1, В. К. Швядас1,2*
'Факультет биоинженерии и биоинформатики Московского государственного университета им. М.В. Ломоносова, 119991, Москва, Ленинские горы, 1, стр. 73
■Государственное учреждение Научно-исследовательский институт физико-химической биологии им. А.Н. Белозерского Московского государственного университета им. М.В. Ломоносова, 119991, Москва, Ленинские горы, 1, стр. 73 *E-mail: [email protected] Поступила в редакцию 25.02.2011 г.
РЕФЕРАТ Сравнительный биоинформатический анализ ферментов является важным шагом в изучении взаимосвязи их структуры и функции. Однако многие ферменты, произошедшие от одного предка и претерпевшие значительные функциональные изменения в ходе естественного отбора, не обладают достаточным сходством по аминокислотным последовательностям для проведения статистически достоверного сравнительного анализа. При этом пространственная организация активных центров таких ферментов может быть консервативной, а остальные части структуры принципиально отличаются. В связи с этим при изучении общих принципов организации гомологичных ферментов представляется целесообразным проводить сравнительный биоинформати-ческий анализ наиболее важных с функциональной точки зрения элементов структуры - активных центров, т.е. аминокислотных остатков, формирующих участки связывания субстрата и участвующих в механизме каталитического превращения. Для создания библиотеки трехмерных структур активных центров ферментов разработан алгоритм, основанный на использовании базы данных структур белков PDB, алгоритмов структурного анализа, а также идентификации функционально важных аминокислотных остатков и полостей в структуре фермента. Предложенный подход был использован для сравнения ряда ферментов суперсемейства а,Р-гидролаз и позволил показать консервативность значительной части структуры активных центров, в том числе организации оксиани-онных центров, а также остатков каталитической триады даже у удаленных гомологов. Разработанный алгоритм может использоваться при сравнении структурной организации каталитических участков и участков связывания субстратов в ферментах различных классов, а также при изучении эволюции ферментов и создании банка данных структур активных центров.
КЛЮЧЕВЫЕ СЛОВА биоинформатика, сравнительный анализ, активный центр, структурное выравнивание, а,в-гидролазы.
СПИСОК СОКРАЩЕНИЙ PDB - Protein Data Bank; CSA - Catalytic Site Atlas
ВВЕДЕНИЕ
Сравнительный биоинформатический анализ гомологичных белков является важным шагом при изучении взаимосвязи их структуры и функции. Основной метод такого анализа - множественное выравнивание аминокислотных последовательностей. Признаком гомологии белков, т.е. происхождения от одного общего предка, принято считать достоверное сходство по аминокислотным последовательностям или третичным структурам [1], однако ферменты, претер-
певшие значительные функциональные изменения в результате естественного отбора, могут утратить сходство аминокислотных последовательностей. Сравнительный биоинформатический анализ таких белков по их первичной структуре становится практически невозможным.
В процессе эволюции аминокислотная последовательность изменяется с большей скоростью, чем структура [2, 3]. Известны ферменты, обладающие аминокислотной идентичностью на грани статисти-
ческой достоверности (8-15%) и при этом схожие по структуре, а также принципам организации каталитического механизма [4]. В противоположность алгоритмам выравнивания аминокислотных последовательностей, основанным на поиске биохимического сходства в гомологичных позициях первичной структуры [5-7], целью пространственного выравнивания является геометрическое сравнение элементов третичной структуры [8]. В настоящий момент в банке данных трехмерных моделей белков PDB насчитывается более 70000 записей, число которых ежегодно увеличивается [9]. Доступность этой информации предоставляет большие возможности для биоин-форматического структурного анализа. Так, например, 3D-выравнивание позволило выявить сходство между ферментами семейства Шп-гидролаз с низкой степенью сходства по последовательностям [10, 11]. Таким образом, при изучении структурнофункциональных взаимосвязей в семействах ферментов, состоящих из эволюционно дальних родственников, выравнивание третичных структур представляется значительно более информативным и точным, чем выравнивание их аминокислотных последовательностей.
Опыт сравнительного анализа позволяет предположить, что пространственная организация активного центра - наиболее консервативный элемент структуры гомологичных ферментов, в то время как остальные элементы могут принципиально отличаться (рис. 1) [12-15]. Укладка полипептидной цепи и расположение боковых радикалов аминокислот в активном центре определяет характер взаимодействий, необходимых для узнавания, связывания и превращения субстрата. Кроме того, аминокислотные остатки, влияющие на субстратную специфичность и каталитическую активность, как правило, находятся в радиусе 7-15 А от ключевых каталитических аминокислотных остатков [16]. В связи с этим при изучении закономерностей организации гомологичных ферментов необходимо проводить сравнительный анализ на трех уровнях: аминокислотной последовательности, третичной структуры и структурной организации активных центров. Сравнительный биоинформатический анализ наиболее важных с функциональной точки зрения элементов структуры - активных центров - представляет особый интерес.
В работе предложен алгоритм для создания базы данных структур активных центров ферментов, основанный на использовании базы данных структур белков PDB, алгоритмов структурного анализа, а также идентификации функционально важных аминокислотных остатков и полостей в структуре фермента. Предложенный подход использован для сравнения ряда ферментов суперсемейства а,Р-гидролаз.
Рис. 1. Структурное выравнивание липазы Б (1ТСВ) и оксинитрилазы (^В6). Наиболее консервативные области, содержащие аминокислотные остатки активного центра, у обоих ферментов выделены цветом.
экспериментальная часть
Подготовка выборки гомологичных ферментов
Поиск структурного сходства выполняли по отношению к липазе Б из Candida antarctica по всему банку данных PDB с помощью программы SSM [8]. Полученные результаты фильтровали с учетом процента совпавших элементов вторичной структуры при наложении на структуру 1TCB (не менее 30% элементов вторичной структуры должны совпадать у обоих белков при парном наложении). Поиск гомологичных ферментов по сходству аминокислотных последовательностей проводили с помощью программы PSI-BLAST [7] по базе данных «Non-redundant». Последовательности, идентичные более чем на 95%, группировали в кластеры, из которых для последующего анализа отбирали только одного представителя.
Подготовка множественного выравнивания
Для множественного структурного выравнивания полноразмерных структур и активных центров ферментов использовали программы t-coffee [17] и Mustang [18].
Визуализация
Структурный анализ проводили с помощью программы Pymol [19]. Программу Jalview [20] использовали для просмотра выравниваний аминокислотных последовательностей.
Статистический анализ выравнивания
Для оценки консервативности колонки I выравнивания использовали параметр, предложенный Valdar и Thornton [21]:
N N
С/ = Г ^YJWlWjM(sl,Sj),
i j>i
где M обозначает матрицу аминокислотных переходов, s. и s. - аминокислоты в последовательностях i и j в колонке I, а нормализующий множитель у рассчитывается как
N N
-1
-II
W/VV,
I ]>1
Параметры w. и w. обозначают веса соответствующих последовательностей в формулировке Vingron и Argos [22]:
1 N
Wi = tf^rZd(5i’s')'
¡*1
где d - «генетическое» расстояние между последовательностями I и у, выраженное через процент парной идентичности.
В окончательном варианте оценку консервативности колонки I выражали через Z-оценку стандартного нормального распределения:
Zi =
Ci - (СГ4)
<7(Cf’4) '
где Сслуч - оценка консервативности, вычисленная по случайным образом составленным колонкам выравнивания.
Достоверность рассчитанных Z-оценок консервативности определяли с использованием процедуры ранговой статистики Бернулли B-cutoff [23, 24]. Полученные на предыдущем этапе Z-оценки сортировали по убыванию, после чего ранг к рассчитывали таким образом, чтобы первые k-оценок (соответствующие первым k-колонкам выравнивания) представляли результаты, которые с наименьшей вероятностью могут возникнуть в случайном распределении:
к = argk min Р (there are at least k Z-scores % ^ Zk) ~
argk min
i=n-k+1
где п - общее число посчитанных Z-оценок, С ' - биномиальный коэффициент, а
fco J
р = P(Z > Zk) = J -J= exp(—Z2) dz, q = l-p.
РЕЗУЛЬТАТЫ И ОБСУЖДЕНИЕ
Принципиально новую информацию о структурных особенностях организации гомологичных ферментов можно получить путем сравнительного биоинфор-матического анализа не полноразмерных пространственных структур, а активных центров. При этом под «активным центром» следует понимать не только аминокислотные остатки, непосредственно участвующие в катализе, но также аминокислоты, формирующие участок (полость) протекания каталитического превращения, которые могут так или иначе взаимодействовать с субстратом или «каталитическими» аминокислотными остатками и опосредовать влияние особенностей структуры на каталитические свойства фермента. Однако для того, чтобы проводить биоин-форматический анализ строения активных центров ферментов, необходимо создать библиотеку таких структур. Для локализации и изоляции структуры активного центра фермента (рис. 2) был разработан следующий алгоритм, состоящий из трех этапов:
Рис. 2. Область активного центра - фрагмент полноразмерной структуры фермента, состоящий из аминокислотных остатков, которые взаимодействуют с функциональными группами субстрата как в процессе доставки (диффузии) субстрата в активный центр, так и при его ориентации в активном центре (показаны желтым), а также аминокислотных остатков, обеспечивающих функционирование каталитического механизма (показаны синим), и ряда окрестных остатков, формирующих целостность выделенного фрагмента (показано сеткой).
1. Идентификация аминокислотных остатков активного центра, вовлеченных в каталитический механизм. Это могут быть остатки, принимающие непосредственное участие в каталитическом акте (например, в качестве нуклеофила), изменяющие кислотно-основные свойства аминокислотного остатка или молекулы воды, которая участвует в катализе, и стабилизирующие переходное состояние или интермедиат ферментативной реакции. База данных Catalytic Site Atlas (CSA) [25] содержит аннотацию аминокислотных остатков, вовлеченных в катализ, для ферментов, представленных в банке данных PDB. CSA представлена в открытом доступе в Интернете http://www.ebi.ac.uk/thornton-srv/databases/ cSA и содержит два уровня информации: оригинальную аннотацию аминокислот, составленную вручную на основе анализа опубликованных данных, а также ее экстраполяцию на гомологичные ферменты, определенные с помощью программы PSI-BLAST [7]. В тех случаях, когда фермент не аннотирован в базе данных CSA, необходим поиск нужной информации или идентификация каталитически важных аминокислотных остатков с помощью программ биоинфор-матического анализа [26-28].
2. Определение аминокислотных остатков, обеспечивающих доставку, связывание и ориентацию субстрата в активном центре фермента. Связывание субстрата ферментами, как правило, происходит в так называемых карманах, впадинах на поверхности глобулы. Целый ряд аминокислотных остатков, формирующих область активного центра, непосредственно не участвует в каталитическом механизме, а взаимодействует с функциональными группами субстрата как в процессе его доставки (диффузии), так и при ориентации субстрата в активном центре фермента для обеспечения реакционноспособной конформации в результате связывания. Для нахождения аминокислотных остатков такого рода может быть использован алгоритм структурного анализа CASTp [29].
3. Создание координатного файла в формате PDB, содержащего область активного центра фермента.
При этом к каталитически важным аминокислотным остаткам (этап 1) и аминокислотным остаткам участка связывания субстрата (этап 2) добавляются окружающие остатки, формирующие элементы вторичной структуры и связывающие их петли.
Таким образом, результатом работы алгоритма является фрагмент полноразмерной структуры фермента, который включает аминокислотные остатки области связывания и превращения субстрата, аминокислотные остатки, обеспечивающие функционирование каталитического механизма, а также некоторые окрестные остатки, формирую-
щие целостность выделенного фрагмента. Технически этот фрагмент сохраняется в виде координатного файла в формате PDB, при этом возможно дополнительное внесение информации о ферменте, его структуре и особенностях катализа из других баз данных. С помощью предложенного алгоритма можно создать базу данных активных центров для всех ферментов, информация о которых представлена в базе данных PDB.
Разработанный алгоритм был использован для сравнительного анализа некоторых ферментов семейства а^-гидролаз - липазы Б из C. antarctica (структура 1TCB) [12], сериновой карбоксипепти-дазы из Triticum aestivum (1WHS) [30] и оксини-трилазы из Hevea brasiliensis (1YB6) [13], а также их гомологов, отобранных с помощью методов поиска сходства по структуре и аминокислотной последовательности (см. «Экспериментальную часть»). Идентичность по аминокислотным последовательностям между 1TCB и 1WHS составляет 7.8%, 1TCB и 1YB6 - 12.4%, 1WHS и 1YB6 - 13.7%. Такое низкое сходство не позволяет сравнивать ферменты при помощи выравнивания аминокислотных последовательностей. 3D-выравнивание полноразмерных структур также не обнаруживает достаточного сходства в пространственной организации указанных ферментов. Так, при использовании программы SSM [8] выравниваются только аминокислоты каталитической триады, однако не обнаруживается гомология аминокислотных остатков оксианионного центра; напротив, программа Mustang [18] позволяет выявить гомологичность аминокислотных остатков оксианионного центра и остатка каталитического серина, однако положение других остатков каталитической триады - гистидина и аспартата - между ферментами различается. Это означает, что при таком структурном выравнивании нахождение других функционально важных, но пока неизвестных элементов структуры, вряд ли представляется возможным, а ручная корректировка отдельных фрагментов выравнивания не может быть надежным способом повышения его качества. Такая неоднозначность в работе программ трехмерного выравнивания объясняется большими отличиями полноразмерных структур ферментов, катализирующих разные химические превращения - из 408 аминокислотных остатков структуры 1WHS сери-новой карбоксипептидазы из T. aestivum только 161 остаток может быть пространственно сопоставлен со структурами липазы Б из C. antarctica 1TcB и оксинитрилазы из H. brasiliensis 1YB6. Поэтому для поиска сходства столь разных ферментов был проведен сравнительный анализ структур активных центров, подготовленных с помощью предложен-
Консервативные аминокислотные остатки в структурах активных центров липазы Б из C. antarctica, сериновой карбоксипептидазы из T. aestivum и оксинитрилазы из H. brasiliensis, а также их гомологов
Ранг Z-оценка P-оценка Позиция Состав колонки выравнивания
1 5.909034 1.496923E-07 224H HHHHH HHHHH ... HHHHH HH
2 5.909034 1.107511E-14 187D DDDDD DDDDD ... DDDDD DD
3 5.909034 5.399159E-22 105S SSSSS SSSSS ... SSSSS SS
4 5.585937 4.061221E-26 39G GGGGG GGGGG ... GNTTG GG
5 4.976042 1.329205E-25 108G GGGGG GGGGG ... AAAAA GG
6 3.643481 2.960176E-15 103T GGGGG GGTTS ... STTSS AG
7 3.077561 7.318560E-12 107G AAAAA AAGGG ... GGGGG GG
8 2.282191 6.757472E-06 106Q YYYYY YYQLQ ... YFFYY FF
9 2.097392 2.845755E-05 190V CCCCC CCCCC ... VVVVL LL
10 1.970983 5.325320E-05 184S GGGGG GGGGG ... SNNSS NN
11 1.833495 1.540646E-04 80T AAAAA AAAAA ... GAAVA YY
12 1.525180 8.996767E-03 42T GGGGG GGGGG ... TRVAG GG
13 1.238283 1.410807E-01 132A NNNNN NNNNN ... AAAAD DD
14 1.203052 1.191297E-01 133P GGGGG GGGGG ... PPPPP PG
15 1.173696 9.573976E-02 82Y DDDDD NNDSN ... QEEQQ YY
Примечание. Результаты биоинформатического анализа представлены в порядке уменьшения статистической достоверности ^-оценка). Р-оценка для позиции ранга i означает вероятность возникновения результатов с первого по i в случайном выравнивании. Нумерация позиций представлена по кристаллографической структуре 1ТСВ. Красным выделен порог наибольшей статистической достоверности.
ного алгоритма. Полученные структурные файлы включали 170 аминокислотных остатков для 1ТСВ (54% от полноразмерной структуры), 287 для 1WHS (70%) и 159 для ^В6 (62%). Анализ множественного структурного выравнивания активных центров показал консервативность значительной части по-липептидной цепи, причем наиболее консервативными являются аминокислотные остатки каталитической триады - Бег105, His224, Asp187 (нумерация по 1ТСВ, таблица). Аминокислотные остатки одного типа не только содержатся в одинаковых позициях структуры активных центров рассмотренных ферментов, но имеют схожую пространственную ориентацию (рис. 3, 4). При геометрическом сравнении активных центров ферментов, катализирующих разные химические превращения, также обнаруживается сходство в организации оксианионных центров - выравниваются участки структуры, содержащие аминокислотные остатки Т^40 в липазе Б, 11е12 в оксинитрилазе и Gly53 в сериновой карбоксипептидазе. Другой остаток оксианионного центра - Gln106 в липазе Б, который следует за каталитическим Бег105, также выравнивается с гомологами в других ферментах: Туг147 в сериновой
карбоксипептидазе и Cys81 в оксинитрилазе. Вариабельность типов аминокислот в этих позициях объясняется тем, что стабилизация тетраэдрического интермедиата, как правило, происходит при участии аминогрупп основной цепи этих аминокислот [12, 13]. Такая тождественность структурной организации особенно интересна применительно к оксинитрила-зам, в каталитическом механизме действия которых образование тетраэдрического интермедиата и его стабилизация в оксианионном центре не происходит [31]. Таким образом, при сравнительном анализе структур активных центров удалось показать консервативность пространственной организации этих функционально важных участков эволюционно родственных, но удаленных ферментов: сериновой карбоксипептидазы из T. aestivum, липазы Б из C. antarctica и оксинитрилазы из H. brasiliensis.
ВЫВОДЫ
Для создания библиотеки трехмерных структур активных центров ферментов разработан алгоритм, основанный на использовании базы данных структур белков PDB, алгоритмов структурного анализа, а также идентификации функционально важных
Рис. 3. Пространственное выравнивание структур активных центров ферментов семейства а,Р-гидролаз: сериновой карбоксипептидазы из Т. aesfivum, липазы Б из С. а^агс^са, оксинитрилазы из Н. brasШensis, а также их гомологов. Одинаковое расположение и ориентация аминокислотных остатков каталитической триады в структуре показаны стрелками.
аминокислотных остатков и полостей в структуре фермента. Предложенный подход был использован для сравнения ряда ферментов суперсемейства а,Р-гидролаз. Проведенный биоинформатический анализ эволюционно родственных, но удаленных ферментов: сериновой карбоксипептидазы из T. aestivum, липазы Б из C. antarctica и оксинитрилазы из H. brasiliensis, показал высокое сходство значительной части структуры активных центров, в то время как сходство полноразмерных третичных структур, а также аминокислотных последовательностей значительно ниже. Даже при существенном различии функциональных свойств и способности катализировать различные химические реакции сериновая карбоксипепти-даза, липаза Б и оксинитрилаза сохранили общую структурную организацию оксианионных центров и остатков каталитической триады. Полученные результаты свидетельствуют о том, что при биоинфор-матическом анализе ферментов и изучении общих принципов биокатализа нельзя ограничиваться выравниванием аминокислотных последовательностей и третичных структур. Сравнительный биоинфор-матический анализ пространственной организации активных центров - наиболее важных с функциональной точки зрения элементов структуры - может позволить обнаружить сходство даже у отдаленных
Рис. 4. Текстовое отображение пространственного выравнивания структур активных центров ферментов семейства а,Р-гидролаз: сериновой карбоксипептидазы из Т. aesfivum, липазы Б из С. anfaгcfica, оксинитрилазы из Н. bгasiliensis, а также их гомологов. Консервативные аминокислотные остатки каталитической триады показаны пунктиром.
гомологов. Разработанный алгоритм может быть использован при сравнении структурной организации каталитических участков и участков связывания субстратов в ферментах различных классов, а также при изучении эволюции ферментов и для создания банка данных структур активных центров. Предложенный метод может быть использован и для сравнения не обладающих структурным сходством ферментов с аналогичной функцией, возникшей независимо в ходе конвергентной эволюции.
Работа выполнена при финансовой поддержке Министерства образования и науки России (госконтракт № 02.740.11.0866).
СПИСОК ЛИТЕРАТУРЫ
1. Koonin E.V., Galperin M.Y. Sequence-Evolution-Function: Computational approaches in comparative genomics. Boston: Kluwer Academic, 2003. 488 p.
2. Holm L., Sander C. // Science. 1996. V. 273. № 5275. P. 595-603.
3. Grishin N.V. // J. Mol. Evol. 1997. V. 45. № 4. P. 359-369.
4. Ollis D.L., Cheah E., Cygler M., Dijkstra B., Frolow F., Franken S.M., Harel M., Remington S.J., Silman I., Schrag J., Sussman J.L., Verschueren K.H.G., Goldman A. // Protein Engineering. 1992. V. 5. P. 197-211.
5. Smith T.F., Waterman M.S. // Adv. Appl. Math. 1981. V. 2.
P. 482-489.
6. Altschul S.F., Gish W., Miller W., Myers E.W., Lipman D.J. // J. Mol. Biol. 1990. V. 215. № 3. Р 403-410.
7. Altschul S.F., Madden T.L., Schäffer A.A., Zhang J., Zhang Z., Miller W., Lipman D.J. // Nucl. Acids Res. 1997. V. 25. № 17. P. 3389-3402.
8. Krissinel E., Henrick K. // Acta Cryst. 2004. V. D60. P 22562268.
9. Dutta S., Zardecki C., Goodsell D.S., Berman H.M. // J. Appl. Crystall. 2010. V. 43. № 5. P 1224-1229.
10. Suresh C.G., Pundle A.V., SivaRaman H., Rao K.N., Brannigan J.A., McVey C.E., Verma C.S., Dauter Z., Dodson E.J., Dodson G.G. // Nat. Struct. Biol. 1999. V. 6. № 5. P. 414-416.
11. Carita O., Rouvinen J. // Protein Sci. 2000. V. 9. P 2329-2337.
12. Uppenberg J., Hansen M.T., Patkar S., Jones T.A. // Curr.
Biol. 1994. V. 2. P 293-398.
13. Gartler G., Kratky C., Gruber K. // J. Biotechnol. 2007. V. 129. № 1. P. 87-97.
14. Wallace A.C., Laskowski R.A., Thornton J.M. // Protein Sci. 1996. V. 5. № 6. P. 1001-1013.
15. Варфоломеев С.Д., Упоров И.В., Федоров Е.В. // Биохимия. 2002. Т. 67. № 10. С. 1328.
16. Morley K., Kazlauskas R.J. // TRENDS Biotechnol. 2005.
V. 23. № 5. P. 231-237.
17. Notredame C., Higgins D., Heringa J. // J. Mol. Biol. 2000.
V. 302. P. 205-217.
18. Konagurthu A., Whisstock J., Stuckey P., Lesk A. // Proteins. 2006. V. 64. P 559-574.
19. The PyMOL Molecular Graphics System. Version 1.0r1. Schrodinger, LLC.
20. Waterhouse A., Procter J., Martin D., Clamp M., Barton G. // Bioinformatics. 2009. V. 25. P 1189-1191.
21. Valdar W.S.J., Thornton J.M. // Proteins. 2001. V. 42.
P 108-124.
22. Vingron M., Argos P. // Comput. Appl. Biosci. 1989. V. 5.
P. 115-121.
23. Vinogradov D.V., Mironov A.A. // Proc. 3rd Int. Conf.
On Bioinformatics of Genome Regulation and Structure BGRS’2002, 2002. Novosibirsk, Russia, July 1. P. 28-30.
24. Kalinina O.V., Gelfand M.S., Russel R.B. // BMC Bioinformatics. 2009. V. 10. P 174-198.
25. Porter C.T., Bartlett G.J., Thornton J.M. // Nucl. Acids. Res. 2004. V. 32. D129-D133.
26. Casari G., Sander C., Valencia A. // Nat. Struct. Biol. 1995.
V. 2. P 171-178.
27. Sankararaman S., Sha F., Kirsch J.F., Jordan M.I., Sjolander K. // Bioinformatics. 2010. V. 26. № 5. P 617-624.
28. Pazos F., Bang J.-W. // Curr. Bioinformatics. 2006. V. 1.
P. 15-23.
29. Dundas J., Ouyang Z., Tseng J., Binkowski A., Turpaz Y., Liang J. // Nucl. Acids Res. 2006. V. 34. W116-W118.
30. Liao D.-I., Breddam K., Sweet R.M., Bullock T., Remington
S.J. // Biochemistry. 1992. V. 31. P. 9796-9812.
31. Gruber K., Garter G., Krammer B., Schwab H., Kratky C. // J. Biol. Chem. 2004. V. 279. № 19. P. 20501-20510.