Известия Тульского государственного университета Естественные науки. 2009. Вып. 3. С. 229-237
Биология =
УДК 577.322
Поиск и анализ гибких участков в белках
Е.И. Дерюшева, Д.М. Левин, И.Н. Сердюк
Аннотация. На примере белков С-семейства рассмотрена новая возможность использования программы ЕокШпйэЫ для поиска и предварительного анализа гибких участков в белках.
Ключевые слова-, гибкие участки в белках, программа КокШпГоШ, фактор Дебая-Валлера, функциональные участки.
В последнее время было обнаружено, что многие белки не обладают уникальной третичной структурой, хотя и имеют четкую функцию при физиологических условиях [1, 2]. Такие белки принято называть белками с внутренней неупорядоченностью. Доля неупорядоченных областей в белках может быть разной, начиная от последовательности из нескольких аминокислот и заканчивая полностью неупорядоченной последовательностью длиной в десятки, а иногда и в сотни аминокислот. Это было установлено с помощью ряда физических методов: ядерный магнитный резонанс (близость спектра неупорядоченного белка к суммированному спектру отдельных боковых групп свободных аминокислот), круговой дихроизм (низкая интенсивность сигнала в области 210-240 нм), малоугловое рентгеновское рассеяние (нетипично большие размеры и специфический ход кривой рассеяния в области формы молекулы) и гидродинамики (большие объемы молекул в растворе) [3].
По мере появления все большего и большего числа рентгеновских структур белков с высоким разрешением, стало очевидным отсутствие на картах электронной плотности у некоторых из них относительно небольших участков полипептидной цепи. Это дало основание считать такие участки гибкими [4].
Поскольку развернутые и гибкие участки белковой цепи играют важную роль в процессе функционирования белка, то их поиску и анализу уделяется большое внимание [5, 6].
На сегодня для этих целей разработаны специализированные программы, такие как РОХ1Ж. 1ЮХХ. ШкКМВ!.. РгеМХК. ШРгеё, (ПоЬР1о1 2, КокПпёех и другие. Их можно разделить на две группы исходя из принципа, лежащего в основе их работы. Программы РОХ1Ж. ШРгеё, РгеМХК и КокПпёех предсказывают неструктурированные участки белковой цепи, основываясь на физико-химических свойствах аминокислот в белке. В роли такого свойства может выступать локальный аминокислотный состав и гидрофильность
(PONDR) [7, 8], способность участка цепи образовывать гидрофобный кластер (PreLINK) [9] или оценка энергетического взаимодействия между соседними аминокислотами (IUPred) [10, 11]. GlobPlot 2 оценивает тенденцию остатков быть в регулярной вторичной структуре [12]. Программа RONN использует нейронную сеть и сравнивает данную последовательность с рядом последовательностей, структура которых заранее может быть отнесена к упорядоченной, неупорядоченной или смеси таких структур [13]. Программа DisEMBL использует нейронную сеть, основанную на рентгеноструктурных данных [14]. В основе программы Foldlndex лежит специально разработанная шкала заряд/гидрофобность для аминокислотных остатков [15].
Во всех этих программах используется фиксированная ширина окна, за исключением двух программ: IUPred, в которой предусмотрены два режима: один для поиска длинных, а другой для коротких неструктурированных участков [10, 11], и программа PONDR, в которой несколько версий, в частности, для расчета коротких неструктурированных участков [7, 8].
Программа FoldUnfold
Программа FoldUnfold, разработанная в Институте белка РАН, является одной из программ для поиска разупорядоченных участков в белковой цепи. Программа доступна по адресу http://skuld.protres.ru/~mlobanov/ogu/ogu.cgi [16, 17, 18]. Эта программа использует такое свойство остатков, как ожидаемое среднее число сближенных остатков (средняя плотность окружения), вычисленное по аминокислотной последовательности. Этот параметр определяет статус остатка: а именно, будет ли он свернут или развернут в нативном состоянии. Среднее число сближенных остатков для каждого из 20 типов аминокислотных остатков было рассчитано для 5829 белковых структур из структурной базы белков SCOP. Остаток считался сближенным с рассматриваемым остатком, если расстояние между какой-либо парой не водородных атомов было меньше 8.0 A. Близость соседних по цепи остатков не принимается во внимание, так как они ковалентно связаны друг с другом и, следовательно, сближены в любой конформации белковой цепи. Полученные 20 чисел (табл. 1) затем используются в качестве ожидаемого среднего числа сближенных остатков по аминокислотной последовательности, которое равно сумме ожидаемых сближенных остатков, деленной на число аминокислотных остатков в белке [16].
Для поиска развернутых участков белковой цепи по аминокислотной последовательности строится профиль ожидаемого числа сближенных остатков.
Каждому аминокислотному остатку исследуемой последовательности белка приписывается одно из двадцати чисел для 20 аминокислотных остатков. Затем числа усредняются с некоторым окном, а среднее присваивается центральному остатку в окне. Для предсказания разупорядоченных участков
белковой цепи по аминокислотной последова-тельности рассчитывается ожидаемое число сближенных остатков и строится профиль ожидаемого числа с выбранным окном усреднения. Полученное среднее значение ожидаемых контактов приписывается центральному остатку в выбранном окне. Затем окно сдвигается на один остаток и процедура повторяется. На профиле ожидаемых контактов проводится граница, разделяющая структурированные и неструктурированные участки. Если среднее ожидаемое число сближенных остатков для целого белка меньше чем 20,4, то такой белок следует рассматривать как неструктурированный полностью. Если это число больше чем 20,4, то тогда белок рассматривается как структурированный, но может иметь неструктурированные участки.
Таблица 1
Среднее число сближенных остатков в глобулярном состоянии для 20 типов
аминокислотных остатков
Аминокислотный остаток С Р А Б Е К Б
Среднее число сближенных остатков 17,11 17,43 19,89 17,41 17,46 17,67 18,19
Аминокислотный остаток N а Т Е Н С V
Среднее число сближенных остатков 18,49 19,23 19,81 21,03 21,72 23,52 23,93
Аминокислотный остаток М Ь I У Р \¥
Среднее число сближенных остатков 24,82 25,36 25,71 25,93 27,18 28,48
Выявляемые программой неструктурированные участки мы будем называть «петлями», используя терминологию, принятую для описания подвижных участков в трехмерной структуре белков [19, 20]. Петли отражают «внутреннюю неупорядоченность» в белках, существование которой в эукариотических клетках недавно подробно проанализировано [21].
Сравнение работы программы РокШпГоЫ с другими известными программами по большим базам белков показало, что она намного лучше предсказывает длинные неструктурированные участки [16]. Авторами программы было показано, что ширина окна в 11 аминокислотных остатков оптимальна для поиска относительно коротких неструктурированных участков в полипептид ной цепи. В случае же поиска длинных неструктурированных участков в частично неструктурированных белках необходимо увеличить ширину окна до нескольких десятков аминокислот. Однако физический смысл уменьшения окна вплоть до 3 а.о. не был рассмотрен.
Белки О-семейства
В качестве основных объектов исследования были выбраны белки (>-семейства. Это семейство состоит из группы Ыав-белков и его гомологов,
элонгационных факторов трансляции, а также группы гетеротримерных С-белков.
Во всех этих белках имеется ГТФ-связывающий С-домен, ядро которого состоит из пяти ск-спиралей и шести /5-участков, пять из которых находятся в параллельной ориентации друг к другу, а один антипараллелен (рис. 1). Пять полипептидных петель, обозначены в литературных данных как А1, А2, А4, А8, А10, формируют нуклеотид-связывающий сайт гуанина [22].
Рис. 1. Схематическая диаграмма ГТФ-связывающего ядра G-домена.
Буквой а обозначены спирали (ск1-ск5), буквой /3- /3-участки (/31-/36), а буквой А-А-петли (А1-А10)
Ras-белки — это большая группа ГТФ-связывающих белков с молекулярной массой около 21 кДа. Они контролируют различные клеточные процессы, относящиеся к клеточной пролиферации и дифференцировке. Ras-белки найдены только в эукариотах и имеют высоко гомологичные последовательности между разными видами организмов [23, 24]. В данной работе рассмотрен белок Ras-p21 из Н. sapiens, структура которого была получена рентгеноструктурным анализом (PDB-код 5Р21) с разрешением 2 A.
Элонгационные факторы EF-1A содержатся в клетках любых организмов, так как принимают участие в процессе биосинтеза белка, катализируя кодон-зависимое связывание аминоацил-тРНК с рибосомой. Элонгационный фактор EF-1A в прокариотических клетках образует комплекс с ГТФ и тРНК в процессе биосинтеза белка, а эукариотический фактор в клетках образует комплексы с различными лигандами, такими как актин, тубулин, регуляторные белки и вириальная РНК [25]. Все элонгационные факторы EF-1 состоят из трех доменов и двух перетяжек.
Элонгационные факторы EF-2 катализируют одну из стадий процесса биосинтеза белка — процесс транслокации [26]. Он состоит из пяти структурных доменов, первый из которых образует структурное ядро, свойственное всем
другим белкам G-семейства. Внутри ядра находится субдомен (Г. который отсутствует в других G-белках.
Гетеротримерные G-белки — это белки с четвертичной структурой, состоящие из субъединиц альфа (ск), бета (/3) и гамма (7). Они участвуют во внутриклеточной сигнализации. Все эти белки имеют сходный механизм активации: они активируются при взаимодействии со специфическими рецепторами, при этом обменивая ГДФ на ГТФ и распадаясь на а- и /37-субъединицы, «-субъединица, связанная с ГТФ, воздействует на следующее звено в цепи передачи сигнала. /37-субъединица также может вызывать собственные эффекты [27].
В данной работе сравнение положения неупорядоченных областей в белковой цепи по данным рентгеноструктурного анализа и результатам предсказания их положения программой FoldUnfold при разных ширинах окна представлено для белка Ras-p21 из Н.sapiens (табл. 2). Положение петель в рентгеновской структуре было взято из соответствующей работы и дополнено в соответствии с предсказаниями вторичной структуры по программе DSSP [28].
Таблица 2
Предсказание положения петель программой FoldUnfold для белка Ras-p21 из Homo sapiens при разной ширине окна и сравнение с экспериментом
Эксперимент Предсказание при разной ширине окна
Петля Положение 3 5 7 9 11
А1 10-17 10-17 10-18
А2 32-38 30-34
АЗ 47-48 47-50
А4 55-62 58-63 58-64 58-66
А5 75-76 74-76
А6 84-86 86-88 86-90
А7 104-111 104-109 103-109 101-108
А8 117-126 115-118
А9 138-140
А10 144-151 144-154 144-153 145-153
С-конец Трехмерная структура известна только до 166 остатка 173-180 170-182 171-182 171-181 169-181
В С-домене для рассматриваемого белка программа РокШпГоЫ при ширине окна в 3 а.о. предсказывает из десяти петель девять. Исключение составляет петля А9. Кроме того, на С-конце последовательности выявляется неструктурированная область длиной 11 аминокислот. При увеличении ширины окна более чем 5 а.о. число выявляемых петель резко уменьшается.
Аналогичное исследование было проведено для белков EF-1 и EF-2 из термофильной бактерии Т. thermophilus. В G-домене фактора EF-1A предсказываются восемь петель; две петли (А7 и А10) не выявляются. Для элон-гационного фактора EF-2 также выявляются восемь петель из 10; петли АЗ и А5 не выявляются. Важно подчеркнуть, что все выявленные петли хорошо согласуются со структурными данными, полученными по данным рентгеноструктурного анализа.
Фактор Дебая-Валлера для белка RAS-p21
В кристаллографии факторы Дебая-Валлера описывают флуктуации атомов относительно своих средних положений в структуре кристалла и являются мерой их подвижности [29]. Абсолютные значения факторов зависят от пространственного разрешения и становятся физически значимыми при величине разрешения 2.2 A и ниже.
Нами был построен график зависимости среднеквадратичной величины флуктуаций, определенной по факторам Дебая-Валлера для белка Ras-p21 как функцию номера Са-атома аминокислотного остатка (рис. 2).
В-фактор Ras-p21 (Н. sapiens) при 2.0 А
pi *1 ol *1 Ufl U и! 15 Р4 i* аЗ Г U а4 U ft kie «5
а.о.
Рис.2 Экспериментальные значения В-факторов для структуры белка Кав-р21, полученной при разрешении 2 А, как функция номера аминокислотного остатка. Элементы вторичной структуры а-спирали и /5-участки указаны вверху
Пять полипептидных петель А1, А2, А4, А8, А10 формируют нуклеотид-евязывающий сайт гуанина и могут рассматриваться как функциональные.
Четыре из них А2, А4, А8, А10 характеризуются относительно высокой величиной фактора Дебая-Валлера. Малая величина для петли А1 объясняется погруженностью ее внутрь структуры; все остальные петли согласно рентгеноструктурным данным располагаются на поверхности.
Оставшиеся пять петель (АЗ, А5, А6, А7 и А9) имеют более низкие величины факторов Дебая-Валлера и могут рассматриваться как жесткие петли, соединяющие элементы вторичной структуры. Такие петли имеют существенно более низкую подвижность и обеспечивают жесткость между элементами вторичной структуры. Поэтому все обнаруженные 10 петель могут быть расклассифицированы на два типа: гибкие (А1, А2, А4, А8, А10) и жесткие (АЗ, А5, А6, А7 и А9).
Возможность использования разного размера усредняемого окна является отличительной чертой программы FoldUnfold. Как показывают наши исследования, выбор ширины окна зависит от длины ожидаемой петли и, следовательно, от задачи, которая ставится исследователем. Так ширина окна в 41 а.о. оптимальна для поиска длинных неструктурированных участков в белках, относящихся к практически полностью неупорядоченным [18]. Ширина окна в 11 а.о. оптимальна для поиска неструктурированных участков в полипептидной цепи длиной в 10-20 а.о.
Уменьшение ширины окна до 3 а.о. позволяет выявить все или почти все короткие петли, соединяющие элементы вторичной структуры. Построение зависимости фактора Дебая-Валлера от номера остатка для белка Ras-p21 из Homo sapiens показывает, что предсказанные 10 петель можно отнести к двум типам. К первому относятся петли, характеризующиеся высокой величиной фактора Дебая-Валлера (А2, А4, А8, А10), которые могут рассматриваться как функциональные. Оставшиеся пять петель имеют более низкие величины факторов Дебая-Валлера (АЗ, А5, А6, А7 и А9) и могут рассматриваться как петли, соединяющие элементы вторичной структуры. Такие петли имеют существенно более низкую подвижность и обеспечивают дополнительную жесткость трехмерной структуры.
Список литературы
1. Wright Р.Е., Dyson H.J. Intrinsically unstructured proteins: reassembling the protein structure-function paradigm // J. Mol. Biol. 1999. V. 293. P. 321-331.
2. Uversky V.N., Gillspie J.R., Fink A.L. Why are “natively unfolded” proteins unstructured under physiologic conditions? // Proteins. 2000. V. 41. P. 415^27.
3. Dunker A.K., Lawson J.D. Intrinsically disordered proteins // J. of Molecular Graphics and Modeling. 2001. V. 19. P. 26-59.
4. Tompa P. Intrinsically unstructured proteins // Trends Biochem. Sci. 2002. V. 27. P. 527-533.
5. Oldfield G.J., Chemg Y., Cortese M.S. Comparing and combining of mostly disordered proteins // Biochemistry. 2005. V. 44. P. 1989-2000.
6. Romero P., Obradovic Z., Li X. Sequence complexity of disordered protein // Proteins. 2001. V. 42. P. 38^8.
7. Romero P., Obradovic Z., Kissinger C.R. Identifying disordered regions in proteins from amino acid sequences // Proceed, of the IEE international conference on Neural Networks. 1997. P. 90-95.
8. Predicting protein disorder for N-, C- and internal regions / X. Li [et al] // Genome Inform. 1999. V. 10. P. 30^0.
9. Coeytaux K., Poupon A. Prediction of unfolded segments in a protein sequence based on amino acid composition // Bioinformatics. 2005. V. 21. P. 1891-1900.
10. The pair wise energy content estimated from amino acid composition discriminates between folded and intrinsically unstructured proteins / Z. Dosztanyi [et al] // J. Mol. Biol. 2005. V. 347. P. 827-839.
11. IUPred: web server for the prediction of intrinsically unstructured regions of proteins based on estimated energy content / Z. Dosztanyi [et al] // Bioinformatics. 2005. V. 21. P. 3433-3434.
12. GlobPlot: Exploring protein sequences for globularity and disorder / E. binding [et al] // Nucl. Acids Ees. 2003. V.31. P. 3701-3708.
13. EONN: the bio-basis function neural network technique applied to the detection of natively disordered regions in proteins / Z.E. Yang [et all // Bioinformatics. 2005. V. 21. P. 3369-3376.
14. Protein disorder prediction: implications for structural proteomics / E. binding [et al] // Structure. 2003. V. 11. P.1453-1459.
15. Zeev-Ben-Mordehai Т., Rydberg E.H., Solomon A. The intracellular domain of the Drosophila cholinesterase-like neural adhesion protein, gliotactin, is natively unfolded // Proteins. 2003. V. 53. P. 758-767.
16. Галзитская O.B., Гарбузинский С.А., Лобанов М.Ю. Предсказание нативноразвернутых участков белковой цепи // Молекулярная биология. 2006. Т. 40, №2. С.341-348.
17. Galzitskaya O.V., Garbuzynskiy S. О., Lobanov М. Yu. Prediction of Amyloidogenic and Disordered Eegions in Protein Chain // PLoS. 2006. V. 2. P. 1639-1648.
18. Galzitskaya O.V., Garbuzynskiy S.O., Lobanov M.Yu. FoldUnfold: web server for the prediction of disordered regions in protein chain // Bioinformatic. 2006. V. 22. P. 2948-2949.
19. Sprang S.R. G proteins, effectors and GAPs: structure and mechanism // Curr. Opin. Struct. Biol. 1997. V. 7. P.849-856.
20. Abel K., Jumak F. A complex profile of protein elongation: translating chemical energy into molecular movement // Structure. 1996. V. 4. P. 229-238.
21. Сердюк И.Н. Структурированные белки и белки с внутренней неупорядоченностью // Молекуляр. биология. 2007. Т. 41, №1. С.297-313.
22. Sprang S.R. G Protein Mechanisms: Insights from Structural Analysis // Ann. Eev. Biochem. 1997. V. 66. P. 639-678.
23. The Has superfamily at a glance / Krister Wennerberg [et all // J. of Cell Science. 2005. V. 118. P. 843-846.
24. Kjeldgaard М., Nyborg J., Clarck B.F.C. The GTP binding motif: variations on a theme // FASEB J. 1996. V. 10. P. 1347-1368.
25. Budkevich T.V., Timchenko A.A., Tiktopulo E.I. Extended conformation of mammalian translation elongation factor 1A in solution // Biochemistry. 2002. V. 41. P. 15342-15349.
26. Evarsson A., Brazhnikov Е., Garber М. Tree-dimensional structure of the ribosomal translocase: elongation factor G from Thermus thermophilus // EMBO J. 1994. V. 13. P. 3669-3677.
27. Herrmann R., Heck М., Henklein P. Sequence of Interactions in Eeceptor-G Protein Coupling // J. of biological chemistry. 2004. V. 23. P. 24283-24290.
28. Kabsch W., Sander C. Dictionary of protein secondary structure: pattern recognition of hydrogen-bonded and geometrical features // Biopolymers. 1983. V. 22. P. 2577-2637.
29. Serdyuk. I.N., Zaccai N., Zaccai J. Methods in Molecular Biophysics. Cambridge: Cambridge University Press. 2007.
Поступило 05.10.2009
Дерюшева Евгения Ивановна ([email protected]), аспирант, кафедра физики, Тульский государственный университет.
Левин Даниил Михайлович ([email protected]), д.ф.-м.н., профессор, зав. кафедрой, кафедра физики, Тульский государственный университет.
Сердюк Игорь Николаевич ([email protected]), д.ф.-м.н., профессор, Институт белка РАН, Пущино.
Search and analysis of protein’s flexible regions E.I. Deryusheva, D.M. Levin, I.N. Serdyuk
Abstract. For representatives of the proteins G-family a new possibility of FoldUnfold program for search and preliminary analysis of flexible regions was considered.
Keywords: flexible sites in proteins, FoldUnfold program, Debye-Valler factor, functional sites.
Deryusheva Evgeniya ([email protected]), postgraduate student, department of physics, Tula State University.
Levin Daniil ([email protected]), doctor of physical and mathematical sciences, professor, chair of department, department of physics, Tula State University.
Serdyuk Igor ([email protected]), doctor of physical and mathematical sciences, professor, Institute of Protein RAS, Puschino.