УДК 577.150.2
Моделирование белковых структур с помощью структурных деревьев
Александр В. Ефимов*
Институт белка Российской академии наук, Пущино, Московская область, 142290 Россия 1
Received 26.08.2008, received in revised form 2.09.2008, accepted 9.09.2008
В работе представлены результаты исследований пространственной структуры белков, полученные путем построения и анализа структурных деревьев белков. При построении структурных деревьев в качестве стартовой или корневой структуры древа берется соответствующий структурный мотив, который встречается во всех белках данного семейства. Структуры более высокого порядка получаются путем последовательного пристраивания других структурных элементов к растущей структуре в соответствии с набором простых правил, выведенных из известных принципов структурной организации белков. При этом моделируются все разрешенные пути роста корневой и промежуточных структур, которые приводят в конечном счете к известным или пока неизвестным белковым структурам. Построенные таким образом структурные деревья являются удобным и перспективным инструментом для решения целого ряда задач. Среди них - поиск всех разрешенных пространственных структур, как известных, так и пока неизвестных; моделирование возможных путей сворачивания белков; изучение сходства и различия пространственных структур белковых молекул; разработка структурной классификации белков; изучение взаимосвязи между структурой и функцией белков.
Ключевые слова: сворачивание белков, сравнение белковых структур, стереохимический анализ, структурные мотивы, структурное сходство
Введение
Взаимосвязь между аминокислотной последовательностью белка и его пространственной структурой остаётся одной из интригующих и нерешённых проблем биохимии и молекулярной биологии. Тем не менее, многие закономерности строения белковых молекул установлены и широко используются при исследовании белков (Финкельштейн и Птицын, 2005). Среди них - компактность молекул (результат действия принципа плот-
ной упаковки), наличие гидрофобных ядер и полярных оболочек («подобное» взаимодействует с «подобным»), слоистость белковых молекул, способность полипептидной цепи образовывать различные регулярные вторичные структуры с насыщенной системой водородных связей, а также различные су-первторичные структуры или структурные мотивы с уникальными укладками цепи и определенной хиральностью и др. Следует отметить, что несмотря на существенный
* Corresponding author E-mail address: [email protected]
1 © Siberian Federal University. All rights reserved
прогресс, достигнутый в развитии компьютерных методов анализа структуры белков (см., например, Holm and Sander, 1996; Wodak, 1996; Brenner et al., 1997), основные знания о пространственной структуре и принципах структурной организации белков были получены в результате стереохимического анализа и сравнения десятков и сотен известных белковых структур (см., например, Rao and Rossmann, 1973; Lim, 1974; Richardson, 1977; Ptitsyn and Finkelstein, 1980; Sibanda et al., 1989; Chothia and Finkelstein, 1990; Efimov, 1993, 1995, 1997; Sun and Jiang, 1996). На основании этих знаний разработаны десятки методов предсказания вторичной структуры белков, однако получить 100 %-й результат предсказания не удается, и, по-видимому, это невозможно без знания информации о третичной структуре. А более или менее надежное предсказание третичной структуры неизвестного белка в настоящее время возможно только методом моделирования на основе гомологии, т.е. только в том случае, когда известна пространственная структура какого-либо гомологичного белка. Таким образом, несмотря на определенные успехи, в целом проблема взаимосвязи между первичной и третичной структурами белка остается пока нерешенной. Одним из подходов к решению этой проблемы является моделирование структуры белков и путей их сворачивания с помощью построения и анализа структурных деревьев.
Структурное древо белков - это совокупность всех разрешённых промежуточных и конечных пространственных структур, которые могут быть получены из одной корневой (стартовой) структуры путём добавления к ней других элементов вторичной структуры; возможные пути роста структур показывают линиями, которые в итоге объединяют все структуры в одно древо. При
моделировании структур каждого семейства белков в качестве стартовой (корневой) структуры берётся соответствующий структурный мотив с уникальной укладкой цепи. Такие структурные мотивы состоят из двух и более а-спиралей и/ или р-тяжей, имеют уникальную укладку цепи и хиральность и «указывают» место, где должна пристраиваться остальная часть полипептидной цепи. Пристраивание других элементов к стартовому (корневому) структурному мотиву происходит в соответствии с набором правил, выведенных из известных принципов структурной организации белков. Имеются веские основания предполагать, что корневой (стар -товый) структурный мотив древа может быть зародышем в процессе сворачивания белков данного семейства, а остальная часть поли-пептидной цепи пристраивается к нему. По крайней мере, структурные деревья показывают возможные зародышевые структуры и пути их роста. Таким образом, структурные деревья являются удобным и перспективным инструментом, с помощью которого можно изучать структурное сходство белковых молекул, разрабатывать структурную классификацию белков, исследовать механизмы сворачивания белков, осуществлять поиск как известных, так и пока неизвестных пространственных структур белковых молекул, моделировать трёхмерные структуры белков и т.д.
Первые схемы сворачивания белков, которые можно считать прообразами структурных деревьев, были разработаны около 30 лет назад (Ptitsyn et al., 1979; Ptitsyn and Finkelstein, 1980). Принципиальное отличие этих схем от структурных деревьев заключается в структуре «зародышей», с которых начинается моделирование сворачивания. В случае структурных деревьев - это корневые структурные мотивы, которые не только
сами имеют уникальные укладки, но и «указывают» место, где должна пристраиваться остальная часть цепи. Большинство таких структурных мотивов было обнаружено в белках (см. мини-обзор Efimov, 1994) после опубликования вышеупомянутых работ. С другой стороны, при построении структурных деревьев используется новый набор правил и запретов ( в соответствии с современным уровнем знаний о структуре белков), по которым пристраиваются другие элементы к растущим структурам.
К настоящему времени построены и опубликованы структурные деревья для наиболее крупных белковых суперсемейств, таких как р-белки, содержащие abcd-единицы, 3р-уголки, S-образные p-листы; двухслойные (а+Р)-белки, содержащие abCd-единицы; трёхслойные а/p-белки, содержащие пяти- и семисегментные а/р-мотивы; а-белки, содержащие а-а-уголки, а также белки, содержащие ф-мотивы (Efimov, 1997a, b, 1998; Ефимов, 2004, 2008). Следует отметить, что структурные деревья начинают строить и использовать и в других лабораториях. Например, Жанг и Ким построили структурное древо для двухслойных р-белков (Zhang and Kim, 2000). На наш взгляд, оно мало отличается от нашего варианта 1997 г. (Efimov, 1997), просто содержит немного больше известных структур белков. Джоханисен и Тэйлор предприняли попытку построить структурное древо для а/р-белков с помощью компьютера, используя алгоритм динамического программирования ( Johannissen and Taylor, 2003). И хотя им удалось построить только часть древа, попытку следует признать удачной. Основной задачей данной работы является обзор публикаций, посвящённых построению и анализу структурных деревьев, а также их использованию в исследованиях белков. Ознакомление с этими работами позволит читателю глубже понять
основные закономерности строения белковых молекул и механизмы их сворачивания.
Общие правила построения структурных деревьев
1. Структуры белков представляются и рассматриваются в упрощенном виде, а детали (например, конформация перетяжек или точная взаимная ориентация элементов вторичной структуры) во внимание не принимаются. Если направление полипептидной цепи на структурах не указывается, то они могут иметь прямое и обратное направление цепи, но изображаются на древе по одному разу для экономии места. Также из-за экономии места на древе показываются, в основном, такие пути роста структур, которые ведут к известным белковым структурам.
2. В качестве корневой (или стартовой) структуры древа берется тот или иной структурный мотив, имеющий уникальную пространственную укладку цепи.
3. Рост структур осуществляется путем последовательного, шаг за шагом, присоединения а-спиралей и/или р-тяжей; при этом структура, полученная на предыдущем этапе, сохраняется (она может слегка модифицироваться). На каждом этапе а-спираль или Р-тяж, которые расположены ближе других к растущей структуре по цепи, пристраиваются первыми (Ефимов, 1982; Efimov, 1997a). В некоторых случаях могут быть пристроены готовые структурные блоки из нескольких элементов вторичной структуры.
4. В соответствии с принципом плотной упаковки все полученные структуры должны быть компактными; а-спирали и р-тяжи должны упаковываться в соответствии с известными правилами их упаковки.
5. а-Спирали и р-тяжи не могут быть упакованы в одном слое, так как это приводит к дегидратации свободных полярных групп
основной цепи ß-тяжей, что запрещено; отсюда следует, что а-спирали должны упаковываться в а-спиральные слои, а ß-тяжи - в ß-слои растущей структуры (Ефимов, 1977; Efimov, 1995).
6. Пересечение перетяжек (Лим и др., 1978) и образование топологических узлов (Richardson, 1977) запрещено.
7. Все структурные мотивы (т.е. не только корневые мотивы) должны иметь свойственную им хиральность и пространственную укладку цепи. Например, все ß-a-ß-единицы должны находиться в форме правых суперспиралей (Rao and Rossmann, 1973; Sternberg and Thornton, 1976).
Возможные пути роста структур показывают с помощью линий, которые соединяют между собой корневую, все промежуточные и конечные структуры, образуя разветвлённое структурное древо.
Построение и анализ структурных деревьев белков
В настоящее время гипотеза о том, что при сворачивании белок не перебирает все возможные конформации и что сворачивание белка происходит через стадии образования некоего зародыша, а затем его роста, признаётся в качестве основной большинством исследователей. Однако вопрос о том, что является зародышем в структурном плане, остаётся открытым. Новизна подхода, основанного на использовании структурных деревьев для моделирования сворачивания, состоит в том, что в качестве корневых структур деревьев (т.е. стартовых или зародышевых структур при моделировании) берутся структурные мотивы с уникальными трёхмерными укладками цепей.
Структурные мотивы - это супервторич-ные структуры из двух или более а-спиралей и/или ß-тяжей, которые часто встречаются
в молекулах белков. Структурные мотивы одного типа характеризуются определённым количеством элементов, их взаимным расположением в цепи и пространстве, а также общим ходом полипептидной цепи. И хотя число различных структурных мотивов достаточно велико, только некоторые из них имеют уникальные трёхмерные укладки цепей и определённую хиральность (подробнее см. Efimov, 1994).
Одинаковые структурные мотивы широко распространены как в гомологичных, так и негомологичных белках. Это означает, что их структурное сходство определяется общими физико-химическими принципами, а не гомологией последовательностей. Тот факт, что многие небольшие белки и домены состоят только из структурных мотивов с уникальными укладками цепей, указывает на то, что такие мотивы достаточно устойчивы и могут свернуться сами по себе. Всё это вместе позволяет предположить, что такие мотивы могут быть зародышами при сворачивании белков. Однако, независимо от того, действительно ли структурные мотивы с уникальными укладками цепей являются зародышами, они - очень удобные стартовые структуры при моделировании сворачивания белков и корневые структуры при построении структурных деревьев.
На рис. 1 представлено структу рное древо для белков, содержащих а-а-уголки. а-а-Уголок - это структурный мотив, образованный двумя соседними по цепи а-спиралями, которые упакованы приблизительно крестообразно так, что общий ход цепи описывает в пространстве почти виток левой суперспирали (см. корневой мотив на рис. 1, а также Efimov, 1984, 1997a). Как видно, в результате последовательной пристройки а-спиралей к корневому а-а-уголку можно получить структуры целого
Рис. 1. Структурное древо для белков и доменов, содержащих а-а-уголки. а-Спирали показаны в виде цилиндров, Р-тяжи - в виде стрелок
класса белков и доменов с ортогональной упаковкой а-спиралей.
В случаях коротких и средних по длине перетяжек добавленная а-спираль может образовать с соседней а-спиралью растущей структуры а-а-шпильку, а-а-уголок, L-обрaзную или ^образную структуру. Таким образом, рост каждой структуры может происходить ограниченным числом возможных путей. Так, присоединение разными способами первой а-спирали к корневому а-а-уголку приводит к образованию трехспиральных структур, показанных в нижнем ряду структурного древа. Присоединение следующей спирали к трехспиральным структурам также может происходить разными способами, в результате чего образуется ряд разрешенных четырехспиральных структур и т.д. К трехспиральным структурам можно присоединять и р-тяжи, как это показано в левой части структурного древа. Многие структуры способны расти и дальше - в пятиспиральные и более сложные структуры. Это зависит от многих факторов, в том числе от структурного контекста, наличия в цепи «не-пристроенных» а-спиралей и/или р-тяжей и др. (см. правила пристраивания элементов), и определяется в конечном счете аминокислотной последовательностью белка.
Таким образом, в структурном древе можно выделить несколько уровней или рядов. В каждом уровне (ряду) находятся структуры, состоящие из одинакового количества а-спиралей - ряд трехспиральных, ряд четырехспиральных структур и т.д. С другой стороны, структурное древо имеет несколько ветвей. В составе одной ветви структура, находящаяся на более высоком уровне, содержит в себе структуры, расположенные ниже. Структуры из разных ветвей содержат в себе одну и ту же структуру, находящуюся в месте разветвления. Чем выше в структурном дре-
ве находится точка разветвления, тем выше уровень структурного сходства между белками и доменами соответствующих ветвей. Отметим, что структурное сходство белков не всегда означает, что они имеют также схожие функции. Так, например, большинство структур, находящихся во второй слева ветви древа, являются ДНК-связывающими белками и доменами (т.е. имеют схожие функции). Однако в других ветвях древа находятся белки и домены как со сходными, так и с различными функциями.
На рис. 2 показано структурное древо для р-белков, содержащих abcd-единицы. аbcd-Единицы - структурный мотив, который встречается в большинстве двухслойных Р-белков и р-доменов с продольной упаковкой Р-слоёв (Ефимов, 1982). Простейший вариант abcd-единицы состоит из четырех следующих друг за другом вдоль цепи р-тяжей а, Ь, с и d, три из которых (а, Ь и d) лежат в одном слое, образуя антипараллельный р-лист, а четвертый (с) расположен в другом слое. Тяжи Ь и d в р-листе параллельны друг другу и вместе с тяжем с образуют правую суперспираль bcd, которая аналогична суперспирали, образуемой р-а-р-единицами. Между тяжами Ь и d всегда расположен тяж а в антипараллельном к ним направлении. В р-белках abcd-единица всегда располагается на краю двойного слоя так, что тяжи Ь и с являются крайними тяжами соответствующих р-слоев, а остальные Р-тяжи молекулы располагаются с одной стороны относительно abcd-единицы, с той стороны, где находится d-тяж.
Присоединение тяжа аь который непосредственно связан с тяжем а, к корневой abcd-единице приводит к образованию а^Ьс^ структуры (она расположена в центре нижнего ряда структурного древа, см. рис. 2). Тяж а! не может быть упакован с другой стороны от тяжа с в верхнем слое, так как тогда бы пере-
Рис. 2. Структурное древо Р-белков, содержащих аЬсс!-единицы. Все структуры показаны так, как они выглядят, если смотреть вдоль Р-тяжей, и ориентированы одинаковым образом - так, что аЬсс!-единицы находятся в правых частях двойных слоев. Р-Тяжи показаны в виде квадратиков; перетяжки, расположенные ближе к наблюдателю, показаны двойными линиями, а дальние перетяжки - одиночными
секлись петли aai и bc (правило 6). Тяж ai не может быть упакован и в нижнем слое рядом с тяжем d, поскольку это привело бы к пересечению петель aa1 и dd1 (d1 - это тяж, присоединенный к тяжу d). Таким образом, во всех белках, в которых имеется тяж a1, он располагается именно так, как в a^bcd-структуре.
Присоединение к корневой abcd-единице тяжа d1 приводит к образованию структуры, показанной в нижнем ряду слева. Тяж d1 не может быть упакован рядом с тяжем c в верхнем слое (запрещенный путь на древе, показанный пунктирной линией): если в белке имеется тяж a1, то могут пересечься петли aa1 и dd1; если тяжа a1 нет, то тяжи с и d1 должны образовать параллельную р-структуру в составе суперспирали cdd1, что запрещено (правило 7). Дело в том, что три подряд идущие по цепи р-тяжа не могут образовать р-р-Р-суперспираль, в которой первый и третий Р-тяжи непосредственно взаимодействуют с образованием параллельной Р-структуры. Образование суперспирали тремя подряд идущими р-тяжами разрешено, если в слое между первым и третьим тяжами находится, по крайней мере, еще один тяж (например, суперспираль bcd и тяж a в abcd-единице). В этой связи тяж d1 может быть упакован в верхний слой, но только в тех структурах, в которых между ним и тяжем c будет располагаться, по крайней мере, еще один тяж (например, тяж a1, как это показано в структуре, находящейся справа на краю второго ряда древа). Аналогичным образом проводится анализ и присоединение других Р-тяжей, что приводит к образованию структур более высокого порядка.
За последнее время существенно выросло число расшифрованных структур в Банке белковых данных (Protein Data Bank). В состав структурного древа р-белков, показанного на рис. 2, входит около сорока известных
белковых структур (Efimov, 1997). К настоящему времени мы собрали базу данных из 528 белков и доменов этого класса, в том числе 244 - негомологичных. Это предопределило необходимость построения обновлённого структурного древа для белков этого класса (Гордеев и др., 2008). Полное структурное древо р-белков, содержащих abcd-единицы, размещено на сервере Института белка РАН по адресу: http://strees.protres.ru.
На рис. 3 представлено структурное древо (а+Р)-белков, содержащих abCd-единицы. Корневой структурой этого древа является abCd-единица, которая представляет собой вариант abcd-единицы, в котором вместо Р-тяжа «с» находится а-спираль «С»; ход цепи в пространстве и взаимное расположение элементов в обеих структурах одинаковы. Однако структурное сходство (а+Р)-белков этого класса и р-белков, содержащих abcd-единицы, этим не ограничивается. Так же как в р-белках, в (а+Р)-белках abCd-единицы располагаются на краях слоевых структур. Многие белки и домены этих двух классов имеют по существу одинаковую укладку цепей в пространстве, если не принимать во внимание конформации структурных элементов.
Возможные пути роста корневой abCd-единицы можно проследить на структурном древе. Если в белке или домене есть спираль Ль связанная с тяжем а, она может быть упакована или в а-слое рядом со спиралью С (правило 5), или с нижней стороны р-листа, давая начало новому а-слою. Спираль Ai не может быть упакована с другой стороны от спирали С в а-спиральном слое, поскольку это приведет к пересечению перетяжек aAi и ЬС (правило 6); она также не может быть упакована в p-слой (правило 5). Если в молекуле отсутствует спираль A1, но имеется спираль D1, связанная с тяжем d, она также упаковывается рядом со спиралью С в а-слое
ММиУЙТ (130-274)
Є-РРа**
Рис. 3. Структурное древо (а+р)-белков, содержащих аЬСс!-единицы. Способ ориентации структур и обозначения такие же, как на рис. 2. а-Спирали кружочками
или с нижней стороны р-листа. Если вместо спирали D1 в молекуле находится тяж d1, он упаковывается в p-слое или на краю рядом с тяжем d, или в середине между тяжами a и d. Тяж a1, связанный с тяжем a, может быть упакован снизу от p-листа, давая начало новому p-слою. Следующие этапы роста структур можно легко проследить на рис. 3. Отметим, что в соответствии с правилом 7, все р-а-р-единицы образуют правые суперспирали.
Для этого класса белков также построено обновлённое структурное древо (Гордеев и Ефимов, 2009), которое включает в себя 926 белков из Банка белковых структур (PDB), в том числе негомологичных - 401. Вся информация по базе данных, а также структурное древо доступны в Интернете по адесу: http:// strees.protres.ru.
В соответствии со структурной классификацией белков, предложенной Левиттом и Чотиа (Levitt and Chothia, 1976), к классу а/р-белков относятся белки, в которых наблюдается чередование вдоль цепи а-спиральных и p-структурных участков. а/р-Белки могут быть разделены на три подкласса: так называемые а/р-бочонки, двухслойные а/р-белки и трехслойные а/р-белки. В свою очередь, трехслойные а/р-белки также можно разделить на две группы: это белки, содержащие семисегментные а/р-мотивы, и белки, содержащие пятисегментные а/р-мотивы.
Семисегментный а/р-мотив - структурный мотив, образованный четырьмя Р-тяжами и тремя а-спиралями, которые чередуются вдоль цепи (РаРаРаР) и упакованы в трехслойную структуру, как это показано на рис. 4 (корневая структура). Все р-а-р-единицы как в составе этого структурного мотива, так и в других частях молекул белков этого класса образуют правые суперспирали. Другими словами, структуры белков данного класса имеют укладку цепей по Россман-
ну (Rao and Rossmann, 1973). Во всех белках семисегментный a/ß-мотив располагается на краю трехслойных структур, и остальная часть полипептидной цепи пристраивается к нему с одной стороны (всегда слева от мотива, как это показано на структурном древе на рис. 4). Там же можно проследить возможные пути роста структур при последовательном добавлении a-спиралей и ß-тяжей к корневому a/ß-мотиву.
Структурное древо a/ß-белков, содержащих пятисегментные a/ß-мотивы, представлено на рис. 5. Пятисегментный a/ß-мотив состоит из трех ß-тяжей и двух a-спиралей, уложенных в две ß-a-ß-единицы, которые располагаются в пространстве так, что образуют трехслойную структуру. Подобно другим структурным мотивам, рассмотренным выше, этот мотив также располагается на краю слоевых структур в большинстве белков данного класса. Возможные пути роста корневого пятисегментного a/ß-мотива в результате последовательного присоединения a-спиралей и ß-тяжей и получаемые при этом промежуточные и конечные структуры можно видеть на рис. 5.
Класс ß-структурных белков можно разделить на два подкласса: ß-белки с продольной упаковкой ß-слоев и ß-белки с ортогональной упаковкой ß-слоев. В свою очередь, эти подклассы также можно разделить на группы или семейства в зависимости от типа структурного мотива, который встречается в белках данного семейства. Как показывает анализ, большая группа ß-белков с ортогональной упаковкой ß-слоев содержит так называемый 3ß-уголок (Efimov, 1992, 1997b). Структура 3ß-уголка представляет собой антипараллельный трехтяжевый ß-лист, сложенный сам на себя таким образом, что две составляющие его ß-ß-шпильки располагаются приблизительно ортогонально в раз-
Рис. 4. Структурное древо a/ß-белков, содержащих семисегментные a/ß-мотивы. Все структуры ориентированы одинаковым образом и изображены выглядят, если смотреть вдоль a-спиралей (кружочки) и ß-тяжей (квадратики)
Рис. 5. Структурное древо a/ß-белков, содержащих пятисегментные a/ß-мотив!
ных слоях. Центральный тяж 3р-уголка при переходе из одного слоя в другой изгибается на ~90о и образует при этом полвитка правой суперспирали.
Анализ известных белков показал, что 3р-уголки всегда располагаются на краях молекул или доменов, а остальные р-тяжи или а-спирали упаковываются со стороны вогнутой поверхности. На рис. 6 показано структурное древо для белков, содержащих 3р-уголки, построенное в соответствии с правилами 1-7. Все структуры на рис. 6 ориентированы одинаковым образом, так что 3р-уголки находятся в правом нижнем углу каждой структуры; Р-тяжи ближних к наблюдателю p-слоев расположены горизонтально, а р-тяжи дальних слоев - вертикально. Как видим, корневой 3р-уголок имеет два p-слоя, упакованных ортогонально. Это во многом определяет взаимное расположение пристраиваемых к нему элементов вторичной структуры и возможные пути роста структур.
Простые трехтяжевые р-листы, образованные тремя следующими друг за другом вдоль цепи р-тяжами, могут быть двух типов: S-образные или Z-образные p-листы, если смотреть на них с одной стороны. Если рассматривать их в виде изолированных плоских структур, то довольно трудно отдать предпочтение одной из них. Существенные различия между ними появляются на уровне структур более высокого порядка, которые включают в себя либо S-образные, либо Z-образные P-листы. Например, 3р-уголок, рассмотренный в предыдущем разделе, может быть представлен как Z-образный p-лист, сложенный сам на себя, если смотреть со стороны вогнутой поверхности. S-образный p-лист в такую структуру свернуться не может, однако он может входить в состав других более сложных структур, в которые не может быть включен Z-образный p-лист (Efimov, 1993).
К N- или C-концу либо к обоим концам S-образного р-листа могут быть присоединены а-спирали, р-тяжи или нерегулярные участки (будем обозначать их а, р и C). Особый интерес представляют структуры, в которых эти элементы располагаются в другом слое относительно S-листа. Они могут располагаться ортогонально к тяжам S-листа или продольно (такие перетяжки будем обозначать знаками «+» или «-», соответственно). Анализ показывает, что структуры а+8+а, P+S+а, P+S+P, P+S+C, C+S+C в белках всегда встречаются в форме правых суперспиралей (если мысленно заменить S-лист одним тяжем, идущим по диагонали листа) и, следовательно, представляют собой структурные мотивы с уникальными укладками цепей.
Правая суперспираль, которую образует Р-тяж при переходе из одного p-слоя в другой, изгибаясь при этом на ~90о, была описана ранее и названа р-изгибом (Chothia and Janin, 1982). Именно такие суперспирали наблюдаются при переходах цепи из одного слоя в другой в P+S-, S+P- и p+S+p-структурах. Впоследствии было показано, что аналогичные правые суперспирали образуются в местах переходов цепи из одного слоя в другой в а+S-, S+а-, S+c-, c+S-, l+S- и S+l-структурах, где а, c и l - а-спиральные, нерегулярные и линкерные участки соответственно (Efimov, 1998). Кроме того, S-образные p-листы могут быть включены в правые суперспирали, образуемые р-а-р-единицами, в виде S-а-р- и Р-а^-структур, а также в состав abSd-единиц вместо тяжа c.
Все перечисленные структуры имеют уникальные укладки цепей и свойственную им хиральность и могут быть использованы как корневые структуры при построении соответствующих структурных деревьев. Однако для удобства представления и анализа полученных результатов все белковые струк-
Рис. 6. Структурное древо белков, содержащих Зр-уголки. р-Тяжи показаны в виде стрелок, направленных от ]М- к С-концам; а-спирали представлены в виде цилиндров
Рис. 7. Структурное древо белков, содержащих Э-образные Р-листы. Обозначения такие же, как на рис. 6. А, Б, В и Г - различные части древа
туры, содержащие S-образные Р-листы, были объединены в одно большое структурное древо (рис. 7). Это структурное древо включает в себя более ста пространственных структур.
Как показывает анализ, три следующие друг за другом вдоль цепи р-тяжа могут образовать ещё один структурный мотив, названный ф-мотивом (Ефимов, 2008). Простейший вариант ф-мотива состоит из трёх соседних по цепи р-тяжей, связанных перетяжками и уложенных в одном р-слое в структуру, которая напоминает греческую букву ф. ф-Мотивы могут быть двух типов: если двигаться вдоль цепи от N к С-концу, то в одних ф-мотивах сначала будет р-шпилька, затем р-тяж (тип шпилька-тяж), а в других наоборот (тип тяж-шпилька). Отличительная особенность ф-мотива состоит в том, что петля, которая соединяет два крайних р-тяжа, проходит над центральным р-тяжем или его продолжением и образует вместе с ним крестообразную структуру. Эта петля обеспечивает не только переход цепи с одного края ф-мотива на другой, но и поворот цепи на 180°. Будем называть её переходной петлей. ф-Мотивы могут быть «левыми» и «правыми». Если смотреть на ф-мотивы со стороны переходных петель, то в правых ф-мотивах ход цепи от N к С-концу осуществляется по часовой стрелке, а в левых - против часовой стрелки. В белках ф-мотивы встречаются преимущественно в одной, правой, форме.
На рис. 8 а, б представлено структурное древо для белков, содержащих ф-мотивы типа тяж-шпилька, построенное в соответствии с перечисленными выше правилами. Внизу показан корневой ф-мотив древа в упрощенном виде. В нижнем ряду древа показаны более сложные варианты ф-мотивов с дополнительными элементами в том виде, в котором они встречаются в соответствующих белках. В центральных ветвях древа ф-мотивы
содержат дополнительные а-спирали в петлях. В трех левых ветвях древа р-шпильки ф-мотивов сложены в р-р-уголки, а в аспар-татных протеазах и их аналогах переходная петля ф-мотивов настолько длинная, что в ней образуется дополнительная р-шпилька, которая может быть очень подвижна, как, например, в белках 1№0 и 2RSR Отметим также, что рост структур в этих трех ветвях древа происходит во многих случаях с образованием у-мотивов. На рис. 9 представлено структурное древо для белков, содержащих ф-мотивы типа шпилька-тяж. Его построение и основные черты не отличаются от таковых для структурного древа на рис. 8 а, б, тем не менее, это дерево показывает три новых пути роста ф-мотива.
Заключение
Несмотря на многочисленные исследования сворачивания белков, до сих пор нет прямых экспериментальных методов, которые позволяли бы изучать процесс сворачивания белка в реальном времени. Другими словами, «отснять кинофильм» о сворачивании белка пока не представляется возможным. Этот «пробел» призваны заполнить теоретические исследования. Одним из подходов к решению этой задачи является моделирование процесса сворачивания белков с помощью структурных деревьев. Как это продемонстрировано выше, структуры почти всех известных белков из рассмотренных классов могут быть получены последовательным добавлением элементов вторичной структуры к корневым структурным мотивам в соответствии с одним и тем же набором правил. Во многих случаях поэтапный рост структур выглядит так, будто структуры растут в одном направлении, например, от одного края двойного или тройного слоя к другому, или от одного уголка молекулы
Рис. 8. Структурное древо белков, содержащих ф-мотивы типа тяж-шпилька; а и б - левая и правая половины древа. Р-Тяжи показаны стрелками, направленными от Ы- к С-концам; а-спирали - цилиндрами, нерегулярные участки и петли - одинарными или двойными линиями
Рис. 9. Структурное древо белков, содержащих ф-мотивы типа шпилька-тяж
к другому. При этом можно проследить зависимость упаковки элементов вторичной структуры в одной части молекулы (например, сформированной на «поздних» стадиях роста структур) от взаимного расположения элементов в других частях молекулы (образованных «раньше»). Таким образом, эти
и другие закономерности, рассмотренные в настоящей работе, свидетельствуют в пользу того, что корневые структурные мотивы, действительно, могут быть зародышами в процессе сворачивания белков, а остальные части белковых молекул пристраиваются к ним шаг за шагом.
Работа выполнена при финансовой поддержке РФФИ (грант 07-04-00659).
Список литературы
Гордеев А.Б., Ефимов А.В. (2009) Новое структурное древо (а+Р)-белков, содержащих abCd-единицы. Молекуляр. биология. (в печати)
Гордеев А.Б., Кондратова М.С., Ефимов А.В. (2008) Новое структурное древо Р-белков, содержащих abcd-единицы. Молекуляр. биология. 42: 323-326.
Ефимов А.В. (1977) Стереохимия упаковок а-спиралей и p-структуры в компактной глобуле. Докл. АН СССР. 235: 699-702.
Ефимов А.В. (1982) Супервторичная структура Р-белков. Молекуляр. биология. 16: 799806.
Ефимов А.В. (2004) Структурные деревья глобулярных белков. Усп. биол. химии. 44: 109132.
Ефимов А.В. (2008) Структурные деревья белков, содержащих ф-мотивы. Биохимия. 73: 29-35.
Лим В.И., Мазанов А.Л., Ефимов А.В. (1978) Стереохимическая теория пространственной структуры глобулярных белков. I. Высокоспиральные промежуточные структуры. Молекуляр. биология. 12: 206-213.
Финкельштейн А.В., Птицын О.Б. (2005) Физика белка. М.: Книжный дом «Университет». 456с.
Brenner S.E., Chothia C., Hubbard T.J.P. (1997) Population statistics of protein structures: lessons from structural classifications. Curr. Opin. Struct. Biol. 7:369-376.
Chothia C., Finkelstein A.V. (1990) The classification and origins of protein folding patterns. Annu. Rev. Biochem. 59: 1007-1039.
Chothia C., Janin J. (1982) Orthogonal packing of P-pleated sheets in proteins. Biochemistry. 21:3955-3965.
Efimov A.V. (1984) A novel super-secondary structure of proteins and the relationaship between the structure and the amino acid sequence. FEBS Lett. 166: 33-38.
Efimov A.V. (1992) A novel super-secondary structure of P-proteins. A triple-strand corner. FEBS Lett. 298: 261-265.
Efimov A.V. (1993) Super-secondary structure involving triple-strand P-sheets. FEBS Lett. 334: 253-256.
Efimov A.V. (1993) Standard structures in proteins. Prog. Biophys. Molec. Biol. 60: 201-239.
Efimov A.V. (1994) Favoured structural motifs in globular proteins. Structure. 2: 999-1002.
Efimov A.V. (1995) Structural similarity between two-layer a/ß- and ß-proteins. J. Mol. Biol. 245: 402-415.
Efimov A.V. (1997a) Structural trees for protein superfamilies. Proteins. 28: 241-260.
Efimov A.V. (1997b) A structural tree for proteins containing 3ß-corners. FEBS Lett. 407: 37-41.
Efimov A.V. (1998) A structural tree for protein containing S-like ß-sheets. FEBS Lett. 437: 246250.
Holm L., Sander C. (1996) Mapping the protein universe. Science. 273: 595-602.
Johannissen L.O., Taylor W.R. (2003) Protein fold comparison by the alignment of topological strings. Prot. Engineering. 16:949-955.
Levitt M., Chothia C. (1976) Structural patterns in globular proteins. Nature. 261: 552-558.
Lim V.I. (1974) Structural principles ofthe globular organization ofprotein chains. A stereochemical theory of globular protein secondary structure. J. Mol. Biol. 88: 857-872.
Ptitsyn O.B., Finkelstein A.V., Falk (Bendzko) P. (1979) Principle folding pathwayand topology of all-ß proteins. FEBS Lett. 101: 1-5.
Ptitsyn O.B., Finkelstein A.V. (1980) Similarities of protein topologies: evolutionary divergence, functional convergence or principles of folding? Quart. Rev. Biophys> 13: 339-386.
Rao S.T., Rossmann M.G. (1973) Comparison of super-secondary structure in proteins. J. Mol. Biol. 76: 241-256.
Richardson J.S. (1977) ß-Sheet topology and relatedness of proteins. Nature. 268: 495-500.
Sibanda B.L., Blundell T.L., Thornton J.M. (1989) Conformation of ß-hairpins in protein structures. A systematic classification with applications to modeling by homology, electron density fitting and protein engineering. J. Mol. Biol. 206: 759-777.
Sternberg M.J.E., Thornton J.M. (1976) On the conformation of proteins: the handedness of ß-strand-a-helix-ß-strand unit. J. Mol. Biol. 105: 367-382.
Sun Z., Jiang B. (1996) Patterns and conformations of commonly occurring supersecondary structures (basic motifs) in Protein Data Bank. J. Prot. Chem. 15: 675-690.
Wodak S.J. (1996) Extending molecular systematic to the third dimension. Nature Struct. Biol. 3: 575-578.
Zhang C., Kim S.-H. (2000) A comprehensive analysis of the Greek key motifs in protein ß-burrels and ß-sandwiches. Proteins. 40: 409-419.
Modeling of Protein Structures Using Structural Trees
Alexander V. Efimov
Institute of Protein Research, Russian Academy of Sciences, Pushchino, Moscow Region, 142290 Russia
Knowledge of all possible protein folds is necessary for 3D protein structure prediction. The structural trees are a good tool for searching of protein folds and the principles that govern the polypeptide chain folding. To date nine structural trees for the largest protein superfamilies that include hundreds ofprotein structures have been constructed. The structural motifs having unique overall folds and a unique handedness are taken as the starting structures in modeling or root structures of the trees. The larger protein structures are obtained by stepwise addition of a-helices and/or fi-strands to the growing structure taking into account a restricted set of rules inferred from the known principles of protein structure. Among these rules, attention to handedness and compactness, prohibition of crossing connections, and a requirement to a-helices to be packed in a-helical layers and fi-strands in fi-layers are the most important. The number of allowed overall folds that can be obtainedfrom one structural motif is limited since the rules drastically reduce the number of allowed pathways of growth of intermediate structures. Such modeling ofprotein folds and folding pathways is ofparticular value in understanding the relationship between the 3D protein structure and the amino acid sequence.
Key words: protein folding, protein structure comparison, stereochemical analysis, structural motifs, structural similarity