УДК 0С4.942
ИССЛЬДОВАНИЬ НУК/ hül И/ЖЫХ 11 OC.JI ЬЛОВА I = JIЬНСС I hPl Г ПОМОЩЬЮ ХАРАКТЕРИСТИК СТРОЯ АНАЛОГИЧНЫХ СТАТИСТИЧЕСКИМ ХАРАКТЕРИСТИКАМ
Н. Н. Поздииченко. А. С. Гуменюк. М. П Керов
Омский государственный тех7/:песхий уииаерсхянет, г. Россия
Аниотвцгш Подавляющее большинство существующих методов анализа иуклеотидных цепей опп рается на множество статистических подходов исследования групп нуклеотпдов, которые оценивают состав последовательности, н лишь немногие косвенно оценивают расположение компонентов. Объектом исследования в ланной работе являются нуклеотидиые последовательности и характеристики, пс-iiiuihtVHMKie .чин кмчнс iphiivi инишнений к h>IlIhiiih;ihiim шпике ihhip|i>k:i ikihhihi ни милнкул ДНК и РНК. Представлены общепринятые и определены новые числовые характеристики нуклеотндных последовательностей. Разработаны программные средства для вычисления характеристик. Получены числовые £ыачьн11я хнракифжлш: длм 367 ivhumub p.i¡.шчных Dpi .ши^шк, ирииеаени сравнение ллрак! ерн-стик строя со статистическими характеристиками.
Ключевые слова: нуклеотидная последовательность, строи элементов, характеристики строя, GC-состав. асимметрия нуклеотнлного состава.
I. Вньдьниь
Методы вычисления (jO н А'1 -асимметрии, приведенные в работах LI. 2J. не учитывают порядок следования элементов в последовательностях, и основаны больше на эг-гтроппЯно-ннформацн энных подходах рассмотрения последовательностей. Также в работе |3J применяется «гсомегрнчсскнй подход ) к нзученню гснстнчсекнх последовательностей
Лпалго генетических последовательностей с помощыо статистических характеристик, общепринятых в бионкформатнке. не вссгда ?£фск7ивен. D ргботс предлагается использовать подход, который непосредственно
учитывает взаимно? расположение элементов знаковых последовательностей, называемый анализом строя цепи событии произвольной природы [4]. Данный подход к исследовании любых массивов данных (генетических, музыкальных. литературных н прочих текстов) разработан А. С. Гуменюком на основе понятий, определений и формализмов теор!ш информашш М. Мазура. работ К. Шеписиа [5].
При помощи аппарата строя оыли разработали характеристики строя нуклеотндкых последовательностей, аналогичные статистическим характеристикам. К таким характеристикам, в частности, относятся GC-состав. СС-асимметрия. RY-асимметрия и т.д.
ТТ ПОСТАНОВКА ЗАДАЧИ
Целью данной работы являлась разработка программных средств для вычисления значений характеристик и проведение сравнительных исследований характеристик строя и статистических характеристик нуклеотндных последовательностей для обнаружения предполагаемой корреляции.
Ш. ОПРЕДЕЛЕНИЕ ОШШШПМТЫХЧНСЛООЬК ХАРАКТЕРИСТИК 1Г/КЛЕЭТИДПЫХ ПОСЛ2ДОЗАТЕШ1ССТГЙ
П ХАРАКТЕРИСТИК ИХ СТРОЯ Рассмотрим основные характерно тики, используемые для анализа нухлестняных последовательностей в
(жеинформи! ИКГ И МПОДК1 ИХ КМЧИГЛГИИН OiO Г1МТ1ИК (или Д11ЛЯ СггС Д11Л* СК7) 11{ГДГ1аК11МГ(111 К П]И;ЦГН1НОМ
гоптноптении и может был. кьтчкглен по формуле-
ПО%-^*100 (1)
где G + С сумма всех гуанинов н цэтошнов. L длина всей цепи ДНК в нухлеотидпх: L = A-j-T + G-?-C. Также GC-состав можно представшь как отклонение суммы GC пар пс отношение к AT парам:
G€=C^. (2)
А+Т
где А + Г - сумма всех адешшов и тнмииов.
Для вычисления GC- н АТ-аснммстрнк используются следующие формулы:
Gr4krw_|l£ (Я)
AT *krw- £ (4)
Для вычисления смещения в нуклеотнднем сосгоес также применяются следующие производные характеристики:
SW-acmiMcipnH 'ошон-енис суммы всех гуаншшв и umuiHHJt (G+C) к сумме аленинов л хшшной (А~Т)
ИЛИ НИоПсрОг) RY-ИСИММГфИИ (пшнигннг НСГХ liy[]HHIWhlX IK ионии и й (G+A) к ниримидииокк М (ГН-Т)). МК-
асимметрия (отношение суммы всех цитозннов и адеников (С—А) к сумме гуанинов н тнмиков (G+T) или наоборот);
SW skew = s"w (Ь)
RY skew- -j-, (6)
MKskew-CO Все данные характеристики учитывают только число вхождений различных нуклеотидов. но никак не учитывают их расположение.
Рассмотрим аппарат к характеристики строя, которые были использованы при анализе последовательностей. Характеристика средней удалённости однородной цепи вычисляется как
1
g; "logA--2>gzV (8)
ы
ГДГ Я —ДПИНИ 11;КЛГД<>ИИ1ГЛМ-М>Г I И Д^ — <11ГДНГГ Щ1МЛ11)НЧП:К(Ж КГГХ ИН1ГрШЫК>К 1КК'ЛГЛОК»1Г,ЛЬН1К'1М Хн1»ИК-
теристика удатенности инвариантна к длине последовательности и характеризует только расположение компонентов.
Заменив э статистических характеристиках (1WY) числа вхэждеош пуклестидов на средние удаленности однородных цепей (г?г). которые вычисляются по формудс (SJ). мы подучим похожие лс форме характеристики строя нухлеотндных последовательностей (9V-(15).
АЯСК.'%= Ео + 2сх100 (У)
AR GC/AT ratio = ^^ (1С)
AR GC skcw= 83 ' * (11)
AR AT skew = (12)
AR SW skcw = (13)
AR RY skew = (14)
ARMKskcw=^£- (15)
IV. АИР0ЬАЦИЯ11Р01 РАММНЫХ СПДСШ ДЛИ ВЫЧИСЛЕНИИ СТАТИСТИЧЕСКИХ. ХАРАКТЕРИСТИК.
И АКАЛОГИЧНЬГС ИМ ХАРАКТЕРИСТИК СТРОЯ
Разработан программный модуль для вычисления характеристик иуклеотидкых последовательностей. Модуль был интегрирован в программный комплекс Libiada [б] При разработке программы за основу были взяты существующие в биоикформагске формулы для вычисления асимметрии нуклеотиднего состава цепочек, которые являются стандартом :<де-факго» при исследовании генетических текстов. Разработанные характеристики строя ранее не использовались.
На рис 1 приведен пример интерфейса программы для расчета характеристик. Для расчета характеристик нуклеотидных последовательностей пользователю необходимо выполнить следующие действия:
- на странице вычисления интегральных характеристик выбрать цепочку или несколько цепочек для исследования. Пользователь должен выбрать хотя бы один объект исследования из таблицы;
- далее, выбрать характеристику или несколько характеристик для вычисления и дополнительные параметры (тнп исследуемого участка - нуклеогнды, привязка - для характеристик, вычисляемых с помощью удаленности;;
- запустить вычисление характеристики.
LibodaVÄa
ЛТНсн
HTMIÍCIKUJI
1>И» (ЬтЬпЪ
Avcwye СЧ|Дсч C-WAT" y>C*v
•
Ckfcfc cha-rtkrefc
O Reut« leqienccs стакан?
СоЫК
Рис. 1. Интерфейс выбора интегральных характеристик для вычисления
Вычислении значений характеристик Дмх проведения исследований нуклеощлных. последовательностей необходимо было для иослецовагельно-сгсй 16s н 18s РНК организмов, вычислить значения разработанных статистических характеристик и аналогичных характеристик строя.
ТАБЛИЦА 1
ЗНА'1ЬШ1Х (ЛАШСШ'ШСКИХ ХА1»АК1Ы'ИС1 Ilk И XAl'AKlti'HLTHK С'И'ОЯ
ДЛЯ ГРУПП ОРГАНИЗМОВ
Название организма GC ratio g GC ratio
Rickettsia typhi s*. B9991CWPP 2S,92C>1649 309,8444323
Rickettsia typhi s:r. Wilmington 23.9194023 309.8375531
Rickettsia prowazekii si. GvV257 25,9870-191 308,89.1110
^ii'lcrlLsia ¡п(1Ш/к1п su Knlsuiyi/iii 78,9998506 308,8014479
Rickettsia prowazekn st. Madrid t 29,0002996 308, /983828
^ii'lcrlLsia ¡noutttyrln sei Oimuikova ?.9,0060??7 3087361874
Rickettsia prowazekii si. Breinl 29,00b /133 308,/109193
Oiin li.i lsiilsii£,Hituishi SlT Tlribl 30,5137863 299,2017181
Oner.tia tsutsugamushi sir. Borvong 30.5310498 299.1005609
Rickettsia australis str. Cutlack 32,2546215 285,6102513
Rickettsia japomca YI[ 32.3500277 235.1875736
Rickettsia parkeri str. Portsmouth 32,4336774 284,5671667
Caiman crocodihis 43.2160804 232.5555517
Gallus gall us GU261702,1 45,1728395 219,3469758
Boiiclia aizelii PKo NR_D74840.1 46.5191932 215.4404907
Borreha afzeln HLJOl | NR 074662 1 46,6535433 215,4271587
Bouelia bissellii siiaiu DN127 | NR_114707.1 46.5576005 215.0299141
Borreha bissettü strain DN127 | NR_102S56 1 4 6,714 $'189 214,914839$
BuiikIím 1СЧ unniiis A1 I NR_0748fjfí 1 47,6933073 717,7919910
Borreha miyomotoi LB-2U01 NJK. 121757.1 4/,69928/1 212,2056820
Bcnirli» и11чп1ш BA7 |KR_1?.I775 1 47,8431373 7.11,991458?
Borreha reeurrentis strain Al | At 10/36/. 1 A /,868852b 211,9298017
Borreha mricatae 9LEI35 NR 102958.1 47,8688525 211,5288208
Borreha crocidurac strain Achcma NR_102961.1 43.0655738 211.2385484
Borreha duttomi strain Lv AFI07364 1 48,1311475 210,6659588
Cricctulu3 griscus 55.7455906 135.6723780
Ratr.is norvegica NR_046237,1 55,7097118 185,3153941
Lrinaceus europaeus | AJ311675.1 55.1095890 135.1S972C6
3os taurus 55,0597971 154,9451968
Mus Hiusculus duuieslicus 55.0427807 1S4.51401S7
В табл. L представлены значения характеристик для нескольких организмов, относящихся к разным царствам жизни Онн упорядочены по убыванию характеристики строя g GC" Ratio, которая однозначно классифицирует организмы. При зтом по аналогичной статистической характернстаке (GC Ratio) организмы внутри группы Rickettsia разделяются менее точно
2. Сравнительное исследование характеристик (распределения орсакизмое)
Па рис. 3 представлено распределение организмов по характеристикам средней удаленности GC-состава (AR GC Ratio) н сташсшческии характеристике (GC Ratio). Точхи на i рафике соотеплвукн зна-кгниям ларак-iqiwiHi; дли 367 jim.iit-iHKix -.)[:■ ?1ничмоч Такжг шк цхк-ны ржщж-дглгни! дли ;ц1угих иир хирикггрисI ик
Распределение оргаинзмсв по характеристикам GC-состава демонстрирует соответствие между характеристиками строя н статистическими характеристиками, расхождение между ннмн обусловлено особенностями расположения компонентов, которые фиксируют характеристики строя и пе фиксирует статистические харак терпелскл. ири малых значениях характеристики строя распределение организмов по статистической харакге рнешке имеет больший разброс значений. Таким образом, статистическая характеристнка более чувствительна в этом дкапазоне. и наоборот, при малых значениях статистической харакгеристнкк. характеристика строя имеет большую чувствительность.
Г.,.0« * •
\V.
Ш.ОМ 1
Tí.
'W, ■Л .
+Í..É4*
ш т • ■-.
* Щ-
X« . ■ . -
J-5..9W •"'.ТП > !
¡Ъ*,>№ IHJH ,¿41. ft« ^.Élt /-HI.™ líf.MA V,*«H IU «É4 17S.BW .ÍV Жй
GC Knie
Рис 3. Распределение организмов по характеристикам средней удаленности и статистической характеристике GC-co става
v. Обсуждение результатов
Характеристики строя позволяют точно классифицировать организмы не только в рамках отдельных царств, но н внутри семейства организмов (Rickettsiaceae). Такнм образом, средства формального анализа строя мигут применяться для оценки расположения нуклеотндов в полноразмерных геномах и отдельных его компонентах, а также систематизации организмов.
Для всех рассмотренных пар характеристик наблюдается зависимость между значениями на данной выборке, что подтверждает гипотезу о том. что характеристики строя отображают свойства статистических характеристик и связаны с ними. Однако характеристики строя учитывают не только состав, но и расположение компонентов в нуклеотнднон цепи, в отлнчне от общепринятых в бионнформатнке характеристик.
VT 'Заключение
Разработаны программные средства для оценивания расположения компонентов в нуклеотндных последовательностях характеристиками строя и общепринятыми — статистическими. Получены числовые значения характеристик для 367 геномов различных организмов, проведено сравнительное исследование характеристик строя со статистическими характеристиками.
Проведенные исследования н сравнение статистических характеристик с характеристиками строя показывают, что характеристики строя являются адекватным средством описания и сравнения нуклеотндных последовательностей.
Список литературы
1. Lobiy J. R. Asymmetric substitution patterns in the two DNA strands of bacteria И Molecular biology and evolution. 1996. Vol. 13, no. 5. P. 660-665.
2. Giigoriev A Analyzing genomes with cumulative skew diagrams .7 Nucleic acids research. 1998. Vol. 26: no. 10. P. 22SÓ-2290
3. Zhang С. Т., Zhang R, Ou H. Y. The Z curve database: a graphic representation of genome sequences И Bioinformatics 2003 Vol. 19: no. 5. P. 593-599.
4. Гуменюк A. C.: Ктикушнн Ю. H.. Кобенко В. Ю.. Цыганенке В. Н. Алгоритмы анализа структуры сигналов н данных: моногр. / под науч. ред. д-ра техн. наук Ю.Н. Клнкушина. Омск: ОмГТУ, 2010. 272 с.
5. Мазур М. Качественная теория информации М.: Мнр, 1984 280 с.
6. Скнба А. А., Поздниченко Н. Н. О разработке программного комплекса для вычисления характеристик строя упорядоченных массивов данных i i Информационные технологии н математическое моделирование: материалы 12 Всерос. науч.-практ. конф. с междунар. участием им. А.Ф. Терпутова, 29-30 ноября. Томск, 2013. 4.1. С. 50-55.