ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
ПРИМЕНЕНИЕ СТРУКТУР СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ ДЛЯ ОПИСАНИЯ СВОЙСТВ МТДНК И ОПРЕДЕЛЕНИЯ ПРИНАДЛЕЖНОСТИ ОТДЕЛЬНЫХ МТДНК К ИХ ХОЗЯЙСКОЙ ГРУППЕ ЖИВОТНЫХ Филатов О.В. Email: Filatov17150@scientifictext.ru
Филатов Олег Владимирович - инженер-программист, Научно-технический центр «Модуль», г. Москва
Аннотация: исследование структуры мтДНК с позиций Комбинаторики Длинных Последовательностей (КДП) показало, что числовые характеристики логических образований (составные события, цуги) в мтДНК в значительной степени равны аналогичным характеристикам в случайной пос-ти. Однако, исследование мтДНК методами КДП выявило необходимость ввести новый вид цуг в КДП, который получил название «Однобуквенные цуги» - С(Н). В этой статье даются основные формулы для С(^) цуг и показано их применение при исследовании структуры мтДНК, а также показано, как при помощи описанных в КДП структур, которые также присущи и мтДНК благодаря их родству со случайными последовательностями, можно классифицировать (распределять) мтДНК по группам животных: Amphibians; Birds; Fishes; Mammals; Reptiles; Fungi; Insects; Land Plants; Roundworms.
Ключевые слова: мтДНК, составные события, цуги, КДП, комбинаторика.
THE USE OF RANDOM SEQUENCE STRUCTURES TO DESCRIBE THE PROPERTIES OF MTDNA AND TO DETERMINE WHETHER INDIVIDUAL MTDNAS BELONG TO THEIR HOST GROUP
OF ANIMALS Filatov O.V.
Filatov Oleg Vladimirovich - Software Engineer, SCIENTIFIC AND TECHNICAL CENTER «МОДУЛЬ», MOSCOW
Abstract: a study of the structure of mtDNA from the position of the Combinatorics of Long Sequences (CDP) showed that the numerical characteristics of logical formations (compound events, trains) in mtDNA are substantially equal to similar characteristics in a random number. However, the study of mtDNA by CDP methods revealed the need to introduce a new type of train in CDP, which was called "Single-letter trains" - C (1L). This article gives the basic formulas for the C (1L) train and shows their application in the study of the structure of mtDNA, and also shows how, using the structures described in CDP, which are also inherent in mtDNA due to their relationship to random sequences, it is possible to classify (to distribute) mtDNA according to animal groups: Amphibians; Birds Fishes; Mammals; Reptiles Fungi; Insects Land plants; Roundworms. Keywords: mtDNA, compound events, trains, CDPs, combinatorics.
УДК 51; 34.23.37
Введение
Сейчас ДНК представляют в виде хаотичноподобной последовательности из четырёх букв. Исследования установили, что отклонения характеристик ДНК последовательности от соответствующих характеристик случайной пос-ти не
являются значительными. Поэтому логично описывать, по крайней мере, мтДНК пос-ти в терминах, которые характеризуют случайные математические пос-ти. Основные характеристики случайных пос-тей были выявлены при их компьютерном исследовании и моделировании. Все полученные характеристики структуры случайных пос-тей были оформлены в виде комбинаторного направления -«Комбинаторика Длинных Последовательностей» (КДП). На основе структурных элементов, которые КДП выделяет в случайных последовательностях, были сформированы формулы, которые в данной работе называются фильтрами, так как они выполняют работу по выделению нужных структурных особенностей мтДНК и сокрытию не нужных в данный момент структур мтДНК. Применение фильтров позволяет не только обнаружить общие характеристики мтДНК в отдельных группах животных, но и определять принадлежность мтДНК неизвестного животного к одной из известных групп живых существ. Пример такой идентификации секвенированного мтДНК неизвестного животного, к одной из существующих групп животных, приведен в этой статье.
В статье используется информационный пул более чем из полутысячи секвенированных мтДНК. В результате КДП обработки всех этих мтДНК была сформирована База Данных (БД) значительно меньшего размера, чем исходная БД, в которой мтДНК представлены в виде последовательностей букв. Созданная КДП БД заменила описание всех мтДНК буквенными последовательностей на числовые КДП характеристики мтДНК. Эти числовые КДП характеристики мтДНК были получены в результате работы компьютерной программы рассчитавшей КДП величины для каждого живого существа и граничные, предельные величины, для каждой группы животных [7]. То есть, каждый числовой диапазон, характеризующий особенности принадлежащих к нему группы живых существ, образован по результатам обработки 40 - 43 мтДНК живых существ, принадлежащих одной из групп: Amphibians; Birds; Fishes; Mammals; Reptiles; Fungi; Insects; Land Plants; Roundworms.
Основная часть
Не разрывные цуги (№ 1) из составных событий равной длины.
В случайных равновероятных пос-тях (число равновероятных исходов последовательности обозначим буквой V) известны логические образования - цуги [1, 2, 3, 5, 6]. Цуги образуют из составных событий равной длины [1, 5, 6] (длина составного события обозначим буквой ). Цуги формируются из составных событий равной длины, когда составные события следуют друг за другом (число составных событий входящих в цугу обозначим буквой w). В цугах первого вида (№ 1), следующие друг за другом составные события, образованы из разных элементарных событий [1]. Примеры цуг из составных событий равной длины, образованных из четырёх букв (то, что цуга может быть образована из четырёх букв, обозначается как «М»): А; С; G; Т: %z\C(4L)W=s = «GGAACCAATT». В этом примере: ^C(4L)W=10 = «АСТСТСТАСА» - цуга образована не из полного набора букв (не из четырёх букв, а из трёх букв), в цуге нет буквы «G» (буква «G» присутствует в случайной пос-ти, но в эту конкретную цугу не входит).
Разрывные однобуквенные цуги (№ 2) из составных событий равной длины.
В качестве логической основы формирования цуг можно положить и другой принцип - принцип разрывного выпадения составных событий равной длины, причём составные события образующие цугу второго вида (№ 2) состоят из одинаковых элементарных событий, в отличие от цуг вида № 1.
Под разрывностью цуг № 2 понимается следующее: составные события, объединяемые логическим образом в цугу образуются из элементарных событий одного типа; после окончания предшествующего цугового составного события и перед началом последующего цугового составного события располагаются элементарные события не равные элементарным событиям образующим цугу. Причем, эти элементарные события располагаются между составными событиями
цуги в любых количествах, но их численность всегда больше нуля. Комбинации и сочетания элементарных событий, лежащих между составными событиями цуги, могут быть любые.
То, что цуга образована одним символом, сокращенно указывается через число «1» и букву «L»: «1L», где: «1» - это указание числа букв образующих цугу, а «L» -первая буква английского слова Letter, то есть «1L» - это «одна буква».
Примеры образования из элементарных событий: А; С; G; Т и составных событий равной длины, однобуквенных цуг C(1L) , составные события в цугах выделены жирным шрифтом и подчёркнуты:
Цуга C(4L) из буквы «А»: ^Ц С ( 1 L ) w=4 = «..AACACCCGTAGATTCACAA..»;
Цуга C(4L) из буквы «С»: С ( 1 L ) w=х = «..ACACCCTAGATTCCA..»;
Цуга C(4L) из буквы «G»: ^ С (1 L) w=3 = «..AGAGGTAGGAGGAAGGGT..»;
Цуга C(4L) из буквы «T»: ^ С (1 L ) w=2 = «.. GTGTTTTTCTTTTTGTTG..».
Далее речь пойдёт о «Нулевых цугах» С 0. Понятие нулевых цуг С 0 дано в работе [1, 5, 6].
Экспериментально установлено - суммарная численность всех четырёх нулевых цуг C0(1L) случайной пос-ти из букв А ; С; G; Т (элементарных событий), равна 30% от числа букв (элементарных исходов JV), ф. 1.1:
ACGT V
°4С0(и)д, = С0(А) + С0(С) + С0(С) + С0(Т) = 0,3 Ф. 1.1
В случайной последовательности из четырёх равновероятных исходов 7 = 4, математическое ожидание численности для любой цуги у =4 С 0 ( 1 Ь) где X 6 {Л; С; С; 7} , равно одной четверти от общего числа цуг пос-ти ( С 0 (Л) = С 0 (С ) = С 0 (С) = С 0 (7) ), ф.1.2:
АССТГ[) о . л;
Хгм 1П - у=4 С 0 д - 3 " Ф 12
у=4 С 0 (1Ь)д, = 4 = 40 ф. 1.2
Где N - число членов случайной равновероятной 7 последовательности.
Или : ^=4 С 0 (1 Ь ) д = 4 ■ У С 0 (1 Ь)Х;Л, = 0, 3 ■ N где X 6 {Л ; С; С; 7}.
Найденная экспериментальным путём ф. 1.3 позволяет рассчитать число цуг
С 0 (1 Ь ) с базовой длиной п, как функцию от числа равновероятных исходов V и числа случайных событий № Ху™\ С 0 ( 1 Ь ) д = / (п, 7, N ):
Х(п) V=4
N /V -1\2 ( 1 1 \ л , ,
С0 (1 L ) » = ) "( ^i^i + ^j ф. 13
В [1, 4, 5, 6] дана формула, которая описывает число составных событий "5ХХ;Л, случайной пос-ти из V исходов (вершин), как функцию трёх параметров У5Хд =
N (V—
/ (п, 7, N = — ■ (—— 1 , учитывая это выразим ф. 1.3 в виде ф.1.4 для разрывных однобуквенных цуг из составных событий:
1\
v=lС0 ( 1 L ) - = № ■ ( 1 - ^ + Ф. 14
9N
Подставляя в ф. 1.3 вместо 7 его значение (V=4) получим выражение: —
16
/ 1 1 1 \ 1 /1\
— 42n-i + ^ ) . Замечаем, что: — = (-) =р п , где р - вероятность реализации
одной из четырёх равновероятной возможности. Заменим в ф. 1.3 все ^ на р п, где Р = 1, получим ф.1.5:
С 0 (1 Ь ) п = 9 р п+2 (1-3 р ") Л/ Ф. 1.5
Где: X 6 {¿4 ; С; С; 7} - «Х» это одна из букв множества; Л - число членов образующих случайную последовательность.
Вводя в ф.1.5 составные события [1,4,5,6]: получим ф.1.6
С 0 ( 1 Ь) „ = ■ (1 + р " - р 1 ) ■ Л ф. 1.6
т- 11
Где: р = - = - .
^ V 4
Отметим, что суммы: не разрывных нулевых цуг уС 0 (4Ь ) и суммы разрывных однобуквенных нулевых цуг С 0 (1 Ь ) равны, ф. 1.7:
„С О (4L ) w = ^ С 0 (1 L) N = 0, 3 ■ N Ф. 1.7
Действительно: „С О (4L ) N = 4 ■ ^ С 0 (1 L) w = ^ ■ = ^ ■ ^ = 0,3 ■ N.
Пояснение таблицы 1.
В таблице 1 представлен процесс определения принадлежности некого имеющегося мтДНК к одной из имеющихся в базе данных групп животных.
В распоряжении исследователей есть файл с секвенированным мтДНК, в котором NBxp=18133 буквы. В строке «В2» лежат значения мтДНК для которого надо найти группу животных к которой он принадлежит. Применяя к этому мтДНК, поочерёдно, разные фильтрующие формулы (фильтры: F1; F2; F3), мы выявляем те или иные свойства этого генома, что проявляется в виде изменения характеризующих его чисел, строка «В2», столбцы: 2, 3, 4.
В столбцах 2, 3, 4, таблицы 1, строки: «В3» - «В12» указаны максимальные и минимальные, граничные величины, которые присущи для десяти групп животных.
Нужно выявить попадание величин определяемого по группе мтДНК, строка «В2», в диапазоны соответствующих величин десяти групп животных, строки: «В3» -«В12». По результатам сравнений значений этих величин: определяемого по группе мтДНК, и соответствующих величин, принадлежащих группам животных, определим, к какой группе животных это мтДНК («В2») может относиться. Если значение определяемого мтДНК («В2») не попадает внутрь диапазона [max - min] какой-либо группы, то, мтДНК не принадлежит этой группе. В столбце 5 («Итоговый результат отбора»), в строке «В12», сделан вывод: «Insects - владельцы мтДНК» (вывод соответствует действительности, тестируемый мтДНК принадлежит насекомому Sinochlora longifissa).
Таблица 1. Выявление группы животных, к которой принадлежит мтДНК
по результатам фильтрации меняются значения диапазонов групп животных Итоговый результат отбора
1 2 3 4 5
В1 Названия групп животных F1- фильтр 1 F2-фильтр 2 F3-фильтрЗ Владельцы мтДНК
В2 Определяемый мтДНК 0,417391 1,566941 0,565400
В3 Roundworms. Значения в группе мах, min. 0,231488 -0,94617 Не владелец Не владелец Не владелец
В4 Birds. Значения в группе мах, min. 1,059845 0,743515 Не владелец Не владелец Не владелец
В5 Land Plants. Значения в группе мах, min. 0,072352 -0,09702 Не владелец Не владелец Не владелец
В6 Fungi_Basidiomycetes. Значения в группе мах, min. 0,019371 -0,47449 Не владелец Не владелец Не владелец
В7 Fungi_Ascomycetes. Значения в группе мах, min. 0,167541 -0,26113 Не владелец Не владелец Не владелец
В8 Reptiles. Значения в группе мах, min. 0,942704 0,504661 Не владелец Не владелец Не владелец
В9 Amphibians. Значения в группе мах, min. 0,839037 0,262124 1,534853 1,096302 Не владелец Не владелец
В10 Mammals. Значения в группе мах, min. 0,907136 0,428963 1,434449 0,858845 Не владелец Не владелец
В11 Fishes. Значения в группе мах, min. 0,871397 0,4284 1,569587 0,874985 0,504765 0,408646 Не владелец
В12 Insects. Значения в группе мах, min. 0,559021 2,209385 0,615471 владельцы мтДНК
-0,82703 0,807674 0,538235
Btn221: file: С0(С) del tC0(X) - C0(G) del tC0(X).xlsx: Ф1: «C0(C) /tC0(X) - C0(G) / tC0(X)»; Ф2: C0(T)/tC0(X); Ф.3: C0(A)/SS(A) file № 43; Insects Sinochlora longifissa.txt_out.dat; JV^p =18133
Результаты обработки мтДНК по фильтру 1.
Первый фильтр работает с экспериментально обнаруженными и, так же, теоретическими рассчитанными однобуквенными цугами (№2) образованными из букв «C» и «G» файла буквенной записи мтДНК. В таблице 1, в столбце 2 видно, что определяемый мтДНК не попал своим значением 0,417391 (полученное по результатам обработки мтДНК фильтром 1) внутрь диапазонов шести групп: Roundworms, Birds, Land Plants, Fungi_Basidiomycetes, Fungi_Ascomycetes, Reptiles -эти группы исключаем из дальнейшего рассматривания в качестве возможного включения в них искомого мтДНК.
Введём сокращённое обозначение применяемых фильтров через букву F и цифру за ней (порядковый номер фильтра). Тогда логическая запись первого фильтра, по которому было отброшено шесть групп животных из девяти, будет выглядеть так: F1
= «С0(С) /tC0(X) - C0(G) /tC0(X)» Запишем это подробнее: F 1 = у=|со(1Цдзср -
V=iC°(.1L)Teor
y=Jco ( Ц) Езф = а41 739 1 .
v=4C0(lL)Teor
Учитывая, что теоретическая величина С 0 (1 L ) Ге ог по ф.1.2 равна —, получим
40
формулу для F 1 («Фильтра 1»), ф.2.1:
(n(C)=max n(G)=max \
F1=^--I '=4 C0 ( 1 1)zxp- Z C 0 ( 1 1)Ex* ) Ф- 2Л
F2
^БХР \ n(Q = l n(G) = l J
Результаты обработки мтДНК по фильтру 2.
Второй фильтр работает с экспериментально обнаруженными и, так же, теоретическими рассчитанными однобуквенными цугами (№2) образованными из буквы «Т» файла буквенной записи мтДНК. В таблице 1, в столбце 3 видно, что определяемый мтДНК не попал своим значением 1,566941 (полученное по результатам обработки фильтра 2: C0(T)/tC0(X)) внутрь диапазонов двух групп: Amphibians и Mammals - эти группы исключим из дальнейшего рассмотрения в качестве возможного включения в них искомого мтДНК. В ф.2.2.1 приведена формула для расчёта значений по второму фильтру F2:
п(Т)=тах п(Х)»1
= Z ™ C 0 (1 V Exp-- Z ™ C 0 (1 ^ Те ОГ ф. 221
п(Т) = 1 п(Х) = 1
Где: X (п) = А (п) = А (п) = G (п) = Т (п) ; индекс Те or- обозначает, что значение каждой нулевой цуги рассчитывается теоретическим путём, то есть по ф.1.3 (а не берётся из экспериментальных данных, как в случае с ).
Учитывая, что по ф.1.2: £ "(*) C0 (1 L)ТеОг = v=XC0 (1 L)N = перепишем ф.2.2.1 в виде ф.2.2.2:
п{Т)=тах
Z V=i C 0 (1 L) EXp ф. 2.2.2
Бхр n(T)=l
Результаты обработки мтДНК по фильтру 3.
Третий фильтр «С0(А)эксп / SS(A)эксп» использует для своей работы при анализе исследуемого мтДНК экспериментально полученные в файле, фактические, численности цуг «С0(А)эксп» и составных событий «SS(A) эксп» [1, 4, 5, 6]. Впрочем, это касается не только исследуемой мтДНК, но и мтДНК всех животных во всех группах (Fishes, Insects), с которыми производится сравнение значения 0,565400 в столбце 4. В результате этого сравнения сравниваемая величина оказалась внутри граничных значений группы Insects: 0,615471 > 0,565400 > 0,538235. Это значит, что искомый мтДНК принадлежит одному из видов входящих в группу Insects. Формальная формула фильтра 3 приведена в ф.2.3:
п(А)=тах п(А)=тах
F3= Z tS C 0 (1 L) Exp ■ Z t=)SSExp ф. 23
п(А) = 1 п(А) = 1
Обсуждение
Без применения законов Комбинаторики длинных пос-тей (КДП), мтДНК выглядят абсолютно хаотическим нагромождением нуклеотидов. Но при сравнении структур мтДНК со структурой случайной пос-ти, оказывается, что структуры мтДНК отличаются не более чем на 10% от хорошо описываемых формулами КДП структур случайных пос-тей. То есть у мтДНК высокая степень родства со случайными последовательностями, но, тем не менее, не смотря на высокий уровень сродства к хаосу, мтДНК несут в себе информацию о строении митохондрий и даже строении организмов, в которых они живут. То есть, у структур мтДНК есть особенность, которой нет у структур случайных пос-тей. Структуры мтДНК группируются по признаку принадлежности своим группам животных. В статье было показано, как используя эту группировку можно классифицировать принадлежность не опознанного (не известного) мтДНК к
определённой группе животных. Что, на самом деле, очень удивительно. Во-первых, мтДНК не обязано нести в себе признаки своих хозяев. Во-вторых, было бы нормально, если КДП характеристики мтДНК разных групп животных случайным образом перемешивались, а не группировались в разделяемые кластеры в зависимости от их принадлежности к той или иной форме жизни их хозяев. Выводы
1) В КДП характеристиках мтДНК последовательностей существуют отклонения от аналогичных КДП характеристик случайных пос-тей.
2) Благодаря существованию уникального (неповторимого) набора КДП характеристик, являющихся следствием отклонений от характеристик случайных пос-тей, для каждого мтДНК, каждое мтДНК можно однозначно идентифицировать набором КДП характеристик.
3) Размеры любого набора КДП характеристик для любого мтДНК, выраженного в байтах, в десятки раз меньше размера буквенной записи мтДНК в байтах, что делает КДП запись предпочтительным видом хранения информации о мтДНК.
4) КДП характеристики мтДНК для живых существ, входящих в одну группу имеют характерные признаки, по которым можно однозначно определить принадлежность мтДНК к этой группе живых существ. То есть, каждое мтДНК хранит в себе КДП характеристики, однозначно определяющие его принадлежность к одной определённой группе живых существ.
5) Для однозначно определения принадлежности мтДНК к одной из групп живых существ, или просто идентификации мтДНК, необходимо последовательно применять КДП формулы (которые в статье называются фильтры), достигая в каждом их применении выявления одной из КДП характеристик мтДНК последовательности.
Автор статьи искренне благодарит профессора МГУ, доктора биологических наук Троицкого Алексея Викторовича за оказанные им консультации по работе с интернет-базой данных ДНК общедоступного пользования [7].
Список литературы /References
1. Филатов О.В., Филатов И.О. Статья «О закономерностях структуры бинарной последовательности». «Журнал научных публикаций аспирантов и докторантов», 2014. № 5 (95), С. 226-233.
2. Филатов О.В. Статья «Доказательство теоремы: «Формула для цуг из составных событий, образующих случайную бинарную последовательность». «Проблемы современной науки и образования». № 20 (102), 2017. С. 6-12.
3. Филатов О.В. Статья «Описание структур любых последовательностей образованных равновероятными случайными событиями». «Проблемы современной науки и образования», № 5 (138), 2019. С. 9-15.
4. Филатов О.В. Статья «Описание распределения составных событий и их мизесовских частот через число возможных исходов. Механизм сжатия некоторых «не сжимаемых на один» последовательностей». «Проблемы современной науки и образования». № 9 (39), 2015. С. 27-36.
5. Филатов О. В., Филатов И.О., Макеева Л.Л. и др. «Потоковая теория: из сайта в книгу». Москва, «Век информации», 2014. С. 200.
6. Филатов О.В., Филатов И.О. «Закономерность в выпадении монет - закон потоковой последовательности». Германия. Издательский Дом: LAPLAMBERT Academic Publishing, 2015. С. 268.
7. АДРЕСС БД ДНК: [Электронный ресурс]. Режим доступа: https://www.ncbi.nlm.nih.gov/genome/browse#!/organelles/ (дата обращения: 08.05.2020).