ПРИМЕНЕНИЕ ЭНТРОПИИ ШЕННОНА И ЧИСЛА ЭЙЛЕРА «Е» ДЛЯ ОПИСАНИЯ СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ И МТДНК, ПОЛУЧЕНИЕ ЧИСЛА «Е» ЧЕРЕЗ ЭНТРОПИЮ ШЕННОНА
Филатов О.В.
Филатов Олег Владимирович - консультант по КДП-комбинаторике, ООО «Прог-рам», г. Москва.
Аннотация: в статье получено три удивительных, принципиально новых результата, на основании всего одного свойства комбинаторики длинных последовательностей. Для математиков представлен новый способ получения числа Эйлера. Для физиков, наконец, показано, какие физические предпосылки формируют величину числа «е», которое так часто применяется в формулах. Для биоинформатиков и генетиков дан на основе энтропии Шеннона и числа «е» новый способ классификации ДНК.
Ключевые слова: бинарная случайная последовательность, случайная последовательность, ДНК, мтДНК, КДП, числа Эйлера, комбинаторика.
APPLICATION OF THE SHANNON ENTROPY AND THE EULER "E" NUMBER TO DESCRIBE RANDOM SEQUENCES AND MTDNA, OBTAINING THE NUMBER "E"
THROUGH THE SHANNON ENTROPY Filatov O.V.
Filatov Oleg Vladimirovich - Consultant for CLS - combinatorics, LLC "Prog-ram", MOSCOW
Abstract: the article obtained three amazing, fundamentally new results, based on just one property of combinatorics of long sequences. For physicists, finally, it is shown what physical premises form the value of the number "e", which is so often used in formulas. For bioinformaticians and geneticists, a new way of classifying DNA is given on the basis of Shannon's entropy and the number "e".
Keywords: binary random sequence, random sequence, DNA, mtDNA, CDP, Euler number, combinatorics.
УДК519.115.8; 575; 57.011; 57.06; 575.2; 575.8
Сокращения: пос-ть - последовательность, КДП - Комбинаторика длинных последовательностей, ИСП -идеальная случайная последовательность, ГС-мутации - групповые скоординированные мутации.
Введение
Раннее человечество познавало мир с помощью таких физических понятий как расстояние, вес, плотность. Затем к ним добавились такие физические величины как температура и энергия, а сейчас к этим мерам добавляется мера хаоса - энтропия. Одна из разновидностей энтропии - энтропия Шеннона используется в информатике. В статье показано, как можно применить энтропию Шеннона для определения степени случайности любой последовательности, не обязательно бинарной. Например, с помощью энтропии определяется степень случайности: ДНК, сигналов (излучений), скорость разряда конденсатора, радиоактивного распада и многих других процессов.
Комбинаторика длинных последовательностей (новое направление в теории вероятности) выявила законы, по которым организуются любые случайные потоки. Интересен закон, что для случайной бинарной последовательности энтропия Шеннона равна константе «е» (числу Эйлера), этот результат получен как теоретически, так и экспериментально. Так как структура мтДНК очень мало отличается от структуры случайной последовательности, то полученные в «Комбинаторике длинных последовательностей» формулы определяют не только случайные бинарные пос-ти. через равенство её энтропии числу «е», но и идентифицируют мтДНК самых разных живых организмов через степень константы «е».
КДП предлагает новый способ получения числа «е», в нём число е получается, как сумма энтропий Шеннона для случайной бинарной последовательности. Из этого следует определение числа «е» как величины, значение которой является усреднённым результатом случайных процессов.
В этой статье рассчитываются энтропийные показатели некоторых мтДНК и случайных последовательностей, на основе деления мтДНК и случайных пос-тей на фрагменты, которые в КДП приняты в качестве основных составляющих единиц любых последовательностей.
В начале статьи дана математическая часть, вводящая формулы, которые во второй части применены для расчёта характеристик мтДНК.
Основная часть
В теории вероятности действует следующее предположение, что бинарная случайная последовательность является самой простой из возможных случайных пос-тей, поэтому на ней отрабатываются новые идеи и подходы, а затем их переносят на более сложные последовательности,
например на ДНК. Сохраним этот порядок движения от простого к сложному и рассчитаем энтропию Шеннона сначала для бинарной пос-ти.
Для того чтобы учитывать структуру ДНК, нам необходимо её уметь рассчитывать. Любую случайную бинарную пос-ть из N элементарных событий «0», «1» КДП делит на серии из п одинаковых событий, например: п=2 5 = «00»; п=2 5 = «11»; п=3 5 = «111»; п=65 = «000000». Такие серии из п одинаковых событий в КДП называют «Составными событиями» [1; 2] и обозначают п5. Причём «0», перед которым и за которым расположены единицы: «101», то же будет составным событие единичной длины: п= 15 = «0». И «1» окружённая нулями (010), тоже составное событие единичной длины: п=15 = «1». В любой случайной бинарной пос-ти число составных событий п 5 стремится к величине, рассчитанной по формуле 1 [1; 2]:
N
п 5 =--Ф.1
Где: N - число бит (длина) случайной пос-ти; п - число бит (длина) составного события (монотонной серии).
У математиков есть два поясняющих примера для демонстрации того, какую часть пос-ти N занимают составные события п5. В первом примере предлагается порезать N пос-ть на составные события и разложить их по кучкам, в зависимости от их длины п. Во втором примере составные события раскрашивают своим цветом, например, события п=3 5(«111»; «000») закрашивают зелёным, а события п=45(«1111»; «0000») закрашивают синим. В результате будет наглядно видно число нулей и единиц: входящих в составные события: п5, длины п. Число нулей и единиц пЕI входящих в составные события п5, рассчитываются по формуле 2 [1; 2]:
N-п
пЕ 1= п5 ■ п = -— Ф.2
7П+1
пЕ I - число нулей и единиц: «0»; «1» всех п5 - составных событиях пос-ти N.
Вероятность попадания в тот или иной цвет, как при игре в рулетку, зависит от пропорций который этот цвет занимает в пос-ти N. Перейдём от числа всех событий N пос-ти к единичной мере, в которой каждый цвет будет характеризоваться вероятностью случайного попадания в него (как при игре в рулетку или дартс). Переход, для каждого цвета, от числа событий п Е I к вероятности случайного попадания в него - п р производится путём деления пЕ I на число бит пос-ти N формула 3:
пЕ1 "5 ■ п N ■ п 1 п л ,, пр =-=-=- ■ — =--Ф.3
N N 2п+1 N 2п+1
Отметим, что в КДП величина: пр = называется геометрической вероятностью и £ п=Т( пр) = 1.
Получив вероятность , мы можем теперь рассчитать - энтропию Шеннона для идеальной
случайной пос-ти (напомним, что в основе лежат составные события, а не нули и единицы).
Подставляя значения из формулы 3 в формулу Шеннона: Н = — £ п=г ( пр) ■ 1°ё2( пр), получаем формулу 4 (энтропию Шеннона для случайной бинарной пос-ти):
П->оо П->оо
Н = — £ ( пр) ■ !° § 2 ( пр ) = — £ Л- ■ 1 ° § 2 ^ е ф.4
п=1 п=1
Компьютерное получение результата (суммы) для формулы 4 проводилось на слабом компьютере, в 32-х разрядной среде, поэтому было рассчитано всего 100 первых значений ряда формулы 4, они оказались равны: Н = 2,71146872422061, рассчитанный результат расходится в третьем знаке после запятой с числом Эйлера, что достаточно точно для большинства практических расчётов. При расчёте на более мощной технике величина расхождения будет уменьшаться.
Экспериментальная проверка формулы 4 заключалась в генерации псевдослучайного файла на 20 млн. бинарных событий, найденная энтропия этого файла, равна: Н(80+81) = 2,71182261343045. В рамках 32-х разрядной среды точность с числом «е» обеспечивается до третьего знака после запятой.
КДП - энтропия в физике. Формула 4 внесла физический смысл в вывод числа «е» (ранее число «е» получали как предельную сумму абстрактного математического ряда, без всякого физического содержания). Следствием формулы 4 является понимание, что физический смысл числа «е» связан с случайными составными событиями КДП. То есть, физические формулы, в которых есть константа «е», описывают такие процессы, в основе которых лежат вероятностные результаты и можно формально заменить число «е» в
типовой физической формуле на его КДП определение, формулу 4: Ае t = АН t. В результате получим:
А е- t = А Н- t = А ( - £ ■ log2 t = А(- "р) ■ log2 ( "p))-t.
Действительно, пусть есть некоторый случайный процесс, например радиоактивный распад, формула которого содержит число «е». Тогда из КДП определения числа «е» следует, что в основе процесса распада лежит случайность, при реализации которой, с равной возможностью, за квант времени событие распада ядра может произойти (выпадение условной бинарной «1»), или не произойти (условный бинарный «0»). Из формул КДП теории видно, как организуются случайные серии нулей и единиц. Суммирование серий (формула 4) является энтропией Шеннона, которая и есть число Эйлера «е», то есть: Н = е.
Формула 4 была получена при делении последовательности N на составные события "5, которые различаются по длине n, но не по величине образующих их элементарных событий («0»; «1»). Пример, два составных события "=2 5: «00» и «11» в такой трактовке одинаковы. Для учёта составных событий раздельно, отдельно серии из нулей «0», отдельно серии из «1», в КДП введено «Полярное составное событие» [1; 2], при его написании указывается образующая его величина, например: "=2 5 (0) - образовано двумя «00», "=2 5 ( 1 ) - образовано двумя «11». Расчёт энтропии Шеннона для случайной пос-ти показал интересную связь между полярными энтропиями: Н(0); Н(1) и не полярной Н энтропией. Сумма её полярных энтропий на единицу больше величины не_ полярной энтропии: Н(0) + Н(1) = Н + 1. Обозначим величины «0» и «1» одним символом «Х», тогда для расчёта полярной энтропии Н (X) получим формулу 5:
П->°о П->°о
Н (X = - X ("р ) ■ lQg 2 ("р ) = - Z ■ lQg 2 ^ - Ц1 Ф 5
п=1 п=1
Сложим полярные энтропии вместе: 2H(X) = H(0) + H(1), формула 6:
П-> со
Н(0) + Н(1 ) = - 2 ■ >> ("р ) ■ log 2 ("р ) - е + 1 Ф.6
п=1
Продолжим тему КДП энтропии составных событий, так как компьютерное моделирование дало интересные значения энтропий, равные целым числам: двум и трём.
Заменим в формуле Шеннона полное числа элементарных событий пос-ти N на S - число всех составных событий случайной пос-ти, где S рассчитывается по формуле 7 [1; 2]:
N N
5= > "5= > -- = - Ф.7
■2n+1 2 п=1 п=1
Подставляя отношение — в формулу Шеннона, получим формулу 8, сумма по которой, для идеальной случайной пос-ти (ИСП), константа - 2:
, П->°о
п5\ ■г-. п5 п5
Н| т) = -1т-1о§2т = 2 Ф8
п=1
Напомним, энтропия Н (—) вычислена не на множестве элементарных событий N а на множестве всех составных событий 8. Действительно, в КДП показано, что 5 = ^ , раскроем отношение: — = : ~ = и подставим его в ф.8: Н (у) = - 2^^ ■ 1оg2 ^ = = 2.
Полярная энтропия Н (-) (полярные события п5 (X) описаны выше [1; 2]), равна константе - 1.5,
формула 9:
п-> СО
, V пяю ns(x)
Н| —^ I = - > —^ ■ l o g 2 —:— 1.5 Ф.9
5
Сумма полярных энтропий: Н (—^■) и Н (—j-^) равна трём, ф. 10:
н
nS(0)
+ н
nS(l)
= 3
Ф.10
N
Действительно, в КДП показано, что 5 = — , раскроем отношение:
■ = ^: 7 = — и подставим его в ф10: Н ) + Н ) = - 2 ■ L ■ log
= -2
5
УП->со 1 . 1 _ 9 . Уп->со П+1 _ Уп->со П+1 _ уп->со_^_ уп->со_2_ _ 9 _1_ 1 _ О
^ п= 1 2 п+ 1 ш&2 2 п+ 1 = 2 ^ п= 1 2 п+ 1 = ^ п= 1 2 п = ^ п= 1 2 п "Г ^ п= 1 2 п = 2 "Г 1 = ^•
Таким образом для ИСП энтропия Шеннона по составным событиям равна числу два (ф. 8), а по полярным событиям равна числу три (ф. 10).
В таблице 1 собраны экспериментально полученные энтропии для случайной бинарной пос-ти. Компьютерная программа искала составные события в случайной бинарной пос-ти: N = 2 ■ 1 0 7 и учитывала их, по итоговому результату рассчитаны значения таблицы 1. Как видно, степень хаоса (порядка) можно рассчитывать по разным образующим случайную пос-ть объектам, в знаменателе может быть число элементарных событий N смотри формулу 3, или число составных событий 8, формула 8.
Таблица 1. Экспериментальные энтропии случайной бинарной пос-ти
Энтропия Шеннона, учёт по S Энтропия Шеннона, учёт по N
H(S0+S1) = 2,0005497 (ф.8) H(S0) = 1,499929 (ф.9) H(S1) = 1,5006186 (ф.9) H(S0) + H(S1) = 3,000548 (ф.10) H = 2,711823 (ф.4) H(0) = 1,855287 (ф.5) H(1) = 1,856523 (ф.5) H(0) + H(1) = 3,711810 (ф.6)
Mas[i] / Sum S; Mas0[i] / Sum S; Mas1[i] / Sum S Mas[i]*i / N; Mas0[i]*i / N; Mas1[i]*i / N
Button367; file = 20mln1.dat; N = 20000000; Mas[i] = Mas0[i] + Mas1[i]; Sum_S =9997242; Sum_Mas[i]*i = 20000000
Разобрав формулы получения энтропии Н, для простейшей бинарной пос-ти, перейдём к расчёту энтропии для мтДНК, в котором четыре элементарных события (нуклеотида). Пример фрагмента мтДНК: «GGTGGAATAATACCГATTATTGCШTTGTTGCTATTACTAT...». Его раскладка по составным события дана в таблице 2.
Таблица 2. Численность составных событий (СС) в мтДНК
Составные события (СС) в мтДНК Fungi Ascomycetes Candida tetrigidarum Шаблон L[n]
A[1] = 10503 С[1] = 5004 G[1] = 4948 Т[1] = 10507 L[1] = L
A[2] = 2964 С[2] = 1037 G[2] = 971 Т[2] = 2860 L[2] = LL
A[3] = 624 С[3] = 108 G[3] = 93 Т[3] = 573 L[3] = LLL
A[4] = 121 С[4] = 23 G[4] = 17 Т[4] = 123 L[4] = LLLL
A[5] = 29 С[5] = 3 G[5] = 3 Т[5] = 32 L[5] = LLLLL
A[6] = 6 Т[6] = 6 L[6] = LLLLLL
A[7] = 5 Т[7] = 4 L[7] = LLLLLLL
SumA = 14252 SumC = 6175 SumG = 6032 SumT = 14105 L = A; С; G; Т
Сумма всех СС^; С; G; Т) = 40564; число букв A; С; G; Т в СС: L = 52426 Button360
Составные события в мтДНК выявляются аналогично рассмотренным выше составным событиям бинарной пос-ти. Примеры составных событий в мтДНК: "=2 5 (Л ) = «AA»; "=х5 (С) = «С»; "=3 5 (G) = «GGG»; "=х5 (Г) = «Т». Для заполнения таблицы 2 компьютерная программа нашла и посчитала в мтДНК «Fungi tetrigidarum» все составные события. Полученные величины были использованы для расчёта энтропии Шеннона этого мтДНК.
На примере случайной пос-ти из четырёх равновероятных элементарных событий: A; С; G; Т, введём формулы расчёта энтропии мтДНК. В таблице 3 дана раскладка по суммам составных событий "5 (Л ; С; G; Г) случайной пос-ти равновероятных событий: A; С; G; Т.
Таблица 3. Раскладка по СС случайной ACGT пос-ти
Суммы элементарных событий Суммы составных событий
SumElA = 5004534 SumA = 3751255
SumElC = 5000616 SumC = 3750415
SumElG = 4999102 SumT = 3747600
SumElr = 4995748 SumG = 3750276
Counter Bukv(ACGT) = 20000000 S4 (A+C+T+G) = 14999546 S4 teor(A+C+T+G) = 15000000
Для определения, насколько мтДНК расходится с идеальной случайной пос-тью рассчитаем "5 (I ) -составные события Идеальной Случайной Пос-ти (ИСП) по формуле 11. По формуле 11 [3] рассчитывают число составных событий по отдельности для каждой из четырёх равновероятных букв ( I = {Л , С, С, 7} ) когда они образуют ИСП с числом всех букв (длиной пос-ти): МмтдНК; выпадение каждой буквы ( I = {Л , С, С ,7}: V = 4) равновероятно:
1 (V-1)2
fi С- с Г ) - ± . . Л/ Ф11
чР (Г + ! ЛмтДНК Ф-11
Где: п - число букв в составном событии "5 (I ) , т - теоретическая величина; V - число элементарных событий, для ДНК У=4; МмтдНК - число нуклеотид.
КДП
я т5(1 ) из ф. 11, рассчитаем, по формуле 12, энтропию теннинй.
буквы:
Зная "5 (I ) из ф. 11, рассчитаем, по формуле 12, энтропию Шеннона: ИН (I ) по отдельности для каждой
КПП V iS (Л) ■ п ?S(ЛЛ) ■ п
^Н (Г ) - --г 0 5 4 V Ф.12
Где: КДП
- энтропия Шеннона для одной из четырёх нуклеотид. £5 - составные события образованные одной из четырёх букв, подробно описаны выше. Полная энтропия Шеннона (ЛСС7) для мтДНК, формула 13, образуется как сумма частных энтропий полученных по формуле 12.
v=4Н (л С G7) - v=4 Н (л ) + v=4// ( С) + v =4Н ( G) + v 14// (7) Ф.13
В ИСП все частные энтропии равны друг: ТеорН (ЛС С7) = 4^ д}Н (I ) , запишем это развёрнуто в формуле 14 (эта формула только для ИСП):
Z J (L ) ■TL
N ■ iog4
V=4
S(L) ■ n nS(L) ■ n
' Ф.14
N
Где: "5 (I ) - рассчитывается по формуле 11.
В таблице 4, приведены энтропии рассчитанные для рассматриваемой в таблице 3 случайной пос-ти. Для частных энтропий расчёт по ф.12, полная энтропия И(АСвТ) рассчитана по ф.13. Как видно, энтропии случайной пос-ти имеют случайный разброс от теоретически рассчитанных значений: И(Ь)_:еог = 0,45; И(АСвТ) _еог = 1,80.
Таблица 4. Энтропии случайной пос-ти Е(У=4; N=20000000
H(A) = 0,451321 (ф.12) S4 teor = 15000000
H(C) = 0,451000 (ф.12) H(L) teor = 0,45
H(G) = 0,450666 (ф.12) H(ACGT) teor = 1,80
H(T) = 0,450673 (ф.12) GlobSum SS = 14999546
H(ACGT) = 1,803660 (ф.13) S4 эксп^4 teor = 0,9999697
Button361; IDEL ACGT.dat; Counter Bukv(ACGT) = 20000000
Расчёт мтДНК энтропий Шеннона. В таблице 5 приведены средние энтропии Шеннона по классам животных. Средняя энтропия по каждому классу рассчитывалась по 45 мтДНК энтропиям [4] (каждая из 45 энтропий, рассчитана по формуле 13).
Таблица 5. Средняя энтропия мтДНК по классам животных
Roundworms 1,981495149 Reptiles 1,878134895
Insects 1,931876339 Fungi Ascomycetes 1,857630617
Fungi Basidiomycetes 1,918323476 Birds 1,84506267
Land Plants 1,917434239 Mammals 1,842519908
Amphibians 1,89987545 ИДЕАЛ ACGT 1,80
Fishes 1,891324328 Fungi Ascomycetes Candida 1,735756782
Из таблицы 5 видно, что средняя энтропия по классам животных отличается максимум на 10% от уровня 1,80 - энтропии идеальной случайной пос-ти, энтропии отдельных мтДНК имеют больший разброс от уровня энтропии ИСП.
Энтропия мтДНК на основе числа Эйлера. Выше уже была рассчитана энтропия мтДНК, но можно получить запись величины энтропии мтДНК в наиболее привычной научной форме, на основе числа «е», формула 4. Для того чтобы описывать бинарную КДП энтропию Шеннона для мтДНК пос-тей, надо ДНК алфавит: А; С; в; Т перевести в бинарный формат. Преобразовать четырёхбуквенную мтДНК запись к бинарному виду можно: 4! = 24 способами. Для полученных результатов в таблице 6, было произведено следующее одно преобразование (из 24 возможных): , в результате
которого мтДНК принял бинарную форму записи (она обладает обратной восстанавливаемостью, из неё однозначно получается мтДНК запись в А; С; в; Т алфавите).
В таблице 6, в столбце 1, показана очень удобная, энтропийная степенная запись на основе числа е, которая компактно идентифицирует мтДНК различных классов животных, например:
, она имеет коренную связь с каждым мтДНК, которую она обозначает, так как получена в результате нахождения энтропии конкретно каждой мтДНК, и является числовой величиной энтропии этой мтДНК, фактически в таблице 6 даны криптографические хэши нескольких мтДНК.
В статье [5] на основе рассчитанной средней и максимальной энтропии класса была построена пос-ть появления классов животных на Земле, а также время существования каждого класса, но в таблице 6 приведена запись энтропий без построения их в хронологическую пос-ть.
Для сравнения энтропий мтДНК родственных существ, в строках 1 и 2 таблицы 6 приведены энтропии мтДНК: неандертальского человека - Н (Б 0 + Б 1 ) = е 1,0 5 0 0 7 3 , и человека современного. Человек современный представлен двумя мтДНК: е 1,04 8 1 8 5; е 1,04 8 1 8 5. У неандертальского человека степень энтропии мтДНК больше, чем у современного человека: . На примере мтДНК
современного человека подчеркнём, что КДП - энтропия различает ДНК не только представителей разных классов [6], но и ДНК отдельных особей вида (если ДНК отличается хотя бы одной буквой).
Таблица 6. Пример КДП - энтропии мтДНК на базе числа «е»
Энтропия и её запись посредством «е» Значения энтропии
1 Mammals Homo sapiens neanderthalensis H(S0+S1) = 2,85785917546007; H(S0 + S1) =e1'050073 H(0) = 2,06783958218972 H(1) = 1,77077701858322 H(0) + H(1) = 3,83861660077294
2 Mammals Homo sapiens 1 H(S0+S1) = 2,85246957456173; H(S0 + S1) = e1<048185 H(0) = 2,06882360601095 H(1) = 1,76404337405945 H(0) + H(1) = 3,8328669800704
3 Mammals Homo sapiens 2 H(S0+S1) = 2,85455597226013; H(S0 + S1) = £.1.048916 H(0) = 2,07114138073462 H(1) = 1,76345137467644 H(0) + H(1) = 3,83459275541106
4 Roundworms Aelurostrongylus abstrusus H(S0+S1) = 3,709089946095; H(S0 + S1) = e1-310787 H(0) = 1,48186668599867 H(1) = 2,99028248472314 H(0) + H(1) = 4,47214917072181
5 Insects Lycaena phlaeas H(S0+S1) = 3,42010124393832; H(S0 + S1) =e1.229670 H(0) = 2,10688960525994 H(1) = 2,29889883989543 H(0) + H(1) = 4,40578844515538
6 Land Plants Silene latifolia H(S0+S1) = 3,07153776722913; H(S0 + S1) =е1Д22178 H(0) = 2,01188975254497 H(1) = 2,05691411033977 H(0) + H(1) = 4,06880386288474
7 Amphibians Limnonectes fujianensis H(S0+S1) = 2,99966126082246; H(S0 + S1) = e1-098499 H(0) = 1,96072819924407 H(1) = 2,0295987018684 H(0) + H(1) = 3,99032690111248
8 Fishes Icelus spatula H(S0+S1) = 2,87683769171626; ы — „1,056692 nSS( 0+1) — e H(0) = 1,93622999186467 H(1) = 1,9333654324876 H(0) + H(1) = 3,86959542435228
9 Birds Otis tarda H(S0+S1) = 2,84240433331868; H(S0 + S1) = e1,0446500 H(0) = 2,07522555595517 H(1) = 1,73782654781985 H(0) + H(1) = 3,81305210377502
10 Reptiles Gekko gecko mitochondrion H(S0+S1) = 2,93439337488042; H(S0 + S1) = £.1.076501 H(0) = 2,07442581838486 H(1) = 1,84616413688596 H(0) + H(1) = 3,92058995527082
p=Mas[i]*i/N)*log(p)/log(2) Mas0[i]*i/N)*log(p)/log(2); Mas1[i]*i/N)*log(p)/log(2)
А —0 0 ; С —0 1 —1 0 ;Т—1 1;
С:\! ГЕНОМШАТ Моя накачка ОБРАБОТАНО\ИЗ АСОТ в БИНАРНЫЙ ФОРМАТ; Вийоп118; Вийоп369
Если применение константы Эйлера для описания ДНК является новым в биоинформатике и генетике, то в физике наоборот, очень распространены формулы с числом «е». Выше был показан физический смысл числа «е» (формула 4), число «е» — это энтропия случайных составных событий КДП.
Надо отметить, что для идентификации ДНК не всегда достаточно брать только одно преобразование ДНК в двоичную систему, в статье было рассмотрено одно преобразование:
1 1 . Если к этому преобразованию добавить ещё 23 оставшихся возможных преобразования (пример по «А»: А — 0 0 ; А — 0 1 ; А — 1 0 ; А — 1 1 ), то полученная система из 24-х КДП - энтропий будет идентифицировать любые два ДНК, различающиеся одним нуклеотидом (различие в одной букве). В полученной системе из 24 КДП - энтропий обязательно будут состояния чувствительные к данной единичной мутации. Поэтому, для ДНК идентификации отдельных особей одной популяции (или прослеживание поколений особей) в которой много близкородственных особей, нужно использовать систему из 24 КДП - степенных бинарных энтропий.
В то же время, система всего из четырёх КДП - энтропий: Н(А), Н(С), Н(в), Н(Т) также идентифицирует ДНК с различием всего в одной букве: ^^ Н = ^Н + ^^Н + ^^Н + ^^Н, [5]. Но, существуют Групповые «Скоординированные» мутации (ГС - мутации). ГС - мутации так меняют содержание «нужных» нуклеотид в «нужных» местах ДНК, что баланс и численность составных событий не изменяется, и не меняется и КДП - энтропия. Пример ГС - мутации: было - «ТААС'С'ООТТ». стало после ГС - мутации «Т ССААООТТ » (АА и СС поменялись местами). Выявить ГС - мутации может цуговый КДП анализ [1; 2] и цуговая КДП - энтропия. Объём статьи не позволяет рассказать о более продвинутой цуговой КДП форме деления пос-тей на базовые блоки. Но два слова о цугах надо сказать, так как на их основе разработаны фильтры для идентификации мтДНК [6].
На основе КДП - цуг дано уникальное для теории вероятности определение случайных пос-тей, его уникальность заключается в том, что оно базируется на формулах, и применяя это определение и формулы расчёта можно алгоритмически создавать пос-ти идентичные случайным. КДП определение случайной последовательности. Если для исследуемой пос-ти выполняются условия: в любом произвольном, достаточно длинном, участке пос-ти числа составных событий и цуговых цепочек близки значениям полученным по формулам КДП, и частные цуговые энтропии Шеннона (сложность) близка значениям идеальной пос-ти, то такая пос-ть случайна.
Действительно, если по КДП алгоритмам и цуговым формулам можно строить неограниченное по численности множество пос-тей, которые идентичны случайным пос-тям, то можно заявить, что секрет случайных пос-тей раскрыт, а полученные знания о случайности начинают применятся, в частности, для ДНК исследований.
Другие КДП определения числа е при У=2.
Кроме самого простого определения числа Эйлера данного в формуле 4, в КДП можно дать ещё другие определения числа е, коротко приведём их здесь.
Определение числа «е» через геометрическую вероятность: пС.
В КДП открыт новый тип вероятности. Случайные результаты событий - очередь событий, в своём пространстве событий обладает свойствами геометрической вероятности [2]: п С. По этому основному свойству нового типа вероятностей он был и назван - «Геометрическая вероятность». По формуле 15 определяют мат. ожидание числа геометрических составных событий :
Где: 2 - число внедрений в случайную пос-ть.
Видно, что формулу 4 можно переписать через геометрическую вероятность , получим формулу 16:
Обсуждение
Ф.15
Ф.16
п=1
п=1
Определение числа е через частоты Мизеса п/. В КДП, для работы с бесконечными случайными постами введены частоты Мизеса, которые определяются по формуле 17:
"5 N 1 1 п /• = — =- ■ — =--Ф.17
' N 2п+1 N 2п+1
Подставляя частоту Мизеса п/ = в формулу для энтропии 4, получим выражение энтропии для бесконечной случайной бинарной пос-ти, формула 18:
Н
Заметим, что частота Мизеса умноженная на n является геометрической вероятностью: n G = n/ ■ п =
п
В статье при выводе энтропии мтДНК и получении числа е происходит отсылка к КДП - Комбинаторике длинных пос-тей. В двух словах, КДП - это система из недавно экспериментально открытых, в потоках случайных значений, законов вероятности и описывающих их формул. Выводы
1) Представлен новый вывод числа Эйлера - «е», на основе случайных бинарных потоков и энтропии Шеннона.
2) Случайная последовательность - это результат физических процессов, показано, что число «е» является итоговой суммой случайных физических результатов.
3) Информационная энтропия Шеннона для случайной бинарной последовательности стремится к числу Эйлера, «е», при её расчёте на основе КДП фрагментации.
4) Для идентификации ДНК отдельных особей одной популяции, нужно использовать систему из 24 бинарных энтропий на основе числа «е».
5) Система из четырёх КДП - энтропий: H(A), H(C), H(G), H(T), обеспечивает идентификацию ДНК отдельных особей.
6) На основе энтропии Шеннона и числа «е» представлен новый способ описания и классификации ДНК, который является хэш подписью для ДНК.
7) Показана взаимосвязь КДП частот Мизеса, КДП геометрической вероятности и числа Эйлера «е».
Список литературы /References
1. Филатов О.В., Филатов И.О. О закономерностях структуры бинарной последовательности. «Журнал научных публикаций аспирантов и докторантов», 2014. № 5 (95). С. 226 - 233.
2. Филатов О.В., Филатов И.О. Закономерность в выпадении монет - закон потоковой последовательности. Германия. Издательский Дом: LAPLAMBERT Academic Publishing, 2015. С. 268.
3. Филатов О.В. Описание структур любых последовательностей образованных равновероятными случайными событиями. «Проблемы современной науки и образования». № 5 (138), 2019. С. 9-15. DOI: 10.24411/2404-2338-2019-10501.
4. АДРЕСС БД ДНК: https://www.ncbi.nlm.nih.goV/genome/browse#l/organelles/ (дата обращения: 01.03.2020).
5. Филатов О.В. Применение энтропии Шеннона и КДП комбинаторики в ДНК анализе для выявления биологических классов, энтропийная шкала классов. «Вестник науки и образования». № 7(127), 2022.
6. Филатов О.В. Применение структур случайных последовательностей для описания свойств мтДНК и определения принадлежности отдельных мтДНК к их хозяйской группе животных. «Проблемы современной науки и образования». № 5 (150), 2020. С. 6-12.