ОПРЕДЕЛЕНИЕ СТЕПЕНИ СЛУЧАЙНОСТИ БИНАРНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ ПУТЁМ СРАВНЕНИЯ ВЕЛИЧИНЫ ЕЁ КДП-ЭНТРОПИИ С ЗНАЧЕНИЕМ ЧИСЛА ЭЙЛЕРА - «Е»
Филатов О.В.
Филатов Олег Владимирович - консультант по КДП - комбинаторике,
ООО «Физическая исследовательская лаборатория экспериментальной комбинаторики информатики»,
ООО «Прог-рам», г. Москва
Аннотация: в статье описан способ быстрого и простого определения степени случайности любой бинарной последовательности, для этого задействована энтропия Шеннона и Комбинаторика длинных последовательностей, итоговый результат получается в виде одного числа, которое сравнивается с величиной константы Эйлера, показано, что степень случайности бинарной последовательности определяется величиной отклонения значения её энтропии от числа Эйлера - «е», чем больше отклонение, тем менее случайной является исследуемая последовательность.
Ключевые слова: бинарная случайная последовательность, случайная последовательность, ДНК, мтДНК, КДП, число Эйлера, комбинаторика, энтропия.
DETERMINING THE DEGREE OF RANDOMNESS OF A BINARY SEQUENCE BY COMPARING THE VALUE OF ITS CDP - ENTROPY WITH THE VALUE OF THE
EULER NUMBER - "E" Filatov O.V.
Filatov Oleg Vladimirovich - Consultant for CLS - combinatorics,
LLC "PHYSICAL RESEARCH LABORATORY OF EXPERIMENTAL COMBINATORICS OF INFORMATICS",
LLC "PROG-RAM", MOSCOW
Abstract: the article describes a method for quickly and easily determining the degree of randomness of any binary sequence, for this, Shannon's entropy and Combinatorics of long sequences are involved, the final result is obtained as a single number, which is compared with the value of the Euler constant, it is shown that the degree of randomness of a binary sequence is determined by the magnitude of the deviation of the value its entropy from the Euler number - "e ", the greater the deviation, the less random is the sequence under study.
Keywords: binary random sequence, random sequence, DNA, mtDNA, CDP, Euler number, combinatorics, entropy.
УДК519.115.8; 519.21; 575.112
Сокращения: КДП - комбинаторика длинных последовательностей; СС - составное событие; эл -элементарное событие; элементар - элементарное событие, эл; пос-ть - последовательность.
Введение
Комбинаторика длинных последовательностей (КДП) - это теория, которая объясняет и объединяет все основные свойства случайных пос-тей. Одним из основных достижений КДП стала демонстрация того, что законы физики, в записи которых присутствует константа Эйлера - «е», являются следствием потока вероятностных событий. Развивая взаимосвязь вероятностных потоков с числом «е», на основе базовой формулы КДП и энтропии Шеннона, предложен способ оценки случайности пос-тей.
Понятие энтропии динамично развивается, энтропию пытаются применить в тех областях науки в которых её раньше не применяли, для расчёта самой энтропии вводятся всё новые и новые формулы. В настоящий момент существует множество принципиально, качественно различающихся оснований, по которым производится энтропийный расчёт. Энтропию связывают с энергий. Энтропию связывают с физическим расположением атомов, молекул, частиц. Энтропию рассчитывают для информационных данных. Энтропию рассчитывают для поведенческих реакций социальных групп и т.д. Поэтому, применении энтропии Шеннона к базовым комбинаторным объектам - составным событиям, из которых образованны любые пос-ти, является естественным шагом.
В статье, на основе экспериментальных данных, показан очень простой способ определения степени случайности бинарной последовательности через расчёт её КДП - энтропии. Причём, совершенно ожидаемо, что случайные бинарные пос-ти имеют величину энтропии равную и близкую к величине числа Эйлера -«е». Чем сильнее отличается энтропия исследуемой бинарной пос-ти от величины «е», тем менее случайна бинарная пос-ть. Сравнении КДП - энтропии с константой «е» является простым способом определения степени случайности бинарной пос-ти и является безусловным шагом вперёд в сравнении с наиболее известными четырьмя способами определения случайности пос-ти: по частотоустойчивости, по хаотичности, по типичности, по непредсказуемости элементарных членов пос-ти (которые, безусловно,
относятся к прошедшей эпохе первоначального, созерцательного знакомства со свойствами случайных пос-тей).
Поскольку мтДНК пос-ти в высокой степени обладают свойствами случайных пос-тей, то характеристики мтДНК широко используются в материале статьи для раскрытия связи случайных пос-тей с числом Эйлера.
Основная часть
Любая случайная пос-ть состоит из коротких монотонных серий, которые в КДП называются составными событиями "5, где п - число элементарных событий в составном событии (монотонной серии) [1-3]. Для краткости в КДП элементарное событие называется - элом, например: шесть эл. Пример разложения бинарного пос-ти на составные события: «110011101010000» ^ «11» + «00» +«111» +«0» +«1» +«0» +«1» +«0000» ^ 25 + 25 + 35 + х5 + х5 + х5 + х5 + 45, числами обозначено число эл в составном событии.
В любой достаточно длинной случайной пос-ти из N эл, в том числе и в СБП (как в частном случае случайной пос-ти), численность составных событий "5 регулируется величинами: V - число равновероятных исходов (вершин); N - число членов пос-ти (длина пос-ти в элах); п - число эл в составном событии данной длины, и рассчитывается по ф.1.1 [3].
ч (V -1)2 N , "5 (У=2 )=--—-Л/=--Ф.11
т 1 ' уп+1 " 2п+1
Где: п - число одинаковых элементарных исходов (эл), образующих составное событие "5 (V) , т -обозначает, что эта величина теоретическая; - число равновероятных уникальных событий (вершин), из которых образована случайная пос-ть, для СБП: V=2.
Пример расчёта составных событий "5 в СБП (У=2) по ф.1.1. Для бинарной пос-ти: V=2 (у монеты две стороны), при рассмотрении структуры пос-ти, полученной в результате выпадения сторон кубика: V=6 (у кубика шесть сторон). Для расчёта численностей составных событий "5 в СБП по ф.1.1 символ V заменяем на число равновозможных исходов, на два [3]. В таблице 2, в столбце «"5 (V = 2 ) » представлены численности математических ожиданий составных событий СБП рассчитанные по ф.1.1, для СБП с числом эл (длиной) N =12000. Для расчёта числа составных событий "5, по ф.1.1, образованных из шести одинаковых эл: п = 6 («000000»; «111111»), подставим набор значений: V=2; N=12000; п = 6 , в ф.1.1,
— (2 —I)2
получим: "=®5 = —^гг ■ 12 000 = 9 3,75, смотри таблицу 2.
В «Комбинаторике длинных последовательностей» (КДП) [1-3] есть два способа оценки степени случайности пос-ти:
1) учёт разностей между теоретически рассчитанными математическими ожиданиями составных событий "5 (ф.1.1) исследуемой пос-ти и соответствующими им численностями "5 реальных составных событий пос-ти, ф.1.2;
2) расчёт КДП - энтропии исследуемой пос-ти по ф.2.3 и сравнения её с числом Эйлера - «е».
В первом способе, ф. 1.2, учитывают отклонения составных событий пос-ти от их математического ожидания , рассчитываемого по ф. 1.1:
Д "5 = "5 - "5
Ф.1.2
Для расчёта надо из значений столбца « » таблицы 2 вычитать значения из столбца других
столбцов. Например: Д 65 (Я ) = ®5 — |5 (Я ) = 93 - 101 = - 8 (эта разность получилось отрицательной).
По ф. 1.3 в КДП рассчитывается отклонение по элементарным событиям в -ой моде ( - составные события анализируемой пос-ти):
Д Пп = ("5 - п5) ■ п
Ф.1.3
Пример работы ф. 1.3 можно посмотреть в [4], где исследовались отличительные особенности мтДНК для разных классов живых существ, по которым человек визуально, без помощи компьютера, может определять класс организма. Для такого прорывного способа отображения мтДНК были построены по ф. 1.3 графики отклонений от идеальной случайной пос-ти. Для работы с ф.1.2 и ф. 1.3 численность "5 получаем по ф.1.1.
Второй способ оценки степени случайности последовательности в КДП - это расчёт её КДП - энтропии Н (5) [4, 5]. У случайных бинарных пос-тей КДП - энтропия Н (5) близка к числу Эйлера - «е», смотри таблицу 1. В таблице 1, в строке «А», дана величина энтропии Н (5) = 2,72791173335753, она принадлежит созданной компьютером случайной бинарной пос-ти, диной: N = 1 , 2 ■ 1 04 эл. Отметим, что значения КДП -
энтропий, получаемых экспериментальным путём пос-тей, может быть как больше величины «е», так и меньше величины «е».
Рассмотрим, как при изменении только одного бита в префиксе, изменяется энтропия всей пос-ти из 2 ■ 1 О4 эл. В столбце «Префиксы», в строке «А», содержится начальный фрагмент пос-ти: «1111001», а в строках «В» - «Е» его последующие модификации. То есть, префикс «А» побитно изменялся для последовательностей: «B» - «Е» (в столбце «Префиксы» подчёркнуты последовательные изменения на один бит). Вся остальная часть пос-тей, после префиксов, для всех пос-тей одна и та же (одинакова). Столбец «Я (5) , ф.2.3» содержит значения энтропий для пос-тей с различными префиксами, рассчитанные по ф.2.3.
Таблица 1. Энтропии СБП, N = 1 , 2 ■ 1 О 4 эл, различие СБП в префиксах
Имя СБП Префиксы Н (5) , ф.2.3 Трансформация СБП Изменение Н ( 5)
А 1111001.. 2,72791173335753 А эталон
В 1011001.. 2,72761661166474 А В уменьшилась
С 1001001.. 2,72761661166474 В С неизменна
Б 1000001.. 2,72828951871521 С ^О выросла
Е 0000001.. 2,72875141470184 О Е выросла
О 1010101.. 2,72760935517226 Н(А) > Я(б) уменьшилась
N=12000; Величины Я (5) рассчитаны по ф.2.3; Вийоп369; «1001001 С b21.dat»
В столбце «Трансформация СБП» (кроме строки «О») показаны наследственные отношения префиксов. В столбце «Изменение Я (5) » подведён итог изменения энтропии при изменении значения одного бита в префиксе (кроме «О»).
Префиксы в таблице 1 представлены только для простоты демонстрации изменений величины энтропии Я (5) СБП. К изменению энтропии приводят изменения в любом месте пос-ти. Но, в строке «С», показано битовое изменение, не приведшее к изменению величины энтропии от предыдущего состояния «В». Для учёта таких изменений в СБП разработан более чувствительный цуговый аппарат (его описание требует большего формата и не подходит для этой обзорной статьи о КДП - энтропии).
Энтропию Шеннона Я (5) в КДП рассчитывают как сумму вероятностей выпадения составных событий "5 [1-3]: пр ("5) = ф.2.1 (в СБП сумма энтропий по всем модам "5 стремится к «е» - числу Эйлера) [5]:
п-> оэ п-> оэ
я(5)=-Х(пр)^о§2 (ир=- Е^^^-е Ф2Л
п=1 п=1
Где: пр - вероятность выпадения составного события "5 в СБП.
Покажем получение величины вероятности: пр = в ф.2.1. Так как вероятность моды (составных событий "5) пропорциональна занимаемой части пос-сти из N эл, то необходимо рассчитать длину всех "5 в элах (геометрическая вероятность). Для этого умножаем число составных событий рассчитанных по ф.1.1 (или полученных при просмотре исследуемой пос-ти) на число - эл в составном событии данной моды:
т^ гп П П /-« -V т Т,-> П Т,->
— ■ п. Теперь, вероятность ' р поручится как отношение: "5 ■ п, к длине пос-ти N то есть: ' р = = ■" = . Исходя из этого перепишем ф.2 . 1 в виде ф.2 .2 :
п-> оэ п-> оэ
Я (5) = — Е ( "р ) ■ 1 о ё 2 ( "р ) = — Ф2.2
п=1 п=1
Для нахождения КДП - э нтропию Шеннона Я (5) исследуемой пос-ти теоретическое число "5 составных событий (СС), ф.2.2, заменяется на "5 - число экспериментально найденных СС в исследуемой пос-ти, которое будем обозначать буквой «э» в левом нижнем углу - , ф.2.3:
п =ттг
;5 ■ п "5 ■ п
Ф.2.3
■ п
V10®
N
Где: - число СС, найденных в исследуемой пос-ти, например в ДНК.
По ф.2.3 были рассчитаны энтропии для таблицы 1. Раскладка по численностям составных событий для пос-тей «А» - «О» из таблицы 1, приведены в таблице 2. В столбце "5 (V = 2 ) даны математические ожидания составных событий дли идеальной СБП рассчитанные, с отбросом дробной части, по ф.1.1.
Таблица 2. Раскладка СБП из таблицы 1 по составным событиям
п П5(А) П5(В) П5(С) n5(D) П5(Е) П5(0) ?S(V = 2), ф.1.1
1 2 3 4 5 6 7 2934 1447 763 395 189 100 45 2936 1448 763 394 189 100 45 2936 1448 763 394 189 100 45 2935 1446 763 394 190 100 45 25 12 5 2 4 2934 1446 763 394 189 101 45 25 12 5 2 4 2940 1446 763 394 189 100 45 25 12 5 2 4 3000 1500 750 375 187 93 46 23 11 5 2 1
8 25 25 25 1 1 1
9 12 12 12 5 2
10 5 5
11 2 2 4 1
12 4 4
14 1 1
Сумма 5922 5924 5924 5922 5921 5926 5993
H(S) 2,72791 2,72762 2,72762 2,72829 2,72875 2,72761 2,71828
N=12000; Величины Н (5) рассчитаны по [).2.3; Button369; «1001001 С b21.dat»
Из таблицы 2 видно, что замена одного бита приводит к изменению численности составных событий "5 в раскладке СБП. В случае префиксов «В» и «С» этого не произошло, цуговый аппарат для обнаружения изменений энтропии для случаев «В» и «С» есть, но в этой статье не приводится.
Для примера, найдём по ф.2.3 энтропию для двух наиболее известных не случайных пос-тей, которые фигурируют в каждой популярной лекции о вероятностях. По критерию сложности Колмогорова у пос-ти «11111...» из N единиц, и у пос-ти «10101...» из N чередующихся единиц и нулей, низкая сложность, и как показал КДП расчёт - энтропии равны нулю, то есть эти две пос-ти полностью упорядочены и совершенно не случайны.
Расчёт по ф.2.3 энтропии пос-ти «11111.». Так как вся N пос-ть состоит из единиц «1», то в ней одно единственное составное событие n=i^5 = 1 , длины п = N. Поэтому в ф.2.3 не будет ряда суммы, а останется
гт^ч "S-n , "Sn _ , .. 'JSn 1-Я . _
один член: Н(5) =--— ■ log 2 . Так как "5 = 1, и: п = Л/, то: = — = 1 . Подставляем полученную
единицу: Н (5) = — 1 ■ log 21 = — 1-0 = 0.
Расчёт по ф.2.3 энтропии для пос-ти: «10101.». Так как число составных событий: n=х5 = N , то в ф.2.3
nSn nSn -i
не будет ряда суммы, а останется только один член: Н (5) = —■ l o g 2 Подставим значения n " х5 = N
nS-7l N-1
и п =1 в дробь: -— = — = 1 . Подставляя полученную единицу в ф.2.3 найдём энтропию: Н (5 ) = — 1 ■ log 2 1 = — 1-0 = 0N N
Обсуждение
Как было уже написано в разделе «Введение», расчёт энтропии можно проводить по разным логическим сущностям. Раскрытая в этой статье КДП - энтропия базируется на логических сущностях, которые получили название «Составные события». Данный тип КДП - энтропии был здесь описан по причине лёгкости и компактности материала, в то же время он достаточен, что бы познакомить читателей с современными прорывными достижениями в теории вероятности и её применений в области генетики и классификации классов живых существ по величине энтропии их мтДНК [4, 5].
Применение только уровня составных событий не может отследить некоторые однобитовые изменения в пос-тях. Для отслеживания при помощи чисел любых изменений в пос-ти нужно приводить более объёмное описании КДП - энтропии, базирующейся на понятии цуг составных событий. Именно на цуговом уровне создан принципиально новый алгоритм по генерации псевдослучайных пос-тей, который использует только открытые в КДП законы, и описывающие их формулы. Приведём цуговое определение случайной пос-ти, на основе которого (на основе цуговых формул [2, 3]) был создан алгоритм генерации псевдослучайных пос-тей.
КДП определение случайной последовательности. Если для исследуемой пос-ти выполняются условия: в любом произвольном, достаточно длинном, участке пос-ти числа составных событий и цуговых цепочек
близки значениям полученным по цуговым формулам КДП, и частные цуговые энтропии Шеннона (сложность) близка значениям идеальной пос-ти, то такая пос-ть случайна.
Это определение справедливо не только для бинарных пос-тей, оно охватывает пос-ти с любым числом вершин V (равновероятных элементарных исходов) [3]. В приведённом определении нет числа Эйлера «е», так как при переходе на другие логические основания или на другое количество вершин (V не равно двум), число «е» перестаёт быть значением энтропии случайной пос-ти. Так, например, в случайной пос-ти с четырьмя равновероятными исходами (У=4) КДП - энтропия равна 1,80 [5].
Кроме зависимости от числа вершин V величина энтропии зависит и от способа расчёта вероятности. Так при изменении способа расчёта вероятности в ф.2.3, когда в знаменателе полное число эл N заменяем на
/п5\ п5
полное число составных событий 8, величина энтропии становится равной двум: Я (—^ = — £
пБ
1 о ё 2 — = 2 , смотри работу [5].
В работе [4] энтропия рассчитывалась по формуле где: V=4, вероятность рассчитывалась не по N - числу
эл, а по числу составных событий 8: КД^Я = —£ "= 1"]г' 1оё4-*р и для каждого нуклеотида идеальной
мтДНК, а затем суммировалась для всех букв: ^^Я = КД^Я + КД^Я + КД^Я + КД^Я = 1,540891, то есть при таком наборе данных для расчёта энтропии, величина энтропии не равна числу Эйлера.
Из-за базовой значимости константы «е» для науки, в данной статье рассматривался набор условий:
1) V=2 - рассматривается бинарная пос-ть;
2) пр = / ^ ) - вероятность рассчитывается относительно полной длины пос-ти N.
Этот набор условий приводит к величине энтропии для СБП равной числу Эйлера - «е».
В таблице 1, в столбцее «Трансформация СБП» показаны пошаговые битовые переходы трансформирующие пос-ть «А» в пос-ть «Е». Рассматривая эти переходы очень интересно рассуждать о законе увеличения (не уменьшения) энтропии в замкнутых системах. Если предположить, что описанная в таблице 1 пос-ть характеризует не живую материю в замкнутой системе, то из закона увеличения энтропии следует, что в рассматриваемой физической сущности (которую абстрактно отображает эта бинарная пос-ть) невозможны изменения из состояния «С» в состояние «Б», и из состояния «Б» в состояние «Е», так как такие переходы приводят к увеличению энтропии (столбцы: «Я (5) , ф.2.3» и «Изменение Я (5) »).
С другой стороны мы получили, что энтропии двух абсолютно не случайных пос-тей: «11111...» и «101010...» (можно добавить и пос-ти: «00000.» и «01010.») равны нулю, поэтому для них совершенно естественны «мутации» с ростом энтропии с уровня 0 до уровня «е». Исходя из этого соображения можно предположить, что в неживых, замкнутых системах возможен самопроизвольный рост КДП - энтропии (КДП - энтропия стремится увеличиться) с уровня 0 до уровня «е»: Н(0) . И также справедливо предположить, что в неживых, замкнутых системах КДП - энтропия стремится самопроизвольно уменьшиться с уровня большего, чем «е», обозначим его Н(Big), до уровня «е»: Н(Big) — е.
Объединим эти два предположения о изменении КДП - энтропии для бинарных неживых объектов в замкнутых системах в виде одной ф.3.1:
Я ( О ) — е — Я (В ¿д ) Ф.3.1
Формула ф.3.1 показывает, что КДП - энтропия бинарных неживых объектов будет иметь тенденцию изменяться до величины числа Эйлера - «е» с обеих сторон (как расти от уровня 0, так и уменьшаться с уровня В ¿д ). В качестве примера существования бинарных пос-тей с КДП-энтропией большей по величине чем число «е», можно привести величину ДНК - энтропии бинарной развёртки мтДНК неандертальца: Нн = 2,8579 и червя Aelurostrongylus Нч = 3,7091 [5]. Интересно отметить, что уровень КДП-энтропии
мтДНК червя Нч гораздо более «живой» чем у неандертальца Нн: Нч > Нн = е. А также, что мтДНК неандертальца первоначально принадлежал живому объекту, но секвенирование и получение Нн было произведено из неживого объекта. Так что один и тот же уровень Н может принадлежать двум состояниям материи. Также заметим, что длительность хранения во времени у носителя Нн десятки и сотни тысячелетий, что невозможно для сохранности в нормальных климатических условиях для физической структуры с величиной ДНК - энтропии Нч.
Таким образом, КДП - энтропия может в неживых замкнутых системах как расти, так и уменьшаться. Поэтому, по крайней мере для информационной КДП - энтропии, необходимо модернизировать закон о однозначном росте (не уменьшении) энтропии не живых объектов в замкнутой системе, так как КДП -энтропия бинарных объектов может быть как больше значения «е», так и меньше значения «е» - уровня КДП - энтропии случайной бинарной пос-ти. Уровень КДП - энтропии, равный по величине «е», можно сравнить в физических терминах с нулевым «энергетическим уровнем», к этому уровню равновесия по законам физики самопроизвольно приходят сложные системы. То есть, КДП - энтропия неживых бинарных систем должна в замкнутых системах не только расти, но и уменьшаться до величины «е».
В таблице 1 продемонстрирована чувствительность бинарной КДП - энтропии к побитовому изменению информации. Абсолютной чувствительностью к изменению информации обладают цуговые бинарные КДП
- энтропии. Но, исследовать ДНК удобнее не в бинарных КДП - энтропиях. Интересно в свете закона о росте энтропии посмотреть последовательные мутации вирусов, особенно коронавируса. В качестве демонстрации работы более мощной, не бинарной КДП - энтропии можно посмотреть статью [4].
Хочется верить, что с появлением КДП, теория вероятности (ТВ), как наука, сейчас находится на сломе своей средневековой эпохи. Хотя старые (архаичные) знания этапа первоначального накопления информации всё ещё наполняют учебники и лекции и всё ещё блокируют фундаментальные, новые открытия КДП, но вот-вот начнётся уход от первичных мифов и заблуждений к новым знаниям, как это было в Европейской науке средних веков, несмотря на инквизицию, которая преследовала открытия и в течение нескольких сотен лет внедряла на академическом уровне исторические заблуждения человечества. Средневековая Европа могла позволить себе несколько веков застоя, но вряд ли это может себе позволить в современной политической ситуации РФ, при бешеной мировой гонке внедрений новых научных знаний в военную технику. Выводы
- КДП - энтропия случайной бинарной последовательности равна числу Эйлера «е», с точностью до случайной флуктуации.
- Отклонение значения КДП - энтропии экспериментальных случайных последовательностей могут отличаться от уровня КДП - энтропии идеальной случайной последовательности как в большую, так и в меньшую сторону.
- Степень случайности бинарной последовательности определяется величиной отклонения значения её КДП - энтропии от числа Эйлера - «е», чем больше отклонение, тем менее случайной является исследуемая последовательность.
- По величине КДП - энтропии можно определять как случайные, так и детерминированные бинарные последовательности.
Список литературы /References
1. Филатов О.В., Филатов И.О. О закономерностях структуры бинарной последовательности. «Журнал научных публикаций аспирантов и докторантов», 2014. № 5 (95). С. 226-233.
2. Филатов О.В., Филатов И.О. Закономерность в выпадении монет - закон потоковой последовательности. Германия, Издательский Дом: LAPLAMBERT Academic Publishing, 2015. С. 268.
3. Филатов О.В. Описание структур любых последовательностей образованных равновероятными случайными событиями. «Проблемы современной науки и образования», № 5 (138), 2019. С. 9-15. DOI: 10.24411/2404-2338-2019-10501.
4. Филатов О.В. Применение энтропии Шеннона и КДП комбинаторики в ДНК анализе для выявления биологических классов, энтропийная шкала классов. «Вестник науки и образования». № 7(127), 2022. С. 18-29.
5. Филатов О.В. Применение энтропии Шеннона и числа Эйлера «е» для описания случайных последовательностей и мтДНК, получение числа «е» через энтропию Шеннона. «Вестник науки и образования». № 7(127), 2022. С. 29-40.