Научная статья на тему 'О СТРУКТУРЕ И ЭНТРОПИИ СЛУЧАЙНЫХ БИНАРНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ'

О СТРУКТУРЕ И ЭНТРОПИИ СЛУЧАЙНЫХ БИНАРНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ Текст научной статьи по специальности «Математика»

CC BY
15
4
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
Вестник науки
Область наук
Ключевые слова
энтропия Шеннона / информационная энтропия / случайная последовательность / комбинаторика / длинные последовательности / составные события / константа Эйлера / бинарная последовательность / Shannon entropy / information entropy / random sequence / Combinatorics / long sequences / compound events / Euler's constant / binary sequence

Аннотация научной статьи по математике, автор научной работы — Филатов О. В., Кульгускин О. В., Симонян Г. С.

Целью исследования является ввод понятия и определение элементарного случайного события как простейшего неделимого объекта. Показано, что свойства элементарного случайного события отличаются от свойств бита. Установлено, что деление бинарной случайной последовательности на монотонные цепочки (составные события) отвечает характеристикам энтропии. Показано, что не профильное применение формулы информационной энтропии Шеннона к элементарному случайному событию, привело к неслучайным результирующим значениям. К существующим энтропиям добавлена новая энтропия комбинаторики длинных последовательностей, областью её применения являются длинные случайные последовательности, например, стохастический поток равновероятных бинарных событий или молекулы ДНК и мтДНК. Результатом применения информационной энтропии Шеннона к энтропии комбинаторики длинных последовательностей является константа Эйлера «е», что даёт этой константе вероятностно информационную размерность, так как она получена из вероятностной структуры случайной бинарной последовательности и информационной энтропии Шеннона. Для случайной бинарной последовательности раздельный расчёт энтропии Шеннона и энтропии комбинаторики длинных последовательностей приводит к одной величине.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Филатов О. В., Кульгускин О. В., Симонян Г. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE STRUCTURE AND ENTROPY OF RANDOM BINARY SEQUENCES

The purpose of the study is to introduce the concept and define an elementary random event as the simplest indivisible object. It is shown that the properties of an elementary random event differ from the properties of a bit. It has been established that the division of a binary random sequence into monotonic chains (composite events) corresponds to the characteristics of entropy. It is shown that a non-profile application of Shannon's information entropy formula to an elementary random event led to non-random resulting values. A new one has been added to the existing entropies the entropy of combinatorics of long sequences; its area of application is long random sequences, for example, a stochastic flow of equally probable binary events or DNA and mtDNA molecules. The result of applying Shannon's information entropy to the entropy of long sequence combinatorics is the Euler constant "e", which gives this constant a probabilistic information dimension, since it is obtained from the probabilistic structure of a random binary sequence and Shannon's information entropy. For a random binary sequence, separate calculation of the Shannon entropy and the combinatorics entropy of long sequences leads to one value.

Текст научной работы на тему «О СТРУКТУРЕ И ЭНТРОПИИ СЛУЧАЙНЫХ БИНАРНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ»

УДК 530.1, 519.21, 519.25 Филатов О.В., Кульгускин О. В., Симонян Г.С.

Филатов О.В.

ООО «Физическая исследовательская лаборатория экспериментальной комбинаторики и информатики» (г. Москва, Россия)

Кульгускин О. В.

ООО «Физическая исследовательская лаборатория экспериментальной комбинаторики и информатики» (г. Москва, Россия)

Симонян Г.С.

Ереванский государственный университет (г. Ереван, Армения)

О СТРУКТУРЕ И ЭНТРОПИИ СЛУЧАЙНЫХ БИНАРНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ

Аннотация: целью исследования является ввод понятия и определение элементарного случайного события как простейшего неделимого объекта. Показано, что свойства элементарного случайного события отличаются от свойств бита. Установлено, что деление бинарной случайной последовательности на монотонные цепочки (составные события) отвечает характеристикам энтропии. Показано, что не профильное применение формулы информационной энтропии Шеннона к элементарному случайному событию, привело к неслучайным результирующим значениям. К существующим энтропиям добавлена новая- энтропия комбинаторики длинных последовательностей, областью её применения являются длинные случайные последовательности, например, стохастический поток равновероятных бинарных событий или молекулы ДНК и мтДНК. Результатом применения информационной энтропии Шеннона к энтропии комбинаторики длинных последовательностей является константа Эйлера «е», что даёт этой константе вероятностно - информационную размерность, так как она получена из вероятностной структуры случайной бинарной последовательности и информационной энтропии

Шеннона. Для случайной бинарной последовательности раздельный расчёт энтропии Шеннона и энтропии комбинаторики длинных последовательностей приводит к одной величине.

Ключевые слова: энтропия Шеннона, информационная энтропия, случайная последовательность, комбинаторика, длинные последовательности, составные события, константа Эйлера, бинарная последовательность.

Практическое применение энтропии в интересах исследования природы, экология, биологии, биоинформатики и передачи данных [1-7] привело к новым интересным физика - информационным открытиям, о которых рассказывается в этой статье. Базовые положения «Комбинаторики длинных последовательностей» (КДП) показаны на самом простейшем бинарном потоке - случайной бинарной последовательности (СБП).

Целью исследования являются ввод понятия и определение элементарного случайного события (ЭС) как простейшего неделимого объекта, а также показать, что свойства ЭС отличаются от свойств бита. Установить, что простейшее деление случайной последовательности на монотонные цепочки (составные события) отвечает характеристикам энтропии. Показать, что не профильное применение формулы информационной энтропии Шеннона к ЭС, приводит к неслучайным результатам.

В случайных бинарных последовательностях из N равновероятных элементарных событий будем обозначать образующие их члены в виде: «0» и «1». Поскольку случайные события («0» и «1») не несут в себе никакой информации, то их не корректно называть битами (минимальными порциями информации). Поэтому будем называть эти не делимые на более мелкие фрагменты события (нули «0» и единицы «1») элементарными случайными событиями - ЭС, пример цепочки из пяти ЭС: «10110».

Фундаментальная разница между битами и ЭС будет показана ниже, при расчёте энтропии Шеннона, величина которой различна для одного бита и одного ЭС (при расчёте по формуле Шеннона).

В СБП существуют участки, образованные последовательным выпадением одинаковых ЭС событий, например: «00», «11111», «000000». Число выпадающих подряд одинаковых ЭС будем обозначать п. А сам фрагмент, содержащий эти события обозначим буквой Б, в левом верхнем углу которой (что бы не путать с обозначением степени) будем указывать длину этого фрагмента. Фрагмент последовательности из одиннадцати ЭС: «11100010100». Этот же фрагмент в виде символов составных событий: ]/ -/ :/ = «111 + 000 + 1 + 0 + 1 + 00», таблица 1.

В КДП [8] получена формула для расчёта численности составных событий в любой случайной бинарной последовательности, с точностью до случайной флуктуации:

Где:

N - ЭС образующие случайную последовательность, п - длина составного события (номер моды) [8].

Таблица 1. Примеры составных событий.

Фрагмент последовательности Длина (п)

111 3

000 3

1 1

0 1

1 1

00 2

Причём, п5 обозначает общее число составных событий образованных из нулей «0» и из единиц «1», пример: 35 обозначает все цепочки «000» и все цепочки «111».

Теоретически рассчитанные по формуле (1) и экспериментально обнаруженные в выборке из N бинарных ЭС численности "5 показаны на

рисунке 1. В таблице 2 собраны численности теоретических составных событий рассчитанных по формуле (1) и экспериментальных составных событий, найденных в бинарной последовательности из N = 20 000 000 ЭС (элементарных событий).

Пример расчёта "5, для п=2 и 2 ■ 10е по формуле (1):

п=2 _ 20000 ООО

ЗпГТТ

= 2 500 000

Смотри рисунок 1 и таблицу 2.

Рисунок 1. «Численности теоретических и экспериментальных составных событий в бинарной последовательности из N = 20 000 000 элементарных событий».

Под экспериментальной численностью составных событий "5 понимается численность найденных составных событий в случайной последовательности из N = 20 000 000 элементарных событий, при последовательном просмотре всех её N членов от первого до последнего.

Таблица 2. Составные события "5 энтропии СБП.

п - длина СС Теоретические : / энтропии ■ энтропии выборки N Отклонение в %

1 5000000 4998431 2236 0,03138

2 2500000 2496923 1851 0,12308

3 1250000 1250796 1118 -0,06368

4 625000 625043 790 -0,00688

5 312500 313196 559 -0,22272

6 156250 156465 395 -0,13760

7 78125 78522 280 -0,50816

Число ЭС СБП - 20 000 000. Теоретическая сумма всех частных энтропий: .Т = ^ '— т

В таблице 2, в столбце «Отклонение в %» дано отклонение численностей "5, найденных в экспериментальной выборке, от теоретически рассчитанных по формуле (1) величин. Как видно, точность отклонения экспериментальных данных от соответствующих теоретических величин не превышает один процент. Отклонение рассчитывалось по формуле:

Сумму всех "5 обозначим буквой она рассчитывается по формуле (2), и 5 = N/2, где N - число ЭС, членов бинарной последовательности:

= У »5= V = ¿и А. 2п+1 2 Л

N

-> -

11=1

11=1

Р1=1

(2)

Рассмотрим свойства "5, совокупность которых позволяет отождествить "5 с частными КДП - энтропиями, сумма которых образует общую КДП - энтропию

1) сумма всех "5 равна 5 стремится к N/2), формула 2,

2) с ростом последовательности N (увеличение числа членов 1М) "5 увеличиваются, то есть, энтропия растёт, формула 1,

3) конкретные значения "5 появляются при N отличных от бесконечности,

4) "5 количественно характеризуют случайную бинарную последовательность, то есть они являются мерой беспорядка (хаоса), смотри рисунок 1 и таблицу 2.

Учитывая, что составные события "5 можно рассматривать как частную КДП - энтропию, перенесём ранее выявленные свойства "5 на энтропию как таковую. То есть у энтропии существуют свойства, в частности вероятность.

В работе [9] для составных событий "5 вводилась вероятность р, которая для "5 рассчитывалась как аналог геометрической вероятности, исходя из следующих геометрических рассуждений. Составные события "5 случайным образом располагаются вдоль всей последовательности N. Поэтому при случайном выборе произвольного элементарного события, это событие будет принадлежать одному составному событию множества "5 с вероятностью, пропорциональной занимаемой множеством "5 части последовательности N (аналогично цветовым секторам в рулетке).

Количество элементарных событий Е7(п5), образующих множество "5, прямо пропорционально п, и рассчитывается по формуле (3):

Тогда из формулы получаем геометрическую вероятность "ре случайного попадания в одно из составных событий последовательности N которая будет равна отношению числа элементарных событий Е1( "5) к общему числу всех элементарных событий N формула (4):

(4)

Формула (4) описывает получение одномерной геометрической

вероятности из энтропии "5: "рс

то есть показывает связь энтропии с

пространственной или с временной геометрической вероятностью, если рассматривать последовательность N не как пространственную, а как временную. Сумма всех вероятностей прс равна единице, формула (4), где: "5 -теоретически рассчитываемое по формула (1) число составных событий в последовательности из N элементарных событий.

■ п V1

— (5)

Подставляя вероятности "р из формулы (5) в формулу энтропии Шеннона получаем формулу (6), сумма которой стремится к константе Эйлера «е»:

6)

Таким образом константа Эйлера «е» получает по формуле 6 новое определение: е = Константа Эйлера - это информационная энтропия

Шеннона, взятая от КДП - энтропии случайной бинарной последовательности :.", то есть «е» — это информационная КДП - энтропия.

Формула (6) является объединительной, она объединят через задействованные в ней члены три научных направления: теорию вероятности (КДП): "5 - составные события и частные энтропии случайной бинарной

последовательности, информатику - через информационную энтропию Шеннона, и физику - через константу Эйлера «е».

Таким образом, по формуле (6) для всех СБП существует постоянная, строго определённая информационная КДП - энтропия, равная числу «е». Поскольку в знаменателях дробей формулы (6) стоит N которое сокращается с N в числителе дроби: = = бесконечные последовательности то же

имеют значение информационной КДП энтропии равное «е».

Рассмотрим разницу между ЭС и битом при расчёте их информационных величин по формуле Шеннона: н = - ± р ■ к^р.

Шеннон предположил, что постоянное неизменное значение не содержит информации (у него нулевая информация). Шеннон так сконструировал бит, что бит рассчитан на два значения информации, но содержит в каждый момент времени только одно значение - «0» или «1», которые можно менять во времени. Шеннон так сконструировал свою формулу энтропии, что энтропия одного бита равна единице.

Не смотря на кажущуюся идентичность ЭС биту (ЭС может содержать одно из двух два логических состояний: «0» или «1») ЭС, в отличие от бита, не может менять в принципе своё состояние на противоположное. Изменение состояния ЭС запрещено и философскими и математическими законами о однозначности произошедшего события. Так если монета в конкретном броске (с определённым номером в серии подбрасываний) выпала орлом в нашем мире, то это событие сохранится до конца существования Вселенной и это ЭС не может быть изменено (по Шеннону энтропия каждого ЭС равна нулю, для бита это не так, бит создан для хранения меняющейся информации, поэтому и память в компьютерах измеряется битами). То есть, «0» или «1» появляются в конкретном ЭС с вероятностью 0,5, но больше никогда не изменяются. Идеология Шеннона не может описать это состояние (работу) ЭС. Так как до некоторого момента времени ЭС не существует, то есть нет состояний и «0» и «1» и поэтому нельзя вообще говорить о величине энтропии, а потом ЭС появляется и принимает на вечно, с вероятностью 0,5, одно из двух состояний

(«0» или «1»), что в интерпретации Шеннона не несёт никакой информации, то есть энтропия равна нулю (что, совершенно справедливо для СБП в которой нет информации).

Тем не менее применение формулы информационной энтропии Шеннона для распределений ЭС СБП дало интересные, явно не случайные результаты.

В первом случае энтропия Шеннона от КДП - энтропии равна константе Эйлера: н(з) -> е, формула (6).

Во втором, для N - ЭС (вероятность выпадения р( и «0» и «1» равна 0,5), суммы частных КДП - энтропий (= формула 2, оказалась одинаковой с энтропией Шеннона для ЭС (а не для бит):

следовательно:

-^ЕЗДП = ^СЕП

Где:

- суммарная КДП энтропия (формула (1)), --- - энтропия Шеннона ЭС случайной бинарной последовательности,

п - длина составного события (число одинаковых бинарных событий, в монотонных сериях, например: п=5 для серий: «00000» и «11111»),

г - номер ЭС или элементарного бинарного события, вероятность: р: =

0,5.

В то же время, у СБП существуют частные КДП - энтропии "5, величина которых прямо пропорциональна длине (числу элементарных событий) N. Сумма частных КДП - энтропий равна информационной энтропии Шеннона ЭС бинарных последовательностей длины N

Из КДП - энтропии "5, формула (1), можно получить величину независящую от числа членов пос-ти N. Эта величина "/ получается делением КДП энтропии "5 на число членов 1М, формула (7). Величины были введены в работе [8] и получили название - частоты Р. Мизеса:

Таким образом, из формулы (7), следует, что КДП - энтропии (составные события) "5 - это произведение мизесовской частоты "/ на число членов последовательности К, формула (8):

"5 = N =

N

(8)

Так как по формуле (2) полная энтропия бинарной последоватеьности равняется сумме всех КДП - энтропий и равняется: 5 = N / 2, то определять принадлежность некой последовательности к классу случайный бинарных последовательностей можно по равенству её информационной КДП энтропии числу «е» или по равенству сумме частот Р. Мизеса константе одной второй, формула (9):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

/Л Г ¿- ■

Г4-1

1/ = -

(9)

п=1

|«=1

Из формулы (9) следует, что:

Заметим, что формула (6) более фундаментальна, а формула (9) проще в

работе.

Так как Н - информационная энтропия Шеннона ЭС случайной бинарной последовательности равна: Н= N/2, то можно прировнять суммарную КДП - энтропию Б, формула (2), и энтропию Шеннона: Н=Б, формула (10):

Где:

- суммарная КДП энтропия (формула (1)), Н--~ - энтропия Шеннона ЭС случайной бинарной последовательности, п - длина составного события (число одинаковых бинарных событий, в монотонных сериях, например: п=5 для серий: «00000» и «11111»),

¡' - номер элементарного бинарного события, вероятность: р, = 0,5. Действительно: вероятность выпадения р1 и «0» и «1» равна 0,5, подставляем её в формулу Шеннона:

следовательно:

-^ЕЗДП = ^СЕП

Результаты исследования и их обсуждение.

К имеющимся разнообразным энтропиям вводится новая КДП -энтропия, областью её применения являются длинные случайные последовательности, например стохастический поток равновероятных бинарных событий или молекулы ДНК и мтДНК, так как эти биологические молекулы являются наследниками неживой природы и отвечают требованию длинных последовательностей, которые могут быть представлены ограниченным количеством элементарных событий (для ДНК на в качества ЭС выбираются нуклеотиды) [10, 11]. Таким образом, величины отклонений КДП -

энтропий рассматриваемой последовательности от уровней КДП - энтропий случайной последовательности показывают и характеризуют изучаемую последовательность по отношению к случайной последовательности. Ввод нового типа КДП - энтропии для СБП является очень важным моментом для нового витка развития таких наук как: криптография, теория информации, физика, теория вероятности, так как в них в этих науках СБП занимает одно из центральных положений.

Заключение.

1. Описываемые КДП составные события "5 являются частными КДП - энтропиями, количественно характеризующие состояние хаоса последовательности через численность цепочек соответствующих длин.

2. Сумма всех частных КДП - энтропий равна N/2, где N - число членов последовательности и равна информационной энтропии Шеннона от элементарных событий, формула (10.)

3. С ростом числа членов последовательности N происходит рост частных и общей КДП - энтропий.

4. Константа Эйлера «е» является величиной информационной энтропии Шеннона, взятой по частным КДП - энтропиям, формула (6).

5. У ранее безразмерной константы Эйлера «е» должна быть размерность отражающая в себе КДП - энтропию случайного бинарного потока (потока ЭС) и информационной энтропии Шеннона.

6. Статья будет интересна физикам, исследующим квантовую запутанность, разработчикам квантовых компьютеров, информатикам, биоинформатикам и математикам.

СПИСОК ЛИТЕРАТУРЫ:

1. Shannon C.E.A mathematical theory of communication //The Bell System Technical Journal.1948, V .27(3), Р.379 - 423. D01:10.1002/j.1538-7305.1948.tb01338.x;

2. McArthur R.M. Fluctuation of Animal Populations and Measure of Community Stabiliry // Ecology, 1955, V. 36, №3, P. 533-536;

3. Margalef R. Information Theory in Ecology // General Systems, 1958, V.3, P. 36-71;

4. Симонян А.Г. Анализ экологического состояния реки Дебед и её притоков с помощью армянского индекса качества воды// Успехи современного естествознания, 2016. №8. С.200-204;

5. Simonyan A.G., Pirumyan G.P. Analysis of environmental status of the rivers Vorotan, Sisian and Goris // Proceedings of YSU, Series Cemistry and Biology, 2017, №1, P.12-16;

6. Симонян А.Г., Аветисян Т.К., Саградян А.А. Диализ экологического состояния рек Мегри и Веди с помощью армянского индексакачества воды // Научный альманах, 2019. № 4-2(54), С. 165-168;

7. Черных Л.В. Алгоритм энтропийно-информационного анализа количественных и качественных характеристик подроста на пробных площадях // Вестник Поволжского государственного технологического университета. Сер.: Лес. Экология. Природопользование, 2015, № 3 (27), С. 42-54;

8. Филатов О.В., Вывод формул для постулатов Голомба. Способ создания псевдослучайной последовательности из частот Мизеса. Основы «Комбинаторики длинных последовательностей»; // Проблемы современной науки и образования», 2016, № 17 (59), с. 11-18;

9. Филатов О.В., Применение геометрической вероятности для изменения вероятности нахождения серий случайных выпадений монеты //Проблемы современной науки и образования», 2016, № 22 (64), с.5-14, DOI: 10.20861/2304-2338-2016-64-001;

10. Филатов О.В., Применение энтропии Шеннона и КДП комбинаторики в ДНК анализе для выявления биологических классов, энтропийная шкала классов // Вестник науки и образования, 2022, №7 (127), с.18-29, DOI: 10.24411/2312-8089-2022-10703;

11. Филатов О.В., статья «Применение энтропии Шеннона и числа Эйлера «е» для описания случайных последовательностей и мтДНК, получение числа «е» через энтропию Шеннона», «Вестник науки и образования», №7 (127), 2022 г., с.29-40, DOI: 10.24411/2312-8089-2022-10706

Filatov O. V., Kulguskin O. V., Simonyan G.S.

Filatov O.V.

Physical Research Laboratory experimental combinatorics and computer science DD

(Moscow, Russia)

Kulguskin O.V.

Physical Research Laboratory experimental combinatorics and computer science (Moscow, Russia)

Simonyan G.S.

Yerevan State University (Yerevan, Armenia)

THE STRUCTURE AND ENTROPY OF RANDOM BINARY SEQUENCES

Abstract: the purpose of the study is to introduce the concept and define an elementary random event as the simplest indivisible object. It is shown that the properties of an elementary random event differ from the properties of a bit. It has been established that the division of a binary random sequence into monotonic chains (composite events) corresponds to the characteristics of entropy. It is shown that a non-profile application of Shannon's information entropy formula to an elementary random event led to non-random resulting values. A new one has been added to the existing entropies - the entropy of combinatorics of long sequences; its area of application is long random sequences, for example, a stochastic flow of equally probable binary events or DNA and mtDNA molecules. The result of applying Shannon's information entropy to the entropy of long sequence combinatorics is the Euler constant "e", which gives this constant a probabilistic information dimension, since it is obtained from the probabilistic structure of a random binary sequence and Shannon's information entropy. For a random binary sequence, separate calculation of the Shannon entropy and the combinatorics entropy of long sequences leads to one value.

Keywords: Shannon entropy, information entropy, random sequence, Combinatorics, long sequences, compound events, Euler's constant, binary sequence.

i Надоели баннеры? Вы всегда можете отключить рекламу.