ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
ДНК - КОМБИНАТОРНОЕ ОБЪЯСНЕНИЕ ЗАПИСИ ИНФОРМАЦИИ, ПРЕОДОЛЕНИЕ ФУНДАМЕНТАЛЬНОГО
ПОРОГА СЖАТИЯ Филатов О.В. Email: Filatov17155@scientifictext.ru
Филатов Олег Владимирович - инженер-программист, ЗАО «Научно технический центр «Модуль», г. Москва
Аннотация: в настоящее время происходит объединение знаний о ДНК, полученных разными науками. В статье, с позиций информатики (которая рассматривает ДНК как информационный носитель) и «Комбинаторики длинных последовательностей», приводится объяснение существования двух нитей ДНК как способа достижения большей информационной ёмкости. Анализируя возможные способы записи бинарной информации в ДНК, с позиции комбинаторики длинных последовательностей, было обнаружено, что природная бинарная запись ДНК информации на семнадцать процентов более плотная, чем та которую сейчас обеспечивают современные алгоритмы сжатия информации, то есть природа в ДНК преодолела фундаментальный порог сжатия информации, который присущ современной вычислительной технике. В статье раскрывается способ сверхплотной бинарной записи информации в ДНК с позиций информатики и комбинаторики длинных последовательностей.
Ключевые слова: мтДНК, ДНК, комбинаторика, КДП, цуга, составное событие.
DNA IS A COMBINATORIAL EXPLANATION FOR RECORDING INFORMATION, CROSSING THE FUNDAMENTAL THRESHOLD
OF COMPRESSION Filatov O.V.
Filatov Oleg Vladimirovich - Software Engineer, SCIENTIFIC AND TECHNICAL CENTER «МОДУЛЬ», MOSCOW
Abstract: аt present, the knowledge about DNA obtained by different sciences is being combined, in the article, from the standpoint of informatics (which considers DNA as an information carrier) and "Combinatorics of Long Sequences", an explanation of the existence of two DNA strands is given as a way to achieve a greater information capacity. Analyzing possible ways of recording binary information in DNA, from the perspective of combinatorics of long sequences, it was found that the natural binary recording of DNA information is seventeen percent denser than that which is now provided by modern information compression algorithms, that is, nature in DNA has overcome the fundamental threshold of information compression , which is inherent in modern computing. The article reveals a method for superdense binary recording of information in DNA from the standpoint of informatics and combinatorics of long sequences. Keywords: mtDNA, DNA, combinatorics, CDP, train, compound event.
УДК 51; 28.21.19; 34.23.00 DOI: 10.24411/2304-2338-2020-10101
Сокращения:
КДП - Комбинаторика длинных последовательностей;
Пос-ть - последовательность.
Введение
Две нити ДНК - как способ сверх сжатия бинарной информации.
На рис. 1 схематично представлены две нити (спирали) ДНК. На каждой нити отображены буквенные последовательности (пос-ти), из множества букв {А, С; G; Т}. Для получения бинарной пос-ти, предмета нашего исследования, заменим каждую букву двоичным кодом: А^ «00»; С^ «01»; «10»; Т^ «11». Эта перекодировка показывает возможность исследования ДНК в бинарном пространстве методами «Комбинаторики длинных последовательностей» [5; 6].
Каждая буква на одной нити ДНК однозначно связана с буквой на другой нити ДНК, рис.1. Так как для информатики ДНК буквы - это элементы информации, то эта особенность хранения информации в ДНК (по парная, однозначная, связанность букв на разных нитях ДНК) стала причиной исследования по записи бинарной информацию подобным образом. Но по какому признаку надо делить единую информацию на две части? За такой признак была принята модель деления случайных пос-ей на составные события и цуги в «Комбинаторике длинных последовательностей» КДП [1 - 4]. КДП методы начинают работать и сжимать пос-ти (информацию) тогда, когда все современные алгоритмы сжатия становятся не эффективны, и перестают работать. Аналогом составных событий КДП в физике являются атомы, а в биологии - молекулы. Напомним, что такое составные события в КДП, которые обозначаются буквой [1 - 4].
Рассмотрим пос-ть Flb: «11100111101010100000001111111», эта пос-ть не содержит форматированных кодов символов, такие пос-ти появляются при случайном подбрасывании монеты или как результат максимального сжатия данных. Разобьём Fl ь на одиннадцать составных событий: (35 = «111»); (25 = «00»); (45 = «1111»); (¿5 = «0»); (¿5 = «l»); (¿5 = «0»); (¿5 = «1»); (¿5 = «0»); (£5 = «1»); (¿¿5 = «0000000»); (¿¿5 = «1111111»). В физике цепочки волн называют цугами, в КДП цепочки одинаковых составных событий назвали так же [1 - 4]. Шесть составных событий ¿5 повторяются друг за другом (выпали цугой, образовали цугу): =«010101»; два составных
события ¿5 составили цугу: 5=7 =2 = «00000001111111». Все остальные составные события - это цуги Сь из одного составного события. Запишем фрагмент F l b в цуговых символах :
«11100111101010100000001111111» ^ 3 CV; 2 Сх; 4 Сх; 1 С6; 7 С2. В левом верхнем углу символа указана длина составного события, в правый нижний символ обозначает число повторов этого составного события (длину цуги).
Рис. 1. Двойная спираль ДНК
Единую бинарную пос-ть (информацию, файл) делим по подобию двух нитей ДНК на две связные пос-ти (файла). В одном файле собраны базовые длины составных событий цуг, а во втором содержаться связанные с этими составными события численности колен цуг. Составные события собираем в одном - файле: 3; 2; 4; 1; 7, а число повторов в другом, Ш- файле: 1; 1; 1; 6; 2. Для восстановления пос-ти из пар чисел цуговой записи Т 1 с: 3 Сх; 2 Сх; 4 Сх; 1 С6; 7 С2 надо сохранить значение первого члена пос-ти (в файле 3), для Т 1 ь это значение равно: «1».
Современная процессорная техника имеет такой параметр как разрядность. Этим же фиксированным параметром обладают все цифровые данные (которые хранят информацию) Но, ДНК пос-ти не имеют фиксированной разрядной сетки, поэтому при записи в файлы составных событий и связанных с ними цуг, нужно исключить привязку записываемой информации к фиксированной разрядной сетке.
Основная часть
Рассмотрим механизм сжатия, который по подобию двух нитей ДНК делит информации на две части и преодолевает информационный предел «не сжимаемости даже на один». Результат - гарантированное сжатие минимум на 17 %. Так пос-ть из 1 0 9 бит, которую невозможно сжать «на один» бит, будет сжата, на: 0 . 1 7 ■ 1 0 9 = 1 . 7 ■ 1 0 8 бит (много больше, чем на один бит).
Опишем метод сжатия каждого числа в любой паре чисел на нитях ДНК, рис.2. Так как метод сжатия один, для 5 и Ш , то будем обозначать любое сжимаемое число буквой V: 7 6 {5; IV} , а любое сжатое число V буквой G. Бинарный вид числа G обозначим - , где - число бит. В таблица 1 представлен принцип геномного сжатия чисел: V ^ G.
Строка 1 содержит десятичные числа V. Число ноль невозможно, так как не существует составных событий 5 нулевой длины, и цуг Ш из них.
Таблице 1. «Геномное сжатие: V ^ G в й - разрядной позиционной системе»
1 V(S ; V) 1 2 3 4 5 6 7 8 9 10 11 12 13 14
2 G; & 0 1 0 1 2 3 0 1 2 3 4 5 6 7
3 кЛа 0 1
4 кЛа 00 01 10 11
5 кЛа 000 001 010 011 100 101 110 111
6 Йй 1 2 3
7 п(й) 21 6 = 21 + 22 14 = 2 1 + 22 + 2 3 = 2я+1 - 2 ; ф.1.7;1.8
8 Ш = /(2Я) 21 22 23
В строке 1 числа принадлежат НЕ десятичной системе, а й - РАЗРЯДНОЙ системе. На одном разряде й - системы возможны две комбинации, которые отданы под числа: 1; 2. На 2-х й - разрядах возможны 4-е комбинации, которые отданы под числа: 3; 4; 5; 6.
Применим таблицу 1 для сжатия данного выше бинарного фрагмента Т 1 й: «11100111101010100000001111111». Поделим пос-ть на 5 - файл составных событий и Ш - файл цуг. Для этого переведём Т 1 ь в цуговый вид Т 1 с: 5=3 1; 5=2 Си,=1; 5=4 Си,=1; 5=1 С^ 6; 5=7 С^ 2 и сожмём все 5 числа: 5^ С. Для этого, в таблице 1, в строке 1 ищем число V равное числу 5. строке 2, под найденным числом , дано сжатое число . Число может быть записано в любой допустимой
компьютерной разрядной сетке, а разрядная сетка каждого сжатого числа сама несёт информацию о числе . Число разрядов , каждого числа , является информацией для перевода числа из сжатого состояния в исходное число .
В Т 1 ь первое составное событие 5 (« 1 1 1 ») = 3 оно сжимается в G = 0, строки 1; 2, таблицы 1: ( V (5 ; IV) = 3 ) ^ ( С = 0 ) .
В Р 1 ь второе составное событие 5 (« 0 0») = 2 оно сжимается в G = 1, строки 1; 2, таблицы 1: ( V (5 ; И) = 2 ) — ( С = 1 ) .
Рис. 2. Размещение Р 1 ь на двойной спирали ДНК
В Р 1 ь третье составное событие 5 (« 1 1 1 1 ») = 4 оно сжимается в G = 1, стр. 1; 2, тбл.1: (V (5 ; И) = 4) — ( С = 1 ) .
Далее, в Р 1 й идёт цуга 5=1 С^ 6 из шести единичных составных событий х5. Для каждого (V (5; И) = 1 ) — ( С = 0) .
Далее, в идёт цуга из двух составных событий: . Для каждого :
(V (5 ; И) = 7 ) — (С = 0) .
Для пос-ти Р 1 ь составные события 5;: {3; 2; 4; 1; 1; 1; 1; 1; 1; 7; 7} переведём в множество сжатых бинарных чисел {йд }, строки 3-5, таблицы 1: (3—«00»); (2—«1»); (4—«01»); (1—«0») - шесть раз; (7—«000»); (7—«000»).
Сжатые бинарные числа составных событий (5) }: {00; 1; 01; 0; 0; 0; 0; 0; 0; 000; 000}, они не демонстрируют эффекта сжатия информации. Для очевидного сжатия информации нужно получить ещё и цуговые бинарные числа: Ъ (И) й из приводимой выше записи Р 1 с: 3 С1; 2 С1; 4 С1; 1 С6; 7 С2, выпишем числа цуг W из записи Р 1 с: 1; 1; 1; 6; 2. Теперь надо сжать в бинарный вид эти числа: 1; 1; 1; 6; 2 применяя таблицу 1: (1—«0»); (1—«0»); (1—«0»); (6—>«11»); (2—«1»). Запишем искомое бинарное цуговое множество : {0;0;0;11;1}.
Перепишем цуговую запись Р 1 записав в угловых скобках полученные сжатые
^ЧТТТХ0Г\ТП-Т(^ -зххатл^ххттст' 3 —«00»^* . 2—« 1»^* . 4—« 0 1»^* . 1—«0»^ . 7—«0 00»/~
иинарные значения. С 1—« 0», С 1—«0». С 1—«0»> С 6—« 1 1»> С 2—« 1»-
В файл составных событий записываем пять верхних бинарных чисел из
цуговой записи Р 1 ь: Ъ (5) й = {00; 1; 01; 0; 000}.
В файл цуг записываем пять нижних бинарных чисел из цуговой записи
Р 1 ь: Ъ (И) й = {0; 0; 0; 11; 1}.
Организуя связи между парами чисел: Ъ (5) й <н> Ъ (И) й мы получаем генетически сжатую информацию, рис.2.
В строке Ъ, таблицы 2, дана исходная пос-ть Р 1 В строке Ъ5+^ показан результат сжатия . В строке дано содержимое файла содержащего информацию о
составных событиях . В строке дано содержимое файла содержащего
информацию о цугах составных событий . Отобразим на рис. 2 возможную запись в двух нитях ДНК пос-ти Р 1 й.
Таблица 2. Не сжимаемые файлы сжаты, по типу данных в ДНК, на 17 %
ъ 1 1 1 0 0 1 1 1 1 0 1 0 1 0 1 0 0 0 0 0 0 0 1 1 1 1 1 1 1
0 0 1 0 1 0 1 0 0 0 + 0 0 0 1 1 1
Ь(5)я 00 1 01 0 000
Ь( ИОя 0 0 0 11 1
А N - исходных (бит) 5000000 бит 20 000 000 бит
Б Вийоп252 эксперимент эксперимент теория
В Счётчик Ь (5 ) я (бит) 2278029 9113499 9114380
Г Счётчик Ь ( И ) Я (бит) 1866674 7467543 7468248
Д Счётчик 5 + W (бит) 4144703 16581042 16582628
Е Сжатие: (5 + W) / N 0,82894 0,8290521 0,8291314
Е Сжато (ДО — 5 — Ш) на: 855297 бит 3418958 бит 3417372 бит
Суммарный размер в битах сжатых файлов - 83 % от исходного размера файла «не сжимаемого на один». Файл с информацией о составных событиях Ь (5) Я всегда длиннее файла с информацией о цугах Ь ( И) Я [10].
В строке «А» даны длины (в битах) «не сжимаемых на один» пос-ей. В строке «Ё» показаны числа бит, на которые были сжаты «не сжимаемые на один» файлы. Файл с информацией о составных событиях Ь (5) Я всегда длиннее файла с информацией о цугах Ь (И) Я [10].
Формулы КДП для расчёта ДНК сжатия информации.
Для сжатия данных геномным способом нужно ввести особую систему счисления. Опишем основные свойства этой системы счисления. В таблице 1, строка 1, дан неразрывный ряд исходных чисел, который продолжен в таблице 3 в рядах: «д = 2 Я - 1 » и «д Утах = 2 Я+1 - 2 ». Так на пересечении ряда «д £„» и столбца 2, находится число три, а на пересечении ряда «д 1тах» и столбца 2, находится число шесть - это минимальное и максимальное значения непрерывного диапазона: 3; 4; 5; 6.
Таблица 3. Распределение чисел ДУ по числу байтовых разрядов й
й - разряды байта 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Ли . — _ 1 В'шт ~ 1 3 7 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767
йу _ уК+1 _ п К'тлх ~ 2 6 14 30 62 126 254 510 1022 2046 4094 8190 16382 32766 65534
ДСЙЮ = 2я 2 4 8 16 32 64 128 256 512 1024 2048 4096 8192 16384 32768
Таблица 3 расширяет диапазоны значений V и ь й таблицы 1.
Из таблицы 3 видно, что для обеспечения сжатия по геномному типу, исключено число ноль, и все целые десятичные числа разбиты на диапазоны, зависящие от двойки в степени й. В каждом й - диапазоне есть максимальное число ДУтах ф.1.1 и минимальное число д 7т ¿„, ф.1.2:
Д Ут ах = 2 й + 1-2 Ф.1.1
¿у ?я+1 _ 7 д _ д утах _ 2_2 Ф 1 2
Я *т1п 2 2 * *
Число чисел Д (д7) в й - диапазоне двавстепени й, ф. 1.3, таблица 3:
А (Р) = Ртах-Ртш=2* Ф.1.3
Для десятичных чисел: ; ( 1) верно неравенство, ф1.4:
й
г<% 7 < ^ 2г; % 7 >2 Ф.1.4
Г=1 Г=1
Замечаем, что: 2 ^2 г = 2 й — 2 , и: 2 й= х2 г = 2 й+1 — 2 , поэтому перепишем ф.1.4 в виде ф.1.5:
2 й — 2 < %V < 2 й+1 — 2 ; % V > 2 Ф.1.5
Пример на ф.1.5. При Д = 5: %7 > 25 — 2 = 30; < 26 — 2 = 62. Действительно: 30 < (31; ...; 62) < 62, таблица 3.
Для: 0 < ^7 < 2 , ф.1.5 принимает вид ф. 1.6, таблицы 2, 3:
0 < % 7 < 2й=^ 0 < %7 < 2 Ф.1.6
В строке 7, таблицы 1, показано, что количество п (Д ) всех чисел % 7 вошедших в диапазоны: &Д 1 = 1: ьД 2 = 2 ; ...; ьД й = Д - равно сумме основания два, в степенях Д, ф.1.7:
а
п (Д ) = ^2 г Ф.1.7
г= 1
Сумма в ф.1.7 равна: 2й= з.2 г = 2 й+1 — 2 , поэтому запишем ф.1.8:
1(Д)=^2г = 2й+1-2
п (Д )=^2 г = 2 й+1 — 2 Ф.1.8
г=1
В предложенной системе счисления величина десятичного значения %7 зависит от числа двоичных разрядов , по ф.1.5: и наоборот, число двоичных
разрядов зависит от числа : .
Выяснив особенности связи десятичных чисел с числом двоичных разрядов , перейдём к рассмотрению сжатых десятичных чисел % д, где: д - сжатое десятичное число, сС - символ десятичного формата.
Перевод десятичного целого числа % 7 в десятичное сжатое % д осуществим по ф.2.1, таблица 1:
й-1
йх9
= % 7 — 1 — ^2 г ; 7 > 0; Хб{5;Ц/} Ф.2.1
Г=1
Где: г ; Д - число бинарных разрядов необходимое для бинарного представления , иными словами: - число бинарных разрядов диапазона, в котором
находится число ; - уточняющие символы ( - расчёт длин составных событий, Ш - расчёт длин цуг).
Пример на ф.2.1. При 7 = 8, Д = 3, поэтому: % д = 8 — 1 — £й=1 2 г = 7 - (2 + 4) = 1, смотри таблицу 1.
Так как по ф.1.8: 2й= :1 2 г = 2 й+1 — 2 , то заменим ф.2.1 на ф.2.2:
%д = % 7 — 1 — (2 й — 2 ) = % 7 — 2 й + 1 Ф.2.2
Где: - число бинарных разрядов десятичного числа , таблица 1.
Пример на ф.2.2. Переведём й=1 7 = 12 в сжатое целое й=1 д. Так как: Д = 3 , то подставив значения в ф.2.2 получим: й=1д = 1 2 — 2 1 + 1 = 5.
Для любого Д сжатые десятичные величины: й^тт = 0; %Стиж - ф.2.3:
% Стаж = 2 й — 1 Ф.2.3
Множество сжатых чисел {йд} на Д бинарных разрядах содержит 1 + 2й — 1 = 2й чисел: .
Перевод сжатых десятичных чисел в сжатые бинарные числа .
При переводе десятичных чисел в двоичные числа , разрядность двоичного числа равна , даже если его можно записать при помощи меньшего числа двоичных разрядов, таблица 1.
Нахождение числа разрядов ЙД в сжатых бинарных словах й д.
Для нахождения из не сжатой десятичной величины числа разрядов , сжатого бинарного слова , нужно найти целое число , при котором верно неравенство: %7гт„ < %7 < й^ах, где %7гт„ - ф.1.2; %7тах - ф11, таблицы 1, 3. Раскрывая: % 7т;и и % 7т ах получаем неравенство ф.2.4:
2 й — 1 < %7 < 2 й+1 — 2 Ф.2.4
Где: - число разрядов , сжатого бинарного слова .
Перевод сжатых бинарных слов в не сжатые десятичные числа .
Перевод Йд в % 7 производится по ф.2.5:
й-1
% 7 = 1+йд+ ^2 г Ф.2.5
г= 1
Так как: , то запишем ф.2.5 в виде ф.2.6:
% 7 = %д (йд ) + 2 й —1 Ф.2.6
Пример для Йд = «011». В «011» три разряда: Д = 3. Переводим «011» в десятичное: = 3. Ставим в ф.2.6: = 3 + - 1 = 10, таблица 1.
Перевод десятичных чисел сжатые бинарные слова .
Перепишем ф.2.6 относительно , получим ф.2.7:
Ф.2.7
Пример для % 7 = 10. Ищем по неравенству ф.2.4 число разрядов Д в сжатом бинарном слове . Для этого начнём поочерёдно подставлять числа = 1; 2; 3; ., в ф.2.4, до получения требуемого результата в неравенстве. Ф.2.4 истинно при = 3: 2 1 — 1 < 1 0 < 2 1+1 — 2 ; действительно: 7 < ( % 7 = 10) < 14. Ставим: % 7 =10 и Д = 3 в ф.2.7: %д = 10 - 2 1 + 1 = 3. Переводим десятичное сжатое йд в бинарное сжатое Йд: 3 «011», таблица 1.
Расчёт эффективности генетически подобного способа сжатия.
С помощью предложенного мной КДП - способа сжатия, сжимаемы пос-ти которые нельзя сжать даже на один бит известными методами. У пос-тей сжатых современными архиваторами и у случайных бинарных пос-тей одна и та же структура [7], рассчитаем размер их КДП досжатия.
Расчёт размера сжатого Ь (IV) - файла цуг.
При числе событий случайной бинарной пос-ти: N, число составных событий: N/2 [8], число цуг: N /3 [9]. Для расчёта длины IV - файла, который содержит числа цуговых колен, их нужно сосчитать. Пример: в цуге «10101» - 5ть колен, в «110011» - 3и колена, в цугах: «1»; «00»; «000»; «0»; «11..11» - по одному колену, в «000111» - 2а колена. Из примера видно, что цуги с разными базовыми длинами составных событий имеют одинаковое число колен. Число цуг " С, образованных составными событиями равной длины , с числом колен рассчитывается по ф.3.1 [9], из ф.3.1 получаем ф.3.2.
"С = --— N Ф3.1
(2™ - I)2
2п(ш+2)+1 '
Число цуг с числом колен в пос-ти из равновероятных бинарных
событий рассчитываю по ф.3.2 (привожу без вывода):
СП
N . - _ _
Ф.3.2
с -V с --■(—___' | 1 ^
^-wN ™ 2 \2Ш - 1 2Ш+1 — 1 2Ш+2 - 1/
Где: п - длина составных событий в цугах; и - число колен цуг.
Примеры расчёта С,* по ф.3.2, при N = 2 ■ 1 0 7: w[1] = 4761905 (эксперимент: 4760325); w[2] = 1142857 (экс-т: 1143459); w[3] = 417819; w[4] = 180236. При суммировании цепочек всех колен , получим полное число цуг случайной бинарной пос-ти из N бит: С* = £ ¡¡¡¡^ ( С,*) = *.
Для расчёта - длины, - файла, необходимо найти число значимых бит,
которое содержит каждое число цуговых полуволн: , и умножить это число бит на каждую величину из ф.3.2. При получении числа , для сжатия данных, будем вычитать единицу из каждого и: ЪI £ (и — 1 ) , таблица 1. Теоретический расчёт длины Ь (V) - файла производим по ф.3.3:
оэ
Ь (V) = ^ (Ъ I £ (и — 1 ) ■ С,*) Ф.3.3
При расчёте ф.3.3, для N = 2 ■ 1 0 7, получено: Ь (V) = 7468248 бит, таблица 2. Из таблиц 1, 3 и ф.2.4 видно, что: IV = 1; 2 кодируется одним битом, IV = 3; .. 6 - двумя битами, = 7; .. 14 - тремя битами, и т.д.
Расчёт размера сжатого Ь (5) - файла составных событий.
Для расчёта теоретической длины второго сжатого файла, ищу число цуг1: " С0* -цепочек из составных событий равной длины по ф.3.4 [1-4]:
2" -1
" Со* = ^-тЛ/ Ф.3.4
Где, п - длина составных событий "5 цуги; N - число бит пос-ти. Результаты расчёта "С0* по ф.3.4, при N = 2 ■ 1 0 7: п[1] = 2500000; п[2] = 4375000; п[3] = 6562500; п[4] = 7734375. Сумма всех "С0* даёт полное число цуг С0* пос-ти: Со * = £ "=1 ( "Со*;) = *.
Для расчёта - длины - файла необходимо найти число значимых бит,
которое содержит каждое число п, которым обозначается длина составных событий в каждой цуговой цепочки , и умножить это число бит на каждую величину
1 Расчёт в: Graph2 \ «Размер номеров цуг С0 ВШ268».
13
Сол, из ф.3.4. При получении числа Ъ I £, для сжатия данных, будем вычитать единицу из каждого : , таблица 1. Теоретический расчёт длины - файла
производим по ф.3.5:
Необходимый формат записи информации для Ь ( V) и Ь (5) файлов.
Сжатые бинарные пос-ти, рис. 2, основаны на иной системе
счисления (нет жёсткой разрядной сетки) и, поэтому, они не могут быть записаны в память современных вычислительных систем с получением эффекта экономии места. Компьютер выдаёт эффект сжатия только как расчётный результат при моделировании рассмотренного генетического сжатия. Для получения эффекта сверхсжатия надо перейти на другие принципы цифровой бинарной записи информации, в такой записи длина бинарного слова должна быть не фи+ксирована, как в молекулах ДНК.
Обсуждение
Оставаясь в рамках бинарного представления данных, но используя принципы природной упаковки информации в ДНК, можно сильно увеличить ёмкость носителей информации (микросхем памяти, цифровой памяти). Два основных приёма, которые применила природа для достижения большей ёмкости записи, это: использование переменной разрядности бинарных слов, и разделение записываемой бинарной информации на две нити в ДНК. Если взять «несжимаемую на один» пос-ть, то ни один архиваторов не может сжать её даже на один бит. Но, применив к ней, два приёма упаковки информации «подсмотренных» в ДНК, она будет сжата минимум на 17%.
Колмогоров предложил оценивать сложность бинарных пос-тей через их сжимаемость («сложность»). Речь идёт о сжатии информации без потери данных, когда из сжатого файла можно заново развернуть исходную пос-ть большей длины. Если бы не существовало фундаментального предела сжатия информации, то все пос-ти сжимались бы до длины в один бит и восстанавливались в исходную пос-ть. Фундаментальный предел сжатия информации (пос-ти) характеризуется тем, что структура сжатой пос-ти становится идентичной структуре случайной бинарной пос-ти [7]. По мнению Колмогорова, сложные пос-ти не сжимаемы даже «на один», а простые пос-ти сжимаемы. С удовольствием воспользуюсь этой общепризнанной отечественными математиками идеей для защиты практического применения предложенного мной способа генетического сжатия, основанного на «Комбинаторики длинных пос-тей», но не с позиции сжимаемости, а с точки зрения распознавания математиками (сокращённо: м-ми) индивидуальных пос-тей. То есть, м-ки не выставляют Колмогорову претензий по форме записи рассматриваемых пос-ей. М-ки не выставляют претензий по типу носителя пос-ти: доска, бумага, ЭЛТ, ЖК монитор, ПЗУ, ОЗУ, магнитный или оптический носитель, ...; не выставляют претензий по способу записи и химического состава пос-ти: мел, чернила, водные / масляные краски, магнитные или пространственные свойства материи, .; не выставляют претензий по способу разделения членов пос-ти друг от друга: пробел на доске /бумаге (не)установленной длины между членами, знак между членами, пропадание (появление) некоторых физических свойств материи между членами, измерение строго (не)фиксированного временного интервала, или изменение мощности излучения (лазера), смена фазы волны.
Рассмотрим пос-ть Р 1 й в строке « Ъ », таблицы 2, и используем слово «очевидно», для решения задач распознавания. М-ик смотря на видит в ней первую, левую «1» и понимает, что это первый член, пос-ти . М-ик определяет последний член пос-ти Р 1 й (то же «1») и что Р 1 й, содержит 29 бинарных членов. М-ку очевидно, как
оэ
Ф.3.5
п=1
отличить один член пос-ти Р 1 ь от другого его члена, как отличить «0» от «1». Конечно, программа искусственного интеллекта способна то же сделать, но для описания заложенных в ней алгоритмов потребуется не один книжный том, поэтому применим по Колмогорову «рассмотрим пос-ть» и «очевидно» и потребуем от м-ков не придераться к распознаванию пос-тей в строках: Ъ; Ъ (5) й; Ъ (IV) й таблицы 2.
Для м-ка, очевидно, сколько бинарных членов находится в ячейках строк: и
Ъ (V) й таблицы 2. М-ку достаточно объяснить, что ячейки одного столбца логически связаны и представляют сжатое описание более длинной бинарной пос-ти и дать правила восстановления из сжатой пос-ти. И, самое главное то, что м-ик будет легко различать число бинарных членов в каждой ячейке строк: и , и только
эти бинарные члены (их упорядоченное множество) для м-ка несут информацию. Очевидно, что для м-ков допустимо любую «несжимаемую на один» пос-ть представить в виде строки Ъ , таблицы 2, и осуществить сжатие информации приведённым выше способом, с записью в строки: и . При подсчёте
бинарных чисел в строках и их число окажется на 17% меньше числа
бинарных цифр в несжимаемой на один пос-ти (строка Ъ ). Строки: Ъ (5) й, Ъ ( IV ) й таблицы 2, являются первой электронной (при просмотре на мониторе) или материальной (при просмотре на бумажном носителе) реализацией сжатия бинарного кода генетическим способом.
Рассмотрим рис.1, 2, на них видно, что природа использует связи между двумя нитями (спиралями) ДНК. Для связи друг с другом двух фрагментов информации природа использует молекулярные мосты (на рисунках эти связи обозначены прямыми перемычками). Я предполагаю, что за счёт таких связей между двумя нитями ДНК, природа достигает более плотной записи информации, записывая в более длинной нити длины составных событий, а в более короткой нити
записывая число цуг w. Простые составные события не имеют определённого значения («0»; «1») и для восстановления информации, природа должна сохранить значение первого бита - пос-ти, он задаст полярность первому восстанавливаемому составному событию [1 - 4]. На рис.3 условно показан фрагмент одной нити ДНК которая реализована на гипотетической нейронной памяти.
Рис. 3. Сжатие бинарной информации на основе нейронной сети
Геномное сжатие бинарной информации на основе нейронной сети возможно тогда, когда токопроводящие связи объединяют в слова переменной разрядности не только биты в каждой из нитей ДНК, но и соединяют попарно в единую электропроводную сеть связанные Ъ (5) й-оЪ (IV) й участки двух нитей ДНК, рис.2. В электротехнике, для выявления электрически связанных участков цепи применяется «прозвонка» (которая является стандартным режимом в электрическом тестере).
Такая же электрическая прозвонка, но перенесённая на молекулярный уровень, позволит определить все связанные биты информации в попарно связанных участках: b (Ю я^ b ) я, на нитях ДНК, рис. 2; 3. Предположим, что биологические ячейки памяти каждого слова данных, отращивают и соединяются последовательно друг с другом токопроводящими нитями, рис. 3, а пос-сть слов организуется лежащими на разных нитях парами токопроводящих участков. Эти токопроводящие участки разных нитей соединены друг с другом перемычками, рис. 1, 2. Выводы
1) В статье приведена гипотеза, что в ДНК информация хранится в сжатом виде. Для большего сжатия природа использует разделение информации по двум нитям ДНК, связь между двумя фрагментами одной информации, хранящейся на двух нитях сразу, осуществляется одной перемычкой между фрагментами, при помощи которой каждая пара информационных фрагментов соединяется в отдельные, целостные данные.
2) Дан теоретический расчёт сжатия КДП, методом, преодолевающим современный порог «не сжимания на один», приведены результаты экспериментальных данных, которые хорошо совпали с теоретическим КДП расчётом.
3) Разработан КДП метод гарантированного сжатия на 17 % «не сжимаемых на один» последовательностей, что позволит увеличить ёмкость памяти перспективных цифровых устройств.
Список литературы /References
1. Филатов О.В., Филатов И.О., Макеева Л.Л. и др. «Потоковая теория: из сайта в книгу». Москва, «Век информации», 2014. С. 200.
2. Филатов О.В., Филатов И.О. «Закономерность в выпадении монет - закон потоковой последовательности». Германия, Издательский Дом: LAPLAMBERT Academic Publishing, 2015. С. 268.
3. Филатов О.В., Филатов И.О. Статья «О закономерностях структуры бинарной последовательности». «Журнал научных публикаций аспирантов и докторантов», 2014. № 5 (95). С. 226-233.
4. Филатов О.В., Филатов И.О. Статья «О закономерностях структуры бинарной последовательности (продолжение)». «Журнал научных публикаций аспирантов и докторантов», 2014. № 6 (96). С. 236-245.
5. Филатов О.В. Статья «Применение структур случайных последовательностей для описания свойств мтДНК и определения принадлежности отдельных мтДНК к их хозяйской группе животных», «Проблемы современной науки и образования». № 5 (150), 2020. С. 6-12.
6. Филатов О.В. Статья «ДНК комбинаторика, применение мтДНК матриц для расчёта родственных связей. Теорема о равенстве нулю корректирующей мтДНК матрицы», «Проблемы современной науки и образования». № 8 (153), 2020. С. 5-11, DOI: 10.24411/2304-2338-2020-10801.
7. Филатов О.В. Статья «Числовая оценка Колмогоровской сложности. Определение вероятности через смену событий», «Проблемы современной науки и образования». № 8 (38), 2015. С. 17-29, DOI: 10.20861/2304-2338-2015-38-001.
8. Филатов О.В. Статья «Теорема «О амплитудно-частотной характеристике идеальной бинарной случайной последовательности», «Проблемы современной науки и образования», 2015. № 1 (31) С. 5-11, DOI: 10.20861/2304-2338-2014-31-001.
9. Филатов О.В. Статья «Доказательство теоремы: «Формула для цуг из составных событий, образующих случайную бинарную последовательность», «Проблемы современной науки и образования», 2017. № 20 (102). С. 6 -12, DOI: 10.20861/2304-2338-2017-102-003.
10. Филатов О.В., Филатов И.О. Статья «Эффект Арнольда - Филатова. Золотое, серебряное сечения. Альтернативная запись бесконечно сложной последовательности. Аргументация по фундаментальности «Потоковой теории». «Журнал научных публикаций аспирантов и докторантов», 2014. № 12 (102). С. 124-130.