МЕТОДОЛОГИЯ ОБРАБОТКИ ДИСКРЕТНЫХ ИСТОЧНИКОВ
ИНФОРМАЦИИ Гарнышев И.Н.1, Казанцев С.В.2, Мальков Р.Ю.3, Семенов И.Д.4, Юдин С.В.5 Email: [email protected]
1Гарнышев Игорь Николаевич - сетевой инженер, отдел администрирования сетей передачи данных,
Тинькофф Банк; 2Казанцев Сергей Владимирович - главный инженер, департамент сетей передачи данных,
Сбербанк; 3Мальков Роман Юрьевич - эксперт, Центр компетенций по облачным решениям, Техносерв, г. Москва;
4Семенов Иван Дмитриевич - старший инженер, Департамент сетей передачи данных, Servers.com Лимассол, Кипр; 5Юдин Степан Вячеславович - администратор сети, Департамент технического обеспечения и развития инфраструктуры информационных систем, Спортмастер, г. Москва
Аннотация: в статье проведен анализ принципов кодирования дискретного информационного источника. Предложены алгоритмы определения условной вероятности и условной энтропии для символьных наборов данных. Разработана методика работы с длинными последовательностями на основе комбинаторной энтропии, представлены алгоритмы работы с символьными наборами на базе функции энтропии стохастического процесса. В результате проведенной работы была построена обобщенная схема использования случайных полей Пикарда, которая может быть использована в процессе кодирования изображений при помощи двумерных массивов данных.
Ключевые слова: дискретный источник, условная вероятность, условная энтропия, символьный блок, двумерный массив, цепи Маркова, случайные поля Пикарда.
METHODOLOGY FOR PROCESSING OF FINITE-STATE INFORMATION SOURCES Garnyshev I.N.1, Kazantsev S.V.2, Malkov R.Yu.3, Semenov I.D.4,
Iudin S.V.5
1Garnyshev Igor Nikolaevich - Network Engineer, DATA NETWORK ADMINISTRATION DEPARTMENT, TINKOFF BANK;
2Kazantsev Sergei Vladimirovich - Senior Engineer, NETWORK DEPARTMENT, SBERBANK;
3Malkov Roman Yuryevich - Expert, CLOUD SOLUTIONS DEPARTMENT, TECHNOSERV CLOUD, MOSCOW;
4Semenov Ivan Dmitrievich - Senior Engineer, NETWORK DEPARTMENT,
SERVERS.COM LIMASSOL, CYPRUS;
5Iudin Stepan Vyacheslavovich - Network Administrator, DEPARTMENT OF TECHNICAL SUPPORT AND INFORMATION SYSTEMS INFRASTRUCTURE
DEVELOPMENT, SPORTMASTER, MOSCOW
Abstract: the article analyzes the principles of finite-state information source's coding. Algorithms for determining of the conditional probability and conditional entropy for code string are proposed. A methodology for processing of the long sequences based on combinatorial entropy is developed. Algorithms based on the entropy function of a stochastic process for code string processing are presented. As a result of the work, a generalized scheme for using Picard random fields was constructed, which can be used in the process of encoding images using two-dimensional data arrays.
Keywords: finite-state source, conditional probability, conditional entropy, code string, two-dimensional array, Markov chains, Picard random fields.
УДК 621.3.037.37
Введение
Определение эффективности цифрового кодирования данных с целью их дальнейшего хранения и обработки подразумевает анализ адекватности соотнесения типа данных, которые подлежат оцифровке и применяемого метода кодирования. Таким образом, при разработке математических моделей, алгоритмов кодирования и методологии, которая обобщает представленные подходы, необходимо также обратить внимания на специализацию математического инструментария, необходимого для оцифровки, не сосредотачиваясь на разработки универсальной методики, которая была бы в равной степени эффективна для решения широкого набора задач. Выбор способа представления оцифрованных данных, что соответствует процессу кодирования является наиболее важным аспектом построения как методологических основ так и конкретных схем для работы с практическими заданиями.
При анализе современных исследований, проведенных в рамках данной тематики, были рассмотрены основы математического моделирования процесса кодирования дискретного информационного источника [1, 2] и, в частности, методы, базирующиеся на понятии условной вероятности и условной энтропии [3-6]. Отдельное внимание было уделено походам на базе цепей Маркова и случайных полей Пикарда [7, 8].
В качестве нерешенной части общей задачи рассматривается задача специализации алгоритмов кодирования с целью повышения их эффективности при работе с многомерными массивами данных. Целью данного исследования стало построение математического аппарата на базе цепей Маркова, случайных полей Пикарда с использованием цепного правила и дополнительных условий для работы двумерными массивами данных, которые могут быть использованы для кодирования изображений.
1. Базовые подходы при работе с дискретными источниками
В области математического моделирования понятие исходной памяти (source memory) может быть определено через конечный набор состояний, т.е. как составную часть дискретного информационного источника (discrete information source). В свою очередь, в описание дискретного источника на математическом уровне [1, 2] помимо конечного набора состояний S Е {s1,s2, — si,...sj,...s1} необходимо включить следующие компоненты (рис. 1):
• матрица смежности Т Е { tу} элементы которой определяют переход от состояния к состоянию (при ) или невозможность такого перехода (при
tj = о );
• конечный алфавит ;
• набор выходных значений и Е {иу}, который определяет каждый из переходов через элементы конечного алфавита А.
В рамках данного исследования предлагается рассматривать неприводимые дискретные источники, т.е. такие дискретные источники, для которых любой переход от одного состояния к другому может быть выполнен за конечное число переходов Су и, таким образом для всех состояний , а также выходных значений иу существуют уникальные переходные состояния .
Рис. 1. Определение дискретного источника через матрицу смежности
При решении практических задач дискретный источник используется как способ представления информационных элементов в качестве наборов символов, которые формируются через одномерную матрицу выходного набора. Сам выходной набор в таком случае моделируется функцией u(t), где t соответствует индексу, а также длиной информационного элемента I. При таком подходе дискретный источник в математической форме может быть представлен как набор ограничений для формирования последовательностей. Характерные ограничения можно группировать в рамках следующей универсальной классификации [1, 2]:
1. ограничения по длине серии символов (RLL: Run Length Limit);
2. ограничения по сумме символов конечного набора;
3. ограничения по набору паттернов последовательностей.
Ограничение первого типа подразумевает ограничение по минимальной и максимальной длине серии символов одного типа. Так, например, для наиболее применимого на практике варианта двоичного кодирования RLL-ограничения могут быть записаны следующим образом:
ilo-min — ¡-О — lo-max ll-min — ll — ll—max
(1)
Во второй группе ограничений на уровне математической модели рассчитывается сумма значений и( t) для t Е [ tmin; tmах] :
¿max
uLn < Y, u(t) ^ u&
tmin
Ограничения третьей группы подразумевают разбиение конечного алфавита А на множества А к, включающие в себя паттерны символьных наборов, которые отличаются между собой длиной .
Для разработки инструментария, который может быть использован при проведении расчетов во время работы с ограниченными последовательностями, следует ввести следующие обозначения:
• хк — серия из К символов {х} = [хг, х2,... хк,... хК] ;
• F (п) — количество строк, как последовательностей в п символов, которые допустимы в рамках ограничений;
• и — единичный вектор;
• и' — транспонированный вектор и;
• fn — количество последовательностей длины n, включающее в себя каждое из конечных состояний, соответственно ;
• Xi — собственное значение Т, в то время как А — наибольшее собственное значение ;
• — вектор, построенный на основе собственного вектора и единичного вектора.
• Н с — комбинаторная энтропия (combinatorial entropy).
Таким образом, можно вывести функцию для расчета количество строк как F (п) = и ■ Тп ■ и '. Соответственно строкой в п символов можно закодировать одно из сообщений в битов.
При этом наиболее актуальны методы, которые могут быть использованы для работы с длинными последовательностей, в частности методы на основе комбинаторной энтропии [3-6]:
Нс = limlog2(F(n)/n) -» Нс = log2(A) (3)
П-> со
Комбинаторная энтропия, таким образом, выражает количество бит на символ, которое можно кодировать, используя длинные последовательности, а можно определить максимальное количество комбинаций.
2. Марковские дискретные источники информации
Для того, чтобы получить возможность применить представленный математический аппарат при работе с задачами, в которых используется функция распределения вероятностей имеет смысл включить в рассмотрение цепи Маркова [4-6]. С этой целью необходимо дополнить разработанный инструментарий функцией, которая объединяет два символа, как состояния х(t ¿) и х( t^ разнесенные во времени ( ti и tj), при этом одно следует из другого ( i -»j):
V(х(tj)\х40 = р (х(ti)\х(tj)). (4)
В рамках данного подхода выражение для условной вероятности последовательности где может быть записано как:
p(xf) = p(xx) ■p(x2\x1) ■ ...-p^XjlXi) ■ ...-p(xNIx^.d), (5)
соответственно вероятность перехода между двумя состояниями x (t ¿) и x (ij) в направлении i — j рассчитывается как:
Vij=p(x{t])\x{ti)) (6)
Цепи Маркова в общем случае рассматривают как пример дискретного стохастического процесса, а значит, в рамках данного исследования их можно использовать для представления вероятностного распределения символов заданного конечного алфавита по отдельным строкам. Если представить процесс X как строку, то элементы множества стохастических переменных {Xn} где п Е [ 1 ; N] можно рассматривать как символы, из которых состоит строка. Энтропия для стохастического процесса может быть выражена следующим образом:
Hs = lim^H(X1,X2.....Хп). (7)
Для расчета условной энтропии (conditional entropy) последовательности N элементов [5, 6] необходимо использовать цепное правило (chain rule):
N
HS(XП = ВД) + - + Н&^Нм) = lim-H ^ НСХ^ХГ1), (8)
n=1
что, в свою очередь, позволяет вывести простое расчетное уравнение для пары любых символов и (где следует за ):
(Hs = H(Xj\Xi) i,j E Z i > 1 j = i + 1
ijez (g)
i > 1
Аналогично, для стационарного распределения вероятности (stationary probability) условная энтропия рассчитывается как:
N-1 / N \
Hs=Z (pî ■ Z ("~pij ■logz м) (l0)
1=1 \ j=2 /
При использовании предложенной методологии в математическом моделировании и анализе прикладных задач следует учитывать, что энтропия наблюдаемой цепи Маркова (observable Markov chain) рассчитывается так же как и энтропия базовой цепи Маркова (underlying Markov chain), поскольку в данном случае между последовательностями существует взаимно-однозначное отображение. Однако для источника скрытого состояния (hidden-state source) одна и та же выходная последовательность может создаваться различными последовательностями состояний, и в таком случае применение предложенного математического аппарата позволит лишь дать верхнюю и нижнюю границу в определении уровня энтропии дискретного источника Маркова.
3. Особенности работы с двумерными массивами данных
При решении практических задач, например, при работе с графическими файлами, зачастую возникает необходимость проводить анализ дискретного источника, который представляет собой двумерный массив данных. В таком случае целесообразно ввести матрицы состояний, где каждая из переменных характеризуется двумя индексами — Ху, причем индекс i соответствует номеру столбца, а индекс j — номеру строки. Соответственно, условная вероятность перехода к следующей строке будет определяться через функцию Р(Ху+1 \Х^j). Характерно, что вероятность данного перехода не зависит от вероятности перехода к следующему столбцу, причем обратное утверждение также справедливо, что можно выразить через следующую систему уравнений [7, 8]:
P(xi,j+i\xi,j-xi+i,j) = p(xi,j+i\xi,j) ^^
u\Xij,XiJ+1) - P(Xi+1j \xi,j) v '
В рамках данного подхода строку или столбец двумерного массива можно рассматривать как цепь Маркова. Для дальнейшего анализа необходимо убедиться, что остальные строки, если ограничиться рассмотрением именно строк как цепей Маркова, также описывается той же цепью Маркова. Для этого достаточно распространить условие (11) на последующую либо предыдущую строку:
P[XL+l,j + l\XL,j'XL+l,j] = ^[^i+lj+ll^i + lj]
P[Xi+l,j\Xi,j+l' Xi+l,j + l] = P[Xi+1j\Xi + 1J+1]
Таким образом, двумерный массив данных полностью отображается через матрицу , где , а , представленный двустрочной цепью Маркова.
В соответствии с (11) подразумевается, что первая строка является цепью Маркова и при этом:
Р(хи,хи+ltxi+ii]) = p{xii])p{xiij+1\xii])p{xi+iij\xii]) (13)
Соответственно, первый столбец также может быть описан как цепь Маркова, аналогично могут быть рассчитаны вероятности оставшихся столбцов и строк через
двухстрочной цепи Маркова.
Цепное правило для двумерного массива переменных формата I х J может быть записано как произведение , где множители определяются
как:
7-1
aj=П
7 = 1 1-1
Ai=Y\p[xi+i,i\Xi,i] (14)
i=1
l-l 7-1
Aij
i=l j=i
Данный принцип может быть отнесен к области применения случайных полей Пикарда (PRF: Pickard random fields) при работе с двумерными массивами данных
[7, 8]. Для того, чтобы PRF было стационарным, в анализ двумерного массива данных следует включить одно из условий представленных системой (12). Выводы
В результате проведенного исследования был разработан математический аппарат для работы с дискретными информационными источниками на базе цепей Маркова и случайных полей Пикарда. В частности были предложены следующие подходы:
• схема определения дискретного источника через матрицу смежности;
• методика работы с длинными последовательностями на основе комбинаторной энтропии;
• алгоритм работы с символьными наборами на базе функции энтропии стохастического процесса;
• обобщенная схема использования цепного правила и дополнительных условий для двумерного массива данных.
Предложенная методология может быть эффективно использована при работе с текстовыми блоками и графическими файлами на уровне разработки математических моделей для решения прикладных задач.
Список литературы /References
1. McEliece R.J., 2004. The theory of information and coding. Cambridge: Cambridge University Press.
2. Csiszâr I. & Korner J., 2015. Information theory: Coding theorems for discrete memoryless systems. Cambridge: Cambridge University Press.
3. Bissiri P. & Walker S., 2018. A Definition of Conditional Probability with Non-Stochastic Information. Entropy, 20(8), 572. doi:10.3390/e20080572.
4. Yan K., 2015. Conditional entropy and fiber entropy for amenable group actions. Journal of Differential Equations, 259(7), 3004-3031. doi:10.1016/j.jde.2015.04.013.
5. Zhou X., 2016. A formula of conditional entropy and some applications. Discrete and Continuous Dynamical Systems, 36(7), 4063-4075. doi:10.3934/dcds.2016.36.4063.
6. Zeng Q. & Wang J., 2017. Information Landscape and Flux, Mutual Information Rate Decomposition and Entropy Production. doi:10.20944/preprints201710.0067.v1.
7. PickardD.K. "Unilateral Markov fields,"Adv. Appl. Prob., 12 (2000), 655-671.
8. Forchhammer S., Justesen J. "Entropy bounds for constrained 2D randomfields," IEEE Trans. Inform. Theory, 45 (2009), 118-127.