УДК 004.8
Термодинамический формализм для исследования и конструирования алгоритмов и нейронных сетей
И.Ф. Ясинский, Ф.Н. Ясинский ФГБОУВПО «Ивановский государственный энергетический университет имени В.И. Ленина»,
Иваново, Российская Федерация E-mail: [email protected]
Авторское резюме
Состояние вопроса: А.Н. Колмогоров ввел понятие о вычислительной энтропии. После этого возник целый ряд работ (Тихомиров В.М., Витушкин А.Г., Петри Н.В.), в которых понятие энтропии было эффективно использовано для оценки сложности алгоритмов и программ.
Материалы и методы: Используются идеи и методы феноменологической и статистической термодинамики для оценки объема вычислений или размера нейронной сети.
Результаты: Выполнены вычисления с использованием, кроме энтропии, других термодинамических функций, а также определены три термодинамические начала, позволяющие исследовать устойчивость, упорядочивать параметры по их информационному весу, выполнять декомпозицию сложной системы, строить быстрые алгоритмы.
Выводы: Термодинамический формализм открывает новые возможности в создании оптимальных алгоритмов для моделирования сложных динамических систем и конструирования эффективных нейронных сетей, что может иметь очевидное приложение в энергетике.
Ключевые слова: вычислительная энтропия, быстрые алгоритмы, термодинамика вычислений.
Thermodynamic Formalism for Research and Construction of Algorithms and Neural Networks
I.F. Yasinskiy, F.N. Yasinskiy Ivanovo State Power Engineering University, Ivanovo, Russian Federation E-mail: [email protected]
Abstract
Background: A.Kolmogorov introduced the concept of computational entropy. After that a number of researches appeared (Tihomirov V.M, Vitushkin A.G., Petri N.V.), where the entropy was effectively used for the complexity evaluation of algorithms and programs.
Materials and methods: Ideas and methods of phenomenological and statistic thermodynamics are used to estimate the amount of calculations or volume of the neural network.
Results: Introduction of the other thermodynamic functions, besides entropy, and the definition of the three thermodynamic origins in the context of calculations allows to study stability, organize the parameters according their information weights, carry out the decomposition of the complex systems, construct the rapid algorithms.
Conclusion: Thermodynamic formalism opens up new possibilities in building of the optimal algorithms for modeling of the complex dynamic systems and construction of the effective neural networks that will find certain application in power engineering.
Key words: computational entropy, rapid algorithms, thermodynamics of calculations.
Вычислительная практика показывает, что вычислительный процесс и структуру нейронных сетей удобно исследовать, используя следующий термодинамический формализм.
Пусть имеет место итерационный вычислительный процесс: хк+ = р ^), (1)
где хк ,хк,...,хк) - точка в п-мерном фазовом пространстве X; Р - некий алгоритм; к - номер итерации; £,к - параметр учета шума.
Если процесс сходится, то
хк ^ х*, к ^<х>, \ = 1,2,...,п , (2)
* * где х- финальная точка, х е X .
Возьмем в X множество фазовых точек с плотностью р(х-|,...,хп). Это множество можно рассматривать как некий «фазовый газ», который в процессе вычислений сжимается к точке х. Рассмотрим этот процесс с точки зрения термодинамики. Первые результаты в этом направлении принадлежат А.Н. Колмогорову и его группе. Они ввели понятие о вычислительной е-энтропии и исследовали ее свойства [1-5]. Ниже вводим остальные термодинамические функции и формулируем термодинамические постулаты для вычислительного процесса.
Первое начало. Первое начало имеет
вид
= Т ■ д! + р ■ дп + ц ■ d п, (3)
где N - число операций, затраченное на сжатие «фазового газа»; N - аналог внутренней энергии (обладает аддитивностью); I - информация, полученная в процессе вычислений.
Алгоритмическая температура
T =
N
dI
(4)
представляет число операции, затраченных на получение единицы информации.
Давление
dN
p=^Т
dn
(5)
является числом операций, потраченных на изменение размерности, если в процессе вычислений это имело место.
Слагаемое ц-dп в (3) учитывает вероятностный характер вычислительного процесса (погрешности, использование случайных чисел), где
ц =
5N
дп
(6)
I,n
п - вероятность правильного ответа, 0 < п < 1. В ряде случаев определенное снижение п ведет к существенному сокращению числа операций N (методы Монте-Карло, случайный поиск).
Второе начало. Термодинамическая необратимость. Вычислительный процесс устойчив, если
dI > 0 . (7)
Опираясь на это неравенство, можно исследовать алгоритмы на устойчивость. Это значительно более эффективный нетрадиционный способ, он не требует линеаризации и применим в сложных нелинейных случаях. Убедительный пример приведен Ю.Н. Ватолиным [6]. В результате вычислений была получена новая информация:
д|k,k+m _ нk — нk+m
где Hk,Нк+т - вычислительная энтропия на шагах k и k+m.
Третье начало. Недостижимость температурного нуля:
T=N =~зТ
> 0.
(9)
Весьма интересна величина, обратная алгоритмической температуре. Мы называем ее пропускной способностью алгоритма. Это извлеченная информация, отнесенная к числу затраченных операций:
^2 =^__. (10)
АМ*1*2 '
Вариационная задача о поиске оптимального распределения начальной плотности «фазового газа», минимизирующего число операций АМ при заданной информации А/, приводит к распределению Л.Больцмана:
0/ ч I AN
Р0(*i,...,*N) = ехР| ~~y~
I n
AN
T
L exp I
V i=1
Из (11) элементарно получаются все известные соотношения статистической термодинамики, согласующиеся с изложенным феноменологическим подходом. Если согласно методу И. Ньютона линеаризовать локально отображение (1):
=L Ajvk, (12)
Уі
k+1
j=1
У і = x і - x*
A =^
lj dxj
и ввести информацию Хартли [1]:
AI°,k = -In—,
(13)
где V0Ук - начальный и конечный объемы в фазовом пространстве X, то можно показать, что
AIok =-£ In
=1
xk +Х,
1 -\k
k-1
1 -X,-
(14)
где X, - собственные числа матрицы А; х -константы, пропорциональные уровню шума для частот X,.
В хорошо обусловленном случае, если принять
^ =х; хя = х; в = 1,2,...,л, а затраты на вычисления считать пропорциональными к - п^ + п), получим выражение р^ + п) = /Т, (15)
которое можно назвать уравнением состояния алгоритма. В более сложных случаях уравнения состояния не будут такими простыми.
К итерационным вычислительным процессам применимо представление о термодинамических циклах. В качестве примера (см. таблицу) рассмотрим поиск минимума с помощью метода градиента:
во
xk+1=xk -т
dxl
(16)
сопоставив ему цикл Карно в координатах (I, T). Пусть 0 < I1 < I2,0 < T1 < T2.
Уча- сток Температура начальная Температура конечная Инфор- мация началь- ная Инфор- мация конечная
1 T2 T1 I1 1
2 T, T1 I1 I2
3 T1 2T I2 I2
4 T2 T2 I2 I1
Участок 1. Вычисляются составляющие градиента, дающие направление «на цель». Растет пропускная способность, падает температура.
П,П
п
k
x
п,п
Участок 2. Движение к цели по полученному направлению. Падает энтропия, растет информация.
Участок 3. При новом положении поисковой точки вычисленные составляющие градиента уже не представляют ценности. Они отбрасываются. Падает пропускная способность и растет температура.
Участок 4. В новой точке принимается решение использовать тот же метод. Происходит возврат в исходную точку. На диаграмме (/, Т цикл замкнулся.
Описанный формализм позволяет, кроме исследования на устойчивость, находить оптимальные пути декомпозиции, выделять главные переменные, понижать размерность задачи, результативно рандомизировать вычисления.
Обратимся теперь к нейронным сетям. В этом случае вместо числа операций N вводится величина е, пропорциональная рассеянию энергии нейронной сетью: е = Ьп - п + Ьт - т , (17)
где п - число нейронов; т - число связей между ними; Ьп, Ьт - энергии, рассеиваемые нейронами и связями соответственно.
Выражения (3), (4), (5), (6) перепишутся в следующем виде:
dе = Т - d/ + р - dn + ц - dп , (18)
T =
ds
¥
p =
ds
dn
Ц =
/,П
ds
dn
(19)
/,n,m
Если предположить, что все нейроны работают в областях быстрейших переходов, где локально допустима линеаризация, то можно воспользоваться выражением типа (14):
А/'
o,k
-Хг
1 -X
k-1
(20)
1=1 V 1 -Х' .
Здесь к - порядковый номер нейронного слоя при прямом проходе (от входа к выходу). Опираясь на это, можно ставить задачи на выделение главных компонент, на упрощение, декомпозицию сети по наиболее слабым информационным связям, переход к новым переменным. Наличие слагаемого ц-d п позволяет предположить, что рандомизация процессов в нейронной сети с использованием марковских алгоритмов может быть эффективной.
Компьютерное моделирование и построение быстрых алгоритмов актуальны для множества областей энергетики. Они используются при управлении ядерными реакторами,
прогнозировании процессов и управлении энергоресурсами.
Список литературы
1. Хинчин А.Я. Понятие энтропии в теории вероятностей // Успехи математических наук. - 1953. - Т. XI. -Вып. 3(55).
2. Колмогоров А.Н., Тихомиров В.М. s-энтропия и s-емкость множеств в функциональных пространствах // Успехи математических наук. - 1959. - 14. - Вып. 2(86). - С. 3-80.
3. Витушкин А.Г. Оценка сложности задачи табулирования. - М.: Физматиз, 1959.
4. Колмогоров А.Н. Различные подходы к оценке трудности приближенного задания и вычисления функций // Труды международного конгресса математиков. - Стокгольм, 1964.
5. Петри Н.В. Сложность алгоритмов и время их работы // ДАН СССР. - 1969. - 186. - С. 30-31.
6. Ватолин Ю.Н. О применении энтропийных оценок устойчивости // Численные методы механики сплошной среды. - 1974. - Т. 5. - № 2.
7. Бабенко К.И. Теоретические основы и конструирование численных алгоритмов задач математической физики. - М.: Наука, 1979. - 295 с.
8. Ахо А., Хопкрофт Дж., Ульман Дж. Построение и анализ вычислительных алгоритмов. - М.: Мир, 1979. -535 с.
9. Трауб Дж., Вожьняковский Х. Общая теория оптимальных алгоритмов. - М.: Мир, 1983. - 381 с.
References
1. Khinchin, A.Ya. Ponyatie entropii v teorii veroyat-nostey [The concept of entropy in probability theory]. Uspekhi matematicheskikh nauk, 1953, vol. XI, issue 3(55).
2. Kolmogorov, A.N., Tikhomirov, V.M. Uspekhi matematicheskikh nauk, 1959, vol. 14, issue 2(86), pp. 3-80.
3. Vitushkin, A.G. Otsenka slozhnosti zadachi tabuliro-vaniya [Assessment of the tabulation problem]. Moscow, Fiz-matiz, 1959.
4. Kolmogorov, A.N. Razlichnye podkhody k otsenke trudnosti priblizhennogo zadaniya i vychisleniya funktsiy [The different approaches to the difficulty estimation of the approximate setting and computing of functions], in Trudy mezhdu-narodnogo kongressa matematikov [Proceedings of the International Congress of Mathematicians]. Stokgol'm, 1964.
5. Petri, N.V. DAN USSR, 186 (1969), pp. 30-31.
6. Vatolin, Yu.N. O primenenii entropiynykh otsenok us-toychivosti [On the application of the entropy bounds of stability], in Chislennye metody mekhaniki sploshnoy sredy [Numerical methods of continuum mechanics], 1974, vol. 5, no. 2.
7. Babenko, K.I. Teoreticheskie osnovy i konstruiro-vanie chislennykh algoritmov zadach matematicheskoy fiziki [Theoretical foundations and construction of numerical algorithms for problems of mathematical physics]. Moscow, Nauka, 1979. 295 p.
8. Akho, A., Khopkroft, Dzh., Ul'man, Dzh. Postroenie i analiz vychislitel'nykh algoritmov [Design and Analysis of Computational Algorithms]. Moscow, Mir, 1979. 535 p.
9. Traub, Dzh., Vozh'nyakovskiy, Kh. Obshchaya te-oriya optimal'nykh algoritmov [General Theory of Optimal Algorithms], Moscow, Mir, 1983. 381 p.
n,n
Ясинский Игорь Федорович,
ФГБОУВПО «Ивановский государственный энергетический университет имени В. И. Ленина», кандидат технических наук, доцент кафедры высокопроизводительных вычислительных систем, e-mail: [email protected]
Ясинский Федор Николаевич,
ФГБОУВПО «Ивановский государственный энергетический университет имени В. И. Ленина»,
доктор физико-математических наук, профессор кафедры высокопроизводительных вычислительных систем,
телефон (4932) 26-98-29.