7. Князьков К. В., Ларченко А. В. Предметно-ориентированные технологии разработки приложений в распределенных средах // Изв. вузов. Приборостроение. 2011. Т. 54, № 10. C. 36—43.
8. Newman M. E. J. The Structure and Function of Complex Networks // Soc. for Industrial and Appl. Mathematics. 2003. Vol. 45, N 2. P. 167—256.
9. DaleyD., KendallD. Epidemics and rumours // Nature. 1964. Vol. 240, N 4963. P. 1118.
Сергей Владимирович Иванов
Екатерина Владимировна Болгова
Виктор Валерьевич Каширин
Андрей Владимирович Якушев
Андрей Владимирович Чугунов
Александр Валерьевич Бухановский
Сведения об авторах
канд. техн. наук; НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; старший научный сотрудник; E-mail: [email protected]
НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; младший научный сотрудник; E-mail: [email protected]
НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; младший научный сотрудник; E-mail: [email protected]
НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; младший научный сотрудник; E-mail: [email protected]
канд. политич. наук; Санкт-Петербургский государственный университет информационных технологий, механики и оптики, Центр технологий электронного правительства; директор; E-mail: [email protected]
д-р техн. наук, профессор; НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; директор; E-mail: [email protected]
Рекомендована НИИ НКТ
Поступила в редакцию 15.05.11 г.
УДК 004.021, 004.492
Е. В. Болгова, С. В. Иванов, Е. А. Гринина, П. М. А. Слоот, А. В. Бухановский
ПАРАЛЛЕЛЬНЫЕ АЛГОРИТМЫ МОДЕЛИРОВАНИЯ ДИНАМИЧЕСКИХ ПРОЦЕССОВ НА КОМПЛЕКСНЫХ СЕТЯХ
Предложен способ формального описания динамики комплексных сетей. Рассмотрены схемы распараллеливания алгоритмов при моделировании динамических процессов в комплексных сетях.
Ключевые слова: комплексная сеть, динамический процесс, случайный граф, схема распараллеливания.
Комплексная сеть представляет собой граф с динамически эволюционирующей во времени структурой, при этом число состояний графа предполагается достаточно большим, чтобы интерпретировать закономерности процессов на нем средствами статистической механики [1]. Примерами комплексных сетей служат социальные сети (знакомств,
соавторства ученых [2]), информационные (цитирования в научных статьях [3], интернет-ссылок [4]), технологические (Интернет как сеть компьютеров, транспортные и электрические сети) и биологические (сети нейронов мозга, взаимодействующих протеинов, генетические сети). Развитие методов прямого моделирования процессов на комплексных сетях во многом обусловлено возможностями их реализации на параллельных вычислительных архитектурах, как для ускорения вычислительных операций, так и для работы со структурами данных большого объема.
В настоящей работе, продолжающей исследования авторов [5], предлагается формальный математический аппарат, позволяющий описывать динамические системы на основе моделей комплексных сетей в различных предметных областях, и рассматриваются аспекты параллельной реализации таких сетей.
Микромасштабная вероятностная модель динамики комплексной сети. Комплексная сеть представляется взвешенным неориентированным графом О, который определяется как совокупность (V, Е) конечного множества вершин V, ) = N, и множества ребер
Е, состоящего из неупорядоченных пар (и, V), где и, V eV и и Ф V . Каждая вершина характеризуется своей степенью, т.е. числом инцидентных ей ребер. Микромасштабная модель описывает динамику комплексной сети на основе знаний о состоянии каждой из вершин (и соответствующих им ребер) сети.
Комплексные сети от других графовых структур отличает возможность их вероятностного описания. Она не ограничивается частотным определением вероятности, пригодным для сетей с очень большим количеством узлов, но формально позволяет ввести вероятностное пространство (О, ВО, РО), включающее в себя следующие элементы.
1. О — пространство элементарных событий. Пусть VI — множество всех вершин веса г (возможно, бесконечное), а Е— множество всевозможных графов-звеньев, инцидентных паре вершин, одна из которых имеет вес г, а другая — к : Ег к = {е = {и, V}: и е Vi, V еVk}, тогда О = {V еVi, г = 1,..., N1; е е Еа, г, к = 1,...., N1} .
2. Во — сигма-алгебра подмножеств О. Любой граф, содержащий вершины весов г = 1,..., N1 может быть составлен из элементов множества О и соответственно рассмотрен как подмножество множества О.
3. Ро — сигма-аддитивная мера на множестве О (вероятностная мера), отражающая
вероятностные закономерности формирования топологии комплексной сети. Ро( О ) = ро — вероятность того, что из всех возможных графов (элементов Во ) комплексная сеть представляется графом О.
Использование формального представления вероятностного пространства позволяет описывать динамические процессы на сетях даже в тех случаях, когда число узлов графа ограничено. В целом эволюция комплексной сети может быть описана посредством оператора Г сети, действующего на множестве Во :
(V, Е, /\+1 = Г^, Е, /%,
(V, Е, / )г=о = (V), Ео, /о). (1)
Оператор Г может быть представлен как совокупность нескольких различных операторов
м
Г=®Гт, (2)
т=1
каждый из которых соответствует определенному динамическому компоненту эволюции сети, в общем случае это добавление новых вершин (Г1), удаление из сети вершин (Г2), добавление новых связей (Г3), разрушение существующих связей, удаление ребер (Г4). В общем случае эти операторы некоммутативны. Например, при эволюции комплексной сети по типу случайного графа
Г = Г3 ®Г1 ®Г2 ®Г4. (3)
Будем предполагать, что из сети на каждом шаге (в каждый момент времени) могут быть удалены только те вершины, которые не имеют инцидентных им ребер. При этом всякая вершина, не имеющая инцидентных ребер, может быть удалена из сети с вероятностью ду, а любое ребро может быть удалено из сети с вероятностью дЕ. Далее, пусть ру — вероятность появления одной новой вершины в сети, а рЕ — вероятность появления ребра, инцидентного двум произвольным вершинам. Компоненты эволюционного оператора (3) можно представить, используя описание комплексной сети как вероятностного пространства.
Пусть Ве — множество ребер, удаляемых из графа О в момент времени I ( Ог), Ве с ^.
# В
Тогда для оператора Г4, учитывая Р(О, П Ве ) = ^ е, получаем
Г4 = О / ( П Ве ), Ве с Е{ р( О, П Ве )) = (о,/( П Ве ), Ве с Е, # ве) . (4)
Здесь индекс # означает мощность множества.
Обозначим через Ву множество вершин, удаляемых из графа О,, Ву с Ва. Тогда для
# В
оператора Г2, учитывая Р(О, П Ву ) = ^ у, получаем
Г2 = (О, / (О, П Ву ), Ву с У,|Р( О{ П Ву )) = О / (О, П Ву ), Ву С у,\ду # , (5)
пусть теперь Ву — множество новых вершин, добавляемых в граф о(, Ву с Ва, тогда опера-
# В
тор Г, с учетом Р(Ву) = ру у, имеет вид
Г1 = (О, иВу,Ву С УГ|Р(Ву) )= (О, иВу,Ву с Уг\ру#В >, (6)
Ве — множество новых ребер, добавляемых в граф О,, Ве с Ва, оператор Г3, с учетом Р( Ве ) = рЕ # Ве, имеет вид
Г3 = (О, и Ве, Ве с Е<\Р( Ве) )= {О, и Ве, Ве с Е^^ ). (7)
Дополнительно в (3) могут участвовать дополнительные операторы 0, отвечающие за эволюцию отдельных узлов сети (переход из состояния в состояние); могут использоваться операторы Г2 и Г4.
В качестве примера на рис. 1 приведены три формы развития процессов в контактной сети носителей ВИЧ I е N (О — „здоровый", © — „инфицированный", • — „больной/умерший", © — новый узел, которого не было) [6]. Каждый узел может быть „инфицирован"; по истечении инкубационного периода он выбывает из сети; при этом соответствующие связи удаляются из сети. На рис. 1, а представлен процесс в „замороженной" сети со статическими связями и постоянным количеством узлов. На рис. 1, б количество узлов сети постоянно, но связи между ними могут изменяться в течение времени вне зависимости от
действия оператора 0. На рис. 1, в сеть имеет переменное количество узлов и изменяемые связи между ними, т.е. задействованы все составляющие (3).
Модель (3)—(7) описывает эволюцию сети как случайного графа. Однако в ряде случаев такое приближение не является удовлетворительным. Это требует перейти от описания событий, определяемых (4)—(7) в форме модели Бернулли, к более сложным вероятностным схемам, например, с использованием условных распределений добавления (удаления) связи у вершины, которая уже имеет k связей (preferential attachment [7]).
Рис. 1
Макромасштабная вероятностная модель динамики комплексной сети. Макроскопическая модель описывает динамику процесса в терминах вероятностных характеристик сети (общее количество вершин, общее количество ребер, количество вершин каждого конкретного веса), которые, в свою очередь, могут быть получены усреднением значений величин, характеризующих микроскопические свойства сети. Эти величины являются интегральными количественными характеристиками воздействия эволюционного оператора (2) на сеть.
Применяя к (1) оператор определения числа вершин заданного веса р/ = р/(1) — количество вершин веса /, / е N1, можно получить систему дифференциальных уравнений
^рр = ^(),р2(0,..., РдДО,ХьХр), (8)
где X — макропараметры, характеризующие процессы в конкретной сети, определяемые, например, через вероятности в соотношениях (4)—(7). Следует отметить, что сама по себе такая модель является детерминированной и не отражает стохастического характера процессов в комплексной сети.
Для приведенного выше примера эволюции сети (3)—(7) в форме случайного графа система (8) вырождается в единственное дифференциальное уравнение, описывающее зависимость р(1), которая определяется балансом между количеством удаленных из сети вершин и количеством новых в каждый момент времени 1. Всякая вершина сети, имеющая степень к, в результате действия оператора Г2 ®Г4 удаляется из сети с вероятностью Ч£кЧу, тогда как под действием оператора Г3 ® Г с вероятностью р^кРу появляется новая, имеющая степень к :
к
^ = р(1) Е (ркру - ЧеЧу )Рк ($), (9)
М к=0
где К — максимальная степень вершины в сети, а Рк = Рк (1) — закон распределения степеней.
В общем случае вид уравнений (8) зависит от характеристик распределения связей в структуре сети. Например, для эпидемиологической сети ВИЧ система (8) приобретает вид:
^ = -к (1 )Е/ (/, X Дк, /, р), ж 1=1
= -цРк (1) + Sk (1 )Е /(/, X)Ь(к, /, р), [ (10)
Ж /=1
^=Е^Рк (1).
ж к
Здесь ^ обозначает число индивидов, г — число изолированных от контактов (заболевших или умерших), рк — количество инфицированных узлов, у которых есть ровно к связей. При
этом Ь(к, /, р) = С1кр1 (1 - р)к-/ задает биномиальное распределение контактов, где к — общее число узлов в группе, а / — доля узлов, подверженных заражению. Функция / (/, X) = 1 - (1 - X)1 определяет вероятность изоляции узла (переход в группу г). Здесь X — вероятность изоляции, а ц — вероятность заражения, интерпретируемые как макропараметры сети.
Модели в форме (8)—(10) являются более простыми с вычислительной точки зрения, однако менее гибкими, чем модель (1)—(7). Однако они позволяют анализировать основные характеристики процессов на сетях в терминах, присущих классическим динамическим системам. Например, на рис. 2 приведены результаты моделирования (кривая) развития эпидемии ВИЧ в США посредством модели (10), точки — результат измерений. На рис. 2, а, б представлено количество заболевших (г) и фазовый портрет эпидемии в среде гомосексуального населения (Яг), а на рис. 2, в, г — в среде гетеросексуального населения. Из рисунка
видно, что фазовые портреты для различных популяций имеют принципиально разную форму, это является, в первую очередь, следствием различия структуры контактной сети.
Рис. 2
Параллельные алгоритмы моделирования процессов на комплексных сетях. В последовательном алгоритме моделирования динамики комплексной сети по модели (1)—(7) условно можно выделить следующие этапы: формирование сети в начальный момент времени, эволюция сети, сбор и анализ необходимых данных (расчет макропараметров). Параллельные алгоритмы формирования сети заданной структуры подробно рассмотрены в работе [5]. Для моделирования эволюционной динамики сети можно рассмотреть следующие схемы распараллеливания для р вычислителей.
Островная схема. На каждом из вычислителей независимо формируется сеть размером N1 = Nр, после чего к ней применяется оператор (2). Результаты расчета макропараметров
усредняются по всем р вычислителям. Такая схема отличается простотой реализации, однако имеет ограниченную эффективность, поскольку скорость сходимости статистических оценок
(как следствие — параллельное ускорение) в данном случае будет пропорциональна -у/р . Однако ее применение может быть оправдано в том случае, когда макропараметры расчета варьируются от вычислителя к вычислителю (т. е. моделируется неэргодический процесс).
Блочная схема. Для применения оператора эволюции (2) необходимо сеть разделить на блоки (количество блоков 2р) с одинаковым числом узлов сети N1 = Nр в каждом, при этом
любой из полученных блоков будет связан со всеми остальными. Применение оператора (2) осуществляется за одну итерацию для пары блоков на одном вычислителе, после чего происходит пересылка блоков между процессорами, этот процесс повторяется до тех пор, пока блоки не провзаимодействуют во всех возможных сочетаниях в соответствии с заранее построенной „турнирной" таблицей. Реализация блочной схемы требует существенных накладных расходов на передачу данных между вычислителями на каждом шаге моделирования.
Для сопоставления производительности параллельных алгоритмов в рамках островной и блочной схем рассмотрим кривую изоэффективности, определяемую через равенство параллельных ускорений для обоих алгоритмов:
p(nm(1 + ф) - 2Ndnç) = Nd + 24N + nm .
(11)
Здесь N — количество вершин в сети, d — средняя степень вершины, п — число шагов эволюционного алгоритма, m — количество макропараметров сети, подлежащих исследованию, Ф = У0Х, где X — безразмерный коэффициент, определяющий отношение времени, затрачиваемого на пересылку единицы одного объема данных V между вычислителями, ко времени, затрачиваемому на одну арифметическую операцию. При этом оптимальное количество вычислителей, приводящих к наибольшему ускорению, вычисляется как
S — безразмерный параметр, характеризующий отношение времени, затрачиваемого на создание ребра, к времени на одну вычислительную операцию, т — безразмерный коэффициент, характеризующий отношение числа перестраиваемых вершин сети к общему количеству узлов N в сети. Из сопоставления (11) и (12) видно, что во всех случаях до достижения пика ускорения производительность островной схемы будет выше, чем у блочной. Однако этот приоритет является условным, поскольку при использовании островной модели не учитываются связи между отдельными подсетями, которые моделируются независимо друг от друга на различных вычислителях, число таких связей может быть Nd/p . Поэтому выбор схемы распараллеливания должен целиком определяться целями исследования и учитывать не только формальное ускорение, но и соответствие целей расчета предметной постановке задачи (например, моделирования связной сети не менее определенного размера).
Заключение. Динамически изменяющиеся комплексные сети являются эффективным инструментом описания сложных физических и социальных явлений. Для описания динамических моделей на базе комплексных сетей в работе предложен формальный математический аппарат, учитывающий основные аспекты сетевых моделей (стохастический характер сети, иерархию уровней моделирования и т.п.). Для проведения эффективных исследований сетевых моделей проанализированы основные подходы к распараллеливанию алгоритмов построения и эволюции комплексных сетей. В качестве примера для демонстрации удобства описания моделей на базе предложенного формализма и подтверждения эффективности параллельных алгоритмов была использована сетевая модель распространения инфекции ВИЧ.
Работа выполнена в рамках реализации Постановлений № 218 и 220 Правительства Российской Федерации при частичной поддержке ФЦП „Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2012 гг.".
СПИСОК ЛИТЕРАТУРЫ
1. Newman M. E. J. The Structure and Function of Complex Networks // SIAM Rev. 2003. Vol. 45, N 2. P. 167—256.
2. Redner S. How popular is your paper? An empirical study of the citation distribution // Europ. Phys. J. B. 1998. Vol. 4. P. 131—134.
3. Price D. J. de S. A general theory of bibliometric and other cumulative advantage processes // J. of the American Soc. for Information Sci. 1976. Vol. 27. P. 292—306.
4. Broder A., Kumar R., Maghoul F. et al. Graph structure in the web // Computer Networks. 2000. Vol. 33.
5. Иванов С. В., Колыхматов И. И., Бухановский А. В. Параллельные алгоритмы моделирования комплексных сетей // Изв. вузов. Приборостроение. 2008. Т. 51, №10. C. 5—12.
6. Sloot P. M. A., Ivanov S. V. et al. Stochastic simulation of HIV population dynamics through complex network modeling // Intern. J. of Computer Mathematics. 2008. P. 1175—1187.
p
pmax
(12)
P. 309—320.
7. Barabasi A.-L., AlbertR. Emergence of scaling in random networks // Science. 1999. Vol. 286 (5439). P. 509—512.
Екатерина Владимировна Болгова Сергей Владимирович Иванов
Екатерина Александровна Гринина
Петрус Мария Арнольдус Слоот Александр Валерьевич Бухановский
Сведения об авторах
НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; младший научный сотрудник; E-mail: [email protected]
канд. техн. наук; НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; старший научный сотрудник; E-mail: [email protected]
канд. физ.-мат. наук; Санкт-Петербургский государственный университет информационных технологий, механики и оптики; E-mail: [email protected]
доктор философии в области компьютерных наук, профессор; Университет города Амстердам; E-mail: [email protected] д-р техн. наук, профессор; НИИ Наукоемких компьютерных технологий Санкт-Петербургского государственного университета информационных технологий, механики и оптики; директор; E-mail: [email protected]
Рекомендована НИИ НКТ
Поступила в редакцию 15.05.11 г.