ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 1 (127) 2014
%
ИНФОРМАЦИОННЫЕ
ТЕХНОЛОГИИ
удк 004.942 в. А. БАДРЫЗЛОВ
Омский государственный технический университет
ИДЕНТИФИКАЦИЯ И КАЛИБРОВКА ГРАФОВ МНОГОСВЯЗНЫХ СОЦИАЛЬНЫХ СЕТЕЙ_________________________________
Рассмотрены вопросы идентификации фрагмента социальной сети Твиттер и построения модели, идентичной по распределению степени связности вершин.
Ключевые слова: случайный граф, большие сетевые структуры, модель.
Введение. Многие изучаемые различными естественными и социальными науками объекты могут быть представлены в виде графа. Так, например, виртуальные компьютерные сети в информатике, социальные сети в социологии, энергетические сети в электроэнергетике, сети автомобильных дорог и многие другие объекты представляются в виде больших сетевых структур и поэтому совершенно оправданно применение теории графов к моделированию и исследованию этих разнообразных сетевых структур.
Вопросами моделирования сетевых структур в виде графов начали заниматься достаточно давно. В 1959 году венгерские математики П. Эрдеш и А. Ре-ньи предложили случайные графы для моделирования сетей. Важной особенностью таких графов-моделей, отличающих их от других графов, является необходимость учета стохастического характера сетевых структур, которые являются «живыми» объ-
ектами, постоянно меняются, прирастают новыми элементами, случайным образом между узлами сети возникают новые связи. Именно поэтому графы называются случайными.
С момента появления больших сетей из десятков и сотен тысяч узлов, позднее, вслед за П. Эрдешем и А. Реньи, предлагались различные случайные графы: Уотса — Строгатца (1998 год), Барабаши-Альберт (1999 год) и др. Наиболее перспективным путем моделирования сетевых структур является использование для этой цели случайных графов предпочтительного связывания. Однако случайные графы предпочтительного связывания являются наиболее сложными для построения, теория случайных графов предпочтительного связывания находится на этапе становления. Вопросы теории случайных графов предпочтительного связывания рассмотрены в работах В. Н. Задорожного [1, 2] в 2010 — 2012 годах, в которых, в частности, предлагается метод калиб-
Характеристики сетей, участвовавших в исследовании
Название сети Количество вершин N Количество ребер E Средняя степень вершин m = E/N
Сеть ссылок веб-страниц (GOOGLE) 875713 5105039 5,83
Сеть товаров интернет-магазина Amazon 262111 1234877 4,71
Сеть маршрутизаторов Интернет 124651 207217 1,66
Сеть адресов электронной почты 36692 367662 10,02
Сеть автономных систем Интернет 22963 48436 2,11
Сеть пользователей программы PGP 10680 24340 2,28
Фрагмент сети Твиттер 3500 94357 26,96
ровки графовых моделей сетей по эмпирическому распределению степени связности вершин.
Можно отметить перспективность вопросов моделирования сетей с использованием случайных графов. Адекватная модель реальной сети может помочь в ряде аспектов исследования: определение существенных характеристик сети, изучение степени устойчивости к внешним воздействиям, перспективы роста и развития, исследование скорости распространения информации по сети и др.
Постановка задачи. Реально существующая сеть как «живой» и постоянно развивающийся объект крайне сложна для исследования. Обычно удается получить информацию о такой сети в виде набора некоторым образом обозначенных узлов сети и связей между ними на определенный момент времени. Этот набор узлов и связей совершенно естественным образом представляется в виде графа, где узлы — вершины графа, связи между ними — ребра. Однако визуально этот граф изобразить невозможно в силу его масштабности, кроме того, реальный граф постоянно меняется.
Для целей исследования и моделирования реальной сети пытаются построить случайный граф по определенному алгоритму таким образом, чтобы граф-модель обладал такими же основными свойствами, что и граф реальной сети. Построенная модель должна быть реализована на компьютере, чтобы можно было имитировать рост сети, ее устойчивость к внешним воздействиям, решать другие задачи.
Задача построения графа-модели сводится к решению ряда вопросов:
— выбор вида случайного графа для построения модели (Эрдеша —Реньи, Уотса—Строгатца, Бара-баши-Альберт, случайного графа предпочтительного связывания, других известных классов графов);
— идентификация существенных структурных характеристик графа реальной сети (распределение степеней связности вершин графа, коэффициент кластеризации и др.);
— выбор программного средства, языка программирования (моделирования), способного обеспечить построение модели, другими словами — разработка генератора графа-модели;
— калибровка генератора — поиск таких параметров генерации, которые обеспечивают идентичность выбранных структурных характеристик графа реальной сети и графа-модели.
Как показали исследования, методы калибровки, рассматриваемые в работах [1, 2], не обеспечивают удовлетворительных результатов для некоторых графов сетей и необходима корректировка этих базовых методов.
Граф фрагмента социальной сети Твиттер и его особенности. Можно отметить, что рассматриваемые в работах [1, 2] сети являются малосвязными — количество ребер, исходящих из одной вершины графа к другим вершинам достаточно мало (менее 10). В табл. 1 представлены характеристики этих сетей. Именно на таких малосвязных сетях был опробован метод калибровки, описанный в статье [1]. Будем в последующем называть графы этих сетей прототипами, имея в виду, что указанные графы явились основой для тестирования метода калибровки.
В продолжении исследований социальных сетей был рассмотрен фрагмент социальной сети Твиттер [3], характеристики графа этой сети также представлены в табл. 1.
Основные структурные характеристики графа фрагмента сети Твиттер следующие:
— число вершин N = 3500;
— число ребер графа Д = 94357;
— средняя степень вершин т = 27;
— среднее число ребер в приращении ¿ = 54;
— максимальная степень вершины равна 434.
Граф фрагмента сети Твиттер по сравнению
с ранее рассмотренными графами имеет следующие особенности:
— граф существенно более насыщен связями, чем графы-прототипы: средняя степень вершин графа сети Твиттер равна 27, в то время как у прототипов средняя степень равна 2—10;
— в графе фрагмента сети Твиттер очень мал удельный вес вершин со степенью связности 1. У сети Твиттер таких малосвязных вершин только 3 %, в то время как в прототипах 30 — 40 % вершин имеют степень 1;
— используемое для калибровки модели эмпирическое распределение степеней связности фрагмента сети Твиттер характеризуется большими стохастическими погрешностями.
Указанные отличия усложняют процесс калибровки графа.
В табл. 2 в качестве примера сопоставлены распределения степеней связности вершин графа фрагмента сети Твиттер и графа сети маршрутизаторов Интернет, полученных в предшествующих исследованиях [1, 2].
Базовый метод калибровки. На первом этапе калибровки определяется закон распределения числа ребер, инцидентных каждой новой генерируемой вершине в графе-модели, поскольку на каждом шаге генерации вершин в графе-модели может возникать произвольное число ребер, инцидентных этой новой вершине и связанных с уже существующими вершинами.
ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 1 (127) 2014 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 1 (127) 2014
Сравнение распределения степеней связности вершин графов
Степень Фрагмент сети Твиттер Сеть автономных систем Интернет
вершины к Количество Вероятность Ок Количество Вероятность Ок
вершин появления вершин появления
Пк вершины степени к Пк вершины степени к
1 107 0,0305 7840 0,3414
2 101 0,0288 9700 0,4224
3 76 0,0217 2219 0,0966
4 95 0,0271 907 0,0395
5 73 0,0208 471 0,0205
6 64 0,0182 290 0,0126
7 77 0,0220 200 0,0087
8 74 0,0211 173 0,0075
9 64 0,0183 132 0,0057
10 61 0,0174 113 0,0049
Таблица 3
Распределение числа генерируемых ребер приращения {гк}
Число ребер к Вероятность Гк Число ребер к Вероятность Гк Число ребер к Вероятность Гк
0 0,000000000 16 0,01285714 31 0,01000000
1 0,03057143 17 0,01542857 32 0,01200000
2 0,02885714 18 0,01571429 33 0,01200000
3 0,02171429 19 0,01200000 34 0,00828571
4 0,02714286 20 0,01400000 35 0,01028571
5 0,02085714 21 0,01257143 36 0,00542857
6 0,01828571 22 0,01257143 37 0,00857143
7 0,02200000 23 0,01085714 38 0,00800000
8 0,02114286 24 0,01342857 39 0,00800000
9 0,01828571 25 0,01485714 40 0,00742857
10 0,01742857 26 0,01342857 41 0,00800000
11 0,01485714 27 0,01371429 42 0,19657143
12 0,01857143 28 0,01114286 43 0,19914286
13 0,01914286 29 0,00885714
14 0,01971429 30 0,01200000
Каждое приращение представляет собой вершину со случайным числом х инцидентных ей ребер. Случайная величина х имеет дискретное распределение вероятностей {гк}. Вероятность
гк=Р(х=к)>0 при д<к<И,
где к — количество ребер в приращении, д>1 (минимальное количество ребер в приращении), И<М (максимальное число ребер в приращении, не большее чем конечное число вершин в существующем графе).
и
Должно выполняться правило — Гк = 1. Тогда
к=д
среднее число ребер т в приращении также конечно: и
т = (х) = Xкгк <¥ .
к=д
Базовый метод позволяет получить распределение вероятностей, представленное в табл. 3.
На втором этапе калибровки графа находятся веса вершин графа, определяющие правило предпочтительного связывания. Вес вершины, имеющей степень к, определяет вероятность того, что очередная сгенерированная вершина графа соединится с данной вершиной. Вероятность р( привязки новой вершины графа к существующей г-й вершине в зависимости от степени связности кг этой вершины:
р=т)/ъ/(к).
Функция !к определяет вид зависимости вероятности от степени связности вершины.
Базовый метод позволил определить фиксированные веса !1, / и общую формулу последующих
весов в виде =ск при с = 5,7347 для к>44. Полученная зависимость весов от степени связности вместе с вероятностями г1, ..., г43 является результатом калибровки генератора с нелинейным правилом предпочтительного связывания и стохастическим приращением ребер.
Рис. 1. Распределение степени вершин (логарифмическая шкала вероятностей): сплошная линия — расчетные значения, маркеры — эмпирические значения
Рис. 2. Сглаживание эмпирических данных
Рис. 3. Распределение степени вершин (логарифмическая шкала вероятностей): сплошная линия — расчетные значения, маркеры — эмпирические значения
Метод предварительного сглаживания эмпирического распределения. Калибровка графа фрагмента сети Твиттер базовым методом, предложенным в [1], не дает удовлетворительных результатов. На рис. 1 показан один из результатов применения метода к графу фрагмента сети Твиттер.
Хорошо заметны отличия расчетных вероятностей от эмпирических данных для степени вершин к, равных 45 — 50. Подобное расхождение объясняется высоким коэффициентом вариации оценок Ок для фрагмента сети Твиттер, в то время как у графов-прототипов, наоборот, начало ряда оценок Ок имеет
высокую точность и соответствует установившимся стационарным вероятностям Ок [2].
Для более качественного подбора параметров калибровки предлагается:
1. Заменить эмпирические оценки распределения
степеней связности О1, О54 оценками, получен-
ными по правилу: О' = одка1ва2к.
2. Искать функцию предпочтения /(к) в виде Дк) = Сд+сгк.
Выполненное сглаживание эмпирических оценок распределения степени связности для малых значений к имеет вид:
ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 1 (127) 2014 ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК № 1 (127) 2014
%
к -степень вершины
Распределение степеней связности выращенного графа Эмпирическое распределение степеней связности
Рис. 4. Сопоставление распределения степеней связности графов
0/=0,03166А-0,1487е~0,01941, ¿<43.
Результаты сглаживания эмпирических оценок представлены на рис. 2.
Функция предпочтения имеет вид /(¿) = 40,32754 + + 0,222566к, и результат калибровки графа фрагмента сети Твиттер с применением предварительного сглаживания представлен на рис. 3.
По результатам калибровки графа модифицированным методом построен случайный граф-модель, обладающий распределением степени связности вершин, близким к распределению степени связности исходного графа. На рис. 4 выполнено сопоставление распределения степеней.
Выводы. Методика сглаживания эмпирического распределения степени связности позволяет генерировать случайный граф с нелинейным правилом предпочтительного связывания, у которого распределение степени связности идентично распределению степени связности графа фрагмента сети Твиттер. Эту методику можно использовать для калибровки графов сетей, насыщенных связями и с большой стохастической погрешностью.
Библиографический список
1. Задорожный, В. Н. Случайные графы с нелинейным правилом предпочтительного связывания / В. Н. Задорожный // Проблемы управления. — 2010. — № 6. — С. 2 — 11.
2. Задорожный, В. Н. Структурные свойства безмасштаб-ного графа Барабаши-Альберт / В. Н. Задорожный, Е. Б. Юдин // Автоматика и телемеханика. — 2012. — № 4. — С. 131 — 150.
3. Граф фрагмента сети Твиттер [Электронный ресурс]. — иИЬ: http://wiki.gephi.org/index.php/Datasets (дата обращения: 18.04.2013).
БАДРЫЗЛОВ Владимир Александрович, аспирант кафедры «Автоматизированные системы обработки информации и управления», старший преподаватель кафедры «Организация и управление наукоемкими производствами».
Адрес для переписки: [email protected].
Статья поступила в редакцию 03.12.2013 г.
© В. А. Бадрызлов
Книжная полка
Данилова, О. Т. Представление информации в цифровых устройствах : учеб. пособие / О. Т. Данилова, Б. Д. Женатов ; ОмГТУ. - Омск : Изд-во ОмГТУ, 2013. - 181 с. - ISBN 978-5-8149-1625-9.
Приводятся основные сведения, необходимые для проведения контрольных работ по темам: «Перевод чисел из одной системы счисления в другую», «Представление десятичных чисел различными двоичными кодами», «Представление двоичных чисел в разных форматах», «Двоичная арифметика», а также задания для выполнения самостоятельных и контрольных работ по указанным темам. Предназначено для студентов очной и заочной форм обучения специальностей: 090104.65 «Комплексная защита объектов информатизации», 090915.65 «Безопасность информационных технологий в правоохранительной сфере», 210701.65 «Инфоком-муникационные технологии и системы специальной связи», направлений бакалавриата 090900.62 «Информационная безопасность», 210700.62 «Инфокоммуникационные технологии и системы связи».