У
правление в социально-экономических системах
УДК 519.8
ВЛИЯТЕЛЬНОСТЬ ПОЛЬЗОВАТЕЛЕЙ И МЕТАПОЛЬЗОВАТЕЛЕЙ СОЦИАЛЬНОЙ СЕТИ
Д.А. Губанов, А.Г. Чхартишвили
Рассмотрено развитие акциональной модели влияния в онлайновых социальных сетях. Исходя из данной модели, влияние и влиятельность отдельных агентов (пользователей) и мета-агентов (подмножеств пользователей) вычисляются на основе их действий с учетом установок управляющего органа (центра). Исследованы некоторые свойства функции влияния. На примере показано, каким образом акциональная модель может быть использована, при наличии соответствующих исходных данных, для расчета влиятельности пользователей конкретной сети.
Ключевые слова: социальная сеть, акциональная модель влияния, влиятельность, мега-агент.
ВВЕДЕНИЕ
На протяжении последнего десятилетия заметно возросла роль онлайновых социальных сетей («Facebook», «Twitter» и др.) в жизни общества. Они являются информационным отражением социальной сети — структуры, состоящей из множества агентов (пользователей, сообществ и групп) и различных связей между ними (знакомство, дружба, обмен информацией и т. п.).
Важный аспект информационно-аналитической работы с социальными сетями (о различных возникающих при этом задачах см. в статье [1]) состоит в оценке влияния пользователей. Влиятельные пользователи (которых иногда называют лидерами общественного мнения) в существенной мере определяют тематику обсуждаемых новостей, позитивное или негативное отношение к каким-либо явлениям и персонам. Поэтому вопрос оценки влиятельности представляет как теоретический, так и практический интерес. В данной области исследований можно выделить несколько подходов. Большое распространение получил подход (можно его назвать «структурным») к оценке влияния, в котором используется понятие структурной центральности теории социально-сетевого анализа (Social Network Analysis). Еще со второй половины прошлого века разрабатываются и исследуются
различные показатели (близость узла, степень узла, посредничество связи и др. — см., например, работы [2—5]), которые в той или иной степени характеризуют влияние. Но информационное взаимодействие в сети не всегда обусловлено ее структурой (см. [6]), что является серьезным изъяном данного подхода.
В связи с развитием технологий обработки больших объемов информации интенсивно развивается «вычислительный» подход, в рамках которого разрабатываются методы вычисления влиятельности участников онлайновых социальных сетей. Для вычисления влиятельности чаще всего предлагаются модифицированные методы ранжирования веб-страниц и наукометрические методы [7—9 и др.]. Фрагментарность и бессистемность попыток учета тех или иных аспектов влияния (в частности, учет тематической влиятельности или пользовательской активности) не позволяют говорить о преодолении недостатков упомянутого структурного подхода.
Можно отдельно выделить исследовательские работы, внимание авторов которых сконцентрировано на вопросах моделирования информационных процессов в социальных сетях. Считается, что влияние определяет динамику информационных процессов (например, формирование мнений и распространение информации). Исследователями предлагаются марковские модели, пороговые
модели, модели каскадов, модели Изинга, модели клеточных автоматов, модели распространения эпидемий и другие модели [10—15 и др.]. Одна из приоритетных целей разработки таких моделей — объяснить социальное поведение для сети в целом, исходя из взаимодействия узлов с ближайшим окружением. В рамках данного подхода решаются различные оптимизационные задачи, чаще всего — задача выявления конечного множества наиболее влиятельных пользователей, опосредованное влияние которых вызывает наибольшее распространение заданной информации в сети [12, 13].
Большое число исследований, в которых так или иначе употребляется понятие влияния, свидетельствует об отсутствии единого универсального подхода к его определению и к разработке алгоритмов его расчета. По-видимому, для различных теоретических и прикладных задач целесообразно применять разные определения влияния в социальной сети.
В различных онлайновых социальных сетях могут использоваться различающиеся термины. Мы будем называть постом отдельное публикуемое пользователем сообщение, репостом — пост, являющийся копией другого поста, оригинальным постом — пост, не являющийся репостом, комментарием — сообщение, являющееся реакцией на пост или другой комментарий, лайком — стандартизованную реакцию на пост или комментарий.
В статье [16] была предложена акциональная модель влияния. В соответствии с этой моделью пользователи сети (в рамках предложенной формализации называемые агентами) совершают взаимосвязанные действия, при этом влияние агента, характеризующееся интенсивностью реакции на его посты (как оригинальные, так и репосты) и комментарии, определяется с учетом точки зрения управляющего органа (либо исследующего сеть аналитика). В данной работе мы считаем важной лишь реакцию, порождаемую оригинальными постами. Иными словами, влиятельные (в данном понимании) агенты вводят в сеть новую информацию.
Далее в § 1 описана акциональная модель, в § 2 определены понятия влияния и влиятельности, сформулированы и доказаны некоторые их свойства. В § 3 приведены примеры расчета влиятельности в реальной социальной сети.
1. АКЦИОНАЛЬНАЯ МОДЕЛЬ
Опишем, в основном следуя работе [16], формальную модель распространения действий в социальной сети. Базовым элементом анализа в этой модели служит действие, совершенное агентом
(пользователем сети), поэтому модель названа ак-циональной.
Участниками сети будем считать агентов из фиксированного множества
N = {1, 2, ..., п},
которые совершают действия из фиксированного множества возможных видов действий
К = {1, 2, ..., к}
в те или иные моменты времени из интервала Т. Видом действия может быть создание (написание) поста, создание комментария к посту и др. Обозначим множество действий (создание конкретного поста, комментария и др.) через Д и далее будем считать его конечным.
Каждое действие а е Д характеризуется тремя параметрами — совершившим его агентом, видом действия и моментом времени в который действие было совершено:
а(1, у, ¿), I е N у е К, ? е Т.
Определим функцию а(а), которая каждому действию а е Д ставит в соответствие совершившего его агента а е N.
Далее, пусть на множестве действий задано бинарное отношение частичного порядка «а является причиной Ь» (или, что будем далее считать эквивалентным, «Ь является последствием а»), обозначаемое как а ^ Ь. Пример такого отношения в онлайновой социальной сети: а — создание поста, Ь — создание комментария к этому посту.
Будем считать, что заданное бинарное отношение удовлетворяет свойствам рефлексивности, антисимметричности и транзитивости.
Если а ^ Ь и а ф Ь, но при этом не существует такого с е Д, что а ^ с и с ^ Ь, то будем говорить, что а является непосредственной причиной Ь (или, что будем далее считать эквивалентным, Ь является прямым последствием а). Это позволяет выделить класс бинарных отношений, в которых у каждого действия существует не более одной непосредственной причины. Будем называть такие бинарные отношения однозначными.
Приведем пример неоднозначного бинарного отношения. Пусть а — пост, Ь — комментарий к этому посту, с — другой пост, при этом комментарий Ь содержит ссылку на пост с. Тогда, если считать справедливым а ^ Ь и с ^ Ь, бинарное отношение является неоднозначным.
Если задано множество А с Д, то можно определить множество всех действий, являющихся последствиями действий из А:
п(А) = {Ь е Д | 3 а е А а ^ Ь}.
Отметим, что для всех множеств А с Д выполняется включение
А с п(А),
которое справедливо в силу рефлексивности бинарного отношения.
Среди всех действий Д выделим множество Д0 начальных действий, которые не являются последствиями какого-либо другого действия:
Д0 = {а е Д | УЬ £ Д (Ь ^ а) ^ (а = Ь)}.
Заметим, что для однозначных бинарных отношений у каждого действия существует только одно начальное действие, являющееся его причиной. Поэтому множества п(А) и п(В) не пересекаются для любых непересекающихся А, В е Д0.
Как было сказано ранее, существует множество методов для расчета влиятельности пользователей онлайновых социальных сетей. Однако, как правило, за рамками рассмотрения остается вопрос о том, с чьей точки зрения и для каких целей оценивается влиятельность. Между тем, этот вопрос весьма важный, если трактовать влиятельность как способность побуждать других к тем или иным действиям.
Поэтому рассмотрим проблему расчета влиятельности с точки зрения некоего управляющего органа (центра). Пусть центр определяет (исходя из каких-либо собственных соображений) значимость действий агентов в социальной сети (важно отметить, что значимые действия могут быть как желательными для центра, так и нежелательными). Для того, чтобы учитывать установки центра при расчете влиятельности, введем в рассмотрение значимость множества действий — функцию Ф(^):
Ф: 2Д ^ [0, + да).
Естественно предположить, что если к некоторому множеству действий добавить еще действия, то значимость множества увеличится (по крайней мере, не уменьшится). Поэтому будем считать, что значимость множества действий (далее для краткости будем называть ее просто значимостью) является монотонной функцией:
если А с В, то Ф(А) < Ф(В). (1)
Кроме того, примем естественное предположение о том, что хотя бы какие-то д ействия обладают положительной значимостью: Ф(Д) > 0.
Важный класс функций значимости составляют аддитивные функции, для которых выполняется соотношение
Ф(А и В) = Ф(А) + Ф(В) для любых непересекающихся А, В е Д.
Подчеркнем, что для решения конкретных прикладных задач значимость Ф должна быть корректно определена (включая выполнение свойства (1)). Немаловажно с практической точки зрения также наличие эффективных алгоритмов расчета ее значения.
2. ВЛИЯНИЕ АГЕНТОВ И МЕТА-АГЕНТОВ
Перейдем к определению влияния на основе акциональной модели. В отличие от работы [16] будем сразу определять влияние м ета-агента (или метапользователя), представляющего собой любое непустое подмножество м ножества агентов N. В реальной социальной сети эти подмножества могут формироваться различным образом, как на основе изначально заданных (например, при регистрации нового пользователя в онлайновой сети) индивидуальных свойств (характеристик) отдельных агентов, так и на основе заранее рассчитанных параметров (в том числе зависящих от взаимосвязей внутри сети). Подчеркнем, что мета-агентом является как каждый отдельный агент I е N (одноэлементное подмножество {/}), так и множество всех агентов N.
Для каждого мета-агента I с N определим множество 5 с Д всех совершенных им (т. е. входящими во множество I агентами) действий
51 = {а е Д| а(а) е I},
а также множество совершенных им начальных действий
5? = {а е Д0| а(а) е I}.
Предварительное неформальное понимание влияния можно сформулировать таким образом: влияние мета-агента I с N на мета-агента / с N велико, если деятельность агентов из множества / в достаточно большой степени обусловлена деятельностью агентов из множества I. Формализовать это понимание можно различным образом в зависимости от решаемой практической задачи. В данной работе мы будем исходить из предположений:
— интерес представляет влияние начальных действий, т. е. те пользователи, которые вводят в рассмотрение в сети те или иные материалы (в других случаях можно рассматривать и эффективных распространителей чужих материалов);
— влияние всей сети (т. е. совокупности всех агентов сети) на каждого мета-агента равно 1, т. е. суммарное влияние на каждого мета-агента будем считать нормированным.
При этих предположениях функцию влияния мета-агента I на мета-агента Г можно определить как
х(/ J) =
Ф(п(8/)П§;)
Ф(8/)
О,
, Ф(5j)> О; Ф(8/) = О.
Далее будем считать, что Ф(87) > 0 для любого Г с N (т. е. агентов, все действия которых в совокупности обладают нулевой значимостью, исключим из рассмотрения). Нетрудно видеть, что в этом случае справедливо соотношение
х(1, * ФПФ|гГ = = 1.
Отметим важный частный случай, когда мета-агент Г совпадает со всем множеством агентов (т. е. Г = N и функция влияния характеризует влияние мета-агента I на всю сеть, которое назовем влиятельностью и обозначим е(1):
8(/) = х(/ N) = Ф(П(50)).
w ' У ф(Д)
(2)
Сформулируем некоторые свойства введенной таким образом функции влияния.
Утверждение 1. Функция влияния %(/, Г) является монотонной по первому аргументу, т. е. если 1Х с 12, то для любого Г выполняется неравенство
х(1р /) < х(12, V.
Доказательство. Утверждение доказывает цепочка соотношений:
11 с 12 ^ 8° с 8°2 ^ 8° ) с 8°2 ) ^
^ п(8/1 ) п 8Г с п(8°2 ) п 8Г ^
^ Ф(п(8°1) п 8г) < Ф(п(8°2) п 8г) ^ х(1Р Г) < х(^, Г).
Утверждение 1 означает, что чем «больше» мета-агент (т. е. чем обширнее множество составляющих его агентов), тем больше его влияние, независимо от прочих обстоятельств.
Утверждение 2. Если бинарное отношение является однозначным, а функция значимости — аддитивной, то функция влияния является аддитивной по первому аргументу, т. е. для любых 1Х и 12, Г с N, 1\ п 12 = 0, выполняется равенство %(1Х и 12, Г) =
=х(Л, Г) + х(12, Г).
Доказательство. Утверждение доказывает цепочка равенств:
X/ и /2, J) =
_ Ф ( п ( 5 0 и /2 ) п 5 j) _
0(5j)
= Ф ( ( п ( 5 0 ) и п ( 5 \ ) ) п 5 j) =
_Ф ( ( п( 5 °) п 5 j) и ( п( 5 °2) п 5 j) ) (*) Ф(я(5°1 )п5j)
Ф(5J)
Ф(5J)
,0
Ф(п(81) п 8 Г)
+ 12-- = х(1,, Г) + Х(12, Г).
ф(8Г) /л Р / /л ^ >
Здесь ключевым является равенство (*), которое вытекает из аддитивности функции Ф, а также того факта, что вследствие однозначности бинарного отношения
множества п( 8° ) и п( 8°) (и, следовательно, множества п(8° ) п 8Г и п(8°) п 8Г) не пересекаются. ♦
Ясно, что влиятельность мета-агента также в данном случае является аддитивной функцией: для любых непересекающихся множеств 11,12 с N, выполняется равенство е (1х и 12) = е(1х) + е(12).
3. РАСЧЕТ ВЛИЯНИЯ НА ПРИМЕРЕ СЕТИ «ВКОНТАКТЕ»
Рассмотрим пример расчета влиятельности пользователей онлайновой социальной сети «ВКонтак-те» (vk.com1). Будем считать, что значимыми для центра являются посты, в которых содержится ключевое слово «Назарбаев» (в любых падежных формах), а также их репосты, комментарии и лайки к ним. В качестве интервала Т будем рассматривать 2°15 г. (т. е. Т — это промежуток от ° ч ° мин ° с 1 января 2°15 г. до 23 ч 59 мин 59 с. 31 декабря 2°15 г.).
Значимость действий для центра рассмотрим в двух несколько различающихся вариантах, имеющих разный содержательный смысл.
В первом варианте (будем называть его ненормированным) ценность каждого такого поста, лайка и комментария определяется одной и той же положительной константой, которую без ограничения общности можно считать равной единице. Во втором варианте (будем называть его нормированным) производится нормировка таким образом, чтобы суммарная значимость действий каждого агента была равна единице (содержательно это
1 Анонимизированные д анные были предоставлены для исследований компанией DSS Lab (dss-lab.ru).
+
означает, что влияние отдельного агента на расчет влиятельности не зависит от его активности).
В данной ситуации (как в нормированном, так и в ненормированном случае) целесообразно ограничиться рассмотрением следующих видов действий: создание поста (оригинального поста или ре-поста); создания комментария к посту; выставление лайка посту; создание лайка комментарию. Следовательно, множество К состоит из четырех элементов: К = {1, 2, 3, 4}.
Будем считать, что бинарное отношение причинности а ^ Ь выполнено в следующих случаях: а — создание поста, Ь — создание комментария к посту; а — создание поста или комментария, Ь — выставление ему лайка; а — создание поста, Ь — его репост. Также будем считать отношение причинности выполненным при совпадении а и Ь.
Поскольку в данном случае каждое действие оценивается отдельно, значимость совокупности действий 5" с А зависит аддитивно от каждого из них:
(задаваемый левой и правой границами отрезка). Пользователи с нулевой влиятельностью исключены из рассмотрения (всего таковых оказалось - 879 тыс.).
Из рис. 1 видно, что лишь небольшое число пользователей обладают существенной влиятельностью (для нормированной влиятельности распределение будет иметь аналогичный вид). Оказалось, что совокупная влиятельность всего одного процента наиболее влиятельных пользователей составляет 94—96 % общей влиятельности всех пользователей, совокупная влиятельность двух процентов — 98 % общей влиятельности, а совокупная влиятельность пяти процентов — 100 % общей влиятельности (см. график зависимости доли влиятельности от процента наиболее влиятельных пользователей на рис. 2).
Таким образом, предложенный способ расчета влиятельности позволяет эффективно выявлять небольшое множество пользователей, которые оказали наибольшее влияние на действия остальных
Ф(5) = ^ Ф(а).
а е 5
В ненормированном случае полагаем Ф(а) = 1, если а — пост с упоминанием ключевого слова, созданный в интервале Т, или комментарий к такому посту, созданный в интервале Т, или лайк такому посту или комментарию, созданный в интервале Т, иначе Ф(а) = 0. Назовем ненормированной такую влиятельность, для расчета которой используется заданная выше значимость действий.
В нормированном случае полагаем Ф(а) = 1/|8а(а)| (где |*| означает мощность множества), если а — пост с упоминанием ключевого слова, созданный в интервале Т, или комментарий к такому посту, созданный в интервале Т, или лайк такому посту или комментарию, созданный в интервале Т, иначе Ф(а) = 0. Такая значимость приводит к новому, нормированному способу расчета влиятельности.
Таким образом, получены все необходимые данные для расчета влиятельности пользователей по формуле (2) в двух вариантах — нормированном и ненормированном. Приведем некоторые результаты расчетов влиятельности отдельных пользователей (т. е. с использованием формулы (2) для одноэлементных множеств I).
Построим распределение по рассчитанной ненормированной влиятельности для 38 тыс. пользователей. На рис. 1 изображена диаграмма, состоящая из горизонтальных отрезков (некоторые из них вырождаются в точку): по горизонтальной оси указана влиятельность пользователей, по вертикальной оси — число пользователей, влиятельность которых попадает в определенный интервал
105 ё ю4
<и
I 103
о
со
Л §
С о ч о N
102
ю1
10° 10
: ш -
•ч.
-10
10"
10"
10
,-А
10"
10е
Влиятельность
Рис. 1. Распределение пользователей сети «ВКонтакте» по ненормированной влиятельности
Ненормированная влиятельность Нормированная влиятельность
0 1 2 3 4 5
Наиболее влиятельные пользователи, %
Рис. 2. Зависимость совокупной влиятельности пользователей от их числа
Рис. 3. Зависимость числа пользователей, на которых оказыв ется влияние, от их активности
пользователей сети в рамках указанных центром тематики и предпочтений.
В заключение проиллюстрируем различия при расчете нормированной и ненормированной влиятельности на примере двух пользователей (пользователя А и пользователя В), которые находятся на верхних позициях списков пользователей, ранжированных по убыванию влиятельности. Ненормированная влиятельность пользователя А равна (3-я позиция в списке), а нормированная влиятельность — (6-я позиция); в свою оче-
редь ненормированная влиятельность пользователя В равна (6-я позиция), нормированная влиятельность равна (3-я позиция).
Наглядное объяснение наблюдаемой «рокировке» позиций пользователей дает анализ распределения пользователей по их активности, представленный на рис. 3 (вправо смещено распределение пользователей, на которых оказывает влияние пользователь А, влево — распределение пользователей, на которых оказывает влияние пользователь В). Большее значение ненормированной влиятельности пользователя А обусловлено большей активностью пользователей, испытывающих его влияние.
ЗАКЛЮЧЕНИЕ
Предложено развитие акциональной модели влияния в онлайновых социальных сетях, в которой влияние и влиятельность отдельных агентов (пользователей) и мета-агентов (подмножеств пользователей) вычисляются на основе реакции на их действия с учетом приоритетов управляющего органа. Доказаны некоторые свойства функции влияния (монотонность, аддитивность). На примере показано, каким образом предложенная модель может быть использована для расчета влиятельности пользователей реальной онлайновой социальной сети.
Перспективное направление д альнейших исследований состоит в рассмотрении различных классов прикладных задач и соответствующих им понятий влиятельности на основе акциональной м одели.
ЛИТЕРАТУРА
1. Губанов Д.А., Чхартишвили А.Г. Концептуальный подход к анализу онлайновых социальных сетей // Управление большими системами. — 2013. — Вып. 45. — С. 222—236.
2. Aggarwal C.C. Social Network Data Analytics. — Boston/Dordrecht/London: Kluwer Academic Publishers, 2011. — 502 p.
3. Everton S.F. Disrupting Dark Networks (Structural Analysis in the Social Sciences). — Cambridge: Cambridge University Press, 2012. — 482 p.
4. Hubbell C. An input-output approach to clique identification // Sociometry. — 1965. — Vol. 28, N 4. — P. 377—399.
5. Freeman L.C. A set of measure of centrality based on between-ness // Sociometry. — 1977. — Vol. 40, N 1. — P. 35—41.
6. Губанов Д.А., Чхартишвили А.Г. Связи дружбы и комментирования пользователей социальной сети Facebook // Управление большими системами. — 2014. — Вып. 52. — С. 69—84.
7. Agarwal N., Liu H., Tang L., Yu P.S. Identifying the influential bloggers in community // Proc. of the 1st ACM Intern. Conf. on Web Search and Data Mining. — 2008. — P. 207—217.
8. Weng J., Lim E.-P., Jiang J., He Q. Twitterrank: finding topic-sensitive influential twitterers // Proc. of the Third Int. Conf. on Web Search and Web Data Mining. — 2010. — P. 261—270.
9. Akritidis L., Katsaros D., Bozanis P. Identifying Influential Bloggers: Time Does Matter // Proc. of the 2009 IEEE/WIC/ACM Intern. Joint Conf. on Web Intelligence and Intelligent Agent Technology. — 2009. — P. 76—83.
10. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Модели влияния в социальных сетях // Управление большими системами. — 2009. — Вып. 27. — С. 205—281.
11. Friedkin N.E., Johnsen E.C. Social Influence Network Theory: A Sociological Examination of Group Dynamics. — Cambridge: Cambridge University Press, 2011. — 367 p.
12. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления и противоборства. — М.: Физматлит, 2010. — 228 с.
13. Kempe D., Kleinberg J., Tardos E. Maximizing the spread of influence through a social network // Proc. of the 9th ACM SIGKDD Intern. Conf. on Knowledge discovery and data mining. — 2003. — P. 137—146.
14. Granovetter M. Threshold Models of Collective Behavior // American Journal of Sociology. — 1978. — Vol. 83. — P. 1420—1443.
15. Golub B., Jackson M.O. Naive Learning in Social Networks: Convergence, Influence, and the Wisdom of Crowds // American Economic Journal: Microeconomics. — 2010. — Vol. 2, N 1. — P. 112—149.
16. Губанов Д.А., Чхартишвили А.Г. Акциональная модель влиятельности пользователей социальной сети // Проблемы управления. — 2014. — № 4. — С. 20—25.
Статья представлена к публикации членом редколлегии Д.А. Новиковым.
Губанов Дмитрий Алексеевич — канд. техн. наук, ст. науч. сотрудник, Н [email protected],
Чхартишвили Александр Гедеванович — д-р физ.-мат. наук, гл. науч. сотрудник, Н [email protected],
Институт проблем управления им. В. А. Трапезникова РАН, г. Москва.