УДК 519.876.2
МОДЕЛИ ИНФОРМАЦИОННОГО ПРОТИВОБОРСТВА О УПРАВЛЕНИИ ТОЛПОЙ
Д.А. Новиков
В рамках стохастических моделей управления толпой исследованы теоретико-игровые задачи информационного противоборства, когда агентами управляют одновременно два субъекта с несовпадающими интересами относительно числа действующих в равновесии агентов.
Ключевые слова: коллективное поведение, модель порогового принятия решений, управление толпой, информационное противоборство.
ВВЕДЕНИЕ
В работе [1] выделены пять уровней описания и анализа активных сетевых структур (примерами которых служат социальная сеть, толпа и др.). На первом (нижнем) уровне сеть рассматривается «в целом» (соответствующее описание, хотя и не является детализированным, обычно необходимо для экспресс-анализа общих свойств объекта). На втором уровне анализируются структурные свойства сети. На третьем уровне рассматривается информационное взаимодействие агентов. На четвертом уровне ставятся и решаются задачи информационного управления. И, наконец, на пятом уровне производится описание и исследование информационного противоборства — взаимодействия субъектов, воздействующих на сеть каждый в своих интересах. Модель, используемая на некотором уровне перечисленной иерархии, учитывает результаты предыдущих уровней. Поэтому одно из условий возможности перехода к следующему уровню состоит в наличии достаточно простых (но адекватных моделируемой реальности) и сопряженных моделей предыдущих уровней.
Для задачи описания информационного противоборства, решаемой на самом верхнем (пятом) уровне иерархии, необходимо иметь простые результаты анализа информационного взаимодействия агентов и информационного управления ими. Первый класс моделей, в которых удалось конструктивно «сопрячь» всю цепочку от первого уровня до пятого, составляют модели социальных сетей, описываемых в терминах «задач о консенсусе» (или так называемых «марковских» моделей) — см.
обзор и результаты в работе [2], что дало возможность развить соответствующие теоретико-игровые модели информационного противоборства [3].
Вторым удачным примером служит реализуемый в настоящей работе подход к построению теоретико-игровых моделей информационного противоборства, «надстраиваемых» над пороговыми моделями толпы. В работе [4] предложена модель толпы, рассматриваемой как множество агентов, демонстрирующих так называемое конформное поведение [5, 6], т. е. осуществляющих бинарный выбор (действовать, быть активными и т. п. или бездействовать) с учетом решений, принимаемых другими агентами. В работе [7] введены в рассмотрение стохастические модели управления толпой, в которых некоторая часть агентов случайным образом «возбуждается» (всегда действует), а некоторая часть «иммунизируется» (никогда не действует). В случае, когда два подобных воздействия осуществляются различными субъектами, обладающими собственными несовпадающими предпочтениями относительно реализующегося «равновесного» состояния толпы, получаем ситуацию информационного противоборства этих субъектов, которая далее описывается в теоретико-игровых терминах.
Теоретико-игровые модели информационного противоборства над активными сетевыми структурами имеют приложения в задачах: обеспечения информационной безопасности онлайновых социальных сетей, противодействия деструктивным информационным воздействиям на социальные группы различного масштаба, предупреждения их
массовых противоправных действий и др. (см. обзоры и обсуждения в публикациях [2, 4, 8]).
Структура изложения материала настоящей работы: сначала описывается модель толпы (§ 1, основывающийся на результатах работы [4]), затем в § 2, основывающемся на работе [7], описывается информационное противоборство в рамках стохастических моделей управления толпой. П. 2.1—2.4 содержат оригинальные результаты анализа теоретико-игровых моделей информационного противоборства в терминах игр в нормальной форме (для которых характеризуются равновесия Нэша и равновесия в безопасных стратегиях), а также иерархических и рефлексивных игр. Многочисленные примеры содержат аналитические зависимости равновесий от параметров моделей.
1. МОДЕЛЬ ТОЛПЫ
Обозначим через N = {1, ..., n} конечное множество агентов. Агент i е N, находящийся в толпе, характеризуется своим решением x} е {0; 1} («бездействие» или «действие») и своим порогом в.е [0; 1], определяющим, будет ли агент действовать при той или иной обстановке (векторе x_. решений всех остальных агентов); т. е. агент выбирает свое действие как наилучший ответ (Best Response — BR) на обстановку:
x, = BRXx_,) =
1, если —З—- У x, > 9г,
1 ¿—¡xi-
n - 1j * , j
0, если --1—- У x, < 8,-.
n - '
(1)
Поведение, описываемое выражением (1), называется пороговым (см. пионерскую работу [6] и обзоры в работах [5, 9, 10]; отметим, что в статье [5] приведены примеры целевых функций агентов, приводящих к наилучшему ответу (1)).
Рассмотрим модель динамики коллективного поведения [4]: в начальный (нулевой) момент времени все агенты бездействуют, далее в каждый из последующих моментов времени агенты одновременно и независимо действуют в соответствии с процедурой (1). Обозначим = 0,
= [I е N | е, = 0},
0к = 0к - ! и {/ е N | #0к - ! > П ^
к = 2, ..., п — 1, (2)
где # обозначает мощность множества, ()к — множество агентов, действующих на ^м шаге. Оче-
видно Q0 с Q1 с ... с Qn с N. Обозначим через 8 = (8Р 82, ..., 8n) — вектор порогов агентов. Вы-
числим показатель: q(9) = min {k = 0, n - 1 | Qk + x = = Qk}. Равновесие коллективного поведения (РКП) определяется как [4]
Г1, если i е Qq(0), x* (9) = Г q(0) i е N.
10, если i е N\Qq(e),
Величина x* = #Ят = I £ x* (9) е [0; 1] ха-
n n i е N
рактеризует «состояние толпы» — долю действующих в РКП агентов. Показано [4, 11], что РКП является одним из равновесий Нэша игры агентов с наилучшим ответом (1).
Пусть число агентов велико. Обозначим через F(-): [0; 1] ^ [0; 1] функцию распределения порогов агентов (F(-) — неубывающая функция, определенная на единичном отрезке (множестве возможных значений порогов агентов), в каждой точке непрерывная слева и имеющая предел справа).
Предположим, что известна доля xk агентов, действующих на k-м шаге, k = 0, 1, ... Для последующих шагов справедливо рекуррентное соотношение, описывающее динамику поведения агентов, принимающих решения в соответствии с выражением (1) [6, 11]:
J + 1
x
= F(xl),
(3)
где / = ^ k + 1, ... — моменты времени.
Положения равновесия дискретной динамической системы (3) определяются начальной точкой x0 (далее, если не оговорено особо, считается,
что x0 = 0) и точками пересечения графика функции F(•) с биссектрисой первого квадранта (в силу свойств функции распределения одним из потенциальных равновесий является единица):
F(x) = x.
(4)
Устойчивыми могут быть точки равновесия системы (3) (РКП является одной из точек равновесия), в которых график функции F(•) пересекает биссектрису, приближаясь к ней «слева-сверху». Обозначим через у = : x е (0, 1], F(x) = x} наименьший отличный от нуля корень уравнения (4). В соответствии с выражениями (2) и (3) РКП будет точка [3]:
* = I у, если Vz е [ 0, y] F(z) > z, I 0, иначе.
(5)
2. МОДЕЛЬ ИНФОРМАЦИОННОГО ПРОТИВОБОРСТВА
Рассмотрим толпу как объект управления, осуществляемого двумя субъектами — центрами. Так как поведение динамической системы (3), описывающей изменение во времени доли действующих агентов, определяется функцией распределения порогов F(•), то будем анализировать управленческие воздействия, приводящие к изменению этой функции распределения.
Отметим, что в работе [4] решалась задача определения множества/доли первоначально возбуждаемых агентов или/и функции распределения их порогов, приводящих к требуемому равновесию. В рассматриваемых в настоящей работе моделях агенты возбуждаются «самостоятельно» — см. выражение (2).
Рассмотрим две предложенные в работе [7] модели воздействия со стороны центров на функцию распределения порогов агентов.
Модель I. Пусть в результате управленческого воздействия порог каждого агента независимо от других агентов может стать равным нулю с одинаковой для всех агентов вероятностью а е [0; 1]. Так как в соответствии с выражением (1) агенты, имеющие нулевые пороги, выбирают единичные действия независимо от действий других агентов, то параметр а может интерпретироваться как доля первоначально возбуждаемых агентов [7].
Пусть в результате управленческого воздействия порог каждого агента независимо от других агентов может стать равным единице с одинаковой для всех агентов вероятностью в е [0; 1]. Так как, в соответствии с выражением (1), агенты, имеющие единичные пороги, действовать не будут (точнее — будут, если действуют все остальные агенты), то параметр в может интерпретироваться как доля первоначально «иммунизируемых» агентов [7].
В работе [7] рассмотрен случай информационного противоборства, когда имеются два управляющих субъекта — центра и доля а е [0; 1] агентов «возбуждается» первым центром, а доля в е [0; 1] агентов «иммунизируется» (или каждый агент независимо с соответствующей вероятностью может быть возбужден или/и иммунизирован) вторым центром. Для определенности (хотя возможны и другие варианты, приводящие к другим результатам) предположим, что если некоторый агент возбуждается и иммунизируется одновременно, то его порог не меняется. Показано [7], что, в рамках предположения о «бесконечном» числе аген-
тов, функция распределения порогов агентов имеет вид:
F*J*) =
= [а( 1 - р) + (1 - а - в + 2ав)F(x), x е[0; 1), 1, x = 1.
(6)
Обозначим через x *(а, в) РКП (5), соответствующее функции распределения (6), через ya р = = inf{x : x е (0, 1], Fa p(x) = x} — наименьший отличный от нуля корень уравнения Fa p(x) = x. Тогда
x*(а, в) = {yae' есЛи Vz е[yae]F* ^ Z,(7) [0, иначе.
Из выражений (4) и (6) можно найти пары (а, в), которые приводят к реализации заданного РКП (7). Обозначим через
Q(x) = {(а, в) е [0; 1]2 | x*(а, в) = x}
множество комбинаций управлений, реализующих заданное значение x е [0; 1] как РКП.
Обозначим через W = U x*(а, в) мно-
(а,Р)е[ 0;1]2
жество достижимости. Для проводимого далее теоретико-игрового анализа существенны полученные в работе [7] результаты о том, что x*(а, в) монотонно (нестрого) возрастает по а и монотонно (нестрого) убывает по в; а для строгой монотонности достаточно выполнения условия
F(0) > 0, F(1 - 0) < 1.
(8)
В работе [7] также получены достаточные условия (сформулированные в терминах свойств функции распределения порогов) реализуемости заданной точки х е [0; 1] как РКП при некоторых
управлениях (а, в) е [0; 1] .
Модель II. Рассмотрим ситуацию информационного противоборства, когда первый центр добавляет к исходному множеству N агентов к «провокаторов» с нулевыми порогами, а второй центр добавляет I «иммунизаторов» с единичными порогами. Считая, что число агентов п велико, будем пользоваться непрерывным приближением:
8 = к/п, у = 1/п, считая 8, у е К.+, в рамках которого, как показано в работе [7], функция распределения порогов агентов примет вид:
F6,y(x) =
1+1+^ x е [0; 1), 1 + 8 + у
(9)
1, x = 1.
Обозначим через x *(5, у) РКП (5), соответствующее функции распределения (9), через y = = inf{x : x е (0, 1], F& (x) = x} — наименьший отличный от нуля корень уравнения F& Y(x) = x. Тогда
x*(5, y) = jесли Vz е [0' ]F.* z, (10) [0, иначе.
Доказано [7], что в модели II W = (0; 1], а если выполнено F(0) = 0, то множество W = [0; 1]. Обозначим через
Л^) = {(5, y) е [R+ | x*(5, y) = x}
множество комбинаций управлений, реализующих заданное значение x е [0; 1] как РКП.
Для исследования теоретико-игровых моделей взаимодействия центров нам потребуется результат, который доказывается полностью по аналогии с утверждениями 3 и 4 в работе [7].
Теорема 1. В модели II РКП x*(5, y):
1) монотонно (нестрого) возрастает по 5; а для строгой монотонности достаточно выполнения условия: F(1 — 0) < 1 или y > 0;
2) монотонно (нестрого) убывает по y; а для строгой монотонности достаточно выполнения условия: F(0) > 0 или 5 > 0.
Пример 1. В качестве примера функции распределения порогов агентов рассмотрим равномерное распределение F(x) = x, для которого x *(S, y) = 8/(8 + y),
Л(х) = {(S, y) 6 | y/S = (1/x - 1)}. ♦
Сделав маленькое отступление, отметим, что в социально-экономических и организационных системах в случае, когда существует несколько субъектов, заинтересованных в тех или иных состояниях управляемой системы (например, сети взаимодействующих агентов) и имеющих возможность оказывать на нее управляющие воздействия (так называемая система с распределенным контролем [12—14]), возникает, как и в рассматриваемом нами случае, взаимодействие между этими субъектами, которое в случае информационных воздействий, оказываемых ими на объект управления, называется информационным противоборством (см. обзоры в работах [2, 15]).
Такие ситуации обычно описываются игрой в нормальной форме между центрами, причем выбираемые центрами стратегии, в свою очередь определяют параметры игры между агентами [14]. Примерами служат модели информационного противоборства в социальных сетях [2, 3]. Как отмечается [16], возможны и более сложные ситуации, когда управленческие воздействия «несимметричны» — например, в ситуации «нападение/защита» один центр воздействует на начальные состояния
агентов, а другой (одновременно с первым или уже зная его выбор) изменяет структуру связей между ними или/и их пороги. Такие ситуации могут быть описаны в рамках моделей иерархических игр.
Далее рассматривается ряд теоретико-игровых моделей взаимодействия центров, результаты информационных воздействий которых на толпу определяются выражениями (6) и (7) в рамках модели I или выражениями (9) и (10) в рамках модели II.
2.1. Игра центров в нормальной форме
Модель I. Предположим, что имеются два центра, которые осуществляют информационное воздействие на толпу, разыгрывая игру в нормальной форме, т. е. выбирая свои стратегии (а е [0; 1] и ß е [0; 1] соответственно) однократно, одновременно и независимо. Пусть целевые функции первого и второго центров имеют соответственно вид:
/>, ß) = Ha(x*(а, ß)) - с», (11)
/р(а, ß) = Hp(x*(а, ß)) - cp(ß), (12)
причем выигрыш первого центра На(*) — возрастающая функция (он заинтересован в максимизации числа возбужденных агентов), а выигрыш второго центра Hß(-) — убывающая функция (он заинтересован в минимизации числа возбужденных агентов), а обе функции затрат еа(') и cß(*) — строго возрастающие и са(0) = cp(0) = 0.
Коль скоро описана игра в нормальной форме, возникает набор типовых для теории игр вопросов [17, 18]: каково равновесие Нэша (а*, ß*) игры центров, в каких ситуациях оно доминирует с точки зрения центров ситуацию статус-кво — РКП в отсутствие управления (т. е. когда выполнено /а(а*, ß*) >/а(0, 0), /р(а*, ß*) >/ß(0, 0)), каково множество Парето-эффективных ситуаций, когда существует равновесие в доминантных стратегиях (РДС) и т. п.
Обозначим через /(а, ß) = /а(а, ß) + /р(а, ß) утилитарную функцию коллективной полезности
(ФКП) [19]. Пару стратегий центров (а, ß) =
= arg max /(а, ß) назовем утилитарным решена ,ß)e[0;1]2
нием.
Роль полученных в работе [7] результатов и результата теоремы 1 для теоретико-игрового анализа заключается в следующем. Целевые функции центров (11) и (12) зависят как от их стратегий (а и ß или 8 и y), так и от РКП, зависящего, в свою очередь, от этих стратегий. Свойства монотонной зависимости РКП от стратегий центров
(непрерывность этой зависимости, если требуется, может быть проверена в каждом конкретном случае), а также реализуемость всего единичного отрезка в качестве РКП при выборе центрами соответствующих стратегий, дают возможность «транслировать» свойства функций выигрыша и затрат на зависимость этих параметров непосредственно от стратегий центров. Так, например, если Hg(x*(8, у)) — возрастающая функция x*, то в рамках условий теоремы 1 выигрыш первого центра является возрастающей функцией его стратегии, и т. д.
Простейшим является случай игры с противоположными интересами, в которой первый центр заинтересован в возбуждении максимального числа агентов, а второй — наоборот. Без учета затрат на управление (считая еа(') - 0, cp(*) - 0) из выражений (11) и (12) получим:
fa(а, в) = x*(а, в), f (а, в) = 1 - x*(а, в). (13)
При этом, очевидно, Да, в) - 1. Из неубывания x*(а, в) по а и невозрастания по в следует справедливость следующего утверждения 1, которое (как и его «аналоги» для модели II — см. утверждения 3 и 4 далее), с одной стороны, в определенному смысле, тривиально, так как является следствием монотонности целевых функций агентов по их действиям, а, с другой стороны, позволяет в соответствующих вырожденных случаях обосновывать существование РДС и находить его.
Утверждение 1. В модели I в игре противоположными интересами без учета затрат центров
на управление существует РДС их игры: аРДС = 1,
вРДС = 1. ♦
Интересно отметить, что в этом равновесии функция распределения порогов агентов совпадает с исходной функцией распределения, т. е. F1 i(x) - F(x), следовательно, не изменяется и РКП, т. е. РДС «совпадает» с ситуацией статус-кво.
Пример 2. Пусть F(x) = x, тогда
¿'(а, р) = а ( 1 - в > .
а + в - 2 ар
(14)
Вычислим
т*
dx1 (а, в) = в( 1 - в)
да
(а + в - 2ав)
2 '
1*
дх (а, в) = _ а( 1 - а)
дв
(а + в - 2ав)
2
откуда следует, что х *(а, в) возрастает по первому аргументу и убывает по второму при любых допустимых значениях соответствующего другого аргумента. Поэто-
му без учета затрат центров на управление РДС игры центров с целевыми функциями (13) будет выбор ими единичных стратегий: аРДС = 1, вРДС = 1. Естественно, эта точка будет и равновесием Нэша (РН) игры центров. В настоящем примере W = [0; 1]. Отметим, что в РДС реализуется то же состояние толпы, что и в отсутствие управления. ♦
Рассмотрим теперь случай, когда затраты центров отличны от нуля.
Утверждение 2. Если в модели Ix*(а, в) — непрерывная функция, выполнено условие (8), W = [0; 1], функции выигрыша центров — ограниченные, линейные или вогнутые по их стратегиям, а функции затрат — выпуклые, то существует равновесие Нэша игры центров. ♦
Справедливость тривиального утверждения 2 (и его «аналога» для модели II — утверждения 5) непосредственно следует из достаточных условий [17, 18] существования равновесия Нэша в непрерывных играх.
В следующем примере существует единственное РН.
Пример 3. Пусть F(x) = х, Ha(x) = х, Hp(x) = 1 — х, са(а) = —ln(1 — а), ср(в) = —X ln(1 — в). Из условий первого порядка получаем: в = (1/X) а. При X = 1 находим: а* = 1/4, в* = 1/4. При этом
xV, в*) = 1/2, /(а*, в*) = /р(а*, в*) * -0,2.
Отметим, что в равновесии оба центра имеют меньшие значения целевых функций, чем в точке «статус-кво» (0; 0) (так как/(0, 0) = 1, /в(0, 0) = 0). Утилитарным решением в этом случае является также вектор нулевых стратегий. ♦
Модель II. Пусть целевые функции первого и второго центров имеют соответственно вид (11) и (12) с точностью до замены а на 8 и в на у.
Утверждение 3. В модели II в игре с противоположными интересами без учета затрат центров на управление не существует конечного РДС или РН их игры. ♦
Справедливость утверждения 3 следует из неограниченности множеств допустимых стратегий центров, а также монотонности x*(8, у) по обеим переменным (см. теорему 1). Из этих же свойств следует справедливость следующего утверждения.
Утверждение 4. Если в модели II множества допустимых стратегий центров ограничены: 8 < 8max, у < Ymax, то в игре с противоположными интересами без учета затрат центров на управление существует РДС их игры: 8РДС = ^ УРДС = Ymax.
Рассмотрим случай, когда затраты центров отличны от нуля.
Утверждение 5. Если в модели II x*(8, y) — непрерывная функция, выполнены условия теоремы 1,
функции выигрыша центров ограниченные, линейные или вогнутые по их стратегиям, а функции затрат — выпуклые, имеющие в нуле нулевые производные и стремящиеся к бесконечности при стремлении аргумента к бесконечности, то существует конечное равновесие Нэша игры центров. ♦
Справедливость утверждения 5 следует из того, что в рамках его условий целевые функции центров вогнуты по их стратегиям и принимают неотрицательные значения на ограниченном множестве значений аргументов, т. е. можно воспользоваться достаточными условиями [17, 17] существования равновесия Нэша в непрерывных играх.
Пример 4. Пусть Дх) = х, И&(х) = х, Н(х) = 1 — х,
с8(8) = 82, с (у) = Ь2у2. В примере 1 найдено РКП х*(8, у) = 8/(8 + у). Получаем следующие выражения для целевых функций центров:
Ш, у) = 8/(8 + у) - 82,
/(8, у) = 1 - 8/(8 + у) - Ь2у2.
(15)
(16)
Убедившись в вогнутости целевых функций (15) и (16) соответственно по 8 и у, дифференцируем их, приравниваем производные нулю и находим РН:
8* =
Л
1 * = _1__1_
1 + ь, 7 ДЬ 1 + Ь.
При этом РКП х*(8*, у*) = --, а значения целевых
1 + Ь
функций в РН:/5(8*, у*) = Ь (1 + 2 Ь-, /у(8*, у*) = Ь + 2 ..
2 (1 + Ь) 2( 1 + Ь)2
Утилитарная ФКП/(8, у) = /д(8, у) + /(8, у) достигает максимума (принимает единичное значение) на векторе нулевых стратегий. Значение утилитарной ФКП в РН
/(8*, у*) = 1 — —Ь—- , т. е. величина —Ь—- характери-(1 + Ь)2 (1 + Ь)2
зует, насколько РН «хуже» в смысле утилитарной ФКП, чем оптимум последней. ♦
2.2. Пороговые функции выигрыша центров
Для содержательных интерпретаций важен случай, когда функции выигрыша центров пороговые, т. е. имеют вид:
н+
Н-(Р),иначе
н®«=;н если х >(<)9-(вр) ■ (17)
где Д+(р) > На(р), т. е. первый центр получает больший выигрыш тогда, когда доля действующих агентов не меньше порога 9а е [0; 1], а второй центр — при условии, что доля действующих агентов не превышает порога 9р е [0; 1]. Обозначим че-
рез х РКП в отсутствие воздействий центров, т. е. х = х *(0, 0). Введем следующие предположения.
Предположение А.1. Множество достижимости W — единичный отрезок, х *(а, в) — строго монотонная непрерывная функция своих переменных (соответствующие достаточные условия приведены выше и/или могут быть проверены в каждом конкретном случае), а функции затрат центров строго монотонны.
Предположение А.2. Первый центр при нулевой стратегии второго может реализовать самостоятельно любое РКП из [ X; 1]; а второй центр при нулевой стратегии первого может реализовать самостоятельно любое РКП из [0; X ]. ♦
Из структуры целевых функций центров и предположений А.1 и А.2 следует, что для первого (второго) центра реализовывать РКП, превышающие порог 9а (строго меньшие порога 9р), не выгодно.
Модель I. Запишем определение равновесия Нэша (а*, в*):
Уа е [0; 1]
Щ(х*(а*, в*)) - са(а*) > Щ(х*(а*, в*)) - са(а), Уве [0; 1]
1Нр(х*(а*, в*)) - ср(в*) > Щ(х*(а*, в*)) - (в).
Начнем анализ с частного случая 9р = 9а = 9.
Обозначим через а(9) = шт{а е [0; 1] | х*(а, 0) = = 9}, в(9) = шт{в е [0; 1] | х*(0, в) = 9}.
Определим множество
Па>р(9) = {(а, в) е [0; 1]2 | х*(а, в) = 9, (а) < Н+ - Н-, Ср(в) < Н+ - Щ
в
(18)
т. е. множество пар стратегий центров, приводящих к таким РКП 9, что каждый из центров при этом имеет значение целевой функции не меньшее, чем при выборе стратегии, изменяющей его выигрыш (17). Множество (18) по аналогии с работами [13, 14], назовем множеством компромисса.
Из определений РН и множества компромисса следует, что, если последнее не пусто, то реализация РКП 9 в смысле утилитарной ФКП не менее
выгодна для агентов, чем сохранение статус-кво х. Более того, легко видеть, что центрам не выгодно
реализовывать никакие РКП, кроме, возможно, х или 9.
Теорема 2. Если 9р = 9а = 9 и выполнено предположение А.1, то РН может быть только двух типов:
1) (0; 0) является РН, если
X < е и c„(а(9)) > H+ - H
(19)
или
X > е и Ср(в(е)) > н+ - нр; (20)
2) множество РН включает в себя множество Оар(е), если оно не пусто.
Если дополнительно выполнено предположение А.2, то
(а(е); 0) является РН, если
X < е и еа(а(е)) < H+ - Ha ; (21) (0; ß(e)) является РН, если
X > е и cp(ß(e)) < H+ - Hp". ♦ (22)
Исследуем теперь связь множества компромисса с утилитарным решением. Обозначим через
C(e) = min [c» + Cß(ß)] (23)
(a ,ß)ena;ß (0) a ß
минимальные суммарные затраты центров по реализации РКП е. Утилитарное решение в рассматриваемом случае удовлетворяет условиям:
— если X < е, то f (а, ß) = max {Ha + H+;
H+ + H+ - С(е)];
— если X > е, то f (а; ß) = max {H+ + Hß ;
H+ + H+ - с(е)].
Соответственно, если при X < е С(е) < H+ - H a
а при х > е С(е) < Н+ — Н- , то множество компромисса включает в себя утилитарное решение.
Как показывает пример 5, предположение А.2 существенно для структуры РН.
Пример 5. Пусть Дх) = х, 9 = 1/2, На = Щ = 0,
Н+ = Н+ = 1, с» = -1п(1 - а), Ср(р) = -1п(1 - в). Легко убедиться (см. также пример 3), что вектор нулевых стратегий не является РН. Из результатов примера 2 и выражений (18)—(23) получаем:
П (1/2) = {(а, в) е [0; 1]2 | а (в - в \ = 1/2, а'р а + в - 2ав
1п(1 - а) > -1, 1п(1 - в) > -1},
т. е. Па>р (1/2) = {(а, в) е [0; 1]2 | а = в, 0 < а, в < 1 - 1/е}. В рассматриваемом примере е-оптимальным утилитарным решением будет вектор стратегий центров (е, е), где е е (0; 1 - 1/е]. ♦
Перейдем теперь к общему случаю, когда пороги центров, фигурирующие в их функциях выигрыша (17), различны. Рассмотрим наиболее интересное для практических приложений (ситуация информационного противоборства) соотношение порогов центров:
eß < X < е .
ß a
(24)
Определим следующие функции (если множество, по которому вычисляется минимум, пусто, то будем считать, что значение функции равно +<»):
С а (х, в) = шп Са (а),
а {а е [0;1]|х*(а,в) = х} а
min
Cß(ß).
Св(x, а) = шхп Св
р {в е [0;1]|х*(а,в) = х} р
Из неубывания функций затрат и структуры функций выигрыша (17) следует, что реализация РКП из интервала (ев; е ) центрам не выгодна по
сравнению с сохранением статус-кво X. Введем предположение, являющееся ослаблением предположения А.2.
Предположение А.3. Первый центр при нулевой стратегии второго может реализовать самостоятельно РКП еа; а второй центр при нулевой стратегии первого может реализовать самостоятельно
ркп ев. ♦
Из определения равновесия Нэша и свойств целевых функций центров следует
Теорема 3. Если выполнено условие (24) и предположения А.1 и А.3, то РН игры центров характеризуются следующим образом: — (0; 0) является РН, если
\Ha - Ca(а(еа))< H , I Hß+ - Cß (ß^ß ))< Hß";
— (а(е ); 0) является РН, если
H+ - Ca(а(еа))> H-, Hß" > Hß+ - Cß(eß, а(ea));
— (0; ß(eß)) является РН, если
Hß - Cß (ß(e ß ))> Hß, HT > H+ - Ca(ea,ß(eß)).
(25)
(26)
(27)
Модель II для случая пороговых функций выигрыша центров строится полностью аналогично модели I с точностью до замены а на 8, и в — на у. Проиллюстрируем теорему 3 примером для модели II.
♦
Пример 6. Пусть F(x) = 1/3 + 2x2/3, 9 = 0,4, 08 = 0,6,
н = Н = 0, я; = я; = 1, с8(8) = 82, су(у) = ЬУ.
Найдем: х = 1/2, у(9у) * 0,1, 8(95) * 0,07.
Пусть Ь = 2. Тогда ни одно из условий (25)—(27) не выполнено, следовательно, РН не существует.
Пусть Ь = 20. Условия (25) и (27) не выполнены, выполнено условие (26). Следовательно, (0,07; 0) — РН. ♦
Пример 7. Пусть в условиях примера 6 9у = 98 = 9 = 0,4, Ь = 20. Найдем
П8, т(0,4) = {8 е [0; 1], у е [0; 0,05] | у = 0,1 + 1,5 8} = 0.
Условие (20) выполнено, т. е. (0; 0) — РН. ♦
В случае отсутствия РН перспективным представляется поиск и анализ равновесий в безопасных стратегиях (РБС). Первоначально РБС было предложено в работе [20] и затем сформулировано в новой, более простой, форме в работах [21, 22]. Эта концепция равновесия основана на понятии угрозы. Для игрока существует угроза, если некоторый другой игрок может односторонним отклонением увеличить свой выигрыш и при этом одновременно уменьшить выигрыш первого игрока. Равновесие в безопасных стратегиях определяется как игровой профиль, удовлетворяющий условиям:
— ни для одного из игроков не существует угроз;
— ни один игрок не может односторонним отклонением увеличить свой выигрыш, не создав при этом для себя угрозы потерять больше, чем он выигрывает.
Пусть выполнены предположения А.1 и А.2. Определим функции (если множество, по которому вычисляется минимум, пусто, то будем считать, что значение функции равно + да):
22
C(x, y) =
c„(8),
mm
{5> 0|x*(5,y) = x}
C(x, 8) = min c(y).
1 {Y > 0|x*(5,y) = x} 1
Из определения РБС (см. выше и работ [20, 21]) и свойств целевых функций центров следует
Теорема 4. Пусть выполнены предположения А.1 и А.2. Тогда в модели II:
1) точка равновесия (8РБС; 0) является РБС, если существует минимальное неотрицательное значение 8РБС, для которого
^(8рбс ; 0 )>е8, н+ - cs(8рбс) > н- ,
HY+ - Cy(eY> 8РБК) ^ HY ;
2) точка равновесия (0; уРБС) является РБС, если существует минимальное неотрицательное значение уРБС, для которого
x*( 0; YРБС
HY - CY»РБС) > HY ,
H5+ - C5(e5> 8РБК) ^ H5
Пример 8. Пусть в условиях примера 6 Ь = 2, т. е. РН при таких значениях параметров не существует. Из первой системы неравенств теоремы 4 находим: 8РБС * 0,816 реализует единичное РКП. Вторая система неравенств теоремы 4 не имеет решения, т. е. найденное РБС единственно. ♦
В заключение п. 2.2 отметим, что выбор таких параметров, как пороги в функциях выигрыша центров и сами размеры выигрышей, может рассматриваться в качестве метауправления. Действительно, зная зависимость равновесия игры центров от этих параметров, можно рассматривать трехуровневые модели (метауровень — центры — агенты) — ставить и решать задачи выбора таких допустимых значений параметров игры центров, которые приводят в ней к равновесию, реализующему требуемое РКП агентов. Приведем пример.
Пример 9. Рассмотрим в условиях примера 6 при
Ь = 20 задачу выбора таких значений Н+ и Н+ , при которых вектор нулевых стратегий центров является РН их игры. В соответствии с условием (25) для этого достаточно уменьшить значение Н8+ до 4,9'10 4.
Рассмотрим теперь в условиях примера 6 при Ь = 20
задачу выбора таких значений Н8+ и Н+ , при которых в равновесии реализуется РКП 9у = 0,4. Для этого в соответствии с выражением (27) достаточно выбрать Н8+ < 0,029 и Я+ > 4. ♦
Завершив рассмотрение игр в нормальной форме, перейдем к их «расширениям» — иерархическим (п. 2.3) и рефлексивным (п. 2.4) играм двух центров. Следует признать, что п. 2.3 и п. 2.4 носят характер лишь иллюстрации возможности описания и изучения соответствующих классов теоретико-игровых моделей информационного противоборства. Их подробное и систематическое исследование является перспективной задачей будущих исследований.
2.3. Иерархическая игра центров
В задачах управления толпой возможны ситуации, когда игроки (центры) принимают решения последовательно. При этом существенна информированность каждого из игроков на момент при-
нятия им решения, а также множества их допустимых стратегий (см. классификацию и результаты исследования иерархических игр в хрестоматийной монографии [17]). Над каждой игрой в нормальной форме может быть «надстроена» та или иная иерархическая игра [14—16]. Более того, следует различать два варианта:
1) один из центров выбирает свою стратегию, затем другой центр, зная выбор оппонента, выбирает свою стратегию, после чего осуществляется информационное воздействие на агентов. В результате функция распределения порогов принимает вид (6) (или (9)). Именно этот случай иллюстрируется ниже;
2) один из центров выбирает свою стратегию и осуществляет свое информационное воздействие на агентов, затем другой центр, зная выбор оппонента, выбирает свою стратегию и осуществляет свое информационное воздействие на агентов.
В модели I оба варианта эквивалентны (приводят к одной и той же функции распределения порогов (6)), а в модели II различаются.
В играх типа Г1 [9] (в том числе в играх Шта-кельберга — см. [17, 18]) множества допустимых стратегий центров такие же, что и в исходной игре в нормальной форме, а центр, делающий ход вторым, знает выбор центра, сделавшего первый ход. Соответствующие ситуации могут интерпретироваться как управление и контруправление (например, при заданном значении а выбрать в, или наоборот). Если исходная игра в нормальной форме допускает простой анализ и исследование зависимости равновесий от параметров модели, то и с изучением соответствующей игры типа Г1 проблем, как правило, не возникает.
Рассмотрим ряд примеров иерархических игр для первого варианта модели I для случая пороговых функций выигрыша центров.
Пример 10. Пусть в условиях примера 5 9 = 1/3, сначала первым центром выбирается параметр а, а затем вторым центром (при известном выборе первого) — параметр в (так называемая игра Г1(а, в)). Из выражений (14) и (20) получаем:
РаР(9) = {(а, в) е [0; 1]2 1 в = О^Юё ,
0 < а, в < 1 - 1/е}.
т. е. второму центру выгодно выбрать минимальное в,
с
которое при данном а приводит к РКП 9. Получаем, что целевая функция первого центра может быть записана в виде: На(х*(ас, в"(а5))) - са(а") = 1 - са(ас), где 0 < а < 1 - 1/е. Таким образом, е-оптимальным (где е — сколь угодно малая строго положительная величина) решением (а*5*, в"5*) игры Г1(а, в) будет пара стратегий (е, 2е/(е + 1)), приводящих к выигрышам центров 1 + 1п(1 - е) и 1 + 1п(1 - 2е/(е + 1)) соответственно. Отметим, что, во-первых, это решение близко к утилитарному (так как оба центра выбирают близкие к нулю стратегии). Во-вторых, центр, делающий второй ход, несет большие затраты. ♦
Пример 11. Пусть в условиях примера 10 сначала вторым центром выбирается параметр в, а затем первым центром (при известном выборе второго) — параметр а (игра Г1(в, а)). Из выражений (14) и (20) получаем:
"а, р(9) = {(а, в) е [0; 1]2 | а = 9в/(1 - в - 9 + 2в9),
0 < а, в < 1 - 1/е}.
При этом е-оптимальным (где е — сколь угодно малая строго положительная величина) решением рассматриваемой игры Г1(в, а) будет пара стратегий (е/(2 - е), е), приводящих к выигрышам центров 1 + 1п(1 - е/(2 - е)) и 1 + 1п(1 - е) соответственно. Отметим, что это решение также близко к утилитарному. Опять же, центр, делающий второй ход, несет большие затраты. ♦
Примеры 10 и 11 позволяют выдвинуть (известную в теории иерархических игр и ее приложениях) гипотезу: решения игр Г1(а, в) и Г1(в, а) принадлежат множеству компромисса (если оно не пусто), причем имеет место борьба за первый ход (как правило, центр, делающий первый ход, вынуждает оппонента «согласиться» с невыгодным для последнего равновесием). Это свойство встречается во многих моделях управления организационными системами (см., например, работу [14]).
Рассмотрим теперь игры типа Г2, в которых центр, делающий ход первым, имеет более богатое множество возможных стратегий [9], а именно, он может выбирать и сообщать центру, делающему второй ход, зависимость своих действий от действий последнего. В рамках идеологии теоремы Гермейера [9] можно предположить, что, если множество компромисса не пусто, то оптимальная стратегия первого центра (первым выбирающего а, т. е. в игре Г2(а(-), в)) имеет вид:
Если первый центр выбирает стратегию а , то наилучший ответ второго центра
в "(а5) = ащ тах [Нр(х *(а"*(а, в)) - с„(в)]
ащ тах м[ 0;1]
1, если х*(а , в) < 9, 0, иначе,
+ 1п(1 - в)
2а , а + 1 '
а° *(в) =
5* п п 5*
_ I а ,если в = в ,
1, иначе.
(28)
Содержательно, стратегия (28) заключается в том, что первый центр предлагает второму реали-
зовать решение (а5*, в5*) игры Г1(а, в). Если вто-
рой центр отказывается, то первый угрожает использовать свою наихудшую для оппонента стратегию. В рамках стратегии (28) игра Г2(а(-), в)) дает в равновесии центрам те же выигрыши, что и игра Г1(а, в).
Игра Г2(в('), а)), а также иерархические игры для модели II описываются полностью аналогично.
2.4. Рефлексивная игра центров
Над игрой в нормальной форме можно «надстраивать» рефлексивные игры [8], в которых игроки обладают нетривиальной взаимной информированностью о существенных параметрах. Предположим, что функция распределения Дг, х) задана параметрически, и неопределенность отражается параметром г е У. Следуя работе [8], представления первого центра о неопределенном параметре г будем обозначать г1, второго — г2, представления первого центра о представлениях второго — г12 и т. д.
Пример 12. Пусть в модели II Дг, х) = г + (1 - г)х, г е У = [0; 1], И&(х) = х, #(х) = 1 - х, с8(8) = 8, с,(у) = Ху. Найдя РКП х*(8, у) = (8 + г)/(8 + у + г), получаем выражения для целевых функций центров:
/5(8, у) = (8 + г)/(8 + у + г) - 8, (29)
/т(8, у) = 1 - (8 + г)/(8 + у + г) - Х2у. (30)
Если значение параметра г е [0; 1] является общим знанием [8] среди центров, то из выражений (29) и (30) находим параметрическое РН игры центров
что представления первого центра могут отличаться от истины).
Из выражений (31) и (32) находим информационное равновесие [14] игры центров
8 =
Х
1 + Х'
г,, У*
1
(1 + х2)2
и реализуемое в этом равновесии РКП
Х2 + (г - г,)( 1 + Х2)2 х*(8*, у*) = - ^ т ;
1 + Х2 + (г - г1)( 1 + Х2)2
(34)
Видно, что в общем случае РКП зависит от информированности центров, и в случае общего знания (чему соответствует г, = г) выражение (34) переходит в выражение (33). Осуществляя, как метауправление, информационное управление [8, 14] — например, изменяя представления первого центра о значении неопределенного параметра, можно соответственно менять и РКП. ♦
Пример 13. Пусть в условиях примера 12 второй центр адекватно информирован о представлениях первого центра (т. е. второй центр знает о том, что представления первого центра могут отличаться от истины): г21 = г212 = г2121 = ... = г,. Тогда первый центр будет в информационном равновесии по-прежнему выбирать \2
стратегию 8* =
Х
1 + Х'
- г,, а второй центр выберет
Х2
У*(1 г) = 1 I-2| - г1 + г + г1 - г - -^,
1 + Х2^ (1 + Х2 )2
что приведет к реализации РКП
8* =
Х
1 + Х
(1 + х2 )2
и реализуемое этими стратегиями РКП
х*(8*, у*) =
1 + Х2
(31)
(32)
(33)
Отметим, что равновесная стратегия второго центра (32), а также соответствующее РКП (33) в условиях общего знания не зависят от значения параметра г е [0; 1]. Ситуация меняется, если общее знание относительно этого параметра отсутствует.
Пусть г, = г12 =
121
1212
= ... , т. е. первый центр обладает некоторой (в общем случае неправильной) информацией г, о неопределенном параметре г и считает, что его представления истинны и составляют общее знание. Пусть г2 = г21 = г212 = г2121 = ... = г, т. е. второй центр знает истинное значение параметра г и считает его общим знанием (т. е. второй центр не знает о том,
2 2 2 Х2 + ( г - г 1)(1 + Х2)
х*(8», у*(г,, г)) = Х-
(1 + Х2)2 ((-^ | - г, + г ^ 1 + Х
Легко убедиться, что в случае общего знания, т. е. при г, = г справедливо х*(8*, у*(г,, г)) = х*(8*, у*).
Таким образом, настоящий пример иллюстрирует, что в рефлексивных играх на равновесие существенно влияет не только информированность агентов (она не изменилась по сравнению с примером 11), но и их взаимная информированность, т. е. представления об информированности оппонентов, представления о представлениях и т. д. [8]. ♦
Отметим, что нетривиальная взаимная информированность центров может иметь место не только относительно параметров функции распределения порогов агентов, но и относительно параметров функций выигрыша и/или функций затрат центров и др.
Пример 14. Пусть в условиях примера 12 первый центр неадекватно информирован о параметре Х функции затрат второго центра, который знает истинное зна-
У
2
чение этого параметра и считает, что первый центр адекватно информирован.
Пусть Ь1 = Ь12 = Ь121 = Ь1212 = ..., т. е. первый центр обладает некоторой (в общем случае неправильной) информацией Ь1 о неопределенном параметре Ь и считает, что его представления истинны и составляют общее знание. Пусть Ь2 = Ь21 = Ь212 = Ь2121 = ... = Ь, т. е. второй центр знает истинное значение параметра Ь и считает его общим знанием. Из выражений (31) и (32) получаем реализуемое в информационном равновесии РКП:
х? +11 + Х1
11 + X
2 '
которое в случае общего знания (чему соответствует Ь1 = Ь) переходит в РКП (36). ♦
ЗАКЛЮЧЕНИЕ
Сформулируем основной результат настоящей работы. Показано, как, располагая предложенной в работе [7] стохастической моделью управления толпой, «надстраивать» над ней различные теоретико-игровые модели взаимодействия управляющих субъектов, оказывающих информационные воздействия на толпу в собственных интересах. Относительная «простота» модели объекта управления (толпы) позволяет применить разнообразный инструментарий теории игр — исследовать не только игры в нормальной форме, но и иерархические, рефлексивные и другие игры.
Перспективным направлением дальнейших исследований представляется идентификация и выделение типовых функций распределения порогов агентов (по аналогии, например, с тем, как это делалось в работе [24]), что позволит синтезировать соответствующие шаблоны управлений и решений задач информационного управления, а также моделей информационного противоборства.
ЛИТЕРАТУРА
1. Новиков Д.А. Иерархические модели военных действий // Управление большими системами. — 2012. — № 37. — С. 25—62.
2. Губанов Д.А., Новиков Д.А., Чхартишвили А.Г. Социальные сети: модели информационного влияния, управления и противоборства. — М.: Физматлит, 2010. — 228 с.
3. Губанов Д.А., Калашников А.О., Новиков Д.А. Теоретико-игровые модели информационного противоборства в социальных сетях // Управление большими системами. — 2010. — № 31. — С. 192—204.
4. Breer V., Novikov D. Models of Mob Control // Automation and Remote Control. - 2013. - Vol. 74, N 12. -P. 2143-2154.
5. Бреер В.В. Модели конформного поведения // Проблемы управления. - 2014. - № 1. - С. 2-13; № 2. - С. 2-17.
6. Granovetter M. Threshold Models of Collective Behavior // AJS. - 1978. - Vol. 83, N 6. - P. 1420-1443.
7. Бреер В.В., Новиков Д.А., Рогаткин А.Д. Стохастические модели управления толпой // Управление большими системами. - 2014. - № 52. - С. 85-117.
8. Novikov D., Chkhartishvili A. Reflexion and Control: Mathematical Models. - Leiden: CRC Press, 2014. - 298 p.
9. Burke D. Towards a Game Theory Model of Information Warfare. - N.-Y.: BiblioScholar, 2012. - 116 p.
10. Miller D. Introduction to Collective Behavior and Collective Action. - Illinois: Waveland Press, 2013. - 592 p.
11. Breer V. A Game-theoretic Model of Non-anonymous Threshold Conformity Behavior // Automation and Remote Control. -2012. - Vol. 73, N 7. - P. 1256-1264.
12. Губко М.В., Караваев А.П. Согласование интересов в матричных структурах управления // Автоматика и телемеханика. - 2001. - № 10. - С. 132-146.
13. Новиков Д.А., Цветков А.В. Механизмы функционирования организационных систем с распределенным контролем. - М.: ИПУ РАН, 2001. - 118 с.
14. Novikov D. Theory of Control in Organizations. - N.-Y.: Nova Science Publishers, 2013. - 341 p.
15. Новиков Д.А. Игры и сети // Математическая теория игр и ее приложения. - 2010. - № 2. - С. 107-124.
16. Novikov D. Cognitve Games: a Linear Impulse Model // Automation and Remote Control. - 2010. - Vol. 71, N 10. -P. 718-730.
17. Губко М.В., Новиков Д.А. Теория игр в управлении организационными системами. - М.: СИНТЕГ, 2002. - 148 с.
18. Myerson R. Game Theory: Analysis of Conflict. - Cambridge, Massachusetts, London: Harvard University Press, 2001. -600 p.
19. Мулен Э. Кооперативное принятие решений: аксиомы и модели. - М.: Мир, 1991. - 464 с.
20. Искаков М.Б. Равновесие в безопасных стратегиях // Автоматика и телемеханика. - 2005. - № 3. - С. 139-153.
21. Искаков М.Б., Искаков А.Б. Равновесие, сдерживаемое контругрозами, и сложное равновесие в безопасных стратегиях // Управление большими системами. - 2014. -№ 51. - С. 130-157.
22. Iskakov M., Iskakov A. Equilibrium in secure strategies / CORE Discussion Paper 2012/61. - Louvain-la-Neuve: CORE, 2012. - 38 p.
23. Germeier Yu. Non-antagonistic Games. - Dordrecht, Boston: D. Reidel Pub. Co., 1986. - 327 p.
24. Батов А.В., Бреер В.В., Новиков Д.А., Рогаткин А.Д. Микро- и макромодели социальных сетей. Ч. 2. Идентификация и имитационные эксперименты // Проблемы управления. - 2014. - № 6. - С. 45-51.
Статья представлена к публикации членом редколлегии
Ф.Т. Алескеровым.
Новиков Дмитрий Александрович - чл.-корр. РАН,
зам. директора, Институт проблем управления
им. В.А. Трапезникова РАН, г. Москва,
® (495) 334-75-69, И [email protected].
x* =