УДК 519.833.2 ББК 32.81
ДИНАМИЧЕСКИЕ МОДЕЛИ УПРАВЛЕНИЯ ВОЗБУЖДЕНИЕМ ТОЛПЫ В НЕПРЕРЫВНОМ ВРЕМЕНИ
1 2 Барабанов И. Н. , Новиков Д. А.
(ФГБУН Институт проблем управления
им. В.А. Трапезникова РАН, Москва)
Формулируется и решается задача динамического управления возбуждением толпы в непрерывном времени за счет выбора числа внедряемых в каждый момент времени «провокаторов».
Ключевые слова: коллективное поведение, модель Грановет-тера, стохастические модели управления толпой.
1. Введение
Задачи управления конформным принятием решений агентами, осуществляющими бинарный выбор - «бездействовать» или «действовать», - исследуются в рамках моделей коллективного поведения, основывающихся на классической модели М. Грановеттера [9] (см. обзоры в [3, 7]). В этой модели предполагается, что каждый агент характеризуется собственным порогом (числом из отрезка [0; 1]) и принимает решение действовать, если действует превышающая этот порог доля его окружения (в противном случае агент бездействует). Динамика доли действующих агентов определяется начальным ее значением и функцией распределения порогов агентов. Следовательно, целенаправленное («экзогенное») изменение числа действующих
1 Иван Николаевич Барабанов, заместитель директора по научной работе ИПУ РАН, кандидат физико-математических наук ([email protected]).
2 Дмитрий Александрович Новиков, заместитель директора по научной работе ИПУ РАН, доктор технических наук, профессор, чл.-корр. РАН ([email protected]).
(в начальный и/или в последующие моменты времени) агентов приводит к изменению динамики поведения всего их коллектива.
Если речь идет о коллективном поведении агентов, составляющих толпу [4], то управление содержательно заключается в выборе доли внедряемых в толпу агентов, которые всегда действуют (условно таких агентов называют «провокаторами»). Задачи данного класса можно условно классифицировать по следующим основаниям: дискретность или непрерывность времени, однократность или многократность осуществления управленческих воздействий (соответственно - постоянные управления и управления, зависящие от времени), программное или позиционное управление.
В статье [4] сформулирована и решена задача выбора управляющим органом - центром - оптимального значения однократного (постоянного во времени) управленческого воздействия на толпу, функционирующую в дискретном времени. В статье [1] эта задача обобщена на случай многократных программных управленческих воздействий, реализуемых также в дискретном времени.
Настоящая работа посвящена моделям управления толпой с непрерывным временем.
Собственно модель толпы (обобщение модели Грановетте-ра на случай непрерывного времени) заимствована из работ [6, 8]. Так, считается, что если известна доля х0 е [0; 1] агентов, действующих в начальный (нулевой) момент времени, то в дальнейшем ее эволюция во времени х(0, ^ > 0, описывается уравнением
(1) х = ^(х)-х,
где - известная непрерывная функция, обладающая свойствами функции распределения и содержательно являющаяся функцией распределения порогов агентов [3, 4], такая что ^(0) = 0, ^(1) = 1. Введение управления (добавление провокаторов) н(0 е [0; 1] по аналогии с тем, как это делается в [1, 4], приводит к управляемой динамической системе
(2) х = и(7) + (1 - - х .
Изложение материала настоящей работы следующее. Во втором разделе изучаются множество достижимости и свойство «монотонности траекторий» по управлению. Затем (в третьем разделе) в соответствии с приведенной выше системой классификаций исследуется случай постоянных управлений. Четвертый раздел посвящен моделям, в которых цель управления заключается в возбуждении всей толпы. В заключительном (пятом) разделе рассматривается случай позиционного управления.
2. Множество достижимости и монотонность
Сформулируем следующую лемму, результат которой используется ниже.
Рассмотрим функции 01(х, г) и G2(x, t): Я х [10, +<х>) - непрерывно дифференцируемые по х и непрерывные по 1. Кроме того, будем считать, что функции (¡\ и С2 таковы, что решения задач Коши для дифференциальных уравнений х = (7, (х, / ). / = 1.2. с
начальными условиями (10, х0), х0 е Я бесконечно продолжимы по 1. Обозначим эти решения задач Коши х(1, (10, х0)), i = 1, 2, соответственно.
Лемма. Пусть Ух е Я, V? > ?0 ^ ^ (х, ?) > G2 (х, ?) . Тогда
V? > ^ х (?,(?0,х0)) > х2(?, (?0,х0)) .
Доказательство леммы приведено в Приложении.
Заметим, что для справедливости утверждения леммы не обязательно рассматривать неравенство 01(х, г) > G2(x, г) при всех х е Я, достаточно ограничиться объединением множеств достижимости уравнений х = (7, (х. /). / = 1.2 при выбранных значениях начальных условий (10, х0).
Обозначим через х(п) значение доли действующих агентов в момент времени г при использовании управления В силу того, что V х е [0; 1] ^(х) < 1, а правая часть выражения (1) монотонно возрастает по u при каждом г, справедливо следующее
Утверждение 1. Пусть функция ^(х) такова, что ^(х) < 1 при х е [0; 1). Если V? > ?0 ^ щ(?) > щ(?) и x0(ul) = x0(u2) (х0 < 1), то V? > xí(u1) > х(п2).
Действительно, в силу условий утверждения при всех t и х < 1 выполняется неравенство щ (t) + (1 - щ (t))F (x) - x > > щ (t) + (1 - щ (t))F(x) - x , поскольку выпуклая комбинация различных чисел (1 и -F(x)) строго монотонна. Точка х = 1 является положением равновесия (1) при любых управлениях u(t), следовательно, она не достижима ни при каких конечных t. Применяя лемму, получим, что при одинаковых начальных условиях xt(u1) > xt(u2).
Предположим, что на управления наложено ограничение:
(3) u(t) < А, t > t0,
где А е [0; 1] - некоторая константа.
Далее будем считать, что t0 = 0, x(t0) = х(0) = 0, т.е. в начальный момент времени толпа не возбуждена.
Если критерием эффективности является доля агентов, действующих в заданный момент времени T > 0, то соответствующая задача терминального управления имеет вид
Гxr (и) ^ max,
(4) j и(') [ (2),(3).
Приведем ряд утверждений (утверждения 2-4), являющихся аналогами соответствующих утверждений в [1].
Утверждение 2. Решение задачи (4) имеет вид: u(t) = А, t е [0; T].
Обозначим через т(x, и) = min {t > 01 xt (и) > x} самый ранний момент времени, в который доля действующих агентов достигнет заданного значения x (если множество {t > 01 xt (и) > x} пусто, то положим т(x, и) = +го). В рамках рассматриваемой модели можно сформулировать следующую задачу о быстродействии:
Гг( x, и) ^ min,
(5) j м(') I (2),(3).
Утверждение 3. Решение задачи (5) имеет вид: u(t) = А, t е [0; т].
Содержательно, как и в моделях с дискретным временем [1], в рамках задачи (4) или (5) центру наиболее выгодно внедрить в толпу в начальный момент времени максимальное допустимое число провокаторов и больше ничего не делать (не пытаться, например, потом уменьшать, а затем опять увеличивать число внедренных провокаторов в последующие моменты времени). Такая структура оптимального решения обусловлена тем, что в моделях (4) и (5) центр не несет затрат на внедрение и/или содержание провокаторов.
Исследуем свойства множества достижимости 1) = У хТ(и), 1) с:10; 11 в силу того, что правая часть дина-
и(Ое[0;Д]
мической системы (2) обращается в ноль при х = 1.
С точки зрения возможных приложений значительный интерес представляет случай так называемых постоянных управлений: = v, t > 0, при использовании которых доля v е [0; А] провокаторов во все моменты времени одинакова. Обозначим через хг(Д) = хг(и(0 = А), ^ е [0; 7], через /)0 = У хТ (у) с [0;1] -
уе[0;Д]
множество достижимости при постоянных управлениях. Так как хт (у) - монотонное (в силу утверждения 1) непрерывное отображение [0; А] в [0; 1], причем хг(0) = 0, то справедливо следующее утверждение.
Утверждение 4. D0 = [0; хг(А)].
Рассмотрим модели, учитывающие затраты центра на управление. При фиксированной «цене» X > 0 содержания одного провокатора в единицу времени затраты центра за время т > 0 примут вид:
т
(6) сг (и) = Л\и(?.
0
Пусть заданы монотонные функции: терминальный выигрыш центра Щ/) от доли действующих агентов и текущий выигрыш й(-). Тогда «обобщением» задачи (4) будет задача
т
Н(хт (и)) +1И(х(?))Л - ст (и) ^ тах,
(7)
(2), (3).
0
(8)
Если заданы ограничения на «суммарные» затраты C центра, то задачу типа (7) можно сформулировать в виде
т
H(xT (u)) + Jh(x(t))dt ^ max, о u
(2), cT (u) < C.
Возможным вариантом задач типа (4), (5), (7), (8) будет задача минимизации затрат по обеспечению к моменту времени T заданной доли X действующих агентов: cr (u) ^ min,
(9)
X (u) > X, (2).
Задачи типа (7)-(9) приводятся к стандартным задачам оптимального управления.
Пример 1. Рассмотрим задачу (9) в случае, когда F(x) = x. Предположим, что x0 = 0, а затраты центра задаются (6) с Л = 1. В результате получим следующую задачу оптимального программного управления с закрепленными концами: х = и{ 1 - х), х(0) = 0, х(Т) = х,
(10) 0< u < А,
г
J u(t)dt ^ min .
J0 ue[0,A]
Запишем функцию Понтрягина: H = ^(u(1 - x)) - u
для (10). В соответствии с принципом максимума эта функция должна принимать максимальные значения по и. В силу линейности функции по и максимум достигается на концах отрезка [0, А] в зависимости от знака коэффициента при и, т.е. можно записать
(11) u = А( sign (W(1 - x)-1) + 1).
Линейность по управлению функции Понтрягина является следствием линейности по управлению и правой части динами-
u
ческой системы (2), и функционала (6). То есть справедливо следующее
Утверждение 5. Если ограничения в задачах оптимального управления типа (7)-(9) линейны по управлению, то оптимальное программное управление будет иметь структуру, описываемую выражением (11), в рамках которой значение управления в каждый момент времени равно либо максимально возможной, либо минимально возможной величине.
Уравнения Гамильтона выглядят следующим образом:
. дн
х =-= и( 1-х),
дцг
дН
цг =--= иу/.
дх
Краевые условия накладываются только на первое уравнение. Решением первого уравнения при u = 0 будет константа, а при u = А - функция
x(t) = 1 -(1 - x(0) И'-0). Из этого выражения возникает ограничение на максимальное число провокаторов, необходимое для того, чтобы суметь пере* л 1, 1
вести толпу из нулевого положения в x : А>— log-
T 1 - X
При этом существует минимальное время 1 1 1
tmin =— log--, в течение которого управление должно при-
А 1 - x
нимать максимальное значение А, а в остальные моменты управление должно быть равным 0. В частности, одним из решений задачи (10) будет
л-n I А ' - 'min,
(12) u = i
[0, U < t - T;
когда максимальное количество провокаторов вводится сразу и поддерживается постоянным в течение tmm.
Структура оптимального решения данной задачи (кусочно-постоянная функция, принимающая значения 0 или А) может привести к необходимости минимизировать количество переключений (разрывов) управления. Такое дополнительное огра-
ничение содержательно оправдывается тем, что центр может нести какие-либо дополнительные затраты на ввод или вывод провокаторов. В случае, когда подобное ограничение имеет место в рассматриваемой задаче, из всего множества оптимальных управлений наилучшими остаются либо (12), либо управление
ГА, te[T-fmin,T], u = 1 •
1 0, t < T - tmin.
3. Постоянные управления
Из выражения (6) следует, что при постоянных управлениях cT(v) = Xvт. При заданных функциях FQ (т.е. при известной зависимости xt(v)) задачи (7)-(9) сводятся к типовым задачам скалярной оптимизации.
Пример 2. Пусть F(x) = x, T = 1, x0 = 0, H(x) = x, h(x) = у x, где у > 0 - известная константа. Из выражения (1) находим: ( t \
(13) xt (u) = 1 - exp -Ju(y)dy
V 0 у
При постоянных управлениях xt(v) = 1 - e vt.
Задача (7) примет вид следующей задачи скалярной оптимизации:
(14) e-v К-U-^-Av ^ max .
V v ) v ve[0;A]
Задача (8) примет вид следующей задачи скалярной оптимизации:
(15) e— fc-max .
V ve[0;A ]
v ^ min,
ve[0;1]
Задача (9) примет вид: 1 vG[ ; ] Ее решение:
|l - e ~v = x.
v = log (
V 1 - x
4. Задача возбуждения всей толпы
Рассмотрим «асимптотику» решаемых задач при T = +да. В настоящем разделе будем предполагать, как и для аналогичной модели в [1], что функция F() имеет единственную точку перегиба, F(0) = 0, уравнение F(x) = x имеет на интервале (0; 1) единственное решение - точку q > 0, причем Vx е (0; q) F(х) < x, Vx е (q; 1) F(x) > x. Примеры функций F(), удовлетворяющих введенным предположениям, приведены в [1]. Также будем считать, что целью управления является «возбуждение» всех агентов с наименьшими затратами.
Из введенных предположений о свойствах функции F(-) следует, что если для некоторого момента времени т выполнено х(т) > q, тогда, даже при u(t) = 0 Vt > т, траектория xt(u) будет
неубывающей, причем lim xt(u) = 1. Как отмечалось в [1], со-
t
держательно это свойство означает, что рассматриваемая толпа такова, что область притяжения нулевого положения равновесия в отсутствие управления (без внедренных провокаторов) составляет полуинтервал [0; q), т.е. в этой толпе достаточно обеспечить «искусственное» возбуждение более чем q (доли) агентов, а затем даже в отсутствие управления эта толпа будет «сама» стремиться к единичному равновесному состоянию.
Обозначим через uT решение следующей задачи:
(16) f u(t)dt
^ min
q u:u(t)е[0;Д], xr (u)>q
г
Вычислим Q = fur (t)dt и найдем г* = arg minQ .
0 rä0 Решение задачи (16) существует (см. содержательные интерпретации в [1]) при условии
(17) Д>Д* = max Х ~ F(x) .
xe[0,q] 1 - F(X)
В силу введенных предположений о свойствах функции распределения структура оптимального решения рассматриваемой задачи характеризуется следующим образом.
Утверждение 6. Если выполнено условие (17), то uT(t) = 0 при t > т.
Пример 3. В [2] была построена двухпараметрическая (с параметрами a и b) функция FQ, наилучшим образом описывающая структуру распространения активности в русскоязычных сегментах онлайновых социальных сетей (CC) LiveJournal, FaceBook и Twitter. Эта функция имеет вид
arctan(a( x - b)) + arctan(ab)
(18) Fab (x) =-,
' arctan(a(1 - b)) + arctan(ab)
a e [7; 15], b e [0; 1].
Выберем a = 13 (параметр, соответствующий СС Facebook),
л *
b = 0,4. Тогда, как показано в [1], q ~ 0,375 и A к 0,169. •
5. Позиционное управление
В предыдущих разделах рассматривалась задача синтеза оптимального программного управления. В то же время в задачах управления возбуждением толпы может использоваться и позиционное управление. Рассмотрим два возможных варианта, имеющих прозрачные содержательные интерпретации.
В первом случае задача заключается в поиске закона позиционного управления й(х): [0; 1] —> [0; 1], обеспечивающего максимальное возбуждение толпы (в смысле задач (4) или (5)) при тех или иных ограничениях на траекторию системы и/или на управления.
Пусть управление ограничено по аналогии с выражением (3):
(19) й(х)<Д,хе[0;1],
и имеется дополнительное ограничение на траекторию:
(20) x(t)<S,t>0,
где S > 0 - известная константа. Содержательно условие (20) означает, например, что слишком быстрый рост (в смысле прироста в единицу времени) доли возбужденных агентов обнаруживается соответствующими органами, делающими дальнейшее управление невозможным. Следовательно, центр, решающий задачу управления возбуждением толпы, должен стремиться
максимизировать значение доли возбужденных агентов при условиях (19) и (20). Решение соответствующей задачи, в силу свойств динамической системы (2), устанавливаемых леммой, имеет простой вид:
(21) й*(х) = пип |а; тах |о;
Дробь, фигурирующая в выражении (21), получается в результате приравнивания правой части (1) константе 3.
Отметим, что при малых значениях 3 может оказаться, что не существует неотрицательного управления, удовлетворяющего (20).
Пример 4. Пусть в условиях примера 3 3 = 0,35. Тогда оптимальное значение позиционного управления приведено на Рис. 1 (пунктиром на данном рисунке изображены биссектриса и функция F(•), тонкой непрерывной линией - ограничение сверху, фигурирующее в выражении (21). •
^ СО Л О
О^ О^ О^ т—^ т-н ГЧ гд од ГО ГО ^ ТГ "^Г 1-Л 1-Л ш из 10 Г^ Г-^ СО 00 00 СП_ СП о
о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" ^н"
Рис. 1. Оптимальное познцнонное управление в примере 4
Второй случай позиционного управления относится к так называемой задаче иммунизации сети [4], в которой управляющий орган заинтересован в снижении доли действующих агентов, причем возможными управлениями с его стороны является
число (или доля) внедряемых в толпу иммунизаторов - агентов, которые всегда бездействуют.
Как показано в [4], если ^ е [0; 1] - доля иммунизаторов, то динамика доли действующих агентов будет удовлетворять уравнению
(22) х = (1 - м>Щх) - х, х е [0; 1].
Пусть #(х): [0;1] —>[0;1] - позиционное управление, тогда, если цель управляющего органа - снижение доли действующих агентов:
(23) х(0<0,г>0,
то из (22) получаем следующее условие на позиционное управление:
х
#(*) >1 —
(24)
Величина Дт:„ = тах
тт
хе[0;1]
1 --
Р ( X )
характеризует минималь-
ные ограничения на размер управлений в каждый момент времени, при котором система (22) «управляема» в смысле (23).
Пример 5. В условиях примера 4 ограничение (24) снизу на величину позиционного управления изображено жирной линией на Рис. 2 (пунктиром на данном рисунке изображены биссектриса и функция распределения ^(-)).
Величина Лтт в рассматриваемом примере равна примерно 0,385. •
о^вдг^шо^вдг^що^ггаг^що^вдг^шо^гаг^шо ■Ц О — ^ г'\ -". ^Т ^Т — " |'| с с -- X и-, с;
г: о" о" о г: о" о" сГ сГ о" сГ сГ г: о" сГ о г: о" о" г; сГ о" сГ сГ о" гн
Рис. 2. Минимальное позиционное управление в примере 5 Заключение
В настоящей работе описаны задачи управления возбуждением толпы в непрерывном времени за счет внедрения в нее провокаторов или иммунизаторов.
Значительный интерес для дальнейших исследований представляет рассмотрение дифференциальной игры, описывающей ситуацию информационного противоборства между двумя управляющими органами, принимающими в непрерывном времени решения о долях (или количествах) внедряемых провокаторов и и иммунизаторов w соответственно (соответствующая статическая задача, которая может служить «точкой отсчета», рассмотрена в [6]). Объект управления при этом будет описываться динамической системой
х = и{ 1 - и1) + (1 - и - и' + 2и\г)1-'(х) -х [4].
Вторым перспективным направлением представляется рассмотрение задач динамического (программного и/или позиционного) управления толпой, описываемой уравнением переноса [6]: — р(х,0 ([" + (1 -(х)-х]р(х,?)) = 0, т.е. моделью, в которой состояние толпы в каждый момент времени опи-
сывается не скалярной долей действующих агентов, а соответствующим распределением p(x, t) вероятностей.
Литература
1. БАРАБАНОВ И.Н., НОВИКОВ Д А. Динамические модели управления возбуждением толпы в дискретном времени // Автоматика и телемеханика. - 2016 (в печати).
2. БАТОВ А.В., БРЕЕР ВВ., НОВИКОВ ДА., РОГАТКИН А.Д. Микро- и макромодели социальных сетей: идентификация и имитационные эксперименты // Проблемы управления. - 2014. - №6. - С. 45-51.
3. БРЕЕР В.В. Модели конформного поведения (обзор) // Проблемы управления. - 2014. - № 1. - С. 2-13. - №2. - С. 2-17.
4. БРЕЕР ВВ., НОВИКОВ ДА., РОГАТКИН А.Д. Стохастические модели управления толпой // Управление большими системами. - 2014. - №52. - С. 85-117.
5. НОВИКОВ Д.А. Модели информационного противоборства в управлении толпой // Проблемы управления. - 2015. -№3. - С. 29-39.
6. РОГАТКИН А.Д. Модель Грановеттера с непрерывным временем // Управление большими системами. - 2016 (в печати).
7. СЛОВОХОТОВ Ю.Л. Физика и социофизика // Проблемы управления. - 2012. - Ч. 1. - №1. - С. 2-20; Ч. 2. - № 2. -С. 2-31; Ч. 3. - №3. - С. 2-34.
8. AKHMETZHANOV A.R., WORDEN L., DUSHOFF J. Effects of Mixing in Threshold Models of Social Behavior // Phys. Rev. - 2013. - E 88. 012816.
9. GRANOVETTER M. Threshold Models of Collective Behavior // AJS. - 1978. - Vol. 83, No. 6. - P. 1420-1443.
ПРИЛОЖЕНИЕ
Доказательство леммы. По условию леммы,
>—х2 (/, , хо)) .
О1(х0,?о) > О2(хо,?о) , т.е. —Х^,^,Хо))
т
г=г
т
г=
Поэтому найдется такое число е > о, что V? е (г0,г0 +е] — х(?,(?о,Х)) > Х(?,(?о,Х)), т.е. график решения первого уравнения лежит выше графика второго на всем полуинтервале (?0, +е]. Покажем, что такое расположение графиков справедливо для всех г > г0.
Предположим противное, т.е
3 г: х1 (г, (?о, хо)) = х2 (г, (го, хо)) = Х. Без ограничения общности будем считать, что г - первый момент достижения графиком х2 графика х, т.е. г = [г>го +е: х1(г,(го,хо)) = х2(г,(го,хо))}<+да. Очевидно, что г > го + е > ?о и что
V е (го, г) — х1 (г, (?о , хо )) > х2 (г, (го, хо )) . Отсюда для т е [о, г — ?о ) справедливо
х1(г — т, (го, хо)) — х1 (г, (го, хо )) > х2(г — т, (го, хо)) — х2(г ,(го, хо)) , так как вторые слагаемые в обеих частях этого неравенства одинаковы и равны х . Поделим обе части неравенства на — т (знак неравенства сменится на противоположный) и перейдем к пределу при т —^ о . В результате получим соотношение для производных решений х и х2 в точке г :
4х1( г,( ^ хо)) т
< г,( г о, хо)) т
откуда следует, что
01(х,г)<02(х,г) . Выполнение этого неравенства одновременно с выполнением условия утверждения невозможно, следовательно, предположение неверно. Лемма доказана.
г=г
CONTINUOUS-TIME DYNAMIC MODELS OF MOB EXCITATION
Ivan Barabanov, Trapeznikov Institute of Control Sciences of RAS, Moscow, Cand. Sc., ([email protected]).
Dmitriy Novikov, Trapeznikov Institute of Control Sciences of RAS, Moscow, Dr. Sc., ([email protected]).
Abstract: The mob excitation control problem is considered using the continuous-time modification of well-known threshold model of collected behavior introduced by Granovetter. Every agent decides whether to participate in a collective action or to be passive. Here we investigate the case when there is a number of agents which are active by default. These agents are called here "provokers ". We analyze the possibility to control the final state of the whole mob. The desired state of the mob is achieved by introducing an appropriate number of "provokers" at each moment of control.
Keywords: collective behavior, Granovetter's model, stochastic models of mob control.
Статья представлена к публикации членом редакционной коллегии И. Б. Фуртатом.
Поступила в редакцию 30.12.2015. Опубликована 30.09.2016.