ISSN 0321-3005 IZVESTIYA VUZOV. SEVERO-KAVKAZSKII REGION.
NATURAL SCIENCE.
2016. No. 4
УДК 519.83+519.86
DOI 10.18522/0321-3005-2016-4-26-30
ИМИТАЦИОННОЕ МОДЕЛИРОВАНИЕ ИЕРАРХИЧЕСКИХ РЕГЛАМЕНТОВ УПРАВЛЕНИЯ (НА ПРИМЕРЕ РЫБОЛОВСТВА)*
© 2016 г. А.Н. Оноприенко, Г.А. Угольницкий, А.Б. Усов
SIMULATION MODELING OF THE HIERARCHICAL CONTROL RULES (IN FISHERIES)
A.N. Onoprienko, G.A. Ougolnitsky, A.B. Usov
Оноприенко Алексей Николаевич - магистр, кафедра прикладной математики и программирования, Институт математики, механики и компьютерных наук имени И.И. Воровича Южного федерального университета, ул. Мильчакова, 8а, г. Ростов н/Д, 344090, e-mail: [email protected]
Угольницкий Геннадий Анатольевич - доктор физико-математических наук, профессор, заведующий кафедрой прикладной математики и программирования, Институт математики, механики и компьютерных наук имени И.И. Воровича Южного федерального университета, ул. Мильчакова, 8а, г. Ростов н/Д, 344090, e-mail: [email protected]
Усов Анатолий Борисович - доктор технических наук, профессор, кафедра прикладной математики и программирования, Институт математики, механики и компьютерных наук имени И.И. Воровича Южного федерального университета, ул. Мильчакова, 8а, г. Ростов н/Д, 344090, e-mail: [email protected]
Alexey N. Onoprienko - Master, Department of Applied Mathematics and Programming, Vorovich Institute of Mathematics, Mechanics and Computer Sciences, Southern Federal University, Milchakov St., 8a, Rostov-on-Don, 344090, Russia, e-mail: onoprienkoalexey@gmail. com
Guennady A. Ougolnitsky - Doctor of Physics and Mathematics, Professor, Head of the Department of Applied Mathematics and Programming, Vorovich Institute of Mathematics, Mechanics and Computer Sciences, Southern Federal University, Milchakov St., 8a, Rostov-on-Don, 344090, Russia, e-mail: [email protected]
Anatoliy B. Usov - Doctor of Technical Science, Professor, Department of Applied Mathematics and Programming, Vorovich Institute of Mathematics, Mechanics and Computer Sciences, Southern Federal University, Milchakov St., 8a, Rostov-on-Don, 344090, Russia, e-mail: [email protected]
Исследуются динамические модели согласования общих и частных интересов (СОЧИ-модели) на примере рыболовства. Описаны различные информационные регламенты иерархических динамических игр на примере СОЧИ-модели. Указаны алгоритмы построения равновесия Штакельберга. Основное внимание уделено имитационному моделированию различных информационных регламентов с использованием эвристических алгоритмов. Приведены результаты счета по выбранным сценариям. Обоснован выбор сценариев для имитации. Проведены численные эксперименты. Выполнен сравнительный анализ результатов имитации для тестовых данных при использовании разных информационных регламентов.
Ключевые слова: дифференциальные игры, иерархическое управление, имитационное моделирование, принуждение, побуждение, равновесие Штакельберга.
Dynamic models of concordance of private and public interests (CPPI-models) in fisheries are investigated. Different information structures of hierarchical differential games on the example of a CPPI-model are described. Algorithms of building the Stackelberg equilibrium are proposed. The principal attention is given to the simulation modeling of different information rules based on heuristic algorithms. Numerical calculations are made, and the choice of simulation scenarios is explained. A comparative analysis of the numerical results for different information structures with test data is conducted.
Keywords: differential games, hierarchical control, simulation modeling, compulsion, impulsion, Stackelberg equilibrium.
Статья посвящена исследованию динамических СОЧИ-моделей (моделей согласования общих и частных интересов) с использованием метода имитационного моделирования. Понятие СОЧИ-моделей восходит к двум источникам: статической модели Гермейера - Вателя [1] и динамическим моделям экономики общественных благ [2].
Идея СОЧИ-моделей заключается в разделении ресурсов активных агентов на две части: одна преследует частный интерес, другая ассигну-
ется на общественные нужды. Другими словами, каждый игрок, имея некоторый ресурс, самостоятельно решает, какую его часть потратить только на себя, а какую - на общественное благо (борьбу с общественным злом) совместно с другими игроками. Выигрыш агента складывается из дохода от частной деятельности и доли от общественного дохода (убытка). Для описания общественного дохода в модель вводится соответствующая функция.
* Работа выполнена при финансовой поддержке ЮФУ, проект № 213-01-07-2014/07ПЧВГ.
ISSN 0321-3005 IZVESTIYA VUZOV. SEVERO-KAVKAZSKII REGION.
NATURAL SCIENCE.
2016. No. 4
Каждый агент в модели стремится максимизировать собственный выигрыш, складывающийся из дохода от частной деятельности и доли от общественного дохода, причем это далеко не всегда ведет к максимизации функции общественного благосостояния. Здесь возникает важная проблема принятия решений в системах с несколькими агентами, известная как неэффективность равновесий [3].
Для исследования в настоящей работе выбран метод имитационного моделирования [4] как наиболее универсальный, поскольку большинство иерархических дифференциально-игровых моделей решить аналитическим путем не представляется возможным. Недостаток использования имитации как обобщенного численного метода заключается в отсутствии гарантии нахождения оптимального решения.
Цель работы состоит в реализации и исследовании различных информационных регламентов иерархического управления с использованием имитационного моделирования. Необходимо описать и реализовать следующие регламенты иерархического управления:
1. Программные стратегии, побуждение.
2. Программные стратегии, принуждение.
3. Программные и позиционные стратегии, побуждение.
4. Программные и позиционные стратегии, принуждение.
Каждый из этих четырех регламентов должен быть реализован для игры Штакельберга [5]. Концепция управления устойчивым развитием с использованием методов принуждения и побуждения подробно изложена в [6].
Математическая постановка задачи
В качестве конкретной модели, на которой проводятся исследования, выступает динамическая СОЧИ-модель управления рыболовством с учетом требований устойчивого развития [7].
Игроки максимизируют целевые функционалы
его выигрыш складывается из двух составляющих: дохода от частной деятельности и доли в совместно создаваемом общественном доходе (или доли ущерба от общественного зла, с которым совместно борются игроки). В данном случае игроки - это рыболовецкие предприятия i = 1,...,N, максимизирующие доход от рыболовства с учетом возможного штрафа за нарушение условия устойчивого развития популяции, которое имеет вид Vt P(t) = P * или, в более слабой форме,
Vt [P(t) - P*]2 <s , где P(t) - текущее значение биомассы рыбной популяции; P* — его идеальное значение, полностью удовлетворяющее требованиям устойчивого развития. При нарушении условия устойчивого развития на игроков налагается штраф с коэффициентом М; si (t) — доля штрафа для игрока i в момент t, что определяет второе слагаемое в подынтегральной функции. Первое слагаемое - это доход игрока i в момент t от рыболовства, где a — цена единицы биомассы рыбы.
В динамических СОЧИ-моделях управление игрока ui (t) — часть ресурса ri, ассигнуемая на общественные нужды (тогда ri - ui (t) — часть ресурса, выделяемая на частную деятельность). В данной модели r - U (t) — это инвестиции в наращивание промысловых усилий, тогда доля вылова рыбы г-м предприятием вычисляется как некоторая функция промыслового усилия vi (t) = hi (r - и{ (t)). Без существенного ограничения общности положим Vj (t) = kt (г - Uj (t))Pi ,0 < pt < 1. Величина ui (t) отражает ассигнования на повышение экологичности промысла и рыборазведение.
Модель (1)—(3) представляет собой дифференциальную игру N лиц, в которой условия устойчивого развития учтены с помощью штрафов в целевых функционалах. Для удобства программной реализации упростим модель. Сначала приведем ее к линейному виду
J = J е {av, (t)P(t) - s, (t)M[P(t) - P*]2}dt - (1) J' =i е ^[ak'- U > * P(t) - s'M (P * -P(t))]dt - (4)
- е-pTs1 (Т)М[Р(Т) - Р*]2 при ограничениях на управления
(Г) < и, (Г) < г, , 1 = 1,...,N (2)
и уравнение динамики биомассы рыбной популяции
Р = /(Р(Г),и(Г)), Р(0) = Р0 . (3)
Каждый игрок распределяет свой ресурс между общественными и частными интересами, поэтому
(ТМ(Р * -Р(Т)) ^ тах,
Р = [г + к(Еи, (Г))р к, (г, - и, (Г))р ]Р(0 , Р(0) = Р0 1 1
с теми же ограничениями на управление ц (I) < и (0 < г , , = 1,. .,N, где г - коэффициент естественного прироста рыбной популяции; Р* — экспертно оцениваемое оптимальное значение Р(Г), Р($) < Р * .
T
0
ISSN 0321-3005 IZVESTIYA VUZOV. SEVERO-KAVKAZSKII REGION.
На втором этапе вместо функции выигрыша ведомого (4) используется ее дискретизированная
т
версия Jl = Xe~p [ak, (r, - u, (t))Pi P(t) - s, (t), 0
M(P * -P(t))] ^ max .
Контрольный орган (ведущий игрок) для максимизации своего целевого функционала может воздействовать на рыболовецкие предприятия (ведомых игроков) посредством экономического (побуждение) или административного (принуждение) управления.
При побуждении ведущий игрок использует для управления переменные s, (t) при условии s, (t) > 0 , sj(t) +... + sn(t) = 1, t >0 .
При принуждении ведущий выбирает переменные q, (t) из условия 0 < q, (t) < rt, t > 0 , i = 1,...,n, устанавливая тем самым нижнюю границу выбора стратегии для каждого из игроков.
Считается, что интересы органа управления верхнего уровня описываются стремлением к максимизации утилитаристской функции обществен-
n
ного благосостояния, т.е. J = XJ, ^ max .
,=i
Таким образом, модель представляет собой иерархическую дифференциальную игру органа управления верхнего уровня (ведущего) с несколькими активными агентами нижнего уровня (ведомыми). Рассмотрим два принципиально различных регламента взаимодействия субъектов:
1. И ведущий, и ведомые игроки используют программные стратегии. Ведущий перед началом игры знакомит каждого ведомого с частью своего управления, относящейся к этому конкретному игроку. В зависимости от управления ведущего ведомые ищут оптимальную стратегию, максимизируя свой целевой функционал. Ведомые действуют абсолютно независимо друг от друга. Обратная связь по состоянию отсутствует.
2. Ведущий использует программные стратегии, ведомые - позиционные. Ведущий выбирает свою стратегию в начале игры. Ведомые - последовательно в каждый период имитации, зная управление ведущего на текущий период и текущее состояние системы.
Для каждого из этих регламентов рассмотрены случаи побуждения и принуждения.
Программные стратегии
Предполагается, что и ведущий, и все ведомые при выборе оптимальной стратегии используют программные стратегии. Тогда порядок игры выглядит следующим образом:
NATURAL SCIENCE. 2016. No. 4
1. Ведущий в начале имитации выбирает для каждого из N ведомых управление на каждый из T периодов имитации.
2. Каждый из ведомых, узнав управление ведущего на каждый из T периодов имитации, ищет собственную оптимальную стратегию в ответ на действия ведущего в виде набора ресурсов, ассигнуемых на общественные нужды, ut (0 < ut < rt).
3. Ведущий получает от каждого из N ведомых его стратегию в ответ на переданное ведомому управление и на ее основании рассчитывает собственный выигрыш.
Перечисленные действия выполняются циклически в процессе перебора ведущим возможных стратегий. Цель - найти ту, при которой выигрыш ведущего будет максимален.
Необходимо отметить, что выигрыш ведомого в конце каждого из периодов имитации зависит от состояния системы в начале этого периода, которое (за исключением ее известного начального состояния) зависит от состояния системы в начале предыдущего этапа и совокупности действий всех ведомых на этом этапе.
В случае программных стратегий, если ведомые действуют независимо, они не могут знать состояние системы на каждом из этапов, а имеют данные лишь на начало имитации. Поскольку отталкиваться при выборе оптимальной стратегии ведомые от чего-то должны, остается единственный вариант -использовать некоторую эвристику. Ведомые могут лишь «предположить» состояние системы.
Таким образом, если ведущий хочет знать свой выигрыш при выборе определенного управления, он, зная набор стратегий всех ведомых и начальное состояние системы, должен определить стратегии ведомых и на их основании получить собственный выигрыш.
Ниже исследованы случаи побуждения и принуждения. При побуждении ведущий «побуждает» ведомых использовать выгодные для него стратегии, влияя на их целевые функции. Управлением ведущего служат штрафы. При принуждении ведущий непосредственно влияет на множество стратегий ведомых. Он ограничивает управления ведомых снизу. Считается, что штрафы в этом случае фиксированы и заданы.
Позиционные стратегии
Ведущий по-прежнему использует программные стратегии. Ведомые, не имея достаточно информации, вынуждены использовать стратегии позиционные. Иными словами, ведомые перед началом каждого нового периода имитации оценивают текущее состояние системы и на основании этой ин-
ISSN 0321-3005 IZVESTIYA VUZOV. SEVERO-KAVKAZSKII REGION.
формации выбирают стратегии. Порядок игры выглядит следующим образом:
1. Ведущий в начале имитации выбирает для каждого из N ведомых управление на каждый из Т периодов имитации.
2. Каждый из N ведомых, оценив состояние системы Р1 в текущий момент времени t, имея доступный ресурс г , выбирает стратегию, приносящую ему максимальный выигрыш в этот период имитации.
3. Если t < Т, то повторяем пункт 2.
4. Ведущий, получив суммарные выигрыши ведомых за всю имитацию, рассчитывает собственный выигрыш.
Перечисленные действия выполняются циклически в процессе перебора ведущим возможных стратегий. Цель - найти ту, при которой выигрыш ведущего будет максимален.
Тестовые примеры
В ходе исследования был проведен ряд имитаций, позволивших провести разносторонний анализ как конкретной модели, так и самих методов исследования, предложенных в работе. Исследован случай четырех ведомых. Опишем подробно сценарий 1, остальные сценарии устроены аналогично.
Сценарий 1. Начальное количество рыбы равно норме, все игроки в равных условиях и имеют равномерное распределение ресурсов на всю имитацию (таблица), т.е. Р0 = Р* = 100; г = 2; к = 1; р = 2; гг = 100; к, = 1; р, = 1; , = 1,2,3,4 .
Опишем полученные для сценария 1 результаты. Стратегии ведущего изображены в виде матриц, где столбцы - периоды имитации, строки -ведомые игроки (таблица). Здесь ПРП — программные стратегии, побуждение; ПРПР - программные стратегии, принуждение; ПП - позиционные стратегии, побуждение; ППР - позиционные стратегии, принуждение; ВВ - выигрыш ведущего (1Е+16).
Сценарий 2. Количество рыбы намного больше уровня нормы. Один из игроков имеет существенное превосходство в ресурсе; распределение ресурсов равномерное, т.е. Р0 = 200; Р* = 100; г = 2; р = 2; к = 1; г, = 100; к, = 1; р, = 1; I = 1,2,3,4; г1 = 400.
В этом случае оптимальные стратегии ведущего получаются такими же, как в предыдущем случае, однако его выигрыш становится на два порядка больше (в районе 6,4Е+18). Из этого можно сделать вывод, что увеличение количества ресурсов игроков при сохранении равномерности их распределения не вынуждает ведущего менять свою страте-
NATURAL SCIENCE. 2016. No. 4
гию. На выигрыш ведущего положительно повлияли, во-первых, увеличение начального количества рыбы (штрафы стали появляться позже - они начисляются лишь при отрицательном отклонении биомассы рыбы от нормы); во-вторых, увеличение доступных ресурсов одного из игроков.
Результаты счета для сценария 1 / Account results for scenario 1
Регламент Оптимальная стратегия ВВ
ПРП 0,33 0,33 0,33 0,33 8,5
0,33 0 0 0,33
0,33 0,33 0,33 0,33
0 0,33 0,33 0
ПРПР 0,33 0,33 0,33 0,33 7,5
0,33 0,33 0,33 0,33
0,33 0,33 0,33 0,33
0,33 0,33 0,33 0,33
ПП 0,33 0,33 0,33 0,33 8,2
0,33 0,33 0,33 0,33
0,33 0,33 0 0,33
0 0 0,33 0
ППР 0,33 0,33 0,33 0,33 7,2
1 1 1 1
1 1 1 1
1 1 1 1
Сценарий 3. Количество рыбы значительно меньше нормы. Суммарное количество ресурса у всех игроков одинаковое, однако каждый из игроков имеет большее количество ресурса. Кроме того, один из игроков работает эффективнее других, т.е. Р0 = 50; Р* = 100; г = 2; к = 1; р = 2; г = 200;50;50;50; кг = 1; р = 1; , = 1,2,3,4; к2= 2; г2 = 50; 200;50;50; г3 = 50; 50; 200;50; г4 = 50; 50;50;200.
В этом случае появился игрок, работающий эффективнее других, т.е. его затраты на частную деятельность вносят более значимый вклад в функцию общественного благосостояния, нежели другие игроки. В случае использования стратегий побуждения штрафы к такому игроку не применяются. Происходит это, судя по всему, потому, что прибавка к значению функции общественного благосостояния, приносимая им за счет дохода от частной деятельности, компенсирует ущерб от излишнего вылова им рыбы, который приходится оплачивать другим игрокам. По отношению к другим игрокам просматривается правило: большая часть штрафа применяется к игроку, имеющему большее количество доступного ресурса на данном этапе. Тем самым игрок вынужден расходовать избыточное количество ресурса на общественное благо. Точно так же при использовании стратегий принуждения игроку, работающему более эффективно,
ISSN 0321-3005 IZVESTIYA VUZOV. SEVERO-KAVKAZSKII REGION.
NATURAL SCIENCE.
2016. No. 4
позволяется большая свобода действия. Происходит это благодаря тому, что доход его от частной деятельности приносит больший вклад, чем у остальных игроков.
Заключение
Проведенные исследования позволяют сделать следующие выводы:
1. Для каждого из ведомых игроков оптимальная стратегия на отдельный период имитации зависит от следующих факторов: эффективности извлечения дохода от частной деятельности, скорости восстановления популяции и коэффициента штрафа M. Увеличение эффективности извлечения дохода от частной деятельности и скорости восстановления популяции ведет к смещению равновесия в сторону расходов на частную деятельность, увеличение коэффициента штрафа M - в сторону общественного блага.
2. Изменение уровня биомассы рыбы при условии сохранения остальных показателей неизменными не вносит в систему качественных изменений и влияет лишь количественно на выигрыши игроков. Оптимальная стратегия ведущего не меняется.
3. Несмотря на различия в реализации, принципах работы и разной точности, результаты работы моделей, построенных на основе всех рассмотренных регламентов, оказались похожи друг на друга. Это говорит о том, что логика их построения и работы верна и полученные результаты можно использовать для дальнейшего анализа.
Литература
1. Гермейер Ю.Б., Ватель И.А. Игры с иерархическим вектором интересов // Изв. АН СССР. Техн. кибернетика. 1974. № 3. С. 54 - 69.
2. Long N.V. A Survey of Dynamic Games in Economics. Munich, 2010. 292 p.
3. Algorithmic Game Theory / ed. by N. Nisan, T. Roughgarden, E. Tardos, V. Vazirani. Cambridge, 2007. 737 p.
4. Кельтон Д.В., Лоу А.М. Имитационное моделирование. СПб., 2004. 847 с.
5. Basar T., Olsder G. Dynamic Noncooperative Game Theory. Philadelphia, 1999. 519 p.
6. Угольницкий Г.А. Управление устойчивым развитием активных систем. Ростов н/Д., 2016. 940 с.
7. Никитина А.В., Пучкин М.В., Семенов И.С., Су-хинов А.И., Угольницкий Г.А., Усов А.Б., Чистяков А.Е. Дифференциально-игровая модель предотвращения заморов в мелководных водоемах // Управление большими системами. 2015. № 55. С. 343-361.
References
1. Germeier Yu.B., Vatel' I.A. Igry s ierarkhicheskim vektorom interesov [Games with a hierarchical vector of interests]. Izv. AN SSSR. Tekhn. kibernetika. 1974, no. 3, pp. 54-69.
2. Long N.V. A Survey of Dynamic Games in Economics. Munich, 2010, 292 p.
3. Algorithmic Game Theory. Ed. by N. Nisan, T. Roughgarden, E. Tardos, V. Vazirani. Cambridge, 2007, 737 p.
4. Kel'ton D.V., Lou A.M. Imitatsionnoe modelirovanie [Simulation]. Saint Petersburg, 2004, 847 p.
5. Basar T., Olsder G. Dynamic Noncooperative Game Theory. Philadelphia, 1999, 519 p.
6. Ugol'nitskii G.A. Upravlenie ustoichivym razvitiem aktivnykh sistem [Management of a sustainable development of active systems]. Rostov-on-Don, 2016, 940 p.
7. Nikitina A.V., Puchkin M.V., Semenov I.S., Sukhinov A.I., Ugol'nitskii G.A., Usov A.B., Chistyakov A.E. [Differential game model to prevent deaths in the shallow waters]. Upravlenie bol'shimi sistemami [Large systems management]. Proceedings. 2015, no. 55, pp. 343-361.
Поступила в редакцию /Received
30 июня 2016 г. / Ju^ 30, 2016