УДК 519.8 ББК 22.18
МОДЕЛИ РЕФЛЕКСИВНЫХ ИГР В ЗАДАЧАХ УПРАВЛЕНИЯ ЭКОЛОГО-ЭКОНОМИЧЕСКИМИ СИСТЕМАМИ
Новиков Д. А.1, Чхартишвили А. Г.2
(Институт проблем управления РАН, Москва)
Обосновывается возможность и целесообразность использования аппарата теории рефлексивных игр для описания задач принятия решений и управления эколого-экономическими системами.
Ключевые слова: эколого-экономическая система, рефлексивная игра, структура информированности, информационное равновесие.
1. Введение
Задача управления эколого-экономической системой [14, 15], элементы которой способны к целенаправленному поведению [3], с теоретико-игровой точки зрения состоит в том, чтобы создать для управляемых субъектов (агентов) игру с такими правилами [5, 8], чтобы ее исход был как можно более благоприятным для управляющего органа (центра) [7, 13]. Поэтому необходимым этапом решения задачи управления является теоретико-игровой анализ, позволяющий центру спрогнозировать реакцию управляемой системы на те или иные управляющие воздействия.
1 Дмитрий Александрович Новиков, доктор технических наук, профессор, член-корреспондент РАН, заместитель директора ([email protected]).
2 Александр Гедеванович Чхартишвили, доктор физико-математических наук, ведущий научный сотрудник ^апёго_ск@таИ ги).
Одним из методов теоретико-игрового моделирования являются рефлексивные игры (см. [12]), позволяющие учитывать сложную информированность (в том числе взаимную информированность [1, 2, 6]) агентов. На сегодняшний день рефлексивные игры нашли свое применение для описания информированности, совместного принятия агентами решений и решения соответствующих задач информационного управления (управления информированностью агентов) в самых разных областях: корпоративное управление, экономика, маркетинг, политика и пр. [4, 9, 10, 11, 12].
Информированность агентов в рефлексивной игре задается структурой, которую составляют представления о существенных параметрах ситуации, а также о представлениях оппонентов (других агентов). Решением рефлексивной игры является информационное равновесие - набор действий реальных и фантомных (существующих в сознании реальных) агентов, в рамках которого каждый агент максимизирует целевую функцию исходя из своей информированности.
В данной статье рассмотрено несколько моделей эколого-экономических систем, в которых исследуется зависимость исхода взаимодействия агентов от структуры их информированности (информационное равновесие). Если информированность агента является ложной (т.е. агент заблуждается относительно условий игры), то наблюдаемый им результат может как оказаться для него неожиданным, так и соответствовать ожиданиям. Если второе выполняется для всех агентов, то имеет место стабильное информационное равновесие [12], условия существования которого также исследуются в рассматриваемых далее моделях.
2. «Число агентов на рынке»
Пусть имеются п однородных (одинаковых) агентов (занумеруем их элементами множества N = {1, ..., п}), выбирающих неотрицательные объемы производства х, > 0 и имеющих целевые функции
где х = (х1, X2, ..хn), 4> 0 - коэффициент штрафов. Первое слагаемое в выражении (1) соответствует выручке агента от продажи произведенной им продукции по единичной цене, второе слагаемое - затратам, третье - штрафам за загрязнение окружающей среды (будем считать, что штраф за суммарное загрязнение, пропорциональное суммарному объему производства, распределяется поровну между агентами). Пусть выражение (1) является общим знанием среди агентов, а последовательность функционирования следующая: агенты одновременно и независимо выбирают объемы производства, после чего каждому из них сообщается размер наложенного на него штрафа.
Если число агентов является среди них общим знанием, то при такой информированности каждый агент выберет действие
максимизирующее его целевую функцию (1).
Рассмотрим возможную информированность агентов относительно их количества п. Если каждый из агентов считает, что их общее число составляет п и это является общим знанием, то каждый из агентов рассчитывает на следующий размер своего штрафа:
ни один из агентов не имеет оснований усомниться в правильности своих представлений (так как правые части выражений (3) и (4) совпадают). Следовательно, информационное равновесие (2) является стабильным при любом (в том числе ложном) представлении агентов п (являющимся среди них общим знанием) об их числе п. Это свойство является следствием того, что штраф пропорционален среднему действию агентов и, следовательно, влияние их количества «компенсируется» суммарным действием.
(2) х* = 1 - 4/ п,
(3) 4(1 -4)п=Х(1 -4).
Наблюдая фактическое значение своего штрафа
(4) 4(1 -4)п = 4(1 -4),
п п п
В заключение настоящего раздела отметим, что вывод о стабильности в том числе ложных равновесий не зависит от параметра х системы штрафов, т.е. в рассмотренной модели переход к истинному информационному равновесию за счет варьирования системы штрафов невозможен - необходимы меры информационного воздействия на агентов, изменяющих их индивидуальную и/или взаимную информированность.
3. «Совместное производство»
Предположим, что в регионе функционируют п предприятий, выпускающих однородную продукцию и имеющих целевые функции
X
(5) Мх) = Лх,-----ХХг,
( ) уг( ) г 2(г + /Х_,) Л ь
где X-, = ^ х , хг > 0 - возможные действия агентов; г, > 0 -
з *-
типы (параметры) агентов; Л > 0 - цена единицы продукции; Х> 0 - коэффициент штрафов; /- неотрицательный параметр. В соответствии с выражением (5) затраты каждого агента зависят от деятельности других агентов (например, имеет место трансфер технологий).
Предположим, что выражения (5) и все значения всех входящих в них параметров являются общим знанием среди агентов. Обозначим
п п
X = ^ , Л = .
3=1 3=1
Напомним, что равновесие Нэша - это набор действий агентов, в котором действие каждого агента максимизирует его целевую функцию (при фиксированных действиях остальных агентов). В данном случае для нахождения равновесия Нэша приравняем к нулю производную целевой функции (5) агента по его действию Хг, что после несложных преобразований приводит к следующему выражению:
(6) х = (Г + РХ)(Л-4) . * ' 1+ДО-4)
Суммируя выражения (6) по всем агентам, получаем соотношение, из которого найдем суммарное действие:
(7) X =
1 - р (Х- 4)(п -1) Подставляя (7) в (6), получаем окончательно:
*
(8) х* =
Х-4 ( РЯ(Х-Х) Л
1 + Р(Х-4) 1 - р (Х- 4)(п -1)
Видно (см. выражение (7)), что с ростом цены и/или числа агентов увеличивается значение суммарного равновесного объема производства, а с ростом «силы штрафов» 4 этот показатель уменьшается.
Исследуем теперь случай, когда представления агентов относительно величины п и значений г = {г} могут быть ложными. Поскольку 7-й агент знает свои тип и действие, он может рассчитать (см. (5)) значение выражения
рХ , = р(Х - х ) = ---1-
' ' 1 + у 1 + у 1 - у(п -1)
(здесь использовано обозначение у= Р(Х- 4) для сокращения записи).
Из последнего соотношения видно, что если агент считает истинными значениями количества агентов и суммы их типов величины п и II соответственно, то равновесие является стабильным [12] при выполнении следующего условия:
(9) -^- =-1-.
1 - у(п -1) 1 - у(п -1) При выполнении условия (9) значение целевой функции совпадает с ожиданиями агента.
4. «Пороговые штрафы»
В настоящем разделе рассматривается модель, которая отражает следующую ситуацию: агенты штрафуются, если резуль-
тат их суммарных усилий £ , е n х, по охране окружающей среды от загрязнения производственными отходами меньше заданного порога. Штраф является настолько крупным, что делает производство нерентабельным, поэтому агентам необходимо избежать его (или отказаться от производственной деятельности). При отсутствии штрафа i-й агент получает доход V, i е N.
Результат является возрастающей функцией от суммы усилий, прилагаемых каждым агентом. Будем считать, что агенты могут иметь различные представления о параметрах этой функции и, следовательно, о такой величине порога 9, что штраф не платится при выполнении условия £ i е n Xi > в.
Пусть реализация действия Xi > 0 требует от i-го агента затрат Ci(xi, ri), где ri > 0 - его тип (параметр, описывающий индивидуальные характеристики), i е N.
Относительно функций затрат агентов предположим, что Ci(Xi, ri) - непрерывная возрастающая по Xi и убывающая по ri функция, причем c,(0, ri) = 0, i е N.
Обозначим через X' множество всевозможных наборов действий (xi, ..., x„) и определим множество индивидуально рациональных действий агентов:
IR = {x е X | V i е N V, > ф„ ri)}. Нетрудно видеть, что IR = ^[0; x+ ], где
x| = max {х, > 0 | c,(x,, ri) < V,}, i е N.
Обозначим
Х(в) = {x е X' | ^X = в}.
1еЫ
Рассмотрим последовательно различные варианты информированности агентов о значении параметра в е ©.
Вариант I. Значение в е © является общим знанием. Тогда равновесием игры агентов является параметрическое (т.е. зависящее от параметра в) равновесие Нэша, принадлежащее множеству En( в) = IR п Х(в).
Вариант II. Представления агентов о величине порога попарно различны, но при этом набор {в} является общим знанием. Иными словами, имеет место асимметричное общее знание.
Не ограничивая общности, занумеруем агентов таким образом, чтобы их представления возрастали: в\ < ... < в„. Структура возможных равновесий в этой ситуации описывается следующим утверждением.
Утверждение 1. Если ^ Ф в] при 7 Ф ]', то информационным равновесием могут быть (в зависимости от соотношения между
параметрами) следующие „ + 1 исходов: { х* | х* = 0, 7 е Щ; {х* | х*к = вк , х* = 0, 7 е Щ, 7 Ф к}, к е N. Содержательно это означает следующее: либо никто из агентов не прикладывает усилий, либо усилия прикладывает один к-й агент, выбирая действие вк.
В более общем случае в1 < ... < в„. (представления агентов могут совпадать) может появиться область равновесий аналогично варианту I. Содержательно это означает, что в равновесии усилия прикладывают те агенты, которые одинаково представляют себе величину порога.
Вариант III. Представления агентов о величине порога различны, но каждый агент считает, что играет в игру с асимметричным общим знанием (вообще говоря, будучи ложно информированным о представлениях оппонентов). В этом случае множество возможных равновесных ситуаций становится максимально возможным: ^[0; х* ] . Более того, справедливо следующее утверждение.
Утверждение 2. Для любого вектора действий х* е^[0; х+{ ] существует такая структура информированности
(при которой каждый агент субъективно играет в игру с асимметричным общим знанием), что вектор х является единственным равновесием.
Доказательства утверждений 1 и 2 аналогичны доказательствам утверждений в [11, раздел 4.10]
5. «Согласование интересов управляющих органов»
Рассмотрим эколого-экономическую систему, состоящую из одного предприятия (агента) и двух управляющих органов - центров. Стратегией агента является выбор объема производства х > 0 и уровня безопасности у > 0, что требует от него затрат х2 / 2 r и у2 / 2 w соответственно (r > 0, w > 0). Каждый центр получает от деятельности агента «доход», описываемый функцией Hi(u, у), и выплачивает агенту «стимулирование» о(х, у), i = 1, 2. Таким образом, целевая функция 7-го центра имеет вид
(10) Ф;(ог( •), х, у) = Hi(x, у) - о(х, у), а целевая функция агента:
(11)Л{о(-)}, х, у) = Лх - х2 / 2 r - у2 / 2 w + ai(x, у) + 02(х, у). Порядок функционирования следующий: центры одновременно и независимо выбирают функции стимулирования и сообщают их агенту, которое затем выбирает свое действие. Ограничимся рассмотрением множества Парето-эффективных равновесий Нэша игры центров, в которых, как показано в [13], их стратегии имеют вид
V, х = x, y = y\
(12) о;(х: х, у, у) = \ 1 7 = 1, 2.
[ 0, иначе;
Содержательно центры договариваются о том, что будут побуждать агента выбирать объем производства х и достигать уровня безопасности у , и осуществлять совместное стимулирование. Такой режим взаимодействия центров называется режимом сотрудничества [13].
Из вида целевой функции (11) следует, что в отсутствие стимулирования агент будут выбирать нулевой уровень безопасности. Найдем оптимальный для агента объем производства х* = arg max [Лх - х2 / 2 r] = Л r. Из условий оптимальности по
х>0
Парето следует, что сумма вознаграждений, получаемых агентом от центров в случае выполнения их рекомендаций, равна
(13) V + V2 = Л (х* - х') - [(х*)2 - (х ')2] / 2 r + у'2 / 2 w.
Условие выгодности сотрудничества для каждого из центров можно сформулировать следующим образом: в режиме
сотрудничества каждый центр должен получить полезность не меньшую, чем он мог бы получить, осуществляя стимулирование агента в одиночку. Полезность /-го центра от «самостоятельного» взаимодействия с агентом равна
(14) Ф*) = max [H/(x,y) - Л (x*- x) + [(x*)2 - (x)2] / 2 r -y2 / 2 w].
x, y >0
Обозначим через
(15) S = {x > 0,y > 0 | 3 (Vi; V2) e : H(x,y) - V > Ф*, i = 1, 2;
V + V2 = Л (x* - x) - [(x*)2 - (x)2] / 2 r + y2 / 2 w } область компромисса - множество таких действий агента, для реализации которых сотрудничество выгодно для центров. Обозначим
(16) Ф*о = max {Hi(x, y) + H2(x, y) - Л (x* - x) +
x, y>0
+ [(x*)2 - (x)2] / 2 r -y2 / 2 w}. По аналогии с тем, как это делается в [3, 13], можно доказать, что область компромисса непуста тогда и только тогда, когда
(17) Ф*0 > Ф*1 + Ф*2.
Приведем пример: пусть H1(x, y) = ax + (1 - a) y, H(x, y) = (1 - a) x + ay, где a e [0; 1] - константа, отражающая степень согласованности интересов центров, т.е. «пропорцию», в которой учет экономических и экологических показателей входит в их функции выигрыша (если a= 0 или a= 1, то один из центров заинтересован только в экономических показателях -объеме производства, а другой только в экологических - уровне безопасности).
Находим из (14) и (16): Ф*1 = r a [2 Л + a] / 2 + w (1 - a)2 / 2, Ф*2 = r [a2 + 1 + 2 Л - 2 a - 2 a Л] / 2 + w a2 / 2, Ф*0 = r [2 Л+ 1] / 2 + w / 2, при этом (17) выполняется как тождество при любых значениях параметров модели (a, r, w). Следовательно, в рассмотренном случае при любой информированности и/или взаимной информированности центров они могут быть уверены, что область компромисса не пуста!
6. Заключение
В настоящей работе рассмотрен ряд простых моделей, иллюстрирующих возможность и целесообразность использования аппарата рефлексивных игр для решения задач описания совместного принятия решений участников эколого-экономических систем.
Проведенный анализ свидетельствует, что взаимная информированность участников эколого-экономических систем существенным образом влияет на совместно принимаемые ими решения, и, оказывая управленческие воздействия (т.е. изменяя эту информированность), можно изменять равновесные состояния подобных систем.
Литература
1. AUMANN R.J. Agreeing to Disagree // The Annals of Statistics. - 1976. - Vol. 4. - No. 6. - P. 1236-1239.
2. AUMANN R.J. Interactive Epistemology I: Knowledge // International Journal of Game Theory. - 1999. - No. 28. - P. 263300.
3. BURKOV V., NOVIKOV D., SHCHEPKIN A. Control Mechanisms for Ecological-economic Systems. - Berlin: Springer, 2015. - 174 p.
4. CHKHARTISHVILI A.G. Concordant Informational Control // Automation and Remote Control. - 2012. - Vol. 73, No. 8. -P. 1401 -1409.
5. GERMEIER YU. Non-antagonistic Games. - Dordrecht, Boston: D. Reidel Pub. Co., 1986. - 331 p.
6. LEFEBVRE V. Lectures on the Reflexive Games Theory. -N.Y.: Leaf & Oaks Publishers, 2010. - 220 p.
7. Mechanism Design and Management: Mathematical Methods for Smart Organizations / Ed. by Prof. D. Novikov. - N.Y.: Nova Science Publishers, 2013. - 204 p.
8. MYERSON R. Game Theory: Analysis of Conflict. - London: Harvard Univ. Press, 1991. - 568 p.
9. NOVIKOV D.A., CHKHARTISHVILI A G. Information Equilibrium: Punctual Structures of Information Distribution // Au-
tomation and Remote Control. - 2003. - Vol. 64, No. 10. -P. 1609-1619.
10. NOVIKOV D.A., CHKHARTISHVILI AG. Graph of a reflexive game and belles-letres // Studia Humana. - 2014. -Vol. 3:3 - P. 11-15.
11. NOVIKOV D.A., CHKHARTISHVILI AG. Mathematical Models of Informational and Strategic Reflexion: a Survey // Advances in Systems Science and Applications. - 2014. -No. 3. - P. 254-277.
12. NOVIKOV D., CHKHARTISHVILI A. Reflexion and Control: Mathematical Models. - Leiden: CRC Press, 2014. - 298 p.
13. NOVIKOV D A. Theory of Control in Organizations. - N.Y.: Nova Scientific Publishing, 2013. - 341 p.
14. OUGOLNITSKY G. Sustainable Management. - N.Y.: Nova Scientific Publishing, 2012. - 287 p.
15. WHITELAW K. Environmental Systems Handbook. - Oxford: Elsevier, 2004. - 237 p.
MODELS OF REFLEXIVE GAMES IN CONTROL PROBLEMS OF ECOLOGICAL-ECONOMIC SYSTEMS Dmitry Novikov, Institute of Control Sciences of RAS, Moscow, Doctor of Science, Professor, corresponding member of RAS, deputy director ([email protected]).
Alexander Chkhartishvili, Institute of Control Sciences of RAS, Moscow, Doctor of Science, principal research scientist ([email protected]).
Abstract: We substantiate the feasibility and reasonability of employing the framework of reflexive games for describing decisionmaking and control problems of ecological-economic systems. Keywords: ecological-economic system, reflexive game, awareness structure, informational equilibrium.
Статья представлена к публикации членом редакционной коллегии М.В. Губко
Поступила в редакцию 03.02.2015.
Опубликована 31.05.2015.