УДК 519.7
М.С. Никольский1
УПРОЩЕННАЯ ИГРОВАЯ МОДЕЛЬ ВЗАИМОДЕЙСТВИЯ ДВУХ ГОСУДАРСТВ*
В рассматриваемой здесь математической модели изучается взаимодействие экономик двух, вообще говоря, недружественных государств с учетом создания достаточного превентивного потенциала безопасности одним из государств.
Ключевые слова: моделирование, двухсекторная модель, дифференциальная игра, принцип максимума Понтрягина.
В сильноагрегированной форме развитие экономики государства можно описать как совместную работу двух секторов — сектора, производящего мирную продукцию, и сектора, производящего военную продукцию.
Государство стремится к увеличению мирной продукции, но при этом не должно забывать об оборонных расходах для защиты своих национальных интересов в будущем. В качестве упрощенной модели функционирования двухсекторной модели государства мы взяли модель из [1, 2], которая описывается системой двух управляемых дифференциальных уравнений. При таком моделировании функционирования экономики государства для описания функционирования экономик двух государств мы получаем четыре управляемых дифференциальных уравнения. Взаимосвязь двух экономик осуществляется в нашей модели через специальное терминальное условие. В результате получается своеобразная дифференциальная игра. Отметим, что в постановке этой дифференциальной игры важная роль принадлежит Н.Л. Григоренко и В.Ю. Решетову.
Переходим к описанию игровой модели.
Динамика экономики 1-го государства описывается управляемыми уравнениями вида (см. [1, 2]):
х\ = иа\Х\ — Ц1Х1, ж2 = (1 - и)а2хг - Ц2Х2, (1)
®1(0) = ®1о>0, Ж2(0) = Ж20(0) >0, (2)
¿6 [О,Т],
где х\, Х2 — фазовые переменные; и — скалярное управление, причем и € [0,1]; Т > 0 — длительность процесса управления; постоянные коэффициенты сц, ¿¿1, ¿¿2 — положительные числа.
Здесь величина х\(1) обозначает количество мирной продукции, произведенное 1-м государством к моменту I ^ 0 и выраженное в денежных единицах, а величина (¿) обозначает количество военной продукции, произведенное 1-м государством к моменту I ^ 0 и выраженное в денежных единицах.
Динамика экономики 2-го государства описывается управляемыми уравнениями вида (см. [1, 2])
У1 = - 1/1У1,
У2 = (1 - Ф2У1 - (3)
Ш(0) = ую>0, у2(0) = у2о(0)>0, (4)
¿6 [О,Т],
где у\,, у2 — фазовые переменные, V — скалярное управление, причем V € [0,1], постоянные коэффициенты Ь\, г/1, Ь2, г/г — положительные числа. Здесь величина обозначает количество мирной продукции, произведенной 2-м государством к моменту I ^ 0 и выраженной в денежных единицах, а величина уг(^) обозначает количество военной продукции, произведенной 2-м государством к моменту I ^ 0 и выраженной в денежных единицах.
Будем считать, что в качестве допустимых управлений игроки, т. е. 1-е и 2-е государства, используют измеримые программные управления и(1) € [0,1], г>(£) € [0,1], £ € [0,Т], как это обычно
хФакультет ВМиК МГУ, д.ф.-м.н., проф., e-maihmniQmi.ras.ru.
* Работа выполнена при финансовой поддержке РФФИ (проект 06-01-00359-а).
делается в теории оптимального управления (см., например, [3]). Множество допустимых управлений 1-го государства обозначим и(Т), а множество допустимых управлений 2-го государства — У(Т).
Будем рассматривать взаимосвязь экономик обоих государств с точки зрения 1-го государства и формализуем эту взаимосвязь в виде терминального неравенства
х2(Т)^7у2(Т), (5)
где 7 > 0 — постоянное число. Неравенство (5) можно интерпретировать как гарантированное превосходство по оборонным расходам 1-го государства над 2-м государством с коэффициентом 7 в момент Т. При этом коэффициент 7 > 0 на практике может выбираться 1-м государством. Выполнение терминального условия (5) означает наличие некоторого рода безопасности для 1-го государства по отношению ко 2-му государству, которое может стремиться к наращиванию своего военного потенциала к моменту Т и тем самым создавать определенную угрозу для 1-го государства. При фиксированном начальном условии ж(0) = жо и и(-) € 11(Т) условимся обозначать через ж(£, хо,и(-)) соответствующее решение системы дифференциальных уравнений (1). Аналогично начальному условию у(0) = уо и «(•) € У{Т) сопоставим решение у(£, уо, «(•)) системы дифференциальных уравнений (3).
Естественной целью для 1-го государства является максимизация величины х\(Т, жо, и(-)) по и(-) € и(Т) при условии гарантированного выполнения терминального неравенства (5). При этом мы будем предполагать, что 1-е государство знает динамику обоих государств, т. е. системы уравнений (1), (3), ограничения и € [0,1], V € [0,1] и начальные условия (2), (4), но не знает управления у(-) € У(Т), которое использует 2-е государство.
Так как управление «(•) € У{Т) неизвестно 1-му государству, то оно при максимизации Х1(Т,Х0,и(-)) должно также учитывать условие
х2(Т,х0,и(-)) 7 тах у2(Т, у0, «(•)), (6)
г>(-)еУ(т)
что, вообще говоря, сужает множество допустимых и(-), на которых максимизируется Ж1(Т, жо, «(•))• Для возможности осуществления неравенства (6) на некотором и(-) € II(Т) необходимо и достаточно, чтобы выполнялось неравенство
тах хо(Т, жп, и(-)) > 7 тах у2(Т,уо, «(•))• (7)
Множество пар векторов жо € К2, у о € К2 с положительными компонентами, для которых выполняется неравенство (7), обозначим О(Т). Через 0(0) обозначим множество пар векторов жо € Д2, Уо € Я2 с положительными компонентами, для которых выполняется неравенство
Х20 72/20- (В)
При (жо,уо) € О(Т) рассмотрим величину
а(Т,жо,уо)= тах Ж1(Т, жо, «(•)); (9)
и(-)еи(Т,х0,у0)
где через II (Т, жо,уо) обозначено множество таких и(-) € II (Т), для которых верно неравенство (6). При (жо,уо) € О(О) (см. (8)) положим а(0, жо,уо) = жю-
Замечание. Существование максимума по у(-) € У(Т) в правой части (6) и существование максимума по и(-) € II (Т, жо,уо) в (9) будут обоснованы в Приложении. Там же с помощью принципа максимума Понтрягина будет исследована структура максимизаторов й(-) € II (Т, жо, уо) в формуле (9) и структура управления %(■) € У(Т), максимизирующего правую часть неравенства (6).
Из сказанного выше вытекает, что при (жо,уо) £ величина а(Т, жо,уо) — наилучший гаран-
тированный результат с точки зрения 1-го государства, если оно не знает управления «(•) € У(Т) 2-го государства.
Рассмотрим вопрос о возможности улучшения результата а(Т, жо, уо), если разрешается использовать информацию об ж(£), у(£) в заданные моменты г = 1,..., Ж, где Ж^1иО<^1<...<^дг<Т. Пусть фиксировано некоторое #(•) € У(Т). Рассмотрим некоторое иг(-) € 11(Т,хо,уо) и положим
й(г) = «*(*) при (10)
Рассмотрим далее при £ € [0, ¿1) функции
ж*(£) = ж(£, жо, и1(-)),
Ht) = ¡/(t,Po,v(-))-
Отметим, что t\ G (О, Т),
(ж1^),^)) €fi(T-Î!) (И)
и
а(Т,ж0,у0) < а(Т - ib ж1^), y(ii)). (12)
Возьмем точки ж1 (t i ), y(ii) за новые начальные точки с нулевым началом отсчета времени для управляемых процессов (1), (3) соответственно и фиксируем некоторое и2(-) G U(T — ti, ж1 (ii), y(ti)). Положим
ii(t) = u2(t — ti) при t €E ¿2)5 (13)
где î2 = T, если N = 1, и î2 = ¿2, если Л; > 2. Рассмотрим при t G [¿1,^2) функцию (см. (10), (13))
x2(t) = x(t,xQ,û(t2, ■)),
где символом «(¿2, •) обозначена функция û(t) при t G [0, t2). Функцию x2(t) доопределим в точке t2 по непрерывности слева. Нетрудно видеть, что (ср. с (11), (12))
(x2(î2),y(î2)) G О(T-i2)
и
а(Т,ж0,у0) < а(Т - ib ж1^), y(ii)) < а(Т - t2,x2(î2),y(î2)).
При N > 2 можно продолжить процесс построения управления й(£) дальше аналогичным образом. При этом будут выполняться следующие соотношения:
(х(и),у(и))€П(Т-и), i = l,...,N,
х2(Т) > 7Уг(Т),
а(Т,ж0,у0) < а(Т - ti,x(ti),y(ti)) < а(Т - tN,x(tN),y(tN)) = хх(Т).
Приложение
А. Пусть Т > 0 и (хо,уо) € П(Т). Попытаемся описать структуру управлений й(-) С 11(Т,хо,уо)-> на которых достигается максимум в (9). В соответствии с определением множество II (Т, жо,уо) состоит из «(•) С 11(Т), таких, что выполняется неравенство (6). Отметим, что существование максимума в правой части (6) вытекает из известных теорем существования оптимального управления (см., например, [4]). Обозначим через с правую часть неравенства (6). Тогда величина а(Т, жо,уо) совпадает с максимальным значением функционала Ж1(Т, жо, «(•)) по и(-) € II(Т) для управляемого объекта (1) с начальным вектором жо и терминальным условием
х2{Т) > с. (14)
Отметим, что существование максимизатора й(-) € II(Т) в этой задаче оптимального управления вытекает из известных теорем существования оптимального управления (см., например, [4]).
Для упрощения вычислений сделаем замену переменных в уравнениях (1) по формулам (см. [2])
6 = е^хи 6 = е"**х2 (15)
и получим новую систему управляемых уравнений
^1=110,1^1, £2 = (1 и)а2^\еиг (16)
с начальными условиями
6(0) = жю, Сг(0) = ж2о, (17)
где V = /¿2 — ¿¿1, и € [0,1]. Терминальное условие (14) переписывается в виде
6(Т)^С1 = е^тс. (18)
В новой задаче оптимального управления максимизируется £i(T,xq,u(-)) по и(-) € u(t) при терминальном условии (18). Применим принцип максимума Понтрягина к этой оптимизационной задаче в форме теоремы 1 из [5, с. 389]. Используя обозначения [5, с. 388], получим для нашей задачи
Я(£, и, t, Ф) = фгиа^г + ф2{ 1 - u)a2^ievt, (19)
l(r], е) = + ei(^T?2 + ci),
где
Пусть u(t), £(i), t € [О, T], — оптимальная пара в новой оптимизационной задаче. Отметим, что управление й(-) будет оптимальным и в исходной оптимизационной задаче и наоборот. Согласно принципу максимума Понтрягина (см. теорему 1 из [5, с. 389]), для й(-), £(•) найдется такой ненулевой двумерный вектор е с компонентами cq ^ 0, е\ ^ 0, что для решения ф(1) сопряженной системы
ф1 = —u(t)aiipi - (1 - u{t))a2ev^2, , ,
Ф2 = О (2U)
с концевыми условиями
ф1(т) = еа, ф2(т) = е 1 (21) почти всюду на [О, Т] выполняется соотношение максимума
H(i(t)Mt),tMt))= max H(i(t),u,tJ(t)). (22)
ке[од]
При вычислении максимума по а £ [0,1], стоящего в правой части (22), важную роль играет (см. (19)) вычисление максимума по и € [0,1] функции
h(t,u) = «|i(i)(oi^i(i) - a2Mt)evt), (23)
где t € [0,Т]. Из (16) и положительности числа £i(0) (см. (17)) вытекает, что £i(i) > 0 при t € [0,Т]. Если функция (см. (23))
hi(t) = amt) ^ а2ф2(1)еиг (24)
имеет конечное число нулей на [О, Т], то оптимальное управление u(t) оказывается эквивалентным в силу (19), (23) и принципа максимума кусочно-постоянной функции u(t), принимающей значения либо О, либо 1, и с конечным числом точек переключения (такого рода управления называют релейными). Отметим, что в силу (20), (21) на [0,Т]
Ф2 (t) = ег^0. (25)
Функция h\(t) является абсолютно непрерывной на [О, Т] и имеет там почти всюду суммируемую по Лебегу производную вида (см. (20), (24))
Mi) = -ai«(i)Mi) - 02ei(oi + v)evt. (26)
Пусть e\ = 0, тогда (см. (25)) ф2{Ь) = 0 и е0 > 0. В этом случае (см. (20), (21)) фг(1) > 0 и hi(t) > 0 при t G [0,Т], т.е. максимум по и £ [0,1] функции h(t,u) (см. (23)) достигается только при и = 1 и можно положить u(t) = 1 при t G [0,Т].
Пусть е\ > 0 и в точке i* G [0,Т] выполняется = 0. Рассмотрим три возможных случая.
Случай 1:
Oi + V > 0. (27)
Тогда в силу (26) почти всюду на [i* — 5, i* + 5] П [0, Т) будет выполняться неравенство
hi(t) < -Е,
где числа s > 0, е > 0 достаточно малы. Отсюда вытекает, что при t € ([i* — 5, i* + 5] П [0, Т]) у функции h\(t) других нулей, кроме i*, нет и h\(t) строго монотонно убывает на этом множестве. Допустим, что правее точки i* на [0,Т] есть другой нуль t\ функции hi(t). Тогда среди нулей функции h\(t), лежащих
правее i*, выделим наиближайший, обозначим его t2 (очевидно, /•_. — I, >8). Для точки t2 можно провести рассуждения, аналогичные вышеприведенным, и обосновать, что при t G ([t2 — 82,i,2 + <5г] П [О,Т]), где 62 > 0 достаточно мало, функция hi(t) строго монотонно убывает. Из сказанного следует, что при некотором i3 G (t*,t2) выполняется Л-i(¿з) = 0, что противоречит определению нуля t2 функции hi(t). Аналогично рассматривается ситуация, когда предполагается, что есть нуль 11 функции h\(t), лежащий на [О, Т] левее i*. Таким образом, при выполнении неравенства (27) обосновано, что функция hi(t) имеет на [0,Т] не более одного нуля т. Если у функции hi(t) на [0,Т] нулей нет, то u(t) либо тождественно равна нулю, либо тождественно равна 1 на [0,Т]. Если г G (О, Т), то можно положить u(t) = 1 при t G [0, г) и u(t) = 0 при t G [т,Т]. При г = 0 положим u(t) = 0 при t G [0,Т]. При т = Т положим u(t) = 1 при t G [О, Т].
Случай 2:
Oi + V < 0. (28)
Здесь можно провести рассуждения, аналогичные случаю а,\ + v > 0, и обосновать, что h\(t) имеет на [0,Т] не более одного нуля г, причем при t G [0,Т] и достаточно близких к г, функция hi(t) строго монотонно растет. Если функция hi(t) не имеет нулей при t G [0,Т], то либо u(t) = 0, либо u(t) = 1 на [0,Т]. Если г G (О, Т), то здесь можно положить u(t) = 0 при t G [0, г) и u(t) = 1 при t G [т,Т]. Если г = 0, то можно положить u(t) = 1 при t G [О, Т], а при т = Т можно положить u(t) = 0 при t G [О, Т].
Итак, в случае 1 (см. (27)) оптимальное управление u(t) простой структуры совпадает на [0,Т] либо с u\(t) = 1, либо с u2(t) = 0, либо с функцией щ(1) вида щ(1) = 1 при t G [0,г), щ(1) = 0 при t G [г,Т], где число г G (О,Т). В случае 2 (см. (28)) оптимальное управление u(t) простой структуры совпадает на [0,Т] либо с функцией ui(t), либо с функцией u2(t), либо с функцией w4(i), где u±{t) = О при t G [0,г) и u±(t) = 1 при t G [т,Т], где число г G (О,Т).
Кратко изучим
Случай 3:
Oi + V = 0. (29)
Рассмотрим возмущенный управляемый процесс
6 = ua\ii,
Сг = (1 - u)a2^ieut,
где
к 1 tti ^ tti к ^ 1,2,..., к
и G [0,1], а начальные условия (17) и концевое условие (18) сохраняются. Будем максимизировать функцию на £i(T, xq,u(-)) по и(-) G f (Т) при терминальном условии (18). Отметим, что a\+v > 0 и для оптимальных управлений Uk(t) простой структуры, соответствующих к-й оптимизационной задаче, имеет место случай 1 (см. выше). Переходя, если надо, к подпоследовательности kj, на основании сделанного выше анализа (см. случай 1) можно утверждать, что есть три возможности:
a)«,fcj(i) = 0 при t G [О, Т];
b)ukj (t) = l при t G [О, Т];
c) ukj (t) = 1 при t G [0, Tkj)
и ukj (t) = 0 при t G [тк., T],
где rkj G (О,Т) и rkj ^ r0 G [О, Т] при kj оо. Определим при t G [О, Т] функцию u(t) следующим образом: в случае a u(t) = 0; в случае b u(t) = 1; в случае с положим при т0 = 0 u(t) = 0; при г0 G (0,Т) функция u(t) = 1, если t G [0, г0), и u(t) = 0 при t G [то,Т]; при та = Т u(t) = 1. Можно далее показать, что в каждом из этих случаев построенная функция u(t) является оптимальной в исходной (невозмущенной) задаче оптимального управления.
Отметим, что в случаях 1, 2 (см. (27), (28)) была получена важная для приложений информация о произвольном оптимальном управлении u(t), а в случае 3 (см. (29)) была установлена простая структура одного из оптимальных управлений u(t).
Б. Пусть Т > 0 и координаты начального вектора уо положительны. Попытаемся описать структуру управления £>(•) G V(T), на котором достигается максимум по v(-) G V(T) для функционала •y2(T,yQ,v(-)) (см. (3)), с помощью принципа максимума Понтрягина. Для упрощения вычислений в
уравнениях (3) сделаем замену переменных по формулам (ср. с (15))
т = еи1*у1, щ =
и получим новую систему управляемых уравнений
V1 = уЬЩ, т = (1 - у)Ь2Г]1ет
с начальными условиями
Ш(0) = ую, »72(0) = 2/ао,
где /3 = ь>2 — V € [0,1]. В новой задаче оптимального управления максимизируется г]2(Т, уо, «(•)) по и(•) € У(Т). Применим к ней принцип максимума Понтрягина (см., например, [5]). Пусть г>(£), г?(£), t € [О, Т], — оптимальная пара в новой оптимизационной задаче. Дальнейшие наши рассуждения имеют много общего с рассуждениями, которые были использованы выше в пункте А при анализе задачи на максимум, описываемой соотношениями (16)—(18), ограничением и € [0,1] и максимизируемым функционалом ^(Т,жо,и(-)). Согласно принципу максимума (см. [5, с. 389]), для решения ф(1) сопряженной системы
'ф! = -Щ)Ь1ф1 - (1 - Чт2е^ф2,
ф2 = 0 (30)
с концевым условием
ф1{Т) = 0, ф2(Т) = 1 (31)
и оптимальной пары «(•), ?)(•) почти всюду на [0,Т] выполняется условие максимума
#!(?)(£), £(£), = тах
ье[о,1]
#1(77, V, ф) = фгуЬгщ + ф2(1 - и)Ь2у1е^. (32)
Из (30), (31) вытекает, что
ф2^) = 1, ге[0,т]. (33)
Аналогом функции (I) (см. (24)) в рассматриваемой оптимизационной задаче является функция (см. (32), (33))
к2(г) = ь1ф1(г)-ь2е^. (34)
Полезно изучить поведение нулей функции /гг(£) на [0,Т]. Отметим, что из (31), (34) вытекает неравенство
к2(Т) < 0. (35)
По аналогии с ходом изучения нулей функции (I) (см. (24)) отдельно рассмотрим неравенства
Ь + /3 > 0, (36)
Ь + /3 < 0, (37)
Ъг + /3 = 0. (38)
В случае (36) по аналогии со случаем 1 пункта А (см. (27)) можно показать с учетом неравенства (35), что оптимальное управление г>(£) эквивалентно на [0,Т] одной из двух функций: = 0; г>г(£) = 1 при £ € [0, г), г>г(£) = 0 при £ € [т,Т], где г € (0, Т). Отметим, что анализ случая (36) был ранее проведен в [2]. В случае (37) по аналогии со случаем 2 пункта А (см. (28)) можно показать с учетом неравенства (35), что оптимальное управление г>(£) эквивалентно на [0,Т] функции = 0.
Перейдем к рассмотрению случая (38). Отметим, что функция /г,2 (¿) является абсолютно непрерывной на [0,Т] и почти всюду на [0,Т] (ср. с (26))
М*) = -М(*)М*). (39)
10 ВМУ, вычислительная математика и кибернетика, № 2
Допустим, что при некотором € [О, Т] выполняется /гг(£*) = 0. Тогда отсюда и из (39) вытекает, что абсолютно непрерывная функция = 0 на [0,Т]. Но тогда в силу (34) на [0,Т]
о 1
и мы получаем противоречие с тем, что (см. (31)) = 0. Таким образом, функция /гг(£) ф 0 при
£ € [0,Т]. Отсюда и из (35) вытекает, что /12 (¿) < 0 при £ € [0,Т]. Поэтому в случае (38) оптимальное управление й(1) оказывается эквивалентным на [О, Т] функции й(1) = 0.
Отметим, что в случаях (36)-(38) была получена важная для приложений информация о произвольном оптимальном управлении г>(£).
В заключение отметим, что результаты пунктов А, Б существенно упрощают практическое использование результатов основной части статьи.
Благодарю Н.Л. Григоренко и В.Ю. Решетова за консультации и ценные для меня советы.
СПИСОК ЛИТЕРАТУРЫ
1. Киселев Ю. Н., Решетов В. Ю., Аввакумов С. Н., Орлов М. В. Построение оптимального решения и множества достижимости в одной задаче распределения ресурсов // Проблемы оптимального управления. Вып. 2. М.: МАКС Пресс, 2007. С. 106-120.
2. Киселев Ю.Н., Аввакумов С.Н., Орлов М. В. Построение в аналитической форме оптимального управления и множеств достижимости в одной задаче распределения ресурсов // Прикладная математика и информатика. № 27. М.: МАКС Пресс, 2007. С. 80-99.
3. Понтрягин Л. С., Болтянский В.Г.,Гамкрелидзе Р. В., Мищенко Е. Ф. Математическая теория оптимальных процессов. М.: Наука, 1976.
4. Ли Э.Б., Маркус Л. Основы теории оптимального управления. М.: Наука, 1972.
5. Васильев Ф. П. Методы оптимизации. М.: Факториал Пресс, 2002.
Поступила в редакцию 21.05.08
УДК 519.8
К.К. Осипенко1
ОБ ОДНОЙ ЗАДАЧЕ МИНИМИЗАЦИИ УЩЕРБА*
Рассматривается задача оптимальной остановки при наличии случайных убытков с принятием решения о единовременном привлечении внешнего механизма финансовой защиты. В задаче учитывается наличие функции полезности, определяющей отношение к риску лица, принимающего решение. Показано, что с помощью уравнения Беллмана оптимальные пороговые функции могут быть построены численно, а для некоторых видов функции полезности — ив аналитической форме.
Ключевые слова: задача о секретаре, задача о поиске невесты, оптимальный выбор, оптимальная стратегия страхователя, правило остановки, теория полезности, уравнение Беллмана.
Введение. Предметом исследований данной статьи является задача минимизации ущерба индивидуума в условиях, когда в течение некоторого срока £ € [0,1] существует единовременная возможность привлечения внешних источников для покрытия одного из случайных убытков, возникающих в течение интервала. Подобным механизмом финансовой защиты может выступать, например, страховой полис, подразумевающий покрытие убытка страховой компанией, или общественный фонд, обеспечивающий возмещение.
хФакультет ВМиК МГУ, асп., e-maihkir.osipenkoQgmail.com.
*Работа выполнена при поддержке гранта Президента РФ "Поддержка научных школ", проект НШ-693.2008.1, гранта РФФИ, проект 08-01-00249.