Е. Д. ЩЕРБАК
ВРЕМЕННАЯ СОСТОЯТЕЛЬНОСТЬ КООПЕРАТИВНЫХ РЕШЕНИЙ. МОДЕЛЬ УСТОЙЧИВОГО СОВМЕСТНОГО ПРЕДПРИЯТИЯ
Рассматриваются кооперативные дифференциальные игры в форме характеристической функции. Изучается случай, когда фирмы кооперируются в рамках технологического альянса с целью максимизации совместного выигрыша. Предполагается, что в рамках альянса технология игрока имеет дополнительные возможности развития, которые она не могла бы получить в одиночку. Объединение происходит на заранее согласованном временном промежутке. Построена кооперативная дифференциальная игра. В качестве кооперативного принципа оптимальности выбран динамический вектор Шепли, преимуществами которого являются его существование и единственность в кооперативной игре с супераддитивной характеристической функцией. Получено теоретическое решение задачи и показано, что в модели устойчивого совместного предприятия выполняются условия устойчивости кооперативного соглашения.
Ключевые слова: кооперативная дифференциальная игра, характеристическая функция, временная состоятельность, динамическая устойчивость, стратегическая устойчивость, делёж,, вектор Шепли, уравнение Беллмана, 'равновесие по Нэшу.
1. Определение основных понятий
Рассмотрим дифференциальную игру п лиц Г (хо, Т — ¿о) из начального состояния хо и продолжительностью Т — ¿0. Уравнения движения имеют вид
хх = f (х, Щ, и2, . . . , ип) , Пг € % = 1, 2, . . . ,П,
х (¿о) = хо.
Здесь иг € иг — управляющий параметр игрока %. Функция выигрыша % определяется следующим образом:
т
Кг (хо, Т — ¿о; иьи2,...,ип ) = J Н (х (¿)) ^ + Н (х (Т)),
¿0
Н > 0, Нг (х) > 0, % =1, 2 ,...,П,
где х (¿) — траектория, реализуемая в ситуации (и\,... , ип) из начального состояния хо.
Рассмотрим кооперативную форму игры Г (хо, Т — ¿о). Предположим, что в начале игры игроки договорились действовать таким образом, чтобы соответствующая траектория х (¿) максимизировала суммарный выигрыш:
шах^ К (хо,Т - ¿о; щ... ,м„) = ^К (х,Т - ¿с; щьщ2, •••,««) =
геМ геМ
= ^ (£(*)) ^ + Яг (Х(Т))
где N = {1, 2,... , п} — множество всех игроков в Г (х0, Т — ¿0). Траектория X (¿) называется условно оптимальной. Пусть 5 С N и V (5; х0,Т — ¿о) — характеристическая функция. Из условия супераддитивности следует, что для игроков предпочтительнее сформировать максимальную коалицию N и получить максимальный общий выигрыш V ^; х0, Т — ¿0), который возможен в игре.
Определение 1. Пара (^ V (5; х0, Т — ¿0)), где N — множество игроков, а V — характеристическая функция, определяемая по (1), называется кооперативной дифференциальной игрой в форме характеристической функции V и обозначается
Г (х0,Т — ¿0).
Определение 2. Вектор £ = (£1, • • • , £п), компоненты которого удовлетворяют условиям индивидуальной и групповой рациональности
£г > V ({г}; Х0,Т — ¿0), г = 1, 2,...,п,
= V (N; Х0,Т — ¿0) ,
гем
называется дележом в игре Г (х0, Т — ¿0).
Определение 3. Вектор Шепли определяется по формулам
Ф^ (Х0Л) = ^ (п — ^8 — 1)!(V (5; Х0,Т — ¿0) — V (5 \ {г};Х0,Т — ¿0)) ,
ЯСМ: !
гея
где 1 = 8, г = 1, 2,..., п.
Поведение игроков, удовлетворяющее некоторому принципу оптимальности, составляет решение игры. Для динамических игр требуется выполнение ещё одного дополнительного условия (динамической устойчивости или состоятельности во времени): выбранный принцип оптимальности должен оставаться оптимальным в каждой подыгре с начальными условиями на оптимальной траектории, построенной в начальный момент. Все основные кооперативные принципы оптимальности являются динамически неустойчивыми (несостоятельными во времени).
Пусть существуют непустые множества решений (X (¿) , Т — ¿) = 0, ¿0 < ¿ < Т, вдоль условно оптимальной траектории {X (¿)}^=4о. Если это условие не выполнено, то игроки не могут придерживаться выбранного принципа оптимальности, т. к. в первый момент ¿, когда (X (¿) , Т — ¿) = 0, у игроков нет возможности следовать этому принципу. Пусть в начальный момент времени ¿0 в состоянии
= V ^; Х0,Т — ¿0) ,
(1)
хо игроки согласились на делёж
£ (хо,Т — ¿о) = (£1 (хо,Т — ¿о) ,£2 (хо,Т — ¿о),... ,£п (хо,Т — ¿о)) € Wv (хо,Т — ¿о).
Это означает, что игроки согласились на такой дележ общего выигрыша, при котором доля %-го игрока за время [¿о,Т] составляет £г (хо,Т — ¿о). Если на промежутке времени [¿^¿] %-й игрок получает выигрыш, равный Ц£ (хо, Т — ¿о); х(0,Т — ¿), то на оставшемся промежутке времени [¿, Т], согласно £ (хо, Т — ¿о), он получит выигрыш
п(£ (хо, Т — ¿о); х(*),Т — ¿) = £г (хо, Т — ¿о) — (хо, Т — ¿о) ; х(-),Т — ¿).
Для того чтобы первоначальное соглашение о дележе £ (хо, Т — ¿о) сохранялось в силе в момент ¿, существенно, чтобы вектор
п(£ (хо, Т — ¿о); х^),Т — ¿) € (х*,Т — ¿) ,
т. е. п(£ (хо, Т — ¿о); X(¿), Т — ¿) должен быть действительно решением текущей игры Г (х (¿) , Т — ¿). Если указанное условие выполняется в каждый момент времени ¿ € [¿о, Т] вдоль оптимальной траектории {х (¿))Т=4о, тогда дележ £ (хо, Т — ¿о) динамически устойчив. Динамическая устойчивость или состоятельность во времени решения гарантирует, что продолжение решения в подыграх, начинающихся на оптимальной траектории, остается оптимальным.
Процедура распределения дележа, впервые предложенная Л. А. Петрося-ном [1], построена таким образом, чтобы динамическая устойчивость дележей могла быть реализована для конкретного кооперативного решения. Представим выигрыш игрока %, получаемый им на временном интервале [¿о, ¿], в виде
г
^г(£ (хо, Т — ¿о); х(-)^ — ¿о) = J вг(«)
го
где ( )
(5) = X]Н(5,х(5),и(з)), ¿о < 5 < ¿ < Т, Зем зем
£ (хо(^),Т — ¿о) = ^(£ (хо(^),Т — ¿о); хО,¿ — ¿о) + £ (х (¿),Т — ¿). Отсюда получаем
"а = ^или — =вг(¿),
где Пг € Wv (х (¿) , Т — ¿) .
Это равенство можно интерпретировать как м( гновенный выи) грыш игрока % в момент времени ¿. Следовательно, вектор в(¿) = (в1 (¿),... , вп^)) предписывает распределение общего выигрыша между членами коалиции N. Варьируя в (¿), игроки могут обеспечить желаемый исход. Таким образом, в каждый момент времени ¿ € [¿о, Т] у игроков не будет возражений против реализации начального соглашения (дележа £ (хо, Т — ¿о)).
Кооперативная дифференциальная игра Г (х0,Т — ¿0) имеет динамически устойчивое решение ^ (х0,Т — ¿0), если все дележи £ (х0, Т — ¿0) Е (х0,Т — ¿0) динамически устойчивы. Условно оптимальная траектория, вдоль которой существует динамически устойчивое решение игры Г (х0,Т — ¿0), называется оптимальной траекторией.
Предположим, что никакое индивидуальное отклонение от кооперации участника не приносит ему выгоды. Это означает, что исход такого кооперативного соглашения достигается при некотором равновесии по Нэшу, которое и будет гарантировать стратегическую поддержку такой кооперации. Такое свойство называется стратегической устойчивостью.
2. Постановка задачи
Рассмотрим дифференциальную игру, в которой N фирм объединяются в совместное предприятие с целью максимизации общей прибыли. Объединение происходит на временном промежутке [¿0, Т]. Прибыль фирмы г на этом интервале определяется формулой
т
— ад (з)1 е-г(*-^в + е-г(т-0)9гЛ/хг (Т), г Е N = {1, 2,..., п}. (2)
¿0
Состояние динамики фирмы г характеризуется развитием ее технологий и протекает согласно дифференциальному уравнению
Хг (в) = а,гу/Щ (в) Хг (в) — 8Хг (в) , (3)
Хг (¿0) = Ж0,
Рг,сг,дг — положительные константы, г — дисконтирующий множитель, жг (в) Е
— уровень технологий компании г в момент в (состояние игрока г), иг (в) Е
— инвестиции в технологическое развитие (управление игрока г), Рг\/жг (в) — чистая операционная прибыль компании г при технологическом уровне жг (в), сгиг — стоимость инвестиций, жг (Т) — ликвидационная стоимость технологий компании г в момент Т, аг — прибавка в технологии, г Е N, 8 — показатель устаревания технологий.
Предположим, что несколько фирм объединяются в коалицию К С N (технологический альянс) для максимизации совместной прибыли. За счет своих партнеров фирма-участник может получить дополнительные возможности в развитии, которые она не могла бы получить в одиночку. Поэтому динамика развития технологий фирм меняется:
Хг (в) = агл/иг (в) Жг (в) + ^ Ъ]^Ж] (в) Хг (в) — 8Хг (в) , (4)
З&к,
]=г
Хг (¿0) = Х0, г Е N,
где 3 — положительные константы, представляющие собой эффект передачи технологий для фирмы %, осуществляемый фирмой ].
Выигрышем коалиции в этом случае является прибыль, которая определяется суммой прибылей ее участников:
т
X [ / [Ргл/хТЙ — сгиг (в)! е-г(*-го)^ + е-г(т-го)^\/хЛТ)
геК
(5)
Чго
3. Максимизация суммарного выигрыша
Коалиция N решает стандартную задачу динамического программирования, состоящую в максимизации суммарного выигрыша игроков
т
тах
гем
чго
ххг (в) = аг\/й7(5УхТ5У + ^ хг (в) х^ (в) — (в)
(6)
3=г
хг (¿о) = хо, % € N.
Обозначим 3 (N, x,¿) функцию Беллмана задачи (6). Здесь N — коалиция, для которой осуществляется оптимизация. В предположении, что функция Белл-мана дифференцируема, она должна удовлетворять уравнению Беллмана
33 (^ х, ¿)
тах
X (Рг^хг — Сгиг (¿)) е-*-^ + £ ^г
.гем гем г
3 (N, х (Т), Т) = X фл/хЛТ)е-г(Т-го)
гем
Максимизируя (7), получим
(7)
иг (¿) = 4С2
а2 д3 2 х ^ е2г(г-го)
дхг
хг (¿)е2
% € N.
(8)
Подстановка (8) в (7) дает равенство
53 (^ х, ¿)
Е
гем
а2 2 х.ег(г-го)
4Сг
5х,-
хг е'(г-го) +
д3 (N,x,¿) дхг
( X Ьзг^хзхг — + Рг^х7е-г(г-го)
зем
3=г
(9)
Решение уравнения (9) будем искать в следующем виде:
J (N,x,t)
(t) VXi + B (t)
Liew
=-r(i-io)
где функции Ai (t), i G N, и B (t) определяются из системы
A (t)= (r + f) Ai (t) - Pi - £ (t), i =1 ,2 ,
jew\{i}
n ,
Ai (T) = q ,
2
B (t) = rB (t) - £ 16c: Af (t), iew :
B (T) = 0.
Подставляя (10) в (8), получаем оптимальное управление игрока i в виде
Ui (t) = щ A2 (t) •
С учетом (11) состояние динамики фирмы i описывается соотношениями
^2 _^ I-
a^i (t) = Ai (t^Xi (t) + Ъл\1 Xj (t) xi (t) - 5xi (t),
Ci jew,
j=i
xi (t0) = x0, i = 1, 2,... , n. Решая (12), находим оптимальные траектории x (t), t G [t0,T].
(10)
(11)
(12)
4. Вычисление равновесия по Нэшу
Чтобы вычислить равновесие по Нэшу для некооперативной игры (2), (3), рассмотрим уравнение Беллмана
dJ ({i},x,t)
max
U:(t)
(Pi vxi - CiUi) e-r(t-to) + dJ ({dx},x,t) (aiVUix - fai)
u(t) = -Cf
af (OJ ({i},x,t)
dxi
xi (t)e
2r(t-to)
(13)
с начальными условиями J ({i}, x, t) = xi (T)e r(T to), i = 1, 2, максимизацию, получим
1,2,..
n.
, n. Проведя (14)
Подставим (14) в (13) и будем искать решение уравнения в виде
7 ({г}, Х, ¿) = (Сг (¿) + О (¿)) е-г(4-4о), г = 1, 2,...,п, где Сг (¿) и Ог (¿) находятся из системы
Сг (¿)= (Г + 2) Сг (¿) — Рг, Сг (Т) = ?г,
2
О г (¿) = гОг (¿) — 16с: С2 (¿) ,
А (Т) = о, г = 1,2,... п.
2
Решив систему, мы получим набор оптимальных управлений и траекторий:
где
а2
и (*) = Щ С (¿)
¡г (¿) = ( ^ + 8С2" I Сг е2) е-Й('-'0)
¿0
С «= (• - + М
2г + ^ 2г + 5
Полученное равновесие по Нэшу представляет собой вектор инвестиций в технологии в отсутствие каких-либо коалиционных соглашений между игроками.
5. Вычисление исхода игры для произвольной коалиции
Чтобы вычислить исход игры для произвольной коалиции, рассмотрим всевозможные подмножества игроков, включающие больше одного игрока, но меньше N игроков. Целевая функция является суммой целевых функций участников коалиции. Мы предполагаем, что не вошедшие в коалицию игроки руководствуются своими равновесными по Нэшу стратегиями. Функция Беллмана для коалиции К находится аналогичным для полной коалиции образом:
3 (К, ж, ¿) = тах N
ик ^
Жг (в) = а^Щ (в) ¡г («) + ^ ¡г (5) («) - ¿¡г («)
"ек,
Жг (¿о) = ¡0, % е N
где = {иг: % е К}.
6. Определение характеристической функции
Характеристическая функция V (К; ж,£) кооперативной игры определяется следующим образом:
V ^; ¡о,Т - ¿о) = 3 (^¡,г) ,
V ({%}; ж0,Т - ¿0) = 3 ({%}, ж, ¿) , % = 1, 2,... , п, (15)
V (К; ж0, Т - ¿0) = 3 (К, ж, ¿) , К С N.
Предложение 1. Характеристическая функция кооперативной игры (4), (5), определенная согласно (15), супераддитивна.
Доказательство. Нужно доказать, что для любых коалиций К! и К2 выполняется неравенство V (К и К2) > V (К1) + V (К2) , К1 П К2 = 0. Заметим, что в
нашем случае определение характеристической функции может быть переписано следующим образом:
^0)
ua . ^ jeK
T
v (K; xo, T - to) = max^ i / P^Xj (s) - CjUj e-r(s-to)ds+ e-r(TXj (T)
VÎQ
T
max min
Vto
inE [ Pi\js) - с, Uj e-r(s-to)ds + e-r(T-to) qj^jT)
= max min \ hj (uK, uN\K) . (16)
jeK
Покажем, что характеристическая функция, определенная согласно правой части (16), удовлетворяет условию супераддитивности. Пусть u°Kl — такая стратегия коалиции Ki, что
v (Kl) = min min V] hj (u^, u^, un\(KiuK2})
j€Ki
uK2 — такая стратегия коалиции K2, что
(K2) = min min У^ hj (u^, uK, un\(Kiuk20 • «ax «N\(aiua2)
Тогда
v (Ki) < min V^ hj (u°, uK2, un\(KiuK2)) \(KlUK2) j^Kl
v (K2) < min V] hj (uK,, uK2, un\(K,uK2))
\(K1UK2)
Складывая последние два неравенства, получим
(Ki) + v (K2) < min hj (uK1, uK2, un\(K1uko) +
j 0 0
\(a1ua2)
+ min hj (uK1 ,uK2 ,Un\(KiUK2)) <
j 0 0
\(a1ua2)
< min J] hj «1 ,<2 \(KiuK20 < < max min V^ hj (uk1 ,«k2 \(k1uk20 = v (Ki U K2)
Предложение доказано. □
v
7. Вычисление динамически устойчивого вектора Шепли
Обозначим Ф" (х, ¿) = [Ф1 (х, ¿) , Ф2 (х, ¿) ,... , ФП (х, ¿)] вектор Шепли с компонентами
Ф" (х (¿) , ¿) = X (П - к)!(^ - V (К; х, ¿) - V (К \ {г}; х, *)) ,
К СМ: геК П
где к — число игроков в коалиции К. В частности, если коалиция существует в течение всей игры, то итоговый выигрыш г-го игрока составит значение его компоненты вектора Шепли в игре Г (хо, ¿о), а именно:
Ф" (хо, ¿о) = X (П к)П(к ^ (К; хо, ¿о) - V (К \ {г}; хо, ¿о)) •
гек
Пусть в (¿) = (в1 (¿) , в2 (¿) , • • •, вп (¿)) — интегрируемая на [¿о, Т] вектор-функция. Чтобы сделать вектор Шепли динамически устойчивым, решим уравнение
в (з) X [р*л/хГЙ - с,иг] е-г(в-о) ^ = Ф" (хо, ¿о) - Ф" (х (¿) , ¿) • (17) Относительно в (¿) имеем
в (¿) = _ 1 ¿Ф" (х (¿) ,*)
г=1
Е Рг\/х* (¿) - С,
Иг
здесь хг и Иг — оптимальные траектория и управление г-го игрока, г = 1, 2,... , п. Следовательно, вектор в (¿) предписывает распределение общего выигрыша среди членов коалиции N таким образом, что вектор Шепли остается динамически устойчивым.
4
8. Стратегическая устойчивость
Стратегическая устойчивость решения дифференциальных игр есть свойство, состоящее в том, что когда кооперативное соглашение реализуется вдоль оптимальной траектории, никакое индивидуальное отклонение от кооперации не приносит выгоды отклонившемуся участнику. Это означает, что исход такого кооперативного соглашения достигается при некотором равновесии по Нэшу, которое и будет гарантировать стратегическую поддержку такой кооперации. Условие стратегической устойчивости имеет вид
г
Ф" (хо, ¿о) > / в, (т) X ^ (х (т) , И (т)) ¿т + V ({г}; х (¿) , Т - ¿) .
Предложение 2. В любой момент времени t е [to,T]
t
Ф? (xo, to) > i ß (т) J] hi (x (t), U (t)) dT + v ({i}; x (t), T - t), (18)
to ieN
где v ({i}; X (t), T — t) — выигрыш игрока i в равновесии по Нэшу в игре, начинающейся в момент t из состояния x, ß (т) — процедура распределения дележа, определяемая (17).
Доказательство. Подставим (17) в (18), тогда (18) примет вид
Ф? (x (t) ,t) — v ({i}; x (t) ,T — t) > 0.
Воспользуемся явным выражением вектора Шепли через характеристическую функцию и супераддитивностью характеристической функции
Ф? (x (t) ,t)= £ (П — k)!( ^ — v (K; x, t) — v (K\{i}; x,t)) >
KCN: i€K П!
(n — k)!(k — 1)!
> E -—n—-v({i};x,t) =
KCN: i€K !
= v ({i}; x,t) £ (" ~ k>!!k ~ 1)! = v ({i}; x,t).
n!
KCN: i€K
Предложение доказано. □
Список литературы
1. Yeung, D. W. K. Cooperative Stochastic Differential Games / D. W. K. Yeung, L. A. Petrosyan. — USA : Springer, 2006.
2. Зенкевич, Н. А. Моделирование устойчивого совместного предприятия / Н. А. Зенкевич. — СПб. : Высш. шк. менеджмента С.-Петерб. гос. ун-та, 2009.
3. Зенкевич, Н. А. Проблема временной состоятельности кооперативных решений в менеджменте / Н. А. Зенкевич, Л. А. Петросян // Вестн. С.-Петерб. гос. ун-та. — Сер. 8. — 2007. — Т. 2, вып. 1. — C. 7-42.
4. Зенкевич, Н. А. Устойчивый вектор Шепли в кооперативной задаче территориального экологического производства / Н. А. Зенкевич, Н. В. Козловская // Мат. теория игр и ее приложения. — 2010. — Т. 2, вып. 1. — C. 67-92.
5. Петросян, Л. А. Устойчивые решения позиционных игр / Л. А. Петросян, Д. В. Кузютин. — СПб. : Изд-во С.-Петерб. гос. ун-та, 2008.