Оптимальное управление в дифференциальной игре двух лиц с векторными функциями выигрыша и экспертным оцениванием

Лобарёв Дмитрий Сергеевич; Межов Степан Игоревич

УДК 519.83

Оптимальное управление в дифференциальной игре двух лиц с векторными функциями выигрыша и экспертным оцениванием

Д.С. Лобарёв1, С.И. Межов2

1Псковский государственный университет (Псков, Россия) 2Алтайский государственный университет (Барнаул, Россия)

The Optimal Control in Differential Two Person Game with Vector Payoff Functions and Expert Estimations

D.S. Lobaryov1, S.I. Mezhov2

1Pskov State University (Pskov, Russia) 2Altai State University (Barnaul, Russia)

Представлено решение дифференциальной игры двух лиц с векторными функциями выигрыша и экспертным оцениванием. При наличии нескольких критериев игрокам необходимо искать разумный компромисс, который заключается в выборе такого управления, что доставляет лучшие значения одновременно всем критериям. Например, в экономике необходимо добиться максимально возможных прибыли и выпуска, одновременно с этим определенного уровня качества и рентабельности производимой продукции. Но наличие нескольких критериев в задаче управления является выражением неопределенности, которая отражает нечеткость знания игроками своих целей. Выявление единой целевой функции снимает эту проблему.

Один из подходов связан с использованием экспертных оценок, которые представляют собой количественную информацию об относительной важности компонент функции выигрыша, относительно которых проводится линейная свертка. Компромиссные векторы от экспертов позволяют свести игровую задачу к стандартной бескоалиционной дифференциальной игре, которая решается методом динамического программирования Беллмана. Этот подход позволяет найти явный вид равновесного оптимального управления.

Ключевые слова: математические модели в экономике, оптимальное управление, дифференциальная игра, экспертные оценки, уравнение Беллмана.

DOI 10.14258/izvasu(2019)1-15

The paper presents a solution of the differential game of two persons with vector-valued payoff function and expert evaluation. If there are several criteria, players need to seek a reasonable compromise which consists in choosing a control that delivers the best values simultaneously to all the criteria. For example, in the economy, it is necessary to achieve the maximum possible profit and output and, at the same time, a certain level of quality and profitability of the produced products. However, the presence of several criteria in the management problem is an expression of uncertainty which reflects the unclear knowledge of the players' own goals. Identifying a single target function solves this problem.

One of the approaches involves the use of expert estimations, which are quantitative information about the relative importance of the components of the payoff func t ion, rel at ive to which t he line ar convolut ion is performed. Compromise vectors from experts allow us to reduce the game problem to a standard non-cooperative differential game which is solved by Bellman's equation. This algorithm helps us find the explicit form of an optimal solution.

Keywords: mathematical models in economics, optimal control, differential game, expert estimations, Bellman equation.

Введение

В последнее время специалисты в сфере экономики, менеджмента и финансов все чаще обращаются к математическим теориям в надежде найти ответы и обоснования принятия решений по многим инте-

ресующим их вопросам. В процессе развития этих сфер вопросы принятия решений приобретают вид математических абстрактных моделей, которые учитывают разнообразные критерии. Таким образом, изучение математических моделей в конфликтных си-

°птимальное управление в дифференциальной игре.

туациях актуально и сегодня, большинство из них являются игровыми задачами [1-4].

Поиск компромиссного решения в дифференциальных играх при наличии нескольких критериев у игроков заключается в выборе такого управления, которое доставляет лучшие значения всем критериям. Например, в экономике, когда в процессе работы организации одновременно решаются разные цели: максимизация прибыли или минимизация затрат. С таким выбором помощь могут оказать эксперты, которые оценивают важность критериев через весовые коэффициенты. Тогда дифференциальная игра может быть сведена к бескоалиционной, для которой существуют эффективные методы решения [5-8].

Исследованием таких задач занимается теория оптимального управления, основы которой заложили российский академик Л.С. Понтрягин, который считает ключевым результатом принцип максимума, и американский математик Р. Беллман, сформулировавший принцип оптимальности, или метод динамического программирования [3, 9].

Для принятия обоснованных решений лицу, принимающему решение (ЛПР), необходимо опираться на опыт и знания экспертов. Обработкой такой информации занимается теория экспертных оценок. Для подготовки информации для ЛПР создается рабочая группа, которая проводит оценку критериев. Проводить оценку легче, если мнения экспертов представлены в числовой форме, тогда можно легко получить их согласованное мнение. В задачах выбора из многих критериев используют метод анализа иерархий Т.Л. Саати (МАИ, Analytic Hierarchy Process, AHP). Основу метода составляет поиск собственного весового вектора матрицы парных сравнений. В России подобные исследования можно встретить в трудах профессора В.Д. Ногина, который предложил упрощенный вариант метода на основе нелинейной свертки критериев [10-14].

Данная статья посвящена поиску решения в дифференциальной линейно-квадратичной игре двух лиц с векторными функциями выигрыша и экспертным оцениванием. Оценки экспертов формируют матрицу, каждая строка которой есть мнение о критериях. ЛПР обладает информацией о компетентности экспертов и формирует свой вектор оценки. Сначала необходимо найти нормированный весовой вектор, который учитывают иерархию мнений, затем игровая задача с векторными функциями выигрыша сводится к стандартной бескоалиционной дифференциальной игре, которая, в отличие от предложенной ранее [15],ре-шается методом динамического программирования Беллмана. Этот подход позволяет выявить явный вид равновесного решения [7-8, 12-18]. Кроме того, метод динамического программирования позволяет найти оптимальное управление с обратной связью,

где управляющее воздействие зависит от времени и сложившейся ситуации.

Постановка и решение задачи

Рассматривается дифференциальная игра двух лиц с векторными функциями выигрыша и экспертным оцениванием [15]:

Управляемая динамическая система 2 рассматривается на временном промежутке М е[М0М ]. Текущее состояние системы 2 в каждый момент времени t характеризуется фазовым вектором х(м) = (х1 (м),...,хп (м)) е Я",который изменяется со временем в соответствии с системой линейных дифференциальных уравнений с начальным условием

о 2

х = Л(м)-х(м) + ^Б; (м), (2)

¡=1

* (f 0 ) = X

(3)

Элементы матриц Л(М), Б, (0, где I е{1,2} есть непрерывные функции. В экономике система 2 представляет собой предприятия, отрасли, фирмы. Экономический агент (игрок) принимает решение с учетом своих целей. Воздействие 1-го игрока определяется функцией управления и = и, (М х), которая не имеет ограничений и содержит обратную связь (компонента х). Множество стратегий игроков имеет вид

и ={ы = Мх (м)еС^[^1 ]}, ,е{1,2}. (4)

В качестве таких воздействий могут выступать, например, инвестиции в производство или новых технологий.

Игрок выбирает свою стратегию и = (м ) х из множества и, в результате имеем ситуацию (ы1,ы2)е и. Фазовый вектор х(м)еЯ" находится как решение задачи (2)-(3). Компоненты вектора х(М) в экономике можно интерпретировать как параметры производства к моменту времени М, например, товары, услуги или ресурсы. На наборах (х(М), ы1, ы2) задана векторная функция выигрыша 1-го игрока

J =( J!,..., jm), ¡'е {1,2},

(5)

каждая компонента которой имеет вид

"1

¡> = §(игВ1и + хТЕ'х)& + хт (М1)Рх(М1), ;е{1,...,т}. (6)

Матрицы , Е{ и Б должны быть симметрическими и положительными.

Цель игроков заключается в выборе своих стратегий, при которых выигрыш каждого по всем компонентам будет наименьшим.

Для нахождения решения задачи (1) сначала проведем свертку компонент векторной функции (5) на основании экспертных оценок, затем пранализируем дифференциальную позиционную линейно-квадратичную игру методом динамического программирования.

Оценки экспертов имеют числовую форму, отражающую вес критерия (5). Экспертам каждого игрока независимо друг от друга предлагается набор критериев

/,1,/12,...,/,ш, которые сравниваются между собой. Таким ¡=1 ¡=1

образом, формируется матрица экспертного оценивания т

каждого игрока Р1 = (рк]) , строки которой указывают и Ц = ^а{Е/ учитывают мнения экспертов.

Векторные функции выигрыша в игре (1) линейной сверткой критериев сводим к игре со скалярными выигрышами

/1 = §(игВм + хТЕ1х)& + хт (^Цх^), I €{1,2}, (8)

»0

тт

здесь матрицы D¡ = ^а^Б* , E¡ = ^а /Е/

на мнение специалиста в числовой форме по важности критериев вектор-функции. Элементы матрицы экспертных оценок должны быть положительными.

Каждый игрок оценивает экспертов и определяет диагональную матрицу Е1 = (1кк )р хр , г € {1,2} , где положительные числа на главной диагонали указывают на вес экспертов.

Задача поиска компромиссного решения сводится к нахождению вектора Ц = (а1 ,а2,...,ат), г €{1,2}, который будет получен из соотношения

Ц . = ер • Е. • Р.

1 р, I I

(7)

Вектор-строка состоит из единиц. Элементы весового вектора Ц можно нормировать так, что = 1.

¡=1

Достаточные условия минимума функционалов (8) следуют из уравнения Беллмана для непрерывных динамических систем [12, 18].

Утверждение. Оптимальная стратегия и* (»,х) 1-го игрока в дифференциальной линейно-квадратичной игре (1) найдется из выражения

и.* (»,х) =1 Б-1ВгТК1 (») • х , 1 € {1,2}, (9)

где К (») — симметрическая матрица (пхп), которая может быть найдена из системы дифференциальных уравнений типа Риккати. Доказательство

Уравнения Беллмана в рассматриваемой задаче:

д^ (», х)

д»

дщ (», х)

дх

а(»)• х(»)+^в(г)и(») ~^итаи + хтех]

= о

^ (»1,х) = -хТЕх , ,€{1,2}.

Из необходимого условия максимума получим:

, \ 1 , т д% (»,х) и * (»,х) = -Б-1в —'-.

1 к ' 2 1 1 дх

Решение уравнений Беллмана будем искать в виде ^ (»,х) =1 • хТК1 (»)х, где К (») — неизвестная симметрическая матрица п-го порядка.

Модельный пример

Рассматривается дифференциальная позиционная линейно-квадратичная игра двух фирм. Управляемая динамическая система £ имеет вид

х°1 (») = и (»), х1 (0) = 5, х°2 (») = и (»), х2 (0) = 5. (10)

Здесь х = (х1, х2) € Я2 — трудовые и финансовые ресурсы, представленные в числовой форме, и1,и2 € Я — инвестиции в производство (реклама или новые технологии), »€[0,2] — время функционирования системы (два года).

У каждого экономического агента есть своя векторная функция цели, которую необходимо минимизировать:

/1=( /;, /2), / 2=( /1, /2),

2

где /1 = f и! (»+ (х? (2) + 3/х\ (2)); 0

0

Два критерия, которые необходимо минимизировать, это финансовые и трудовые издержки. Каждый критерий первой фирмы оценивают три эксперта, каждый критерий второй — два эксперта. Оценки экспертами критериев представлены матрицами

Оптимальное ^отравление в дифференциальной игре.

Р, -

1 2 2 3 1 5

Р2 =

1 4 3 5

¿1 =

1 0 0 0 1 0 0 0 2

¿2 =

1 0 0 2

П,-(1 1)

а=(1 1

1 0 0 0 1 0 0 0 2 1 0* 0 2

1 2 2 3 1 5 1 4* 3 5

= (5 15);

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

тах

и1 I

= (7 14).

[д—1 (г,х) д—1 (г,х) д— (г,х) I —о—+—о—и +—о —

Нормированный вектор весовых коэффициентов примет вид

П=( УАУА) , п=( Ул

'3 '/3

(11)

Эксперты представляют мнение независимых маркетинговых исследований, выраженное в числовой форме. Первая строка матрицы Р1 с числами 1 и 2 указывает на то, что вес второго критерия (трудовые издержки) более важен, чем первого (финансовые издержки). Оценка экспертов игроками представлены матрицами

На содержательном уровне для первой фирмы трудовые затраты в три раза важнее финансовых, для второй — это соотношение один к двум. Сравнивая постановку задачи с Утверждением и учитывая (11), имеем

А =

0 0 0 0 А = 1

, В1 =

, В, -

, Е1 - Е2 - 0,

1 0 ' ' 1/ 0 1 0~

Е - 1/ Е /4 + 3/ 3 - 1/

0 3/ + /4 0 1/ /2 0 1

гово- /2 /6

рят о том, что опыт третьего эксперта должен быть учтен в большей степени, чем первого и второго. Аналогично проводится оценка руководством второй фирмы по важности экспертов, оценивающих их критерии.

Тогда из выражения (7) находим векторы согласования мнений экспертов и игроков

Е - 1/

1 0 0 0

12 0

0 1

- 2/

1 0 0 1

дг

дх,

дх„

Проводим свертку критериев относительно (11) и получаем скалярные функции цели

д - уг / и2 (г)Л + уг (х2 (2) + х2 (2)), 0

Л - у3 /«2 ('К + %х (2) + х2 (2)). (12)

0

Уравнения Беллмана и граничные условия примут следующий вид:

«2 - У, «2 1 - 0 , -1 (2х) — У, х + х2);

1д-2(г,х) д-(г,х) д-(г,х) !/ 21 , ч т// 2 2

тах (-д-1+-1х- «1 +-дхг «2- X «22=-(2,х )-—X х+х22

Структура оптимальных управлений (10) первого и второго игроков соответственно

д-1 (г, х)

«1* (г,х) - -

дх

.(,,х)-3 .д-^ 2 дх

(13)

12 Подставим полученные выражения для управлений в уравнения Беллмана и найдем решение уравнений:

-1 (г,х) -1 Кп (г). х2 + к12 (г). хх + 2К22 (г). х2,

-2 (*,х) - 1Р11 (^) • х2 + Р12 (г) • х1х2 + 2Р22 (1) . х2 ,

здесь К11 (г), К12 (г), К22 (г), Рп (г), Рп (г), Р22 (г) — неизвестные функции, которые найдем из системы дифференциальных уравнений типа Риккати с краевыми условиями:

Кп (г)+К (г) + 3К12 (г)Р12 (г)- 0; 2^)+ 2Кп (г)Ки (г) + 3(К12 {г^ (г) + К„ К22°(г)+К (г) + 3К„ (гР (г)- 0;

2 Рц°(г)+ 3Р122 (г) + 4КП (г )РП (г)- 0;

2Р12 (г)+ 3Р12 (г )Р22 (г )+/(к11 (г )Ри (г ) + Ки|

2 Р22 (г)+ 3Р22 (г) + 4К12 (г )Р12 (г)- 0, К11 (2 )-К 22 (2)- —1; Р11 (2)-Р22 (2)-—X;

К12 (2)- Р12 (2)- 0.

(г)Р (г)) - 0;

г )Ри (г ))-0;

Единственное решение этой системы имеет следующий вид:

K11 (t ) = Л K12 (f ) = 0' K22 (t ) =

t- 3 (2t - 5)

P,, (t) = ; 4 TV, P,2 (t) = 0, P22 (t) = - 4

3(t - 3)

6t-15

Явный вид оптимальных позиционных управлений игроков (13) в рассматриваемой задаче (1):

х 2х Ы," и,х) =-— , Ы.' и,х) =-— .

1 у ; г - 3 2 у ; 2г - 5

Подставляя полученные стратегии в исходную систему (10), определим фазовый вектор х(г):

х (г) = (х1 (г), х 2 (г)) = (-^ г + 5,-2г + 5), г е [0,2].

На основании полученных стратегий игроков и фазового вектора можно определить их выигрыши во вспомогательной задаче (2), (3), (8)

2x

Равновесное решение дифференциальной позиционной линейно-квадратичной игровой задачи двух лиц (10) с векторными выигрышами есть ситуация

> равновесной ситуации первый игрок

г - 3'2г - 5)

получит двухкомпонентный выигрыш (оптимальные финансовые и трудовые затраты) ] =(5^. ),

а второй игрок ]2 =(619; 7/1з).

Выводы

В работе представлено решение дифференциальной линейно-квадратичной игры двух лиц с векторными функциями выигрыша. Экспертные оценки имеют числовую форму и указывают на относительную важность критериев каждого игрока в рассматриваемой задаче. Игроки, высказывая мнение о компетентности экспертов, формируют свои оценки. Такая иерархия позволяет найти весовой компромиссный вектор, относительно которого проводится линейная свертка критериев и решается бескоалиционная дифференциальная игра методом динамического программирования Беллмана. В статье представлен модельный пример решения двух-критериальной дифференциальной линейно-квадратичной игры двух фирм с экспертным оцениванием. Найдены в явном виде стратегии игроков, представляющие собой инвестиции в производство, и определены значения их критериев-затрат, которые экономические агенты пытались минимизировать.

Библиографический список

1. Basar T., Olsder G.J. Dynamic Noncooperative Game Theory. London, 1982.

2. Андрейчиков А.В., Андрейчикова О.Н. Анализ, синтез, планирование решений в экономике. М., 2001.

3. Жуковский В.И., Салуквадзе М.Е. Риски и исходы в многокритериальных задачах управления. Тбилиси, 2004.

4. Колемаев В.А. Математическая экономика. М., 2002.

5. Chiang A.C. Elements of dynamic optimization. New-York ; London ; Paris ; Tokyo ; Toronto, 1992.

6. Lobaryov D.S. Multiobjective Dynamic Problems with Expert Assessments. Models of Decision Making and Economic Incentives. Edited by: Keiding, H., Wolffsen, P. Псков, 2012.

7. Жуковский В.И., Чикрий А.А. Линейно-квадратичные дифференциальные игры. Киев, 1994.

8. Красовский Н.Н., Субботин А.И. Позиционные дифференциальные игры. М., 1974.

9. Красовский Н.Н. Управление динамической системой. М., 1985.

10. Noghin V.D. Reduction of the Pareto set: an axiomatic approach, 2018.

11. Saaty T. L. Multicriteria decision making. The analytic hierarchy process. Pittsburgh: RWS Publications, 1990.

12. Ногин В.Д. "Упрощенный! виритнт метода анализа иарархий на основе нениннйной свтрики ириририев //Вычис-лительнаяматематика иматематическаяфизика. 2004.. № 44 (7).

13. Подиновский В.В., Ногин В.Д. Парето-оптимальные

решения многокритериальных задач. М., 2007.

14. Саати Т.Л. Принятие решений при зависимостях и обратных связях: Аналитические сети. М., 2008.

15. Лобарёв Д.С. Экспертные оценки в дифференциальной линейно-квадратичной игре N лиц с векторными функциями выигрыша // Научно-технический вестник Поволжья. 2011. № 6.

16. Лобарёв Д.С. Решение многокритериальных динамических задач с экспертными оценками методом динамического программирования // Вестник Ижевского гос.

техн. ун-та. 2011. № 3 (51).

17. Лобарёв Д.С. Уточненное решение двухкритериаль-ной задачи при экспертном оценивании на основе набора информации об относительной важности критериев // Вестник Псковского гос. ун-та. Серия: Естественные и физико-математические науки. 2013. № 2.

18. Межов И.С., Рыманов А.Ю., Межов С.И. Методы повышения достоверности оценки финансовой состоятельности инвестиций // Экономический анализ: теория и практика. 2009. №17 (146).

Аннотация научной статьи по математике, автор научной работы — Лобарёв Дмитрий Сергеевич, Межов Степан Игоревич

Похожие темы научных работ по математике , автор научной работы — Лобарёв Дмитрий Сергеевич, Межов Степан Игоревич

The Optimal Control in Differential Two Person Game with Vector Payoff Functions and Expert Estimations

Текст научной работы на тему «Оптимальное управление в дифференциальной игре двух лиц с векторными функциями выигрыша и экспертным оцениванием»