Решение задачи минимаксного адаптивного управления инновационными процессами на предприятии при наличии рисков

Бабенко Виталина Алексеевна; Шориков Андрей Фёдорович

БАБЕНКО Виталина Алексеевна

Кандидат технических наук, доцент, заведующая кафедрой экономической кибернетики

Харьковский национальный аграрный университет им. В. В. Докучаева

62483, Украина, Харьковская область, Харьковский район, п/в «Комушст-1» Контактный телефон: +38 067 570 35 73 e-mail: [email protected]

Уральский федеральный университет имени первого Президента России Б. Н. Ельцина

620002, РФ, г. Екатеринбург, ул. Мира, 19 Контактный телефон: (343) 375-41-40 e-mail: [email protected]

Доктор физико-математических наук, профессор кафедры прикладной математики

ШОРИКОВ Андрей Фёдорович

Решение задачи минимаксного адаптивного управления инновационными процессами на предприятии при наличии рисков1

Ключевые слова: инновационный процесс; экономико-математическая модель; риски; динамическая модель; оптимизация; процесс управления; минимаксное адаптивное управление; гарантированный результат.

Для моделирования и решения задачи управления инновационными процессами предприятия при наличии рисков предлагается использовать детерминированный подход в форме динамической задачи минимаксного адаптивного управления (оптимизации гарантированного результата) на заданный финальный момент времени. Рассматривается метод, который сводится к реализации решений конечного числа задач линейного и выпуклого математического программирования, а также задачи дискретной оптимизации.

Исследование и решение задачи управления инновационным процессом на предприятии (УИПП) требует разработки динамической экономико-математической модели, учитывающей наличие управляющих воздействий, неконтролируемых параметров (рисков, погрешностей моделирования и др.) и дефицита информации. При этом существующие подходы к решению подобных задач базируются в основном на статических моделях и используют аппарат стохастического моделирования, для применения которого требуется знание вероятностных характеристик основных параметров моде- ^ ли и специальных условий на реализацию рассматриваемого процесса. Отметим, что ° для использования аппарата стохастического моделирования необходимы очень жест- 6 кие условия, которые на практике обычно заранее не выполняются. п

В данной работе предлагается использовать детерминированный подход для моде- § лирования и решения исходной задачи в форме динамической задачи минимаксного адаптивного управления (оптимизации гарантированного результата) УИПП на задан- а ный момент времени с учетом наличия рисков. «

1 Исследование выполнено за счет гранта Российского научного фонда (проект № 14-18- ^

При этом под рисками в системе УИПП будем понимать факторы, которые влияют негативно или катастрофически на результаты рассматриваемых в ней процессов.

Для организации минимаксного адаптивного управления ИПП в выбранном классе допустимых стратегий адаптивного управления предлагается рекуррентный алгоритм, который сводит исходную многошаговую задачу к реализации конечной последовательности задач минимаксного программного управления ИПП. В свою очередь, решение каждой из таких задач сводится к реализации конечной последовательности только одношаговых оптимизационных операций в форме решения задач линейного и выпуклого математического программирования и дискретной оптимизации.

Предлагаемый метод дает возможность разрабатывать эффективные численные процедуры, позволяющие реализовать компьютерное моделирование динамики рассматриваемой задачи, сформировать адаптивное минимаксное управление ИПП и получить оптимальный гарантированный результат.

Представленные в работе результаты базируются на ранее проведенных исследованиях [1; 2] и могут быть использованы для экономико-математического моделирования и решения других задач оптимизации процессов прогнозирования данных и управления в условиях дефицита информации и наличия рисков, а также для разработки соответствующих программно-технических комплексов для поддержки принятия эффективных управленческих решений на практике. Экономико-математические модели таких задач приведены, например, в работах [3-10].

Данная статья продолжает исследования, представленные в работе В. А. Бабен-ко [2], соответственно понятия и обозначения, введенные автором, используются здесь без дополнительных объяснений.

1. Формирование обобщенной модели УИПП при наличии рисков Нетрудно показать, что экономико-математическая модель динамики управления ИПП относится к классу линейных дискретных управляемых динамических систем [1-3; 5].

Действительно, пусть на заданном целочисленном промежутке времени 0,Т = {0, 1, ..., Т}(Т > 0) рассматривается многошаговая динамическая система, которая состоит из одного управляемого объекта - объекта I (управляемого игроком Р -субъектом управления), движение которого описывается линейным дискретным рекуррентным векторным уравнением следующего вида:

х^ +1) = А^Ш) + В(0м(0 + Ш^) + £(0у(0, х(0) = х0. (1)

Здесь t е 0, Т -1, х е Я" - фазовый вектор объекта I, который для модели динамики УИПП [2] состоит из п = п + т + 2 координат, т. е. х^) = (х1 (0, х2(0, ..., хп(0, у1 (0, у2(0,

..., Ут^), Ш))' е Я" (где в соответствии с [2] х^) = (х1 (0, х2(0, ..., хп(0)' е Я" -вектор объемов остатков готовой продукции, хранящейся на складах предприятия в период времени £ у(0 = (у1 (0, у2(0, ..., ут(0)' е Я.т - вектор объемов остатков производственных ресурсов, хранящихся на складах предприятия в период времени £ - общие суммарные издержки предприятия в период времени £ к(0 - количество доступных финансовых средств, образовавшихся к началу периода £ п, т еК; N -множество всех натуральных чисел; для к е К, Як - к-мерное евклидово векторное пространство векторов-столбцов, даже если из экономии места они записаны строкой);

й^) = (й^), й2^), ..., йп (0)'е Я" - вектор инновационного управления интенсивностью производства готовой продукции в период времени t (t е 0, Т -1), у которого каждая ;-я координата и(£) есть значение объема производства продукции ;-го вида (] е 1,п), стесненное заданным ограничением

й^) е и^) = и^ (0 с Я? (р еК: р = п), (2)

где U(t) для каждого t е 0, T -1 есть конечное множество векторов, т. е. конечный набор, состоящий из Nt (Nt е N) векторов в Rn, определяющих все возможные реализации различных сценариев управления в момент времени t;

w(t) = (w1(t), w2(t), ..., wm (t))' е Rm (m = m) - вектор интенсивности пополнения складских ресурсов в период времени t (t е 0, T -1), который зависит от допустимой реализации управления u(t) eU1(t) и должен удовлетворять следующему заданному ограничению:

w(t) eW1(u(t )) = WMt (u(t)) с Rm (m е N : m = m), (3)

где WM (и (t)) для каждого момента времени t е 0, T -1 и управления и (t) еUN (t ) есть конечное множество векторов, т. е. конечный набор, состоящий из M(t) Mt (i) е N, i е1, N) векторов в пространстве Rm, определяющих все возможные реализации различных сценариев пополнения складских ресурсов в момент времени t.

Предполагается также, что для всех t е 0,T -1 каждая допустимая реализация фазового вектора x(t) = (x1 (t), x2(t), ..., xn(t), y1 (t), y2(t), ..., ym(t), Z(t), k(t)) е Rn удовлетворяет следующему фазовому ограничению:

x(t ) = (xi (t ), X2 (t ), ..., Xn (t ), yi (t), y 2 (t ), ..., ym (t), Z(t), k(t)) е Xi(t) = 'xj (t)>0, x}(0) = 0, j е\/п; = y, (t)>0, y,(0) = b,, i еI~m■; (4)

= k(t) > 0, k(0) = (G + G0 ) > 0; Z(t ) > 0, Z(0) = 0;

G - объем финансовых средств банковского кредита, предназначенного для инвестиций в расширение производства в начальный период управления (при t = 0); G0 - объем собственных финансовых ресурсов, отчисляемых от чистой прибыли и направляемых на расширение производства (при t = 0);

v(t) = (v(t), v'(t), v"(t)) еR, xRf xRr - обобщенный вектор рисков v(t) = (v1(t), v2(t ), ..., vq (t ))' е Rq - вектор рисков, описывающий возможные неблагоприятные реализации вектора априори неопределенных факторов или вектора, объединяющего погрешности моделирования рассматриваемого процесса, влияющие на выпуск единицы произведенной продукции каждого вида в период времени t; v (t) = v1 (t), v2(t), ... , v'(t)' е Rf - вектор рисков, влияющих на состояние единицы имеющихся ресурсов каждого вида в период времени t; v"(t) = (v'' (t), v2'(t), ..., v'(t)) ' е Rr - вектор финансовых рисков, влияющих на единицу суммарных издержек предприятия в период времени t; q, l, r е N ), который при управлении ИПП в период времени t (t е 0, T -1) зависит от допустимой реализации управления u(t) е U1(t) и должен удовлетворять следующему заданному ограничению:

v (t) еУ 1(u(t )) = V (u(t)) с Rq (q е N : q = q +1 + r). (5)

Матрицы A(t), B(t), C(t) и D(t) в векторном уравнении (1) для экономико-математической модели, описывающей динамику управления ИПП, есть действительные матрицы порядков (n x п), (n x p), (n x m) и (n x q) соответственно и такие, что для всех t е 0, T -1 матрица A(t) является невырожденной, т.е. для нее существует соответствующая ей обратная матрица A-1 (t), а ранг матрицы B(t) равен p (размерности вектора u(t)).

Для рассматриваемого процесса УИПП [2] данные матрицы имеют следующий конкретный вид:

ПРИКЛАДНАЯ ЭКОНОМИКА

' «11 (0 0 0 0 0 0 0 0 >

0 «22 (0 ■ 0 0 0 0 0 0

0 0 . а (0 пп ^ ' 0 0 0 0 0

0 0 0 г11 (0 0 0 0 0

Л^) = Г22 ^) ■

0 0 0 0 0 0 0

0 0 0 0 0 • г (0 тт ^ ' 0 0

г^) г2 а) ■ ■ гп (0 Р^) р2 (t) ■ ■ Рт (t) 1 0

0 0 .■ 0 0 0 0 0 1

B(t) =

D(t) =

0 1 0 0

0 0 0 1

-ь„ Л2 .. -ь 1,(п-1)) -ь1п

Л1 -Ъ22 -Ъ (2,(п-1)) -Ъ2п

Ът1 -Ьт2 —ь (т,(п-1)) -ь тп

0 0 1 0

0 0 0 1

"с11 С12 " -си 0 0

Сп1 Сп2 " -с щ 0 0

0 0 ■ 0 -с'п -<2

0 0 ■ 0 -с'1 -С'22

0 0 ■ 0 -с', т1 -С' т2

0 0 ■ 0 0 0

^ 0 0

C(t) =

00 1 0 0 1

00 00 0 0

ч

00 00

-с -с

-c

00

0 0

0 0 0

1

0

/

0

0 0 0

0 0

-с"

Отметим, что для всех t е 0, T -1 множество и^) в ограничении (2) не пусто и является конечным множеством, состоящим из Nt (Ы( е К) векторов пространства Яр; для всех t е 0, T -1 и векторов и(t) еи^) множество )) в ограничении (3)

не пусто и является конечным множеством, состоящим из Mt (г) (Mt (г) е К, i е1, Nt) векторов пространства Ят, а множество У,(и(0) в ограничении (5) в соответствии с (4) также не пусто и является выпуклым, замкнутым и ограниченным многогранником (с конечным числом вершин) в пространстве Я?.

Опишем информационные возможности игрока Р в процессе минимаксного адаптивного (по принципу обратной связи) управления ИПП для дискретной динамической системы (1)-(5).

Предполагается, что для любого момента времени те1,Т и соответствующего целочисленного промежутка времени 0,тс0,Т (0 <т) к моменту времени т в процессе

0

-с. -с

управления ИПП игроком Р измеряются и запоминаются следующие величины: x(0) = x0 - начальное фазовое состояние объекта I; и() = {U(t)}- история реализации управления игрока Р на промежутке 0,т ; w(-) = {w(t- история реализации вектора интенсивности пополнения складских ресурсов на промежутке 0,т ; v(•) = {v(t)}- история реализации вектора рисков на промежутке 0,т . Уравнение (1) и ограничения (2)-(5) для него также известны.

Рассматриваемый процесс управления ИПП оценивается значением выпуклого функционала F : Rn ^ R1, определенного на возможных реализациях фазового вектора x (T) е Rn системы (1)-(5) в финальный момент времени Т.

Тогда для системы (1)-(5) цель оптимального адаптивного управления с точки зрения игрока Р может быть сформулирована следующим образом: на заданном промежутке времени 0,T требуется, чтобы игрок Р организовал свое управление м(-) = {u(t(для всех t е 0,T -1: u(t) е U1 (t)) по принципу обратной связи (как реализацию минимаксной адаптивной стратегии [1; 6; 8] из выбранного класса допустимых адаптивных стратегий), используя всю доступную для него информацию об этом процессе таким образом, чтобы возможное наибольшее значение функционала F , определенного на реализации вектора x(T) е Rn (где x (T) есть реализация фазового вектора объекта I в момент времени T, соответствующая реализации управления «(•)), было минимальным. При этом предполагается, что наихудшие (наибольшие) значения функционала F могут реализоваться за счет возможных неблагоприятных реализаций v(•) = {v(t)}^^ (для всех t е 0,T -1: v(t) е^(м(())) обобщенного вектора рисков,

а реализации w(-) = {w(t(для всех t е 0,T -1: w(t) е^(м(t))) вектора интенсивности пополнения складских ресурсов способствуют достижению целей игрока Р, т. е. их выбор (по заданию игрока P) направлен на минимизацию функционала F в соответствии с выбранной им стратегией.

2. Формализация задачи оптимизации адаптивного управления ИПП

Отметим, что здесь без специальных оговорок используются определения и обозначения, которые введены при формализации и решении задачи минимаксного программного управления ИПП, так как рассматриваемая динамическая модель (1)-(5) совпадает с моделью для этой задачи.

Для оценивания качества при адаптивном управлении ИПП игроком Р в динамической системе (1)-(5) на промежутке времени t,T ç 0,T введем векторный терминальный функционал (показатель качества процесса) Ф^ = (ÔT, ÔT, ■ ••, Ф(T),

представляющий собой набор из r выпуклых функционалов Ôk : G(t) x U(t,T) x xW(t,T;ûQ)xV(t,T;U() ^R1 (k е 1,r) таких, что для реализации набора (g(x),û(/), wQ,vQ) е G(t) x U (t,T) xW (t,T ;«(•)) xV (x,T;û(-)), где g(x) = {t,x(t)} е G(t), их значения определяются следующими соотношениями:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(g(T), «(•),*(•),*(•)) = ^(x- (T; X(t), U(),w(),v())) = F-(T(x (T )), k ей (6)

где FT1 : Rn ^R1 есть выпуклый функционал для каждого k е1^; x(T) = = x- (T; х(т), u 0,wQ,v (•)).

На основании введенного соотношением (6) векторного функционала Ф^ = = (ô(T, ф2), ■ ••, Ф^) для оценки качества рассматриваемого процесса оптимизации УИПП введем в рассмотрение скалярную целевую функцию F— (g(т), u(),w(),v()),

значения которой для всех допустимых на промежутке времени t,T реализаций наборов (g (т), U (•), w(-), v (•)) е G(t) x U(tT) xW (т^ ;«(•)) xV (î^;U(-)) , где g(x) = {t,x(t)} е

е <У(т)1 «(•) = {Ш}^ еи(0,Т), *(•) = М0}(£_ еW(т,T;й(•)), у(-) = МО},^ е

е^(0,Т;м(-)), определяются в соответствии со следующим соотношением: F-T(g(т), «(•), *(•), у(-)) = 2 ц ^(т), «(•), *(•), V(•)) =

= 2 Цк • ^ (х^(Т; х(т), «(•), *(•), V(•)) = 2 ц • Е®(х(Т)) = Р(х(Т)), (7)

к=1 т ,Т к=1 Т

V к е 1~г: цк > 0, Цк = 1,

к=1

где х(Т) = х— (Т; х(т), м 0,^0,^0), а Р есть выпуклый функционал, введенный ранее.

Отметим, что целевая функция (функционал) Р— (я(т), &(•),&(•),у()) является выпуклой скалярной сверткой векторного функционала Ф^ = (Ф(Т- - •••- ), т. е. она формируется в соответствии с методом скаляризации векторных целевых функций (см., например, [9]), с неотрицательными весовыми коэффициентами цк, к е 1,г, которые могут определяться, например, экспертным путем или на основании знания статистической информации об истории реализации основных параметров рассматриваемого УИПП.

Пусть на заданном промежутке времени 0,Т (Т > 0) игрок Р, распоряжаясь выбором управления и(,) еР1((), , е 0,Т -1, в динамической системе (1)-(5), находится в оговоренных условиях информированности. Тогда на основании изложенного выше можно сформулировать с позиции игрока Р его цель в задаче минимаксного адаптивного управления ИПП для динамической системы (1)-(5) следующим образом.

Будем считать, что игроку Р на промежутке времени 0,Т требуется так организовать выбор своего управления м(-) = {"(О^е^ТТ! (для всех , е 0,Т-1: м(,) еР1{()) объектом I в адаптивном режиме (по принципу обратной связи) на основании знания в каждый момент времени , е 0,Т -1 своей ,-позиции g(,) = {,,х(,)} е (?(,), чтобы при завершении реализации управления ИПП функционал Р— , определенный соотношение (7) при т = 0, принимал наименьшее возможное значение, учитывая, что могут реализоваться наихудшие для него значения вектор-функции У0 е У(0,Т ;«(•)), т. е. максимизирующие данный функционал, а реализации вектор-функции ^0 е V(0,Т;й0) способствуют достижению цели игрока Р.

Тогда, используя предыдущие рассуждения, можно формализовать достижение этой цели игрока Р следующим образом.

Допустимой стратегией адаптивного управления ИПП иа игрока Р для дискретной динамической системы (1)-(5) на промежутке времени 0,Т будем называть отображение иа: (?(х) ^иДт), которое каждому моменту времени те0,Т-1 и возможной реализации т-позиции g(т) = {т,х(т)} е (С(т) ^(0) = g0) назначает множество иа (%(т)) с ) управлений и(т) е и1(,) игрока Р. Обозначим множество всех допустимых стратегий адаптивного управления игрока Р для рассматриваемого процесса через и*а .

Далее, пучком движений объекта I на промежутке времени 0,Т , соответствующем уравнению движения (1), начальной позиции g0 = {0,х0} е Сг0 игрока Р, его допустимой стратегии иа = иа (^* (,)) е и*, , е 0,Т -1, g* (,) = {,,х*(,)}е (?(,), и допустимой программной реализации интенсивности пополнения складских ресурсов ^0 е V(0,Т;иа(•)), где йа(•) = {йа(^)}(ет"Т11 еи(0,Т) любое допустимое управление игрока Р на промежутке 0,Т , порожденное стратегией иа, будем называть множество

X(.;0,г,,U,w(.)) = {Г(•): X*(•)6 S„(0,T), 3U(•)6U(0,T), зv*(•)6V(ÖJ;U(•)), v160T, X*(t) = Xo-T(t;X(•),*;Q,v;(•)),

g'(t) = {t,X*(t)} 6 G(0,go,t,щ (.),w;(•)) с G(t), g*(0) = go, (8)

uro = {u(T)Urr, v 16 0,T-1, u*(t) 6 ua(g*(t)), W (•) = {w(T)U-i, vt*(.) = {v (T) }T6ö;i-i }•

Тогда можно сформулировать следующую нелинейную многошаговую задачу минимаксного адаптивного управления ИПП для динамической системы (1)-(5).

Задача. Для заданных промежутка времени 0,T (Т > 0) и начальной позиции g0 = {0,X0} 6 G0 игрока Р в дискретной динамической системе (1)-(5) требуется найти его стратегию минимаксного адаптивного управления ИПП U^ = U{(e)(g(t)) 6 U*a, g(t) = {t,x(t)}6 G(t), 16 0,T -1, (g(0) = g0), которая удовлетворяет соотношению

= min max F— (g0 ,U{e),w(),v (•)) =

0 T _ i \ _ < \ 0 T 0 " a ' \Z" \//

' w(.)6W(0,T;uae)(.)) v (-)EV(0,T^(O) '

= min min maX F— (g0,U ,w(-),v(-)) =

U 6U* W(.)6W(0,T;u (•)) v(.)6V(0,Tu (•)) 0,T a

a a a a _ _ (9)

= min min maX F (x(T ))=

U 6U* w(.)6W(0,Tu (•)) X(T)6X(T;0,T,g Ua )) a a a 0 a

= max ( F(x(T))=cF'a)(0;T,g0),

X (T )6 X (T ;0,T, g0,U(> ,w(e)(.))

как реализацию конечной последовательности только одношаговых операций.

Здесь функционал F— определяется согласно соотношению (7); йа( •) = {Ua(t)}(6ту—; 6 6 U(0,T) - любое допустимое управление игрока Р на промежутке 0,T , порожденное стратегией Ua; U(ae)(.) = {wae)(t6U(0,T) - любое допустимое управление игрока Р на промежутке 0,T , порожденное стратегией U().

Число cF'a>(0,T,g0)=F^Ta> будем называть оптимальным гарантированным (минимаксным) результатом минимаксного адаптивного управления ИПП игрока Р на промежутке времени 0,T для дискретной динамической системы (1)-(5) относительно его начальной позиции g0 и функционала F— .

Отметим, что, исходя из описанных выше условий на параметры системы (1)-(5) и результатов работы [2], решение данной задачи существует и ниже будет приведена конструктивная общая схема для его нахождения.

Далее, для любых реализаций управления й(\-) = {U^W^^pr^ , V 16 0,T -1: u(e)(t) 6 U(e)(w(e)(t)) игрока Р, порожденного стратегией U(e) 6 Ua, вектор-функций

w(ae)( •) 6 W(0,T;u(e)(•)) и va( •) 6 V(0,T;Ua(e)( •)), для соответствующего этому набору движения X(e)( •) = х— ( •;x0,ua(e)( •),*«( •),va( •)) 6X( .;0,T,g0,Ua,w«(•)), на основании соотношений (6)-(9), нетрудно показать справедливость следующего неравенства:

(я о ие)( ( м ( •)) = р % (т; хач( .),V, ( .))=Р ))<

< ср*\0т, Яо) = < = сРе)(0Т, Яо),

где я0 = {0,х0|е(70; ср>(0,Т,я0) есть оптимальный гарантированный (минимаксный) результат решения задачи минимаксного программного управления ИПП.

Отметим, что из соотношений (6) следует, что результат решения задачи может только улучшить результат решения задачи минимаксного программного управления ИПП, т.е. минимаксное адаптивное управление ИПП более перспективно по сравнению с минимаксным программным управлением для рассматриваемого процесса.

Таким образом, здесь приведена формализация задачи минимаксного адаптивного управления ИПП для динамической системы (1)-(5). Отметим, что рассматриваемая задача является основной в данном случае, но ее формализация и решение базируются на задаче минимаксного программного управления ИПП [2].

3. Общая схема решения задачи

Приведем общую схему решения рассматриваемой задачи на основании результатов работы [2].

Используя решение задачи минимаксного программного управления ИПП, рассмотренной в работе [2], для всех моментов времени те0,Т-1 и всех т-позиций £(е)(т) = {т,X(е)(т)}е((т) (^(0) = £о = {0,х0}е(,)игрокаР,где Х(е)(т) = Х-(т;Х0,й(е)(-), ^(е)(-),у(-)), м(е)(-) е и(;\0,Т, g(е) (0)), м(е) (•) е е№ (0,Т;й(е) (•)), можно сконструировать следующие множества:

и(е) ^(е)(т)) = {й(е) (т): й(е)(т) е и1 (т), й(е)(т) = й(е) (т),

й(е) (•) е и{е (т, Т, g(е) (т)), те 0, Т -1},

где и^(т,Т,g(е)(т)) есть множество минимаксных программных управлений, сформированное из решения соответствующей задачи минимаксного программного управления ИПП, рассмотренной в работе [2].

Тогда определим стратегию управления и() = ^^(^(т)) е и*, те 0,Т -1, g(т) е ((т) (g(0) = g0) игрока Р для рассматриваемого минимаксного адаптивного управления ИПП в дискретной динамической системе на промежутке времени 0,Т из класса допустимых стратегий управления и* , которая формально описывается следующими соотношениями:

1) для всех те0,Т-1 и т-позиций g(e)(т) = ^,Х(е)(т)}еб(0,g0,т,й^f)(•),wiT:)(•)) (£ (е)(0) = g 0) пусть

й^(е)(т)) = и(%(е)(т)) с и1(т); (12)

2) для всех те 0, Т -1 и т-позиций g * (т) = {т, х* (т)} е {( (т)\б(0, g 0, т^^Ом^О)} (g*(0) * g0) пусть

и(:}(я' (т)) = и (т), (13)

где Й(е)(-) = {м(e)(t)}( —, «*>(•) е ие)(0_Т,g0); *«(•) = )}(е—, ^(•) е №(0,Т;й«(•)).

Пусть й^(•) = {й() (tе и(0,Т) есть реализация управления игрока Р на промежутке времени 0,Т , которая сформирована в результате использования стратегии и« е и* на этом промежутке времени при реализации вектор-функций (•) е №(0,Тй«(•)) и V(•) е V(0Т). Тогда для (Т - 1)-позиции g¡¡e)(Т -1) = {Т -1,х(е)(Т -1)} е ((Т -1) игрока Р (здесь Х^(Т-1)) = X— (•;Х0,й(]Ом^(•),V(•))), которая отвечает этим реализациям, справедливы следующие соотношения:

сГ(0г, g 0)=г- (g 0 ,«« (•), (о,у (•))=

(я(ае)(Т -1), й«(Т -1), (Т -1), V(Т -1)) < < Р^т О^Т -1), й(е) (Т -1), (Т -1), у(е) (Т -1))= (14)

= шах Р— ^е)(Т -1), й^ (Т -1), (Т -1), V (Т -1)) <

V (Т-1)е V (Т-1,Т ^-ЧО) '

< шах( ) Г0,"1е)(•), (•), у() < е^(0Т, g0) < с?(0Т, g0).

v(•)еV (0,Т; й^О) '

На основании результатов работы [2] и соотношений (11)-(14) можно показать справедливость следующего утверждения, которое является основным результатом данной работы.

Утверждение. Для заданной начальной позиции g(0) = g0 = {0,x0} gG0 игрока Р в дискретной динамической системе (1)-(5) его стратегия управления ИПП U(e) G U* на промежутке времени 0,T , которая определяется соотношениями (11)-(13), является стратегией минимаксного адаптивного управления для рассматриваемой задачи, т. е. U^ = Uf g U* , и число c(Fe'a)(0,T,g0) есть оптимальный гарантированный (минимаксный) результат для этой задачи, т. е. с£а)(0,Т,g0) < (0, T,g0), который соответствует реализации этой стратегии на промежутке времени 0,T для рассматриваемого управления ИПП, и оба эти элемента конструируются путем реализации конечной последовательности только одношаговых операций.

Таким образом, для организации минимаксного адаптивного управления ИПП, т. е. решения рассматриваемой задачи в выбранном классе допустимых стратегий адаптивного управления, предлагается рекуррентный алгоритм, который сводит исходную многошаговую задачу к реализации конечной последовательности задач минимаксного программного управления ИПП. В свою очередь, решение каждой из таких задач сводится к реализации конечной последовательности только одношаговых оптимизационных операций в форме решения задач линейного и выпуклого математического программирования, а также дискретной оптимизации (см. [9]). Тогда можно утверждать, что решение рассматриваемой задачи свелось к реализации решения конечной последовательности задач линейного и выпуклого математического программирования и дискретной оптимизации.

Источники

1. Красовский Н. Н. Теория управления движением. М. : Наука, 1968.

2. Бабенко В. А. Формирование детализированной экономико-математической модели динамики управления инновационными процессами предприятий АПК при наличии рисков // Изв. Урал. гос. экон. ун-та. 2013. № 6 (50).

3. Альбрехт Э. Г. О динамических моделях макроэкономики // Информационные технологии в экономике: теория, модели и методы : сб. науч. тр. Екатеринбург : Изд-во УрГЭУ, 2005.

4. Альбрехт Э. Г. Об идентификации математических моделей нелинейных процессов // Вестн. Челяб. гос. ун-та. Сер. 3. Математика, механика, информатика. 2003. № 2.

5. Мазуров Вл. Д. Линейные неравенства и неформализованные задачи экономики и социологии // Информационные технологии в экономике: теория, модели и методы : сб. науч. тр. Екатеринбург : Изд-во УрГЭУ, 2005.

6. Максимов В. И., Никонов О. И. Моделирование риска и рисковых ситуаций : учеб. пособие. Екатеринбург : УГТУ-УПИ, 2004.

7. Nikonov O. I. Financial decisions via methods of guaranteed control theory // Pliska. Stud. math. Bulgar. 1998. Vol. 12.

8. Никонов О. И., Тимофеева Г. А. Методы теории гарантированного управления в задаче динамической реструктуризации инвестиционного портфеля // Тр. Ин-та математики и механики УрО РАН. 2000. Т. 6. № 2.

9. Никонов О. И., Харитонов И. О. Теория оптимизация и финансово-экономические приложения. Екатеринбург : УГТУ-УПИ, 1996.

10. Попов Е. В., Татаркин А. И. Теория анализа рынка. Екатеринбург : Ин-т экономики УрО РАН, 2000.

Аннотация научной статьи по математике, автор научной работы — Бабенко Виталина Алексеевна, Шориков Андрей Фёдорович

Похожие темы научных работ по математике , автор научной работы — Бабенко Виталина Алексеевна, Шориков Андрей Фёдорович

Handling the Task of Minimax Adaptive Management of Innovation Processes at Enterprise with Risks

Текст научной работы на тему «Решение задачи минимаксного адаптивного управления инновационными процессами на предприятии при наличии рисков»