правление в социально-экономических системах
УДК 623.4.083
РАНГОВЫЕ АДАПТИВНЫЕ МЕХАНИЗМЫ
В. В. Цыганов(1), М. В. Аржаков(2), Р. А. Багамаев(3)
(1) Институт проблем управления им. В. А. Трапезникова РАН, г. Москва; (2) ЗАО НПК «Атомтехнопром», г. Москва; 13) Коммерческий банк «Витас», г. Москва
Рассмотрены задачи синтеза прогрессивных адаптивных механизмов функционирования двухуровневой активной системы, Центр которой настраивает параметр решающего правила классификации. По ее результатам производится ранжирование и стимулирование дальновидного элемента системы. Найдены достаточные условия прогрессивности ранговых адаптивных механизмов для дальновидного и недальновидного Центра.
ВВЕДЕНИЕ
Традиционно, основным объектом исследований в теории активных систем является двухуровневая система, на верхнем уровне которой находится Центр, а на нижнем — дальновидный элемент (ДЭ). Многие задачи управления такими системами сводятся к классификации, по результатам которой этому элементу присваивается ранг, определяющий его стимулирование. Такие механизмы были названы ранговыми [1]. В ранговом адаптивном механизме (РАМ) информация о состояниях ДЭ, получаемая в процессе управления, используется Центром для настройки параметров процедур классификации и стимулирования. Необходимость в применении РАМ возникает, когда Центр должен работать в условиях неопределенности, а имеющаяся априорная информация настолько мала, что невозможно заранее спроектировать эффективный детерминированный ранговый механизм. Теоретическое направление, связанное с построением РАМ, нашло свое отражение в монографии [2]. В РАМ часто используются эвристические процедуры настройки параметра решающего правила, подобные применяемому на практике «планированию от достигнутого». Дальновидный элемент, зная процедуры РАМ, может предсказывать будущее управление Центра, в зависимости от собственного выбора сегодня. Он выбирает состояние, при котором его целевая функция максимальна, даже если это противоречит интересам Центра. Например, ДЭ может занижать показатели своей эффективности по сравнению с потенциально возможными. Поэтому представляет интерес решение задачи синтеза прогрессивного РАМ, обеспечивающего максимальное раскрытие потенциала ДЭ.
1. ДАЛЬНОВИДНЫЙ ОБУЧАЮЩИЙСЯ ЦЕНТР
Предположим, что Центр дальновиден и обучается, настраивая параметр решающего правила при классификации так, чтобы минимизировать средние потери. Такая настройка основана на наблюдениях состояния управляемого объекта и процедурах обучения [1—3]. Как и в работе [3], обозначим через Е случайную величину, характеризующую состояние объекта, Е е ДсЛ1. Рассмотрим задачу обучения дихотомической классификации ситуаций путем отнесения их к одной из двух областей, составляющих множество Д. Обозначим Д, Д,
Д
2
Д^ = Д. Задача состоит в определении разбиения,
k = 1
минимизирующего средний риск, связанный с классификацией. Предположим, что q(E) — известная стационарная плотность распределения случайной величины Е-
Введем для каждой, пока неизвестной области Дк, к = 1,2 Е
Минимизируется средний риск, оценивающий качество классификации
2
J(c)= £ jFk(c, ЕЖЕ) ^ ^ min. (1)
к=\ Дк
Принадлежность ситуации Е множествам ^^и Д, определяется знаком решающего правила |хр(с, Е) = ЕЕ
Е є Др если Цр(с, Е) < 0 и Е є Д,, если |Хр(с, Е) > 0.
(2)
Положим F^c, Е) = Е _ vc, F-,(c, Е) = d(c — Е)> гае v, d — параметры функции потерь, 0 < v < 1, d > 0, Е
вило (2), получаем его в виде
Е є Д,, если Е< ^си Е є Д„ если Е > --j-:--'с. (3)
d+ 1
:
где параметр решающего правила с определяется решением задачи (1).
Предположим теперь, что плотность распределения ц(Е) неизвестна, и непосредственное определение параметра с, как решения задачи оптимизации (1), невозможно. Возникает необходимость в настройке парамет-
Е
периода, / = 1, 2..., для минимизации среднего риска (1). Применяя метод стохастической аппроксимации для решения задачи (1), с учетом (3) можно показать, что процедура настройки оценки с1 параметра решающего правила имеет вид:
с,+ 1 = Лс„Е,) = І
с,+У,упри Е< j+jC,, C'-j'd при ^сг,
(4)
где у — коэффициент усиления [2].
Будем предполагать, что ДЭ может выбирать свое со-ЕЕ случайным потенциалом ДЭ. Дальновидный обучающийся Центр, наблюдая состояние у и используя процедуру обучения (4), формирует собственную оценку а1 параметра решающего правила, чтобы минимизировать средний риск. Классификация проводится путем сопоставления оценки а1 и состояния у. Затем определяется стимул ДЭ фг = /(ар у(). Тем самым дальновидный Центр формирует ранговый обучающийся механизм (РОМ) Ък = (1к, /), где 1к — процедура обучения (4), / — процедура стимулирования. Предполагается, что цель Центра состоит в синтезе прогрессивного механизма, обеспечивающего раскрытие потенциала ДЭ: Е
2. ДАЛЬНОВИДНЫЙ элемент
Целевая функция ДЭ в периоде / имеет вид г+ Т
К= £рт >т
т = г
(5)
где р — коэффициент дисконтирования, используемый для приведения будущих стимулов к текущему моменту р
емая в периодах времени. Поскольку цель ДЭ заключа-
ется в максимизации критерия (5), необходим прогноз потенциалов и состояний в будущем. Поскольку состояние у (при заданном потенциале Ет) зависит от самого ДЭ, в качестве прогнозных рассматриваются состояния, максимизирующие критерий (5). Введем оператор максимизации на множестве возможных состояний ДЭ в
периоде т: М% = тах. Введем также оператор Е% устра-Л£Ет
нения неопределенности относительно потенциала ДЭ в
периоде т т = ¡+ + Т. Применение оператора Ет к
любой функции ^(Е^), непрерывной при Е е Д, определяет некоторое ее значение #(Е°), Е 6 Д Е^{Е^= Я(Е°)-При выборе состояния у в периоде /, при заданном потенциале Ег> ДЭ должен решить задачу оптимизации критерия (5) с прогнозом потенциалов и состояний на периоды /+ 1,..., 1+ Т(кратко — задачу ОППС). Иными словами, ДЭ необходимо определить оптимальную позиционную стратегию в виде набора оптимальных состояний (у, ..., у + т) как функций его потенциала в те-
кущем и будущих периодах: у* = у^Е^, т = I, I + Т. После того, как ДЭ становится известно значение потенциала Е
Е
ной позиционной стратегии (у , ..., у + т), используя метод динамического программирования. Начнем с пери-Е
от у , т = / +Т- 1 , считаем заданными. С помощью
оператора М1 + т проведем оптимизацию целевой функции (5) по у + т. Тем самым определяется состояние
+ Е Е
т неизвестен. Поэтому, перед оптимизацией целевой функции (5) по у + т_ ], необходимо устранить неоп-
Е
+
Е
Е
зультате получаем «однократно усеченную» целевую функцию, которая отличается от функции (5) тем, что в ней устранена неопределенность в отношении потенциала и состояния ДЭ в периоде I + Т.
Для устранения неопределенности в отношении потенциала и состояния ДЭ в периоде / + Т — 1, проведем оптимизацию «усеченной» целевой функции по состоянию у + т_ ] с помощью оператора М + т_ ]. Тем самым,
определяется состояние У?+Т_\=У1 + т _ ) (Е+ у- ])• После этого к «усеченной» целевой функции ДЭ, в которой положено У?+Т_\=У1 + т_ ) (Е(+ 7- ])) применяется оператор Е1+ т_ ] устранения неопределенности в отноше-Е
ратно усеченную» целевую функцию, в которой, по сравнению с функцией (5), устранена неопределенность в отношении его потенциалов и состояний в периодах
/ + Г и / + Т — 1. Повторяя эту процедуру вплоть до периода / + 1 включительно, получаем «Г-кратно усеченную» целевую функцию К, (а, у ). Она отличается от целевой функции (5) тем, что в ней устранена неопределенность в отношении потенциалов и состояний ДЭ в
периодах / + 1, ..., / + Т. Формально функция К,(а,, у)
определяется путем последовательного применения к критерию (5) операторов М1+ т, Е1+ г, ..., М1+ р Е1+ р устраняющих неопределенность в отношении будущих состояний и потенциалов ДЭ в периодах / + Г, ..., / + 1.
Полагая = ЕГМГ...Е^М^, Е^ = ЕГ..Е^, имеем
Т = t + 1
=.f(a„ J^), ^ + i = lk(a%, yj, i=t,t +T. (6)
Дальновидный элемент решает задачу ОППС путем выбора состояния уе максимизирующего ожидаемое
значение критерия Vt(at, у,)- При выборе состояния у ДЭ известен потенциал Е,г Множество решений задачи ОППС в периоде t как множество состояний у*, при которых достигается максимальное значение ожидаемого критерия (6), имеет вид:
ЯДЕ, Е) = Arg max Vt(at, у).
yte Г(^)
Далее предполагается, что справедлива гипотеза благожелательности ДЭ по отношению к Центру: при одинаковых значениях целевой функции ДЭ выбирает состояние, наиболее благоприятное для Центра. Тогда, если Е е ЯДЕ, у, то у* = %г
3. ПРОГРЕССИВНЫЙ МЕХАНИЗМ ПРИ ДАЛЬНОВИДНОМ ЦЕНТРЕ
Рассмотрим РОМ Ък = (1к,/), в котором процедура
обучения (4) используется для получения текущих оценок параметра решающего правила:
а,+ \ = 1к(а,, У,)- (7)
Будем говорить, что РОМ Ък = (1к, /) прогрессивен, Е
Теорема 1. Для прогрессивности РОМ Ък = (1к,/) с процедурой настройки параметра решающего правила (8) достаточно, чтобы
/К, У,) = ®{У,~ а,(й + у)/(с1 + 1)) =
1 при У' > йг(г/ + +1),
О при У' < йг(г/ + \’)/(с1 + 1).
Доказательство этой и следующей теорем дано в Приложении.
Заметим, что, условия (7) и (8) аналогичны условиям прогрессивности самообучающегося механизма, приведенным в теореме 1 работы [3]. Однако достаточность условий (7) и (8) для прогрессивности РОМ Ък = (1к, /) доказана для случая ДЭ, решающего задачу оптимизации критерия (5) с прогнозом потенциалов и состояний на периоды / + 1, ..., 1+Т(задачу ОППС). Это предположение приводит к необходимости разработки особого метода доказательства, основанного на динамическом программировании и математической индукции. Таким образом, адаптивный механизм, удовлетворяющий условиям теоремы 1 работы [3], оказывается прогрессивным и при гипотезе ОППС с оператором Е устранения неопределенности относительно потенциала ДЭ, что существенно расширяет сферу его применимости в организационных системах.
4.НЕДАЛЬНОВИДНЫЙ ЦЕНТР
До сих пор предполагалась дальновидность Центра, понимаемая как его заинтересованность в обучении, с целью минимизации среднего риска при классификации. В РОМ будущая оценка параметра решающего правила понижается при росте состояния у* ДЭ. Предположим теперь, что Центр использует эвристическую процедуру настройки, повышая оценку параметра решающего правила при увеличении состояния у*. Такое
«планирование от достигнутого» не способствует заинтересованности ДЭ в раскрытии своего потенциала и связано с «проклятием координации» [2]. Кроме того, такая процедура настройки параметра решающего правила не обеспечивает обучение Центра и минимизацию среднего риска при классификации. Назовем использующий ее Центр недальновидным. Задача состоит в том, чтобы найти условия прогрессивности РАМ при недальновидном Центре, использующем при настройке параметра решающего правила е1 процедуру «планирования от достигнутого»:
к " в при УіК еі’
еі + і = Е(еі> У^ = \ е(+ вії при У' > ее (9)
где в, сі — неотрицательные величины. Согласно процедуре (9), если фактический выход у больше параметра е , то она увеличивается (и наоборот). Если у < е , то ДЭ относится к классу 1, в противном случае — к классу 2. По результатам классификации осуществляется ранжирование и стимулирование. Ранговый адаптивный механизм с процедурой настройки (9) будем обозначать Ъе = (Е, /).
Рассмотрим вероятностный подход к построению критерия (6), основанный на усреднении целевой функции (5) по возможным значениям потенциала на период дальновидности ДЭ. В качестве оператора устранения
48
CDNTRDL SCIENCES № 2 • 2DD7
неопределенности в отношении потенциала будем пользоваться оператором математического ожидания: Е =
= ^(Ет)с1Ет, гае — плотность распределения слу-
Д
чайной величины Ет- Предполагается, что
Е,бД^и +т. (Ю)
Будем говорить, что РАМ !е = (Е, /) прогрессивен, если у* = Ет, / = 1, 2...
Теорема 2. Д/гя прогрессивности РАМ!? = (Е,/) с процедурой настройки (9) достаточно, чтобы процедура стимулирования была ранговой
1 при у > е,
Яе,у) = &(у~е) = \апщу<е^ (П)
и выполнялось неравенство
вя*(\ + с1)Т<\. (12)
Условие (12) есть условие прогрессивности РАМ при недальновидном Центре. Оно определяет ограничения на характеристики случайного процесса, дальновидность элемента и процедуру настройки оценки параметра решающего правила, при которых ДЭ не занижает свои показатели, несмотря на недальновидность ЦентЕ
(д(Е) = 0, о2)), то ф = 1 /л/2яо и условие прогрессивности (12) имеет вид в < л/2по /Т( 1 + с1). В случае, если
потенциал распределен с одинаковой плотностью на отрезке длиной /, условие (12) имеет вид в < 12/Т(\ + с1). Для стохастического потенциала с плотностью распре-ЕЕ в
ЗАКЛЮЧЕНИЕ
Поставлены и решены задачи синтеза прогрессивных ранговых адаптивных механизмов функционирования двухуровневой активной системы, в которых Центр осуществляет настройку параметра решающего правила классификации, используя алгоритмы обучения, а также ранжирование и стимулирование. Найдены достаточные условия прогрессивности для дальновидного и недальновидного Центра. Перспективы дальнейших исследований ранговых адаптивных механизмов связаны с поиском необходимых условий их прогрессивности, а также поиском более общих постановок задач и методов их решения, в том числе на основе новых адаптивных алгоритмов.
ПРИЛОЖЕНИЕ
Доказательство теоремы 1 проводится с помощью методов динамического программирования и математической индукции. Для выбора ДЭ оптимального состояния (действия) у*
в периоде t необходимо решить задачу ОППС, определив оптимальную позиционную стратегию (.у(, ..., у + г) как функцию
потенциала ДЭ в текущем и будущих периодах: у% = ут(Ет), т =
= 1,1 + Т. После того, как ДЭ становится известно значение потенциала Е °н выбирает действие у* = у/Е,)- Определим оптимальную позиционную стратегию ДЭ (.у(, ..., у + т). Целевую функцию ДЭ (5), определяемую с точностью до членов, не содержащих выбираемую в периоде т переменную у , будем для краткости называть полезностью ДЭ в периоде т.
Определим вначале состояние yf+T = у + Г(Е, + т) в периоде t + Т, когда потенциал ДЭ Е + т и оценка а + т известны. Полезность ДЭ в периоде t+T определяется стимулом (8): f(al+ т, у1+ т) = в(у1+ т— а1+ т). Ее оптимизация no,yf+ гпро-водится с помощью оператора М + Г Согласно условиям (8), 0^, + та, + т) — неубывающая функция у,+ т при любых Е + т, yt + т < Е + т Следовательно, множество Rt + Г(Е, Е + т) = = Arg max f(a[ ^ т, у ж г) действий ДЭ у*+ т в периоде t+ Т,
yt+Tе ПЕ +т)
максимизирующих полезность ДЭ в периоде t + Т, включает в Е
гожелательности ДЭ по отношению к Центру, yf+T = Е + г Значение стимула ДЭ (значение полезности) в периоде t+T
v?+T=f(al+T, Уит) = ©O’и т- а,+ т) =
= в(Е, + т-в,+ г) (Т1-1)
зависит от а( + т и, следовательно, от состояния ДЭ у + т_ х в периоде t+ Т— 1. Определим теперь действие ДЭ У*+т_ ] . Проведем оптимизацию полезности ДЭ в периоде t+T— 1 по состоянию у + т_ j с помощью оператора М + т_ v Для этого необходимо знать зависимость полезности ДЭ от состояния yl+ т_ v Согласно функции (5), эта полезность включает в себя стимул ДЭ в периоде / + Т— 1, определяемый согласно условиям (8), и ожидаемый стимул ДЭ (Т1.1) в периоде t + Т, зависящий от слу-Е
неизвестно. Поэтому в периоде / + Т — 1 неизвестна и зависимость стимула ДЭ vf+ т (Т 1.1) от состояния у т_г
Для определения ожидаемого значения стимула (Т1.1) в периоде t + 7’необходимо устранить неопределенность в отноше-Е
значение стимула в периоде t+T
Е, + гК+ т = Е, + Г0(Е + Т- а,+ г>- <Т1 -2>
Полезность ДЭ в периоде / + Т — 1, как функция у1+ т_ согласно целевой функции (5) имеет вид суммы стимула в текущем периоде (см. выражение (8)) и дисконтированного ожидаемого стимула (Т1.2) — в будущем:
Vr-i = eOWr-i а,*т-д +
+ РЕ1+тв(Е1 + т- al+T). (Т 1.3)
Для определения множества R т_ j(Z, % т_ j) оптимальЕ
проведем оптимизацию полезности (Т1.3) по у т_ 1 с помощью оператора М + т_ г По условиям (8), с ростом показателя
У,+ стимул 0(у1 + Т_1 — аг+ г_,) не убывает. Далее, Центр
использует процедуру обучения 1к (7), при которой оценка а1+ т не возрастает с увеличением показателя у, + т_ Следовательно, согласно условиям (8), дисконтированный ожидаемый стимул (Т1.2) не убывает с ростом показателя у т_ р полезность (Т1.3) — неубывающая функция у т_ р множество Л + т_,(Х, Е,+ г_ ,) оплмшьных действий ДЭ у*+т_ ] в периоде 1+ Т— 1, максимизирующих полезность ДЭ в периоде / + 7’— 1, включает в себя потенциал Е,+ т_ Согласно гипотезе благожелательности ДЭ по отношению к Центру, если Е, + т _ , е е Я[+ т_ ,(!, Е, + г- ])> то у*+т_\ = Е, + т_ ,. Тогда полезность ДЭ в периоде /+ 7’— 1, согласно выражению (Т1.3), имеет вид: К+Т-1 =®(% + т-1-а1+т-1) + рЕ1+тв&, + т- а?+т)> <+т =
= 7 (а1+ т_ ,Е,+ г_ ,)■
Далее доказательство проводится по индукции. Предположим, что для некоторого 5, / + / + 7’ — 1, выполняется
условие У* = Ет, Л < Т < 1 + Т— 1, и полезность ДЭ в периоде 5
= 0^ -а^ + рт-^ + , ... - О,
Т = ¿' + 1
< = 7*^ - 1> Ет - 1>> т= ТГй+Т. (Т1.4)
Докажем, что у*] = Еi _ г Для устранения неопределенности в отношении состояния у _ 1 проведем оптимизацию полезности ДЭ в периоде 5 — 1 с помощью оператора _ ¡. Эта полезность включает в себя стимул ДЭ в периоде я — 1, определяемый согласно условиям (9), а также полезность ДЭ в периоде 5 (Т1.4), которая зависит от состояния ДЭ у _ 1 в периоде 5 — 1. Но полезность (Т1.4) зависит от случайного потенциала Е , значение которого в периоде я — 1 неизвестно. Поэтому в периоде 5 — 1 неизвестна и зависимость V* от у _ г Устраняя неопределенность в отношении с помощью оператора математического ожидания Е, получаем ожидаемое значение полезности ДЭ в периоде л-:
Е> V? = ‘е РТ"Ч ■■■ ^0(Ет “ О- (Т 1.5)
=
Полезность ДЭ в периоде 5 — 1 как функция у _ р согласно целевой функции (5), имеет вид суммы текущего стимула (см. выражение (9)) и дисконтированного ожидаемого значения полезности ДЭ в будущем (Т1.5):
У4_1 = ®(УА_1 - а,-х) +
+
+ е РТ-' + 1^-^(Ет- О- (Т1.6)
=
Для определения множества _ ДХ, Е% _ ^ оптимальных
Е
тимизацию полезности (Т1.6) по у _ 1 с помощью оператора М г По условиям (8), с ростом показателя у _ р стимул 0 (у _ 1 — а%_ ]) не убывает. Далее, Центр использует процедуру обучения 1к (7), при которой оценка не возрастает с увеличением показателя ,у( _ ¡. Следовательно, согласно условиям (8), дисконтированный ожидаемый стимул (Т1.2) не убывает с ростом показателя у _ г Таким образом, полезность ДЭ (Т1.6) — неубывающая функция у _ 1. Но, согласно гипотезе благожелатель-
ности ДЭ ПО отношению К Центру, если Е ! е Л _ Е% - ])) то у*_ ] = % у Поскольку .ч > Г + 1, то, полагая я = 1 + 1, получаем: у* = Ег Таким образом, РОМ !к = (7*,/) является прогрессивным.
Доказательство теоремы 2 проводится методами динамического программирования и математической индукции, подобно доказательству теоремы 1. Определим вначале состо-
+Е
Е
0
Ее оптимизация по у1 + т проводится с помощью оператора М1 + т. 0
ЕЕ
твии с гипотезой благожелательности ДЭ по отношению к Цен-+Е в периоде 1+Т
У?+т=/(е1+ т, $+т) = 0(^ +т - е1+ т) =
= 0(Е1+т-е1+т) (Т2.1)
зависит от оценки е1 + т и, следовательно, от состояния ДЭ У, + т _ ! В периоде / + 7’ — 1.
Определим теперь состояние У*+т_ ] , оптимизируя полезность ДЭ в периоде / + 7’ — 1 по состоянию у + т_ [ с помощью оператора М + т _ ¡. Согласно функции (5), эта полезность включает в себя стимул ДЭ в периоде / + 7’— 1, определяемый согласно выражению (11), и ожидаемый стимул (Т2.1) в пери-
Е
которого в периоде / + 7’ — 1 неизвестно. Поэтому в периоде / + 7’— 1 неизвестна и зависимость стимула (Т2.1) от у т_ Чтобы определить ожидаемое значение стимула (Т2.1) в периоде / + 7’, необходимо устранить неопределенность в отноше-Е
ожидания Е1 + г В результате получаем математическое ожидание полезности ДЭ <у(*+ г) в периоде 1 + Тч.
<П*+г> = £,+ г*Г+т= \0(Е1+т-е,+ т^(Е1+т^Е1+т- (Т2.2)
Д
Полезность ДЭ в периоде / + 7’— 1, как функция у т_ р согласно целевой функции (5) имеет вид суммы стимула в текущем периоде (11) и дисконтированной будущей полезности (Т2.2):
0
+ р|0(Е,+ г-е,+ г)?(ЕМЕ- (Т2.3)
Д
Для определения действия ДЭ У*+т_ ] в периоде 1 + Т — 1 проведем оптимизацию полезности (Т2.3) по у т_{ с помощью оператора М + т_1. Нетрудно показать, что
Э у1 + т_ , ( е- + т_ ,, у- + т_ ,) §
+ Т- + Т- 1 ’ е1+Т- 1Ь 1Д1-
°У 1+Т-1
10, если у * е, у.
5(у - е) = если у = причем | е)ч{1)ё1= Ч(е)0(у- е),
^ ' о
и к + т_ ! удовлетворяет неравенству
к1+т_1>\- ^^0 + ^) > 1 - в<?*(1 + >
> 1 - в<?*(1 + а)т>о.
Первое неравенство имеет место согласно предположению (10), второе — в силу неравенств 0 < р < 1, третье — в силу неравенства Г> 1 и четвертое — по условию (12) теоремы. Следова-
0
Е
Но тогда, в соответствии с гипотезой благожелательности ДЭ по отношению к Центру, у?+т_, = Е,+ т - г Полезность ДЭ в периоде /+ 7’— 1, согласно формуле (Т2.3), имеет вид:
'>>*+Т-\ ~ 0Е1 + г- / е, + г- /) ^ р |0Е + т ег + + Т^Е1 + Т'
Д
Далее доказательство проводится по индукции. Предположим, что для некоторого л-, / + 1 < я < / + 7’— 1, выполняется условие уТ = Е^ ^ Т < 1 + Т — 1 и полезность ДЭ в периоде Л' +
V* = - е) + | рт _*$с1Е, + ,<?(Е, + ,)■■■
т = ¿'+ 1 Д
(Т2.4)
Докажем, что у*_^ — Е4 — Для устранения неопределенности В отношении СОСТОЯНИЯ _ ! проведем оптимизацию полезности ДЭ в периоде 5 — 1 с помощью оператора _ ¡. Эта полезность включает в себя стимул ДЭ в периоде я — 1, определяемый согласно выражению (11), а также полезность (Т2.4), которая зависит от состояния ,у( _ { ДЭ в периоде я — 1. Но по-
Е
которого в периоде 5 — 1 неизвестно. Устраняя неопределен-Е
ожидания Е, получаем ожидаемое значение полезности ДЭ в периоде л:
+
<у*) = £Л* = е рТ_1|</ЕЖ)... /¿Е,?(Ет)0(Е, - вт). (Т2.5)
Полезность ДЭ в периоде 5 — 1, как функция у _ р согласно целевой функции (5) имеет вид суммы текущего стимула (11) и дисконтированной ожидаемой полезности (Т2.5):
V4_1= в(у^ _ , - es _ j) + і рт s + 1
Т = S А
... /адув^-вт). (Т2.6)
Определим действие У*_ ] в периоде 5 1, проводя оптими-
зацию полезности (Т2.6) по ,у( _ { с помощью оператора А/ _ ¡. Э^_ ,(е5._ ьух_ ,) _
Нетрудно показать, что
і5^-
причем _ j удовлетворяет неравенствам:
> 1 - ^*р(1 + d)
> 1 - р?*р(1 + d)
і
t+T-s
і РТ
> 1 - p<?*(i + Т-i)(l + d)>
> 1 - р,?*(1 + d)T> 0.
Второе и пятое неравенства имеют место в силу условия
р
в силу неравенства / < я. Следовательно, _ ¡(е( _ ¡, ,у( _ ¡) = 0
Е
гожелательности ДЭ по отношению к Центру, = Е*_ ]■
Е
Xе = (Е,/) прогрессивен.
ЛИТЕРАТУРА
1. Цыганов В .В. Адаптивные механизмы в отраслевом управлении. М.: Наука, 1991. — 166 с.
2. Цыганов В. В., Бородин В. А., Шишкин Г. Б. Интеллектуальное предприятие: механизмы овладения капиталом и властью. — М.: Университетская книга, 2004. — 776 с.
3. Агеев И. А., Гурлее И. В., Цыганов В. В. Механизмы манипулирования корпорацией // Проблемы управления. — 2004. - № 3. - С. 34-38.
Я (495) 334-91-91
e-mail: [email protected]
Статья представлена к публикации членом редколлегии
В. В. Кульбой. □
Т = і
Т = S
книга
Новиков А.М., Новиков Д.А. Методология. — М.: СИНТЕГ. — BBS с.
С позиций системного анализа в логике современного проектно-технологического типа организационной культуры изложены основы методологии как учения об организации деятельности (научной, практической, художественной, учебной и игровой).
Предназначена для научных и практических работников, а также студентов, аспирантов и докторантов. В первую очередь — для преподавателей вузов и институтов повышения квалификации в целях использования при подготовке курсов лекций по теории систем, системному анализу, методологии научных исследований, инновационной деятельности, проектированию систем, управлению проектами и др.
Сайты авторов в Интернете — электронная библиотека (бесплатный доступ) www.anovikov(3>.ru ; www.mtas.ru