Научная статья на тему 'Ранговые адаптивные механизмы'

Ранговые адаптивные механизмы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
110
42
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Цыганов В. В., Аржаков М. В., Багамаев Р. А.

Рассмотрены задачи синтеза прогрессивных адаптивных механизмов функционирования двухуровневой активной системы, Центр которой настраивает параметр решающего правила классификации. По ее результатам производится ранжирование и стимулирование дальновидного элемента системы. Найдены достаточные условия прогрессивности ранговых адаптивных механизмов для дальновидного и недальновидного Центра.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ADAPTIVE RANKING MECHANISMS

The paper discusses the synthesis of progressive adaptive operation mechanisms of a two-level active system whose Center adjusts the parameter of classification decision rule. Based on classification results, the long-sighted system element is ranked and stimulated. Sufficient conditions of the progressiveness of adaptive ranking mechanisms are determined for longand short-sighted Center

Текст научной работы на тему «Ранговые адаптивные механизмы»

правление в социально-экономических системах

УДК 623.4.083

РАНГОВЫЕ АДАПТИВНЫЕ МЕХАНИЗМЫ

В. В. Цыганов(1), М. В. Аржаков(2), Р. А. Багамаев(3)

(1) Институт проблем управления им. В. А. Трапезникова РАН, г. Москва; (2) ЗАО НПК «Атомтехнопром», г. Москва; 13) Коммерческий банк «Витас», г. Москва

Рассмотрены задачи синтеза прогрессивных адаптивных механизмов функционирования двухуровневой активной системы, Центр которой настраивает параметр решающего правила классификации. По ее результатам производится ранжирование и стимулирование дальновидного элемента системы. Найдены достаточные условия прогрессивности ранговых адаптивных механизмов для дальновидного и недальновидного Центра.

ВВЕДЕНИЕ

Традиционно, основным объектом исследований в теории активных систем является двухуровневая система, на верхнем уровне которой находится Центр, а на нижнем — дальновидный элемент (ДЭ). Многие задачи управления такими системами сводятся к классификации, по результатам которой этому элементу присваивается ранг, определяющий его стимулирование. Такие механизмы были названы ранговыми [1]. В ранговом адаптивном механизме (РАМ) информация о состояниях ДЭ, получаемая в процессе управления, используется Центром для настройки параметров процедур классификации и стимулирования. Необходимость в применении РАМ возникает, когда Центр должен работать в условиях неопределенности, а имеющаяся априорная информация настолько мала, что невозможно заранее спроектировать эффективный детерминированный ранговый механизм. Теоретическое направление, связанное с построением РАМ, нашло свое отражение в монографии [2]. В РАМ часто используются эвристические процедуры настройки параметра решающего правила, подобные применяемому на практике «планированию от достигнутого». Дальновидный элемент, зная процедуры РАМ, может предсказывать будущее управление Центра, в зависимости от собственного выбора сегодня. Он выбирает состояние, при котором его целевая функция максимальна, даже если это противоречит интересам Центра. Например, ДЭ может занижать показатели своей эффективности по сравнению с потенциально возможными. Поэтому представляет интерес решение задачи синтеза прогрессивного РАМ, обеспечивающего максимальное раскрытие потенциала ДЭ.

1. ДАЛЬНОВИДНЫЙ ОБУЧАЮЩИЙСЯ ЦЕНТР

Предположим, что Центр дальновиден и обучается, настраивая параметр решающего правила при классификации так, чтобы минимизировать средние потери. Такая настройка основана на наблюдениях состояния управляемого объекта и процедурах обучения [1—3]. Как и в работе [3], обозначим через Е случайную величину, характеризующую состояние объекта, Е е ДсЛ1. Рассмотрим задачу обучения дихотомической классификации ситуаций путем отнесения их к одной из двух областей, составляющих множество Д. Обозначим Д, Д,

Д

2

Д^ = Д. Задача состоит в определении разбиения,

k = 1

минимизирующего средний риск, связанный с классификацией. Предположим, что q(E) — известная стационарная плотность распределения случайной величины Е-

Введем для каждой, пока неизвестной области Дк, к = 1,2 Е

Минимизируется средний риск, оценивающий качество классификации

2

J(c)= £ jFk(c, ЕЖЕ) ^ ^ min. (1)

к=\ Дк

Принадлежность ситуации Е множествам ^^и Д, определяется знаком решающего правила |хр(с, Е) = ЕЕ

Е є Др если Цр(с, Е) < 0 и Е є Д,, если |Хр(с, Е) > 0.

(2)

Положим F^c, Е) = Е _ vc, F-,(c, Е) = d(c — Е)> гае v, d — параметры функции потерь, 0 < v < 1, d > 0, Е

вило (2), получаем его в виде

Е є Д,, если Е< ^си Е є Д„ если Е > --j-:--'с. (3)

d+ 1

:

где параметр решающего правила с определяется решением задачи (1).

Предположим теперь, что плотность распределения ц(Е) неизвестна, и непосредственное определение параметра с, как решения задачи оптимизации (1), невозможно. Возникает необходимость в настройке парамет-

Е

периода, / = 1, 2..., для минимизации среднего риска (1). Применяя метод стохастической аппроксимации для решения задачи (1), с учетом (3) можно показать, что процедура настройки оценки с1 параметра решающего правила имеет вид:

с,+ 1 = Лс„Е,) = І

с,+У,упри Е< j+jC,, C'-j'd при ^сг,

(4)

где у — коэффициент усиления [2].

Будем предполагать, что ДЭ может выбирать свое со-ЕЕ случайным потенциалом ДЭ. Дальновидный обучающийся Центр, наблюдая состояние у и используя процедуру обучения (4), формирует собственную оценку а1 параметра решающего правила, чтобы минимизировать средний риск. Классификация проводится путем сопоставления оценки а1 и состояния у. Затем определяется стимул ДЭ фг = /(ар у(). Тем самым дальновидный Центр формирует ранговый обучающийся механизм (РОМ) Ък = (1к, /), где 1к — процедура обучения (4), / — процедура стимулирования. Предполагается, что цель Центра состоит в синтезе прогрессивного механизма, обеспечивающего раскрытие потенциала ДЭ: Е

2. ДАЛЬНОВИДНЫЙ элемент

Целевая функция ДЭ в периоде / имеет вид г+ Т

К= £рт >т

т = г

(5)

где р — коэффициент дисконтирования, используемый для приведения будущих стимулов к текущему моменту р

емая в периодах времени. Поскольку цель ДЭ заключа-

ется в максимизации критерия (5), необходим прогноз потенциалов и состояний в будущем. Поскольку состояние у (при заданном потенциале Ет) зависит от самого ДЭ, в качестве прогнозных рассматриваются состояния, максимизирующие критерий (5). Введем оператор максимизации на множестве возможных состояний ДЭ в

периоде т: М% = тах. Введем также оператор Е% устра-Л£Ет

нения неопределенности относительно потенциала ДЭ в

периоде т т = ¡+ + Т. Применение оператора Ет к

любой функции ^(Е^), непрерывной при Е е Д, определяет некоторое ее значение #(Е°), Е 6 Д Е^{Е^= Я(Е°)-При выборе состояния у в периоде /, при заданном потенциале Ег> ДЭ должен решить задачу оптимизации критерия (5) с прогнозом потенциалов и состояний на периоды /+ 1,..., 1+ Т(кратко — задачу ОППС). Иными словами, ДЭ необходимо определить оптимальную позиционную стратегию в виде набора оптимальных состояний (у, ..., у + т) как функций его потенциала в те-

кущем и будущих периодах: у* = у^Е^, т = I, I + Т. После того, как ДЭ становится известно значение потенциала Е

Е

ной позиционной стратегии (у , ..., у + т), используя метод динамического программирования. Начнем с пери-Е

от у , т = / +Т- 1 , считаем заданными. С помощью

оператора М1 + т проведем оптимизацию целевой функции (5) по у + т. Тем самым определяется состояние

+ Е Е

т неизвестен. Поэтому, перед оптимизацией целевой функции (5) по у + т_ ], необходимо устранить неоп-

Е

+

Е

Е

зультате получаем «однократно усеченную» целевую функцию, которая отличается от функции (5) тем, что в ней устранена неопределенность в отношении потенциала и состояния ДЭ в периоде I + Т.

Для устранения неопределенности в отношении потенциала и состояния ДЭ в периоде / + Т — 1, проведем оптимизацию «усеченной» целевой функции по состоянию у + т_ ] с помощью оператора М + т_ ]. Тем самым,

определяется состояние У?+Т_\=У1 + т _ ) (Е+ у- ])• После этого к «усеченной» целевой функции ДЭ, в которой положено У?+Т_\=У1 + т_ ) (Е(+ 7- ])) применяется оператор Е1+ т_ ] устранения неопределенности в отноше-Е

ратно усеченную» целевую функцию, в которой, по сравнению с функцией (5), устранена неопределенность в отношении его потенциалов и состояний в периодах

/ + Г и / + Т — 1. Повторяя эту процедуру вплоть до периода / + 1 включительно, получаем «Г-кратно усеченную» целевую функцию К, (а, у ). Она отличается от целевой функции (5) тем, что в ней устранена неопределенность в отношении потенциалов и состояний ДЭ в

периодах / + 1, ..., / + Т. Формально функция К,(а,, у)

определяется путем последовательного применения к критерию (5) операторов М1+ т, Е1+ г, ..., М1+ р Е1+ р устраняющих неопределенность в отношении будущих состояний и потенциалов ДЭ в периодах / + Г, ..., / + 1.

Полагая = ЕГМГ...Е^М^, Е^ = ЕГ..Е^, имеем

Т = t + 1

=.f(a„ J^), ^ + i = lk(a%, yj, i=t,t +T. (6)

Дальновидный элемент решает задачу ОППС путем выбора состояния уе максимизирующего ожидаемое

значение критерия Vt(at, у,)- При выборе состояния у ДЭ известен потенциал Е,г Множество решений задачи ОППС в периоде t как множество состояний у*, при которых достигается максимальное значение ожидаемого критерия (6), имеет вид:

ЯДЕ, Е) = Arg max Vt(at, у).

yte Г(^)

Далее предполагается, что справедлива гипотеза благожелательности ДЭ по отношению к Центру: при одинаковых значениях целевой функции ДЭ выбирает состояние, наиболее благоприятное для Центра. Тогда, если Е е ЯДЕ, у, то у* = %г

3. ПРОГРЕССИВНЫЙ МЕХАНИЗМ ПРИ ДАЛЬНОВИДНОМ ЦЕНТРЕ

Рассмотрим РОМ Ък = (1к,/), в котором процедура

обучения (4) используется для получения текущих оценок параметра решающего правила:

а,+ \ = 1к(а,, У,)- (7)

Будем говорить, что РОМ Ък = (1к, /) прогрессивен, Е

Теорема 1. Для прогрессивности РОМ Ък = (1к,/) с процедурой настройки параметра решающего правила (8) достаточно, чтобы

/К, У,) = ®{У,~ а,(й + у)/(с1 + 1)) =

1 при У' > йг(г/ + +1),

О при У' < йг(г/ + \’)/(с1 + 1).

Доказательство этой и следующей теорем дано в Приложении.

Заметим, что, условия (7) и (8) аналогичны условиям прогрессивности самообучающегося механизма, приведенным в теореме 1 работы [3]. Однако достаточность условий (7) и (8) для прогрессивности РОМ Ък = (1к, /) доказана для случая ДЭ, решающего задачу оптимизации критерия (5) с прогнозом потенциалов и состояний на периоды / + 1, ..., 1+Т(задачу ОППС). Это предположение приводит к необходимости разработки особого метода доказательства, основанного на динамическом программировании и математической индукции. Таким образом, адаптивный механизм, удовлетворяющий условиям теоремы 1 работы [3], оказывается прогрессивным и при гипотезе ОППС с оператором Е устранения неопределенности относительно потенциала ДЭ, что существенно расширяет сферу его применимости в организационных системах.

4.НЕДАЛЬНОВИДНЫЙ ЦЕНТР

До сих пор предполагалась дальновидность Центра, понимаемая как его заинтересованность в обучении, с целью минимизации среднего риска при классификации. В РОМ будущая оценка параметра решающего правила понижается при росте состояния у* ДЭ. Предположим теперь, что Центр использует эвристическую процедуру настройки, повышая оценку параметра решающего правила при увеличении состояния у*. Такое

«планирование от достигнутого» не способствует заинтересованности ДЭ в раскрытии своего потенциала и связано с «проклятием координации» [2]. Кроме того, такая процедура настройки параметра решающего правила не обеспечивает обучение Центра и минимизацию среднего риска при классификации. Назовем использующий ее Центр недальновидным. Задача состоит в том, чтобы найти условия прогрессивности РАМ при недальновидном Центре, использующем при настройке параметра решающего правила е1 процедуру «планирования от достигнутого»:

к " в при УіК еі’

еі + і = Е(еі> У^ = \ е(+ вії при У' > ее (9)

где в, сі — неотрицательные величины. Согласно процедуре (9), если фактический выход у больше параметра е , то она увеличивается (и наоборот). Если у < е , то ДЭ относится к классу 1, в противном случае — к классу 2. По результатам классификации осуществляется ранжирование и стимулирование. Ранговый адаптивный механизм с процедурой настройки (9) будем обозначать Ъе = (Е, /).

Рассмотрим вероятностный подход к построению критерия (6), основанный на усреднении целевой функции (5) по возможным значениям потенциала на период дальновидности ДЭ. В качестве оператора устранения

48

CDNTRDL SCIENCES № 2 • 2DD7

неопределенности в отношении потенциала будем пользоваться оператором математического ожидания: Е =

= ^(Ет)с1Ет, гае — плотность распределения слу-

Д

чайной величины Ет- Предполагается, что

Е,бД^и +т. (Ю)

Будем говорить, что РАМ !е = (Е, /) прогрессивен, если у* = Ет, / = 1, 2...

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Теорема 2. Д/гя прогрессивности РАМ!? = (Е,/) с процедурой настройки (9) достаточно, чтобы процедура стимулирования была ранговой

1 при у > е,

Яе,у) = &(у~е) = \апщу<е^ (П)

и выполнялось неравенство

вя*(\ + с1)Т<\. (12)

Условие (12) есть условие прогрессивности РАМ при недальновидном Центре. Оно определяет ограничения на характеристики случайного процесса, дальновидность элемента и процедуру настройки оценки параметра решающего правила, при которых ДЭ не занижает свои показатели, несмотря на недальновидность ЦентЕ

(д(Е) = 0, о2)), то ф = 1 /л/2яо и условие прогрессивности (12) имеет вид в < л/2по /Т( 1 + с1). В случае, если

потенциал распределен с одинаковой плотностью на отрезке длиной /, условие (12) имеет вид в < 12/Т(\ + с1). Для стохастического потенциала с плотностью распре-ЕЕ в

ЗАКЛЮЧЕНИЕ

Поставлены и решены задачи синтеза прогрессивных ранговых адаптивных механизмов функционирования двухуровневой активной системы, в которых Центр осуществляет настройку параметра решающего правила классификации, используя алгоритмы обучения, а также ранжирование и стимулирование. Найдены достаточные условия прогрессивности для дальновидного и недальновидного Центра. Перспективы дальнейших исследований ранговых адаптивных механизмов связаны с поиском необходимых условий их прогрессивности, а также поиском более общих постановок задач и методов их решения, в том числе на основе новых адаптивных алгоритмов.

ПРИЛОЖЕНИЕ

Доказательство теоремы 1 проводится с помощью методов динамического программирования и математической индукции. Для выбора ДЭ оптимального состояния (действия) у*

в периоде t необходимо решить задачу ОППС, определив оптимальную позиционную стратегию (.у(, ..., у + г) как функцию

потенциала ДЭ в текущем и будущих периодах: у% = ут(Ет), т =

= 1,1 + Т. После того, как ДЭ становится известно значение потенциала Е °н выбирает действие у* = у/Е,)- Определим оптимальную позиционную стратегию ДЭ (.у(, ..., у + т). Целевую функцию ДЭ (5), определяемую с точностью до членов, не содержащих выбираемую в периоде т переменную у , будем для краткости называть полезностью ДЭ в периоде т.

Определим вначале состояние yf+T = у + Г(Е, + т) в периоде t + Т, когда потенциал ДЭ Е + т и оценка а + т известны. Полезность ДЭ в периоде t+T определяется стимулом (8): f(al+ т, у1+ т) = в(у1+ т— а1+ т). Ее оптимизация no,yf+ гпро-водится с помощью оператора М + Г Согласно условиям (8), 0^, + та, + т) — неубывающая функция у,+ т при любых Е + т, yt + т < Е + т Следовательно, множество Rt + Г(Е, Е + т) = = Arg max f(a[ ^ т, у ж г) действий ДЭ у*+ т в периоде t+ Т,

yt+Tе ПЕ +т)

максимизирующих полезность ДЭ в периоде t + Т, включает в Е

гожелательности ДЭ по отношению к Центру, yf+T = Е + г Значение стимула ДЭ (значение полезности) в периоде t+T

v?+T=f(al+T, Уит) = ©O’и т- а,+ т) =

= в(Е, + т-в,+ г) (Т1-1)

зависит от а( + т и, следовательно, от состояния ДЭ у + т_ х в периоде t+ Т— 1. Определим теперь действие ДЭ У*+т_ ] . Проведем оптимизацию полезности ДЭ в периоде t+T— 1 по состоянию у + т_ j с помощью оператора М + т_ v Для этого необходимо знать зависимость полезности ДЭ от состояния yl+ т_ v Согласно функции (5), эта полезность включает в себя стимул ДЭ в периоде / + Т— 1, определяемый согласно условиям (8), и ожидаемый стимул ДЭ (Т1.1) в периоде t + Т, зависящий от слу-Е

неизвестно. Поэтому в периоде / + Т — 1 неизвестна и зависимость стимула ДЭ vf+ т (Т 1.1) от состояния у т_г

Для определения ожидаемого значения стимула (Т1.1) в периоде t + 7’необходимо устранить неопределенность в отноше-Е

значение стимула в периоде t+T

Е, + гК+ т = Е, + Г0(Е + Т- а,+ г>- <Т1 -2>

Полезность ДЭ в периоде / + Т — 1, как функция у1+ т_ согласно целевой функции (5) имеет вид суммы стимула в текущем периоде (см. выражение (8)) и дисконтированного ожидаемого стимула (Т1.2) — в будущем:

Vr-i = eOWr-i а,*т-д +

+ РЕ1+тв(Е1 + т- al+T). (Т 1.3)

Для определения множества R т_ j(Z, % т_ j) оптимальЕ

проведем оптимизацию полезности (Т1.3) по у т_ 1 с помощью оператора М + т_ г По условиям (8), с ростом показателя

У,+ стимул 0(у1 + Т_1 — аг+ г_,) не убывает. Далее, Центр

использует процедуру обучения 1к (7), при которой оценка а1+ т не возрастает с увеличением показателя у, + т_ Следовательно, согласно условиям (8), дисконтированный ожидаемый стимул (Т1.2) не убывает с ростом показателя у т_ р полезность (Т1.3) — неубывающая функция у т_ р множество Л + т_,(Х, Е,+ г_ ,) оплмшьных действий ДЭ у*+т_ ] в периоде 1+ Т— 1, максимизирующих полезность ДЭ в периоде / + 7’— 1, включает в себя потенциал Е,+ т_ Согласно гипотезе благожелательности ДЭ по отношению к Центру, если Е, + т _ , е е Я[+ т_ ,(!, Е, + г- ])> то у*+т_\ = Е, + т_ ,. Тогда полезность ДЭ в периоде /+ 7’— 1, согласно выражению (Т1.3), имеет вид: К+Т-1 =®(% + т-1-а1+т-1) + рЕ1+тв&, + т- а?+т)> <+т =

= 7 (а1+ т_ ,Е,+ г_ ,)■

Далее доказательство проводится по индукции. Предположим, что для некоторого 5, / + / + 7’ — 1, выполняется

условие У* = Ет, Л < Т < 1 + Т— 1, и полезность ДЭ в периоде 5

= 0^ -а^ + рт-^ + , ... - О,

Т = ¿' + 1

< = 7*^ - 1> Ет - 1>> т= ТГй+Т. (Т1.4)

Докажем, что у*] = Еi _ г Для устранения неопределенности в отношении состояния у _ 1 проведем оптимизацию полезности ДЭ в периоде 5 — 1 с помощью оператора _ ¡. Эта полезность включает в себя стимул ДЭ в периоде я — 1, определяемый согласно условиям (9), а также полезность ДЭ в периоде 5 (Т1.4), которая зависит от состояния ДЭ у _ 1 в периоде 5 — 1. Но полезность (Т1.4) зависит от случайного потенциала Е , значение которого в периоде я — 1 неизвестно. Поэтому в периоде 5 — 1 неизвестна и зависимость V* от у _ г Устраняя неопределенность в отношении с помощью оператора математического ожидания Е, получаем ожидаемое значение полезности ДЭ в периоде л-:

Е> V? = ‘е РТ"Ч ■■■ ^0(Ет “ О- (Т 1.5)

=

Полезность ДЭ в периоде 5 — 1 как функция у _ р согласно целевой функции (5), имеет вид суммы текущего стимула (см. выражение (9)) и дисконтированного ожидаемого значения полезности ДЭ в будущем (Т1.5):

У4_1 = ®(УА_1 - а,-х) +

+

+ е РТ-' + 1^-^(Ет- О- (Т1.6)

=

Для определения множества _ ДХ, Е% _ ^ оптимальных

Е

тимизацию полезности (Т1.6) по у _ 1 с помощью оператора М г По условиям (8), с ростом показателя у _ р стимул 0 (у _ 1 — а%_ ]) не убывает. Далее, Центр использует процедуру обучения 1к (7), при которой оценка не возрастает с увеличением показателя ,у( _ ¡. Следовательно, согласно условиям (8), дисконтированный ожидаемый стимул (Т1.2) не убывает с ростом показателя у _ г Таким образом, полезность ДЭ (Т1.6) — неубывающая функция у _ 1. Но, согласно гипотезе благожелатель-

ности ДЭ ПО отношению К Центру, если Е ! е Л _ Е% - ])) то у*_ ] = % у Поскольку .ч > Г + 1, то, полагая я = 1 + 1, получаем: у* = Ег Таким образом, РОМ !к = (7*,/) является прогрессивным.

Доказательство теоремы 2 проводится методами динамического программирования и математической индукции, подобно доказательству теоремы 1. Определим вначале состо-

Е

0

Ее оптимизация по у1 + т проводится с помощью оператора М1 + т. 0

ЕЕ

твии с гипотезой благожелательности ДЭ по отношению к Цен-+Е в периоде 1+Т

У?+т=/(е1+ т, $+т) = 0(^ +т - е1+ т) =

= 0(Е1+т-е1+т) (Т2.1)

зависит от оценки е1 + т и, следовательно, от состояния ДЭ У, + т _ ! В периоде / + 7’ — 1.

Определим теперь состояние У*+т_ ] , оптимизируя полезность ДЭ в периоде / + 7’ — 1 по состоянию у + т_ [ с помощью оператора М + т _ ¡. Согласно функции (5), эта полезность включает в себя стимул ДЭ в периоде / + 7’— 1, определяемый согласно выражению (11), и ожидаемый стимул (Т2.1) в пери-

Е

которого в периоде / + 7’ — 1 неизвестно. Поэтому в периоде / + 7’— 1 неизвестна и зависимость стимула (Т2.1) от у т_ Чтобы определить ожидаемое значение стимула (Т2.1) в периоде / + 7’, необходимо устранить неопределенность в отноше-Е

ожидания Е1 + г В результате получаем математическое ожидание полезности ДЭ <у(*+ г) в периоде 1 + Тч.

<П*+г> = £,+ г*Г+т= \0(Е1+т-е,+ т^(Е1+т^Е1+т- (Т2.2)

Д

Полезность ДЭ в периоде / + 7’— 1, как функция у т_ р согласно целевой функции (5) имеет вид суммы стимула в текущем периоде (11) и дисконтированной будущей полезности (Т2.2):

0

+ р|0(Е,+ г-е,+ г)?(ЕМЕ- (Т2.3)

Д

Для определения действия ДЭ У*+т_ ] в периоде 1 + Т — 1 проведем оптимизацию полезности (Т2.3) по у т_{ с помощью оператора М + т_1. Нетрудно показать, что

Э у1 + т_ , ( е- + т_ ,, у- + т_ ,) §

+ Т- + Т- 1 ’ е1+Т- 1Ь 1Д1-

°У 1+Т-1

10, если у * е, у.

5(у - е) = если у = причем | е)ч{1)ё1= Ч(е)0(у- е),

^ ' о

и к + т_ ! удовлетворяет неравенству

к1+т_1>\- ^^0 + ^) > 1 - в<?*(1 + >

> 1 - в<?*(1 + а)т>о.

Первое неравенство имеет место согласно предположению (10), второе — в силу неравенств 0 < р < 1, третье — в силу неравенства Г> 1 и четвертое — по условию (12) теоремы. Следова-

0

Е

Но тогда, в соответствии с гипотезой благожелательности ДЭ по отношению к Центру, у?+т_, = Е,+ т - г Полезность ДЭ в периоде /+ 7’— 1, согласно формуле (Т2.3), имеет вид:

'>>*+Т-\ ~ 0Е1 + г- / е, + г- /) ^ р |0Е + т ег + + Т^Е1 + Т'

Д

Далее доказательство проводится по индукции. Предположим, что для некоторого л-, / + 1 < я < / + 7’— 1, выполняется условие уТ = Е^ ^ Т < 1 + Т — 1 и полезность ДЭ в периоде Л' +

V* = - е) + | рт _*$с1Е, + ,<?(Е, + ,)■■■

т = ¿'+ 1 Д

(Т2.4)

Докажем, что у*_^ — Е4 — Для устранения неопределенности В отношении СОСТОЯНИЯ _ ! проведем оптимизацию полезности ДЭ в периоде 5 — 1 с помощью оператора _ ¡. Эта полезность включает в себя стимул ДЭ в периоде я — 1, определяемый согласно выражению (11), а также полезность (Т2.4), которая зависит от состояния ,у( _ { ДЭ в периоде я — 1. Но по-

Е

которого в периоде 5 — 1 неизвестно. Устраняя неопределен-Е

ожидания Е, получаем ожидаемое значение полезности ДЭ в периоде л:

+

<у*) = £Л* = е рТ_1|</ЕЖ)... /¿Е,?(Ет)0(Е, - вт). (Т2.5)

Полезность ДЭ в периоде 5 — 1, как функция у _ р согласно целевой функции (5) имеет вид суммы текущего стимула (11) и дисконтированной ожидаемой полезности (Т2.5):

V4_1= в(у^ _ , - es _ j) + і рт s + 1

Т = S А

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

... /адув^-вт). (Т2.6)

Определим действие У*_ ] в периоде 5 1, проводя оптими-

зацию полезности (Т2.6) по ,у( _ { с помощью оператора А/ _ ¡. Э^_ ,(е5._ ьух_ ,) _

Нетрудно показать, что

і5^-

причем _ j удовлетворяет неравенствам:

> 1 - ^*р(1 + d)

> 1 - р?*р(1 + d)

і

t+T-s

і РТ

> 1 - p<?*(i + Т-i)(l + d)>

> 1 - р,?*(1 + d)T> 0.

Второе и пятое неравенства имеют место в силу условия

р

в силу неравенства / < я. Следовательно, _ ¡(е( _ ¡, ,у( _ ¡) = 0

Е

гожелательности ДЭ по отношению к Центру, = Е*_ ]■

Е

Xе = (Е,/) прогрессивен.

ЛИТЕРАТУРА

1. Цыганов В .В. Адаптивные механизмы в отраслевом управлении. М.: Наука, 1991. — 166 с.

2. Цыганов В. В., Бородин В. А., Шишкин Г. Б. Интеллектуальное предприятие: механизмы овладения капиталом и властью. — М.: Университетская книга, 2004. — 776 с.

3. Агеев И. А., Гурлее И. В., Цыганов В. В. Механизмы манипулирования корпорацией // Проблемы управления. — 2004. - № 3. - С. 34-38.

Я (495) 334-91-91

e-mail: [email protected]

Статья представлена к публикации членом редколлегии

В. В. Кульбой. □

Т = і

Т = S

книга

Новиков А.М., Новиков Д.А. Методология. — М.: СИНТЕГ. — BBS с.

С позиций системного анализа в логике современного проектно-технологического типа организационной культуры изложены основы методологии как учения об организации деятельности (научной, практической, художественной, учебной и игровой).

Предназначена для научных и практических работников, а также студентов, аспирантов и докторантов. В первую очередь — для преподавателей вузов и институтов повышения квалификации в целях использования при подготовке курсов лекций по теории систем, системному анализу, методологии научных исследований, инновационной деятельности, проектированию систем, управлению проектами и др.

Сайты авторов в Интернете — электронная библиотека (бесплатный доступ) www.anovikov(3>.ru ; www.mtas.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.