Каштанов В.А. УПРАВЛЯЕМЫЕ ПОЛУМАРКОВСКИЕ ПРОЦЕССЫ С КОНЕЧНЫМ МНОЖЕСТВОМ СОСТОЯНИЙ
Объектом исследования являются управляемые полумарковские процессы (УПМП) с конечным множеством состояний, которые находят широкие приложения в практических задачах. Примерами могут служить задачи оптимизации технического обслуживания, рассматриваемые в теории надежности, задачи управления системами массового обслуживания.
В прикладном аспекте задачи выбора оптимальной стратегии технического обслуживания (управляемые модели надежности) ставились давно и в настоящее время излагаются в учебниках и учебных пособиях (монографии и учебники на русском языке) [8, 11, 12, 13, 14]
В теоретическом аспекте задачи математической теории надежности могут быть сформулировать как задачи управления некоторым случайным процессом. Подробная постановка изложена в [15].
Модель сводится к следующему:
Объект управления - случайный процесс, так как эволюция технической системы происходит во времени в условиях стохастической неопределенности;
Проведение восстановительных работ - это управление процессом функционирования (когда и какие восстановительные работы проводить);
Цель управления - получить набольший эффект (максимальную эффективность) от эксплуатации (функционирования) этой системы.
Аналогичная постановка для моделей массового обслуживания:
Объект управления - случайный процесс, описывающий эволюцию СМО во времени;
Управление процессом функционирования СМО можно осуществлять, меняя либо входящий поток требований, либо выбором распределений длительности обслуживания, либо меняя структуру СМО;
Цель управления - получить набольший эффект (максимальную эффективность) от функционирования этой системы массового обслуживания.
Для моделей массового обслуживания и для моделей надежности задача сводится к оптимизации целевого функционала, определению класса распределений, на которых достигается его экстремум.
Теория полумарковских процессов и их приложения изложена в ряде монографий [16, 17, 18]:
Как известно однородный полумарковский процесс задается начальным распределением вероятностей состояний и однородным полумарковским ядром 2^.(/,и) , где состояния у еЕ, Е — конечное множество состояний, параметр С определяет время, /е[0,<х>), и еП, и — множество управлений с (Т — алгеброй В, и вероятностными мерами О(А), I е Е , определенными на элементах г— алгебры В, АеВ. Множество описанных вероятностных мер определяет множество Полумарковское ядро 2 (/,и) определяется как условная
вероятность того, что переход случайного процесса произойдет до момента С в состояние 7 при условии, что процесс стартовал из состояния 1 и принято решение и. Заметим, однородность означает независимость полумарковского ядра ни от номера перехода, ни от момента старта.
При постановке задачи управления на траекториях УПМП необходимо построить функционал, определяющий качество управления. Для построения этого функционала задаются функции Я (Г,и), 1,} е Е,
/ е [0, <х>), и еП, которые определяются как математическое ожидание накопленного эффекта за время С при условии, что процесс пребывает в состоянии 1, переходит в момент С в состояние 7 и принято решение и [1]. Такое определение функций Яу (/,и) дает возможность исследовать практические модели, в которых
УПМП является вложенным в некоторый более сложный случайный процесс, описывающий физическую эволюцию рассматриваемой системы. Другими словами, УПМП между соседними марковскими моментами не меняет своего значения, а случайный процесс, описывающий физическую эволюцию рассматриваемой системы, изменяется. Коль скоро, накопленный эффект зависит от случайного процесса, описывающий физическую эволюцию, то естественно ввести в рассмотрение математические ожидания Яу(/,и) . Накопленный эффект на периодах между соседними марковскими моментами изменения состояний УПМП суммируются. Качество управления характеризуется математическим ожиданием Б. (/) накопленного эффекта за время (0,/) при условии, что в
нулевой момент времени УПМП стартует из состояния 1.
При постановке и решении задачи управления возникают следующие математические проблемы:
Построение асимптотического разложения функционала ^ (/) при /в зависимости от свойств полу-марковского процесса, в частности, от свойств вложенной цепи Маркова;
Исследование структуры функционала Б (/) относительно вероятностных мер О (А), определяющих в рассматриваемой модели Марковскую однородную рандомизированную стратегию управления;
Определение класса распределений, на которых достигается экстремум целевого функционала.
При фиксированном наборе вероятностных мер О (А), ,е Е (фиксирована стратегия управления) имеем фиксированный УПМП, при постановке задачи оптимизации нужно задать множество стратегий управления (множество наборов вероятностных мер). Определяем множество возможных стратегий условиями - м _ м
1Е:Е, или О е ^ = £2 , где ,А2, ■■Ап) = . Пре дпол а г а е тся, что множество являет-
к=1 к=1
ся множеством допустимых стратегий управления, для которых исследуемые функционалы существуют. Таким образом, получаем множество допустимых стратегий управления и, следовательно, множество возможных УПМП. Математическая задача в определении такой стратегии из множества О (следовательно, такого УПМП), для которой значение целевого функционала принимает экстремальное значение (минимум или максимум).
Предельное поведение функционалов, построенных на траекториях УПМП, исследовано в ряде работ
[2,3,4].
В случае, когда вложенная цепь эргодическая, математическое ожидание построенного функционала при / ведет себя как линейная функция Б,(/) = Б/ + о(/).
В случае, когда вложенная цепь поглощающаяся, математическое ожидание построенного функционала при /стремится к константе Б. Аналогичный результат справедлив при исследовании функционала с переоценкой [4].
Коэффициент при линейном члене в случае эргодической цепи и предельное значение функционалов в
других случаях определяют значения целевых функционалов, которые исследуются на экстремум.
Вторая проблема, относящаяся к выяснению зависимости целевого функционала от распределений, определяющих стратегию управления, освещена в ряде работ [1,3].
Приведем результат, определяющий структуру целевого функционала.
Теорема [3] . Для управляемого полумарковского процесса с конечным множеством состояний Е={ 1 г 2г... ГЫ} целевой функционал £ является дробно-линейным функционалом
I
А(и)0(йи)
Я(<3) = ^-------------=— (и
| В(и)С(с1и)
и(*)
относительно
вероятностных мер 0(АъА2,...,А„) = | |(О (А), определяющих марковскую однородную рандо-
к=1
мизированную стратегию, и(*) - прямое произведение пространства и, АКеВ.
Управление при полной информации о характеристиках управляемого процесса.
В рассматриваемом случае поиск оптимальной стратегии управления сводится к исследованию на экстремум (максимум или минимум) дробно-линейного функционала в классе допустимых стратегий управления и к определению распределений, на которых достигается искомый экстремум. Решение этой проблемы для дробно-линейного функционала сводится к линейному случаю, поскольку справедливо следующее утверждение:
Лемма [1,9]. Если существует максимум дробно-линейного функционала (1) по некоторому множеству распределений О, О еО, ,еЕ , то множество распределений, на котором достигается этот максимум, совпадает с множествомг на котором достигается максимум специально подобранного линейного функционала —(0) —(0) —
{6й: 8(6 ) = тахс.е£2 8(6) = с} =
—►( 0) —(0) —
= {6 ^(6 ) = тахс.е£2 ^(6) = .
= тахс.е£2[ | А{и)6{с1и)-с _[ В{и)6{с1и)] = 0}
ии) ии)
Таким образом, исследование можно свести к более простому линейному случаю. Однако, исследуя линейный функционал, нельзя получить функцию, на которой достигается экстремум дробно-линейного функционала, поскольку, как правило, исследователю неизвестно значение максимума с. Поэтому определяют только структуру распределения, на котором достигается экстремум линейного функционала.
Приведем здесь некоторые результаты.
Теорема [1]. Пусть О множество допустимых вероятностных распределений содержит вырожденные распределения. Если существует максимум дробно-линейного функционала (1) по множеству О , то он достигается на вырожденных распределениях.
Эта теорема позволяет утверждать, что, если множеству допустимых стратегий управления принадлежат все вырожденные стратегии, то введение рандомизации не улучшает качества управления. Кроме того,
задача поиска максимума Б(О) по функциональному пространству О сводится к задаче поиска максимума функции многих переменных, так как
таХОєП5(°) = таХ1>,є[/„ іеВ)
А(иі, и2,...,и* )
Б(щ, и2 ,...,иы )
Для случая, когда в множестве, по которому берется экстремум, нет детерминированных стратегий, характер экстремальной функции определяет следующая теорема (сформулируем ее для одномерного случая) .
| А{и)О^и)
Теорема [5]. Если существует экстремум дробно-линейного функционала Б (О ) = —2-------------
по множеству
распределений О(и) , удовлетворяющих условиям О (и) ^ О(и) < О (и) , то он достигается на распределении, которое либо совпадает с границами, либо постоянно, либо имеет скачок.
В частности, справедлива теорема:
Теорема [6]. Если существует экстремум дробно-линейного функционала по множеству функций распределения О еО(п,у,я) , которые в заданных точках у = (у,у2,...,уп) принимает заданные значения, О(у1) = Я , то он достигается на распределениях, которые имеют одну точку роста в каждом интервале [у.,у/+1).
Управление при неполной информации о характеристиках управляемого процесса.
В практических задачах исходные данные, определяющие в модели полумарковское ядро, точно неизвестны, потому что они находятся на основе имеющейся статистической информации. Например, в задачах надежности необходимо знать распределения времен безотказной работы системы в целом или ее отдельных частей. А фактически по результатам статистических испытаний на надежность строятся оценки характеристик безотказности технической системы: эмпирическая функция распределения или доверительный ин-
тервал для распределения, точечные оценки значений функции распределения в отдельных точках, точечная оценка для математического ожидания, дисперсии и других моментов более высокого порядка, доверительные интервалы для неизвестных параметров и характеристик. Аналогичные замечания можно сделать относительно характеристик, определяющих свойства моделей массового обслуживания: распределение ин-
тервалом между соседними моментами поступления требований в систему, распределение времени обслуживания.
В этой ситуации можно говорить, что исходные распределения принадлежат некоторому множеству распределений. Так как полумарковское ядро зависит от исходных распределений, то силу этого обстоятельства нельзя однозначно определить исходный процесс, и, следовательно, имеем не один УПМП при фиксированной стратегии, а множество возможных процессов, одним из которых мы должны управлять.
В описанной ситуации для решения задачи используется принцип максимина: для наихудшего случайного процесса из заданного множества определяется оптимальная стратегия управления [5,6,7,8,10].
Математическая постановка задачи сводится к предположениям: для каждого состояния 1 еЕ множество
решений и есть прямое произведение двух множеств П'1'1, и}2) и для любого состояния 1еЕ имеем
и = (щ,и2), и е и(к), к = 1,2 ; стратегия в состоянии 1 задается совместным распределениями
о1(А1,А2).
Задача оптимизации сводится к поиску условных распределений (в случае зависимого характера принятия решений) и поиску безусловных распределений (в случае независимого характера принятия решений), на которых достигается максимин целевого функционала.
Если решения принимаются независимо, то О (А, А) = О(1)(А1 )О(2)(А2) , то математическая задача сводится к поиску максимина и определению распределений, на которых он достигается, то есть
тахО(1)еО(1) ™пО<2)еО(2)Б (Gii1,G¡2),i е Е)=S(F<1), Fi(2),i е Е)
Функции ^(1), 1 е Е определяют максиминную стратегию. Если в условиях сформулированной неопределенности принять эту стратегию управления, то гарантировано получение эффективности величины Б(^(1), ^(2), 1 е Е) , то есть в реальной ситуации эффективность не может быть меньше. Если же отказаться от максиминной стратегии, то эффективность управления может быть меньше указанной величины.
При последовательном решении задачи поиска максимина для исследования внутреннего экстремума могут быть использованы приведенные выше теоремы о структуре экстремальных распределений. Однако при исследовании внешнего экстремума их использовать нельзя, поскольку меняется структура функционала, для которого определяется внешний экстремум. В [6] формулируются достаточные условия независимости экстремального распределения для внутреннего экстремума от распределений, по которым берется внутренний экстремум.
Теорема [6]. Если множество распределений, по которому берется внутренний экстремум, имеет мажорирующее распределение, функция А(щ,и2) не возрастает, функция Б(щ,и2) не убывает по и2 при любом щ, тогда
| A(u, u2 )G(dul )F(du2 )
I(G,F) = ^----------------------< I(G,F*) .
| Б(щ,u2)G(du!)F(du2)
Коль скоро, независимо от распределения G внутренний экстремум достигается на мажорирующем распределении, то внешний экстремум определяется для дробно-линейного функционала, следовательно, работают сформулированные выше теоремы
ЛИТЕРАТУРА
1. Вопросы математической теории надежности / Барзилович Е.Ю., Беляев Ю.К., Каштанов В.А. и др.; Под редакцией Б.В.Гнеденко. Москва, Радио и связь, 1983 год;
2. Джевелл В.С.- Управляемые полумарковские процессы. Кибернетический сборник, новая серия, Москва, Мир, выпуск 4, 1967 год;
3. Каштанов В.А. Об одном классе оптимальных дискретных управлений ПМП. - Некоторые теоретические и прикладные вопросы теории вероятностей, Труды МИЭМ, выпуск 44, 1975 год;
4. Майн Х., Осаки С. Марковские процессы принятия решений. Москва, Наука, 1977 год.
5. Барзилович Е. Ю., Каштанов В. А., Коваленко И. Н. - О минимаксных критериях в задачах надежности - Известия АН СССР, Техническая кибернетика, №3, 1971 год
6. Барзилович Е.Ю., Каштанов В.А. - Организация обслуживания при ограниченной информации о надеж-
ности. Москва, Сов. Радио, 1975 год;
7. Карманов А.В. Исследование управляемых конечных Марковских цепей с неполной информацией. Минимаксный подход. Москва, Физматлит, 2002 год.
8. Барлоу Р. и Прошан Ф. Математическая теория надежности. Перевод с англ./ под редакцией Б.В.Гнеденко.- Москва, Сов. Радио, 1969 год
9. Kashtanov V.A. Discrete distributions in control problems (Дискретные распределения в задачах управления). Probabilistic methods in discrete mathematics. Proceedings of the Fourth International Petrozavodsk Conference. VSP, Utrecht, The Netherlands, 1997, pp.267-274.
10. Голодников А.Н., Стойкова Л.С. Определение оптимального периода предупредительной замены на основе информации о математическом ожидании и дисперсии времени безотказной работы системы.- Известия АН УССР. Кибернетика. №3, 1978 год.
11. Барзилович Е.Ю., Каштанов В.А. Некоторые математические вопросы теории обслуживания сложных систем.- Москва, Сов. Радио, 1971 год;
12. Ф.Байхельт, П.Франкен. Надежность и техническое обслуживание (математический подход). Москва, Радио и связь, 1988 год;
13. И. Герцбах. Теория надежности (с приложениями к профилактическому обслуживанию), Москва, Нефть и газ (издательство РГУ нефти и газа им И.М. Губкина), 2003 год.
14. Каштанов В.А., Медведев А.И. Теория надежности сложных систем (теория и практика), Москва, Европейский центр по качеству, 2002 год;
15. Каштанов В.А. Общие принципы постановки и решения проблемы технического обслуживания сложных систем. «Надежность», №2, 2002 год.
16. Королюк В.С., Турбин А.Ф.-ПМП и их приложения, Киев, Наукова думка, 1976 год.
17. Сильвестров Д.С. Полумарковские процессы с дискретным множеством состояний, Москва, Сов. Радио, 1980 год.
18. Королюк В.С., Турбин А.Ф. Процессы марковского восстановления в задачах надежности систем, Киев, Наукова думка,1982 год.