МОДЕЛИРОВАНИЕ В ЭКОНОМИКЕ
УДК 519.21
ИССЛЕДОВАНИЕ ЗАДАЧИ ОПТИМИЗАЦИИ В ДИСКРЕТНОЙ ПОЛУМАРКОВСКОЙ МОДЕЛИ УПРАВЛЕНИЯ НЕПРЕРЫВНЫМ ЗАПАСОМ
П.В. Шнурков, А.В. Иванов
Национальный исследовательский университет "Высшая школа экономики", Московский государственный институт электроники и математики, Москва, Российская Федерация
e-mail: [email protected]; [email protected]
Разработана и исследована стохастическая модель управления запасом некоторого продукта, объем которого может принимать значения в ограниченном сверху интервале, принадлежащем множеству вещественных чисел. Такая модель состоит из двух компонентов. Один компонент называется основным процессом и описывает уровень запаса в рассматриваемой системе, второй — сопровождающим процессом и представляет собой управляемый полумарковский процесс с конечным множеством состояний. Использование сопровождающего процесса позволяет применить для решения задачи теорию управления полумарковским процессом. Определены вероятностные характеристики сопровождающего полумарковского процесса, а также характеристики стационарных стоимостных функционалов, связанных с этим процессом. Доказано, что оптимальной стратегией управления является детерминированная стратегия. Получено явное представление стационаров функционала, описывающего качество управления процесса. Установлено, что оптимальная детерминированная стратегия управления в полумарковской модели определяется точкой глобального экстремума функции нескольких вещественных переменных. Найдено явное аналитическое представление этой функции.
Ключевые слова: управление запасами, полумарковский процесс, оптимальное управление.
STUDYING THE OPTIMIZATION PROBLEM IN DISCRETE SEMI-MARKOV MODEL OF CONTINUOUS INVENTORY CONTROL
P.V. Shnurkov, A.V. Ivanov
Moscow State Institute of Electronics and Mathematics of the "Higher School of Economics" National Research University, Moscow, Russian Federation
e-mail: [email protected]; [email protected]
The stochastic model of inventory control of a certain product, whose volume may take the values within an interval bounded above that belongs to the set of real numbers, is considered and investigated. This model consists of two components. One of them is named a basic process and describes the inventory level in the system under study; another is named a concomitant process and presents a controlled semi-Markov process with a finite set of states. The use of the concomitant process allows the theory of semi-Markov process control to be applied for solving the problem. The probabilistic characteristics of the concomitant semi-Markov process, as well as the characteristics of time-independent cost functionals connected with this process are determined. It is proved that a deterministic strategy is the optimal strategy for control. The explicit representation for the time-independent functional describing
the quality ofprocess control is obtained. It is found that the optimal control strategy in the semi-Markov model is determined by a point ofglobal extremum of the function of several real variables. The explicit analytical expression of this function is found.
Keywords: inventory control, semi-Markov process, optimal control.
1. Введение. Стохастическая теория управления запасами представляет собой направление прикладной теории вероятностей, связанное с анализом функционирования экономических систем, которые предназначены для временного хранения и поставки непосредственному потребителю определенных продуктов (товаров). Задача оптимального управления в таких системах может быть сформулирована как задача определения оптимальных значений параметров вероятностных распределений или случайных процессов, которые доставляют экстремум некоторому заданному показателю качества управления.
Существует несколько фундаментальных изданий, посвященных стохастической теории запасов [1-4]. Следует также отметить зарубежное издание [5], содержащее систематическое изложение стохастической теории управления запасами, и работы [6, 7], в которых проведено исследование некоторых общих полумарковских моделей управления запасом.
Стохастическая модель регенерирующего процесса с управлением, описывающая некоторую систему, которая предназначена для хранения и поставки потребителю непрерывного продукта, была исследована в работах [8, 9]. Особенность этой системы заключалась в том, что в результате пополнения запаса непрерывный параметр, описывающий объем продукта, каждый раз возвращался в одно и то же фиксированное состояние, совпадающее с максимально возможным значением. Такая особенность позволяла использовать для описания системы регенерирующий процесс, моменты регенерации которого представляли собой моменты непосредственного пополнения запаса. Показателями качества управления были стационарные функционалы, связанные с регенерирующим процессом: средние удельные затраты и средняя удельная прибыль. Установлено, что оптимальной стратегией управления является детерминированная стратегия и оптимальное значение параметра управления представляет собой точку глобального экстремума некоторой заданной функции одной переменной, соответствующей исходному показателю качества управления.
Основные результаты такого исследования были сформулированы в виде теорем. При естественных условиях аналитического характера, накладываемых на исходные характеристики системы, указанная функция достигает глобального экстремума в некоторой точке, для нахождения которой можно использовать известные дополнительные соотношения. Таким образом, в рассматриваемой регенерационной мо-
дели задача оптимального управления запасом получила аналитическое решение.
В настоящей работе исследуется более сложная система управления запасом. Как и в работах [8, 9], потребление продукта происходит с заданной постоянной скоростью а > 0; параметр управления — случайное время от момента пополнения запаса до момента заказа на следующее пополнение запаса. Однако пополнение запаса происходит по сложной схеме, в которой учитываются состояния системы до и после пополнения запаса, а также возможные случайные отклонения от планируемого объема поставки. Для описания такой системы используются два случайных процесса:
1) основной случайный процесс ж(£), значение которого представляет собой объем запаса продукта, находящегося в системе в момент времени ¿;
2) сопровождающий полумарковский управляемый случайный процесс с конечным множеством состояний £(£).
Следует отметить, что общая теория полумарковских процессов изложена в работах [10, 11], а модель управляемого полумарковского процесса описана в работах [12, 13]. Рассмотрим краткую характеристику результатов, полученных в данном исследовании.
Использование сопровождающего процесса позволяет применить для решения поставленной задачи известные результаты по управлению полумарковским процессом с конечным множеством состояний и стационарными стоимостными показателями качества управления [13, 14]. В результате было установлено, что оптимальной стратегией управления является детерминированная стратегия, которая задается набором фиксированных значений параметра управления, соответствующих каждому состоянию сопровождающего полумарковского процесса. Такой набор оптимальных значений параметра управления представляет собой точку глобального экстремума функции нескольких вещественных переменных. В настоящем исследовании указано явное представление для такой функции, соответствующей стационарному стоимостному функционалу средней удельной прибыли. Эта функция выражается через вероятностные и стоимостные характеристики полумарковской модели, явные представления которых определяются в ходе исследования. К таким характеристикам относятся:
1) вероятности перехода цепи Маркова, вложенной в сопровождающий полумарковский процесс;
2) математические ожидания длительностей пребывания сопровождающего полумарковского процесса в различных состояниях;
3) математические ожидания прибыли, связанной с пребыванием сопровождающего полумарковского процесса в различных состояниях.
Полученный результат позволяет построить и реализовать численный алгоритм определения оптимальных значений параметров управления для любых заданных исходных характеристик рассматриваемой модели.
2. Описание модели. Рассмотрим основные вероятностные характеристики системы. Обозначим через х (£), £ > 0, случайный процесс с множеством состояний X = (-то, т], где т — заданная положительная величина. Параметр х (£) соответствует объему продукта в момент времени £, отрицательное значение параметра х (£) — наличию в системе неудовлетворенного спроса (дефицита).
Проведем дискретизацию модели — разобьем множество возможных значений объема запаса (-то,т] на конечное число подмножеств
0, т(
(0)
т
(0) №)
т
2
т
(0) т(0) No-1, N0
(0)
где rN°o) = т;
(1)
т(1) т(1) ' N1 , 'N1-1
т
(1) (1)
т
(1)
где т0 ) = 0.
Если в момент очередного пополнения £ уровень запаса в системе
x
(i) €
т
(0) т(0) ' i+1
(0)
то последующий заказ планируется через время
, где 4(0) — случайная величина с функцией распределения С(0)(£), г = 0, - 1.
Введем следующие обозначения:
1Л (0)
1) Пк — случайная величина, описывающая длительность периода задержки поставки, если состояние системы в момент заказа
y = x - (0) € (1)
Ti
(0) _ (0) 'fc+1
2) п(() — случайная величина, характеризующая длительность периода задержки поставки, если состояние системы в момент заказа
У = х - а4(0) е
ъ
(1) , (1)
k+1,
П
k = 0, N1 — функции
3) ЯГ (£), к = 0, N - 1 и Як (£) ,
(0) (1)
распределения случайных величин щ и щ ;
4) ^к0) = Мпк0) < то, к = 0, N0 - 1; ^к1) = мпк1) < то, к = 0ТЖ — заданные величины, которые представляют собой математические ожидания длительности периода задержки поставки.
За время задержки поставки происходит формирование заказа и его выполнение. В рамках рассматриваемой модели непосредственное пополнение запаса осуществляется мгновенно в конечный момент данного периода задержки.
Непосредственное пополнение запаса формально представляет собой переход процесса х (£) из одного подмножества в другое. Для
описания этого перехода введем следующие системы вероятностных характеристик:
1) { ßk°i )} — вероятно сти перехода из где k = 0, N0 - 1;
T(0) т(о)
'k , 'k+1
чч I д(1) lNo-1 ( (1) (1)
2) ^ ßki ( —вероятности перехода из ^rk+1, Tk
т(0) т(0) Tl , Tl+1
т(0) т(0) Tl , Tl+1
(0) (0)
Tl , T+1 I, то состояние внутри этого подмно-
где к = 0,^1.
В принятой модели предполагается, что в результате пополнения дефицит запаса в системе всегда ликвидируется. Если после пополнения процесс, описывающий уровень запаса, оказывается в подмножестве состояний
жества (точный уровень запаса) определяется в соответствии с распределен ием вероятностей В; (ж), I = 0, N0 — 1, заданном на множестве т;(0), . Такие вероятностные распределения описывают случайные отклонения объема поставки продукта. Принимается, что
Г (0ЛМ°-1 - Г
вероятностные характеристики < вы г , к = 0, N0 — 1, < вы г ,
___ I J I=к I J I=0
к = 0, В (ж), I = 0, N — 1, известны.
Эволюция процесса ж(£) после момента очередного заказа зависит только от номера подмножества состояний, в котором оказался этот процесс в момент заказа. Кроме того, эволюция процесса ж(£) после момента очередного пополнения запаса не зависит от прошлого и зависит только от номера подмножества состояний, в котором оказался этот процесс в результате пополнения запаса. В этом смысле случайный процесс ж(£) (рисунок), описывающий объем запаса в системе, в моменты заказа и моменты непосредственного пополнения запаса обладает марковским свойством.
Введем сопровождающий (вспомогательный) полумарковский случайный процесс £ (£), £ > 0, с конечным множеством состояний с помощью вложенной цепи Маркова.
Пусть £п, п = 0, то, — случайные моменты завершения пополнения запаса, £0 = 0. Предполагается, что объем запаса в начальный момент времени является заданной величиной ж(0) = ж0, принадлежащей одному из возможных интервалов разбиения ж0 Е [тк0, тк+1), к = 0, N — 1. В частности, ж0 = т.
Пусть (п — номер подмножества состояний, в котором оказался процесс ж (£) в момент времени £п + 0 (непосредственно после очередного пополнения запаса). Другими словами, если ж(£п + + 0) Е [тк(0), тк+\), то (п = к, к = — 1. Последовательность
случайных величин (Сп}^=0 образует цепь Маркова. Случайный процесс £ (£), связанный с последовательностью (Сп}^0, определим с
в
в
Пример траектории случайного процесса x(t), описывающего объем запаса продукта
помощью соотношения
С (t) — Си 5 tu < t < tn+l ,
n
0,ОО.
Случайный процесс £ (£), ^ > 0, представляет собой управляемый полумарковский процесс с конечным множеством состояний Е = {0,1,..., N — 1}, траектории которого непрерывны справа. Последовательность является цепью Маркова, вложенной в этот процесс. Управление процессом £ (£) осуществляется в моменты времени £п (после определения значения процесса х(£п)).
Параметр управления ип — случайная величина, характеризующая длительность периода времени до момента следующего заказа на пополнение запаса. Если (п = к , то ип = £^ (равенство случайных величин понимается как совпадение функций распределения). Множество допустимых значений параметра управления и совпадает с множеством неотрицательных чисел, и = [0, то).
Задача оптимизации управления запасом в этой стохастической модели, или задача управления построенным сопровождающим полумарковским процессом, заключается в выборе управляющих вероятностных распределений сЦ00 (£) = Р < ^, к = 0,^ — 1, доставляющих экстремум некоторому показателю качества управления
/ (со00 асп-),...^-! (•)).
3. Стационарный стоимостной функционал. Вероятностные и стоимостные характеристики модели. Для того чтобы формально поставить задачу оптимального управления в стохастической модели
необходимо задать показатель качества управления или целевой функционал. Рассмотрим некоторый аддитивный стоимостной функционал, связанный с основным и сопровождающим случайными процессами. Построение такого функционала описано, например, в работах [12, 13].
Согласно схеме, используемой в теории управления полумарковскими процессами, в качестве показателя (целевого функционала), характеризующего эффективность управления в этой модели, выберем стационарный показатель следующего вида [12]:
No-1
Id = lim ^ = J=0-, (1)
d t ^ t No-1 ' V '
i=0
где Уа (£) — математическое ожидание значения стоимостного функционала в момент времени {п, г = 0, N0 — 1} — стационарное распределение цепи Маркова, вложенной в сопровождающий полумарковский процесс; ^ — математическое ожидание приращения исходного аддитивного стоимостного функционала за время пребывания процесса £(£) в состоянии г, г = 0, N — 1; Т — математическое ожидание времени пребывания процесса £(£) в состоянии г до следующего перехода, г = 0, N — 1.
Величина зависит от вероятностных распределений, определяющих стратегию управления в стохастической полумарковской модели. В рассматриваемой задаче эта величина представляет собой функционал управляющих вероятностных распределений 0к° (•), к = 0, N — 1. Функционал может, например, характеризовать средние удельные (т.е. отнесенные к единице времени) затраты или среднюю удельную прибыль в стационарном режиме функционирования системы.
Для определения вероятностных и стоимостных характеристик модели построим вспомогательную вероятностную конструкцию. Введем систему событий, связанных с состоянием системы в момент заказа на пополнение продукта. Зафиксируем состояние процесса £(£) в момент очередного пополнения запаса: (п = £ (£п) = г. Рассмотрим некоторые события и вероятностные характеристики модели при условии, что реализуется событие (£п = г).
Обозначим через £п момент следующего заказа на пополнение продукта. Рассмотрим полную группу попарно несовместных событий
4°' = (ж (<п) Е [т^тй)) ,к = 0,1;
A^ = (x (£) G (ri+U(1)]), k = о;ж
Введем обозначения для следующих ха
рактеристик: pik =
= Р (40) | Сп = г) , к = 0, г; = Р (а^ Сп = г) , к = 0,Nl;
гт(0)
Тк — математические ожидания совместного распределения времени пребывания £(£) в состоянии г и события Ак0), к = 0, г; Т^(к1) — математические ожидания совместного распределения времени пребывания £(£) в состоянии г и события к = 0,^; — математическое
ожидание, определяемое по совместному распределению прибыли, полученной за время пребывания £(£) в состоянии г, и события Ак0), к = 0, г; — математическое ожидание, определяемое по совместному распределению прибыли, полученной за время пребывания £ (£) в состоянии г, и события А^, к = 0,
Тогда основные вероятностные и стоимостные характеристики полумарковской модели выражаются через введенные вспомогательные величины:
Pij = £+ Е + i,j = 07Nb —l; (2)
fc=0 fe=0
i-1 Ni
T = Tf + £ if + J] i = M/b = 1; (3)
fe=0 fe=0
i-1 Ni
di = d£0> + £^ + £i = 6Ж-Т. (4)
fe=0 fe=0
Формула (2) определяет вероятности перехода для вложенной цепи Маркова полумарковского процесса Z(t) из состояния i в состояние j; формула (3) — математическое ожидание времени пребывания процесса Z(t) в состоянии i до следующего перехода; формула (4) — математическое ожидание прибыли, полученной за время пребывания Z(t) в состоянии i до следующего перехода.
Получим аналитические представления для вспомогательных величин, входящих в соотношения (2) и (3). Обозначим
«Г (x) = x ~ Tk ), k = 67;
а
(1)
fc+i
а а
ак1+1 (x) = Х Tk+1, k = 0,Ni - 1; а(1) (x) = -.
Формулы для условных вероятностей имеют вид
(0) РгУ —
т (0)
_(0)
ak0)(x)
dGi0) (t)
°4+1(ж)
dBi (x), k — 0, i - 1;
(0) Рй —
т(0)
(0)
a(0)(x)
dG(0) (t)
dBi (x)
(6)
pil —
т(0)
(0)
4+i(x)
dG(0) (t)
ak1)(x)
dBi (x), k — 0,Ni - 1;
т(0)
P(Ni — I G(0) ( a(v1 (x) ) dBi (x) 5
(0) (1)
(0)
(7)
(8)
где С(00(у) = 1 — С(00(у), у > 0.
Обоснуем формулу (5). Зафиксируем условие, состоящее в том, что в результате очередного пополнения запаса процесс х(£) принял
значение х € т,(0), т^^. При таком условии событие А^0 реализуется тогда и только тогда, когда объем запаса продукта, потребленного за время £ > 0 от момента пополнения до момента очередного заказа, удовлетворяет двойному неравенству
(0) ^ ^ (0) X — тк+1 < < х — тк .
Следовательно, соответствующая условная вероятность события
, (0)
Ак определяется как
«1° )(x)
PA
(40) | Zu — i, X (tu + 0) — x) — dG(0) (t).
4+i(x)
Усредняя эту условную вероятность по распределению В, (х), получаем формулу (5). Формулы (6)-(8) выводятся аналогично. Формулы для математических ожиданий имеют вид
T (0) —
1 ik —
т(0) ч+i
(0)
«1° )(x)
4+i(x)
t + 40)
dG(0) (t)
dBi (x), k — 0, i - 1; (9)
T(0) _
T ii
Л°) Г (0), , ri+l )(x)
(0)
T(1) _
Tife _
T (°)
(0)
°4+i(x)
ak1)(x)
t +
t + д
dG(0) (t)
(0)
dG(0) (t)
dB (x);
(10)
T(i) _
TiNi _
T(0) ч+i
(0)
t + ^
dB (x), k _0,Ni - 1; (11)
dG(0) (t)
(
dB (x).
(12)
Найдем вспомогательные стоимостные характеристики, входящие в равенство (4). Предположим, что заданы следующие исходные стоимостные характеристики модели: ^ (х) — затраты на хранение продукта объемом х > 0 в единицу времени; с2 (х) — затраты, связанные с дефицитом величины х, х < 0, в единицу времени (штрафы); ^1(х) — цена единицы продукта при условии, что объем имеющегося в системе (оставшегося) продукта равен х, х > 0 (положительный запас); 02 (х) — цена единицы продукта при условии, что объем имеющегося в системе (оставшегося) продукта равен х, х < 0 (дефицит объема х).
Введем вспомогательную функцию (х,£), которая представляет собой условное математическое ожидание прибыли, полученной при функционировании рассматриваемой системы за период времени между последовательными моментами пополнения запаса, если выполняются следующие условия:
1) в момент очередного пополнения запас продукта равен х > 0;
2) случайное время от момента пополнения до момента очередного заказа (параметр управления) принимает фиксированное значение
3) за время £ запас не будет израсходован и дефицит в системе не возникнет;
4) в момент заказа уровень запаса принимает значение в подмно-
жестве состоянии
ъ
(0> С), k_<>,,
Функция D0 (x,t) имеет вид
D0 (x, t) _ I [ag1 (x — az) — c1 (x — az)] dz — c1 (x — at) ^k0, (13)
где < х.
Предположим, что выполняется комплекс условий, аналогичных условиям 1-4 (условия 1 и 2 не меняются):
t
3) за заданное время Ь запас будет полностью израсходован и в системе образуется дефицит продукта;
4) в момент заказа уровень запаса будет принадлежать подмножеству (т^т^] , к = 0ТЖ.
Тогда условное математическое ожидание прибыли, полученной при функционировании рассматриваемой системы за период времени между последовательными пополнениями запаса, задается функцией Б 1 (ж,Ь), определяемой по формуле
х/а
Б1 (ж, Ь) = / [ад1 (ж — аг) — с1 (ж — аг)]
+ у [ад2 (ж — аг) — с2 (ж — аг)] — с2 (ж — аЬ) ^к^, (14)
х/а
где аЬ > ж.
Усредняя условные математические ожидания Б0 (ж, Ь) (13) и Б1(ж,Ь) (14) по распределениям вероятностей условий, определяем вспомогательные характеристики прибыли, входящие в правую часть формулы (4):
d(0) -
т (0)
-k0)(x)
°4+1(ж)
[Do (x,t)]dGf (t)
dBi (x), k — 0,i - 1; (15)
d(0) —
T (°)
(0)
af)(x)
[Do (x, t)]dG((0) (t)
dBi (x);
(16)
T(0) 4+1
dik —
(0)
Га1+1(ж) afc1) (ж)
[Di (x, t)]dG(0) (t)
dBi (x), k — 0,Ni - 1; (17)
diN1 —
T(0) 4+1
(0)
[Di (x,t)]dG(0) (t)
dBi (x).
(18)
Таким образом, получены выражения для основных характеристик модели в явном аналитическом виде.
4. Преобразование вероятностных и стоимостных характеристик полумарковской модели и их итоговые аналитические представления. В рассматриваемой задаче вероятностное распределение G(0)(•) описывает случайное значение управления и его
t
оо
необходимо определить как решение некоторой экстремальной задачи. Для решения такой экстремальной задачи целесообразно поменять порядок интегрирования выражений (5)-(12), (15)-(18) и представить все вероятностные характеристики модели управления запасом в виде интегралов по вероятностным распределениям управлений С(0) (•), г = 0, N0 - 1.
Зафиксируем произвольное значение х € могательные функции и параметры:
ъ
(0) т(0) ' i+1
и введем вспо-
ak0) (ж) ak1) (ж)
ж — т
(0)
а
ж — т
(1)
а
а£<+> i(ж) 4+1(ж)
ж — т
(0)
k+1
а
ж — т
(1) k+1,
(19)
а
(0)
аУ =
(0) (0)
г; —г.
k
а
а
(0) _ т» i,k+1
а
(0) (0)
(0) i+1,k
(0) (0)
т»+1 7fe
г; -г.
fe+1
а
а
(0) i+1,k+1
а
т (0) _т (0) ' i+1 'fe+1.
(20)
=
(0) (1) т - т k
а
а
(1) i+1,k
(0)
т»+1 - т
а (1)
k
а
а
(1) i,k+1
т(0) т(1) т» - тk+1 а(1) , ai+1,k+1
(0)
(1)
(21)
т»+1 тk+l
а ' а
Для краткости представим необходимые характеристики модели в единой интегральной форме, в связи с чем введем дополнительные вспомогательные функции
L0 (ж, t, v) =
t+40)"
D0 (ж,t)"
при v = 1,
при v = 2, k = 0, i (22)
при v = 3;
L1 (ж, t, v) =
t + ^ D1 (ж,t)
при v = 1 ,
при v = 2, k = 0, N1 при v = 3.
(23)
Преобразуем выражения (5)-(12), (15)-(18). Основой этих преобразований является теорема Фубини об изменении порядка интегрирования [15]. Новые формулы для указанных вероятностных и стоимостных характеристик модели существенно зависят от вида области интегрирования, а вид области интегрирования — от соотношения между введенными выше характеристиками. Приведем итоговые формулы
k
k
для определения основных характеристик модели для случая, при котором выполняются следующие соотношения между вспомогательны-
(0) ^ (0)
ми характеристиками: агу < а>+1к+1,
/0) < а(0) k — о^—Т- а(1) < а(1)
k — 0, Ni - 1.
Промежуточные интегральные выражения имеют вид
(0)
R0> (v) —
+
(0)
at+т.
(0)
k+1
[L0 (x,t, v)] dBi (x)
(0)
dGf (t) +
(0)
a
ai+1,k+1
+
(0)
at+T,
(0)
k+1
[L0 (x,t,v)] dBi (x)
at+Tk
(0)
dGl0) (t) +
(0) -++1,k
a(0) ai+1,k+1
T(0) Ti + 1
[L0 (x,t, v)] dBi (x)
at+Tk
(0)
dGf (t), k — 0,i - 1; (24)
(0)
Ri0) (v) —
T(0) Ti+1
[L0 (x,t, v)] dBi (x)
at+Ti
(0)
dGi(0) (t); (25)
ik
ik
a(1) -+,k + 1
R? (v) —
(1)
at+T
(1)
k
[Li (x,t, v)] dBi (x)
(0)
dG(0) (t) +
(1)
+
a(1) ai+1,k + 1
+
(1)
ai,i)+1
T(0) Ti+1
at+T
(1)
k
at+T
(1)
k+1
[Li (x,t, v)] dBi (x)
dG(0) (t) +
' at+T.
(1)
[Li (x,t,v)] dBi (x)
dGi0) (t), k — 0, Ni - 1; (26)
RN (v)
(1)
i+1,N1
(1)
at+T^
[Li (x,t,v)] dBi (x)
(0)
dGi0) (t) +
iN
1
+
а(1)
ai+1,N1
ДО)
[Li (x,t, v)] dB» (x)
dG(0) (t). (27)
Вспомогательные величины, определенные по (24)-(27), предназначены для единой формы записи основных характеристик модели:
= (1), = (2), ^ = (3), к = 0,7; (28) = ^ (1), = Д™ (2), ^ = (3), к = 67Ж. (29)
Подставляя (28), (29) в (2)-(4), получаем итоговые аналитические выражения для основных вероятностных и стоимостных характеристик полумарковской модели рассматриваемой системы. Преобразования указанных характеристик для других вариантов соотношений между вспомогательными параметрами выполняются аналогично.
5. Характеристики модели для вырожденных распределений. В дальнейшем при решении задачи управления по отношению к функционалу такого вида особую роль будут играть вырожденные распределения С*(-), г = 0, N0 — 1, задаваемые как
0, г < и,
1, г > и,
0) 0)
0) 0)
G (t) =
(30)
где u», 0 < u» < то, i = 0, N0 — 1 — некоторые фиксированные числа.
Запишем выражения для величин Д(0) (м), к = 0,г, и (м), к = 0, для случая, когда управляющие вероятностные распределения С(0)(г) имеют вид (30). Из равенств (24)-(27) получаем
?(i)
R
(0)
■»k (u»,v) =
0 при u < а^^
т (0) 'fc+1
L0 (x, u», v) dB» (x) при a(0k)+1 < u» < а
,,(0)
»k '
T (0) Ti+1
=
L0 (x, Ui, v) dB» (x) при а^ < u» < a(+)1ik+1,
(31)
(0)
T(0) Ti+i
L0 (x, u», v) dB» (x) при a(+)1k+1 < u» < а(+)1
(0)
Tk0)
0 при u» > а(+)1 k, k = 0, i — 1
au
au
R? (Ui,v) —
0 при Mi < a(ik,
(1)
Li (x,Mi, v) dBi (x) при a(ik) < Mi < a(ik)+i,
„(i)
(0)
—
(1)
Li (x, Mi, v) dBi (x) при a(ik)+i < Mi <
T(1) ' k + 1
m( < а
(i)
i+i,k,
T(0) Ti+1
T(1) 'k + 1
Li(x, Mi, v) dBi(x) при a(+)i,k < Mi <
^ 0 при Mi > a(+)i,k+i, k — 0, Ni - 1;
L0 (x, Mi, v) при 0 < Mi < a(+)i,i,
Ri0) (мi, v) — {
T(0) Ti+1
(0)
RN (мi, v) —
(0)
, 0 при Mi > a(+i,i;
(i)
0 при Mi < аг(Л,
T(1) TN1
Li (x, Mi, v) dBi (x) при a(iiJ)1 < Mi < a(:i)i,N1,
,,(i)
—
(0)
T(0) +i+1
Li (x, Mi, v) dBi (x) при Mi > a(+)i,N1.
(0)
(32)
(33)
(34)
Из соотношений (28), (29) следует, что для случая вырожденных управляющих распределений имеем
p(°0) (Mi) — R0) (Mi, 1), TT (Mi) — R(0) (Mi, 2),
d™ (Mi) — (Mi, 3), k — 07;
(0) (0)
(Mi) — R» (Mi, 1), T™ (Mi) — R£ (Mi, 2), dS) (Mi) — (Mi, 3), k — ÖN.
(35)
(36)
k
au
ik
a«
Воспользовавшись соотношениями (2)-(4) для случая вырожденных управляющих распределений, находим основные вероятностные и стоимостные характеристики полумарковской модели, вычисляемые при дополнительном условии, состоящем в том, что параметр управления принимает фиксированное значение и = иг € и:
г-1
Pij («) = pi0) («) вj + £ pk («i j
k=0
Ni _
+ EPik («00$, = 0,No - 1; (37)
k=0
i-1 Ni
Ti (Ui)= (Ui) + E Tf (Ui) + E TJk1) (Ui), i =Ö,NÖ-1; (38)
k=0 k=0
г— 1 N1
* (иг) = (иг) + Е ) + Е ^ (иг), % = 0, N - 1. (39)
к=0 к=0
6. Экстремальная задача для дробно-линейного функционала.
В данной работе в роли целевого функционала, определяющего качество управления запасом, выступает стационарный стоимостной функционал (1), характеризующий среднюю удельную прибыль. Известно, что общее представление стационарного функционала (1), описывающего форму его зависимости от управляющих вероятностных распределений С(0) (ж), % = 0,1,..., N — 1, имеет дробно-линейную структуру [П] ^ = ^ ■ ■ "(0)
Id = Id (g(0) (•), i = 0, N0 - 1) =
Ad (U0,..., UN0-1) dG00) (U0)... (Uno-I)
x 00
00
x 00
(40)
J . . J Bd (U0,..., UN0-1) dG00) («0)... dGNO-1 (uno-i) 00
Можно доказать, что если основная функция дробно-линейного функционала
С (ио, . . . ,иМ0 — 1) = :-т (41)
В (ио,... ,иМ0—1)
достигает глобального экстремума (максимума) на множестве векторов допустимых управлений
и ^ о) в некоторой фиксированной точке
uii) — (м0*),..., m(J]-:l)* )' то экстремум (максимум) соответствующе-
го функционала Ы G(0)(^), i — 0,N0 - 1) существует и достигается на вырожденных распределениях вида
Gг(1)* (ж)=< " (. г = 0, N0 — 1, (42)
1, ж > «у,
(1) (1)
сосредоточенных в точках I «0/,..., «(М0.
Далее будут доказаны результаты о представлении стационарных функционалов, связанных с управляемыми полумарковскими процессами, в дробно-линейной форме. Идея такого представления была сформулирована В.А.Каштановым [13, 14]. В данном исследовании будет получено явное аналитическое выражение для основной функции рассматриваемого дробно-линейного функционала через известные характеристики управляемого полумарковского процесса.
7. Структура стационарных стоимостных функционалов. Для решения задачи управления полумарковским процессом необходимо установить структуру стационарного функционала, характеризующего качество управления. Поскольку полученные результаты относятся к общей теории управления полумарковским процессом с конечным множеством состояний, вначале кратко опишем математическую модель управления.
Пусть £(Ь) — управляемый полумарковский процесс с конечным множеством состояний X = {0,1,..., N — 1}, N > 0, есть заданное целое положительное число. Процесс £(Ь) управляется в моменты Ьп, п = 0, то, Ь0 = 0, в которые происходят последовательные изменения состояний. Управление процессом представляет собой случайную величину ип, принимающую значения из некоторого множества возможных управлений и. Под множеством и понимается множество вещественных чисел или некоторое из его подмножеств, на котором задана стандартная а-алгебра борелевских множеств. Зададим на множестве и набор вероятностных мер (распределений)
(•), (•),..., ^-1 (•), которые будут определять принимаемые решения об управлении в моменты времени Ьп при условии, что процесс ^(Ь) принимает фиксированное значение £ (Ьп + 0) = г, г = 0, N — 1.
Последовательность {£п = С (Ьп + 0)}^=0 образует управляемую цепь Маркова, вложенную в полумарковский процесс £(Ь).
Предположим, что при стратегии управления, определяемой набором управляющих вероятностных мер (•), (•),..., ^-1 (•), цепь Маркова {Сп}^=0, вложенная в полумарковский процесс £(Ь), имеет ровно один класс возвратных положительных состояний. Известно,
0, x < м^,
что для такой цепи {Сп}^=0 существует единственное стационарное распределение П = (п0, пь..., -1 ) [16]. Найдем аналитические выражения для стационарных вероятностей п, 3 = 0,^ — 1, через управляющие вероятностные меры (•), (•),..., ^-1 (•).
Запишем систему уравнений относительно стационарного распределения вложенной цепи Маркова и преобразуем ее, исключив последнее уравнение. Система принимает следующий вид:
N-1
п — Е пр,- =0, з = 0Л —2; (43)
г=0
N -1
Е П = 1. (44)
^=0
Теорема 1. Стационарные вероятности вложенной цепи Маркова представимы в виде
^ 1
_ 1
j = D
п, = — / ... D(,) (uo, . . . ,Uj-i,Uj+i, . . . , «N-1) JJ d^i (Ui).
U (N-1) ^ i=0
i=j
(45)
Здесь Б — определитель матрицы системы уравнений (43), (44); и ^-1) = и х и х ... х и — декартово произведение размерностью (^ — 1) пространств возможных управлений;
D(,) («о, . . . , Uj-1, Uj+1, ..., «n-i) =
= ( —1)^ ^ ( —1Г ' х
х (а^-1)'',«0, ... ,и-1,и+1, ..., ^-1) ; (46)
а^-1)'^ = (а0, ..., ..., аN-1) — произвольная переста-
новка чисел (0, ..., 3 — 1, 3 + 1,..., N — 1); -1)'^) — число инверсий в перестановке а^-1)а, причем суммирование в правой части формулы (46) проводится по всем возможным перестановкам набора чисел (0, ..., 3 — 1, 3 + 1, ..., N — 1), число слагаемых в этой сумме составляет ^ — 1)!;
(а^-1)^,«0, ...,%_!,%+!, ..., ^-0 =
= р0,ао (и0) . . . Р^-^оу-х (и^-1) Р^+^а+х
(и^+1) ...^-1,а„-1 -1) ;
(47)
ä(a(N-1)'j)
(-1
^ Ргг (иг) — 1, если аг = %,
Рг,аг (иг) , если аг = %, (48)
% = 0, ..., у — 1, у + 1, — 1.
Обозначим через Рп матрицу линейной неоднородной системы (43), (44); через РП — соответствующую матрицу, в которой у-й столбец заменен столбцом свободных членов; через О = ёе! Рп и = ёе! РП — определители указанных матриц.
Система уравнений (43), (44) имеет единственное решение, которое находится по формуле
П = , j = 0,N - 1. j D
Запишем определитель D(j) через элементы матрицы РП :
D(j) = det Рj =
X(n(N-i),j )
= (-1) Z^ (-1) p0,ao ...Pj-1,aj-i Pj+1,aj+i ...pN-1,aN-i,
(49)
где
f pM - 1, если а = i, = < i = 0, ..., j - 1, j + 1, ...,N - 1.
[ Pi,„i, если ai = i,
Теперь воспользуемся интегральным представлением величин pi ai,
i = 0, ..., j - 1, j + 1, ..., N - 1:
Pi,a =
J [Pii(Ui) - 1] ), если ai = i,
и
J(«i)#i(«i), если ai = i, k и
i = 0, ..., j - 1, j + 1, ...,N - 1. (50)
В соответствии со свойствами интегралов на произведении пространств (формулы повторного интегрирования) для любой фиксированной перестановки a(N),j с учетом (50) имеет место соотношение [15]
p0,ao . . .pj-1,aj-iPj+1,aj+i . . . PN-1,aN-i = j P0,ao («1) #1 («1) X ... X
и
ху й-,,.,-, (И,-1)(„„,)^+1(«,,+1)х ... X
и и
X J ри(и^-1) _1 (м^_1) =
и
= ... / Д^ -1)^,м0,... ^-ьм+ь ..., -1) Д (и») •
и -1К »=0
(51)
Подставляя (51) в (49) и используя свойство линейности интеграла, получаем утверждение теоремы.►
С помощью формул (45)-(48) запишем выражение для стационарного функционала, связанного с управляемым полумарковским процессом, в аналитической форме. Рассмотрим стационарный показатель качества управления в форме, аналогичной функционалу (1). Предположим, что с рассматриваемым полумарковским процессом связан некоторый аддитивный функционал дохода, а показатель качества управления имеет вид
N-1
= —, <52>
£
i=1 N -1
£
шгпг
»=1
где г^ — математическое ожидание дохода за время пребывания в состоянии ] € X,
о = Уо (м) К); (53)
и
— математическое ожидание времени пребывания в фиксированном состоянии ^ € X,
ш = У ш (м) (м); (54)
и
(п0,п1,..., -1 ) — вектор, представляющий собой стационарное распределение вложенной цепи Маркова.
В соотношении (53) г^ (м) — математическое ожидание дохода за время пребывания в состоянии ] при условии, что в момент перехода в это состояние принято решение об управлении м € и, ] € X .В соотношении (54) ш^ (м) — математическое ожидание длительности пребывания полумарковского процесса в состоянии ] при условии, что
в момент перехода в это состояние принято решение об управлении
и е и, 3 е X.
Теорема 2. Стационарный функционал (52), являющийся показателем качества управления полумарковского процесса, можно представить в форме дробно-линейного функционала управляющих вероятностных распределений
Г Г ^
/ . . . Ао (мо, . . . , мм-1) Д #г (Мг)
I = /(*,,...,*„„) = ^-N-1-, (55)
/ . . . Во («0, . . . , ММ-1) Д #г (Мг)
^ ) ^ г=0
где подынтегральные функции числителя и знаменателя задаются следующими выражениями:
Ао («о,... -1) =
N-1
= У^ (м^)Б(«о,..., «-1, ..., Мм-1); (56)
^=о
Во (мо,... ,ММ-1) = N -1
= Е тК)Б(Мо,..., м,--ьм,-+ь..., Мм-1), (57)
^=о
а функции Б^ (мо, ..., м^-1, м^+1, ..., мМ-1), 3 = 0, N — 1 определяются по соотношениям (46) —(48).
< Подставим в выражения для числителя и знаменателя стационарного функционала (52) интегральные выражения для стационарных вероятностей вложенной цепи Маркова (45) и математических ожиданий (53), (54), тогда нормированные величины имеют вид
N — 1 N — 1 „
Ji = D Е rj П = Е / rJ (M) (M)x
J=0 j=0 U
N1
x / ... / DD(j) (uo ,...,Uj—i,Mj+i,...,MN —1)П d^i (u); (58)
i=0
N 1 N 1
J0 = D E mJ П = E / mJ (Mj) (Mj) x
J=0 j=0 U
N-1
X
DD(j) (uo,
1
)П ^ (Ui). (59)
U(N-1) '
i=0 i=j
Преобразуем выражения в правых частях равенств (58) и (59), используя свойства интегралов на произведении пространств и линейность интегралов [15]:
'1 = У
и (N)
'N- 1
Е rj (Uj)DD(j) (uo,... ,Uj-1,Uj+1, ... ,Un-1)
j=o
X
N-1
X Д #i(ui); (60) i=o
'o =
и (N)
N1
mj (uj)DD(j) (u0,..., uj-1, uj+1,..., uN-1)
.j=o
X
N1
X
n#i(Ui). (61)
i=o
Таким образом, стационарный стоимостной функционал (52) можно представить в виде
/1
' = ,
(62)
где /1, /0 — величины, определяемые по соотношениям (60) и (61). ►
Соотношения (56) и (57) позволяют записать аналитические выражения для подынтегральных функций числителя и знаменателя дробно-линейного функционала вида (40), представляющего собой стационарный стоимостной функционал средней удельной прибыли исследуемого управляемого полумарковского процесса.
8. Аналитические выражения для функций, задающих дробно-линейные функционалы. Применим общие результаты, полученные в разд. 7, к исследованию рассматриваемой модели управления запасом. Сформулируем утверждение об аналитическом представлении стационарного стоимостного функционала, являющегося критерием качества управления в данной задаче управления запасом.
Теорема 3. Стационарный функционал средней удельной прибыли, определяемый по равенству (1), представляет собой дробно-линейный функционал вероятностных распределений С(0) (и), г = 0,^о — 1. Функционал аналитически задается формулой (40). Подынтегральные функции числителя и знаменателя этого функционала выража-
ются соотношениями
Ad (uo, . . . ,UNo-1) =
o-
No-1
'u»
»=0
= Е ^«г)!)(г) («о, . . . , Мг-1, «¿+1, . . . , «N0-1) ; (63)
г=(
В («о,... ,«N0-1) = N0-1
= У^ Тг(мг)1)(г) («о, . . . , и-1 ,«г+1, . . . ,«N0-1) ; (64)
г=о
I)(г) («о, . . . ,Мг-1,Мг+1, . . . ,«N0-1) =
= (—1)-^°+г+1 (-!) ( )х
х 10г) (a(No-1)'г,Mо,...,Mг-1,Mг+1,...,MNo-l) , (65)
где а^0-1)'г = (ао,..., аг-1, аг+ъ..., а.м0-1) — произвольная перестановка чисел (0,..., г — 1, г + 1,..., N3 — 1); ^(а^0-1^) — число инверсий в перестановке а^0-1^, причем суммирование в правой части формулы (65), проводится по всем возможным перестановкам набора чисел (0,..., г — 1, г + 1,..., N — 1);
£>ог) (а^0-1^,^, . . . ,Мг-1,«г+1, . . . ,«N0-0 =
= Ро,а0 («о) . . .Рг-1,аг_1 («г-1) Рг+1,аг+1 («г+1) . . . Р^-^а^х С^^-О ;
(66)
- ( ) Г т (м^) — 1, если а = к, ) 1 РМк К), если а = к,
к = 0,..., г — 1, г + 1,..., — 1. (67)
Вероятности перехода вложенной цепи Маркова полумарковского процесса £ (£) при фиксированных значениях параметра управления определяются по (37), математические ожидания длительностей пребывания Тг (иг), г = 0, N3 — 1, и математические ожидания прибыли (иг), г = 0, N<3 — 1, — по (38) и (39).
Замечание. Входящие в формулы (37)-(39) вспомогательные вероятностные и стоимостные характеристики полумарковской модели:
„(°) („. \ и- тт^—т. Ло) („,\. Л1)
p(0; (u»), k = 0, i - 1; p^ (u»); p^ (u»), k = 0, N1; i = 0, N0 - 1; Tf (u»), k = M-T; T»f (u»); (u»), k = Ö^ i = 0,N0 - 1;
7(0)/Л,Л -1". Л1)
d»0; (u»), k = 0, i - 1; 40) (u»); (u»), k = 0, N1; i = 0, N0 - 1,
находятся по (35), (36) с помощью предшествующих аналитических выражений.
< Стационарный функционал средней удельной прибыли вида (1), рассматриваемый в качестве целевого функционала в исследуемой задаче управления запасом, является частным случаем стационарного стоимостного функционала вида (52). Структура этого функционала (форма его зависимости от управляющих вероятностных распределений) определяется по теореме 2. Используем эту теорему. Отметим, что основные вероятностные и стоимостные характеристики модели, входящие в выражения для подынтегральных функций числителя и знаменателя дробно-линейного функционала (55), т.е. в правые части равенств (56), (57), найдены в ходе предшествующего анализа:
) = ^ ); т ) = Т, ^ 3 = ° ^о— 1
где ^ (и,); Т. (и,), 3 = 0, N — 1, — функции, определяемые по (38), (39) с учетом предшествующих соотношений. Условные вероятности перехода (и»), г,3 = 0,^о — 1, в выражениях для вспомогательных функций 1(г)(и0,..., «г-1, и»+1,..., и^0-1) находятся по (37) также с учетом предшествующих соотношений. Таким образом, подынтегральные функции числителя и знаменателя дробно-линейного функционала (40) задаются аналитическими формулами (63), (64) с учетом последующих равенств (65)-(67).^
9. Заключение. В разд. 8 доказано утверждение о представлении показателя качества управления (1) в виде дробно-линейного функционала. Удалось явно выразить подынтегральные функции числителя и знаменателя (см. (63), (64)), т.е. найти аналитическое выражение для основной функции этого функционала. Согласно утверждениям, приведенным в разд. 6, решение проблемы оптимального управления определяется точкой глобального экстремума основной функции С (и0,..., м^0-1), вычисляемой по (41).
Теоретически задачу поиска оптимального управления запасом в рассматриваемой модели можно полагать решенной. Нахождение точек, принадлежащих пространству допустимых векторных значений параметров управления \ которые доставляют глобальный экстремум функции С (и0,... -1), является отдельной задачей. Такую задачу необходимо исследовать для заданного конкретного набора исходных характеристик модели только численными методами с помощью средств современной вычислительной техники.
ЛИТЕРАТУРА
1. Прабху А. Методы теории массового обслуживания и управления запасами: пер. с англ. М.: Машиностроение, 1969. 324 с.
2. Рыжиков Ю.И. Управление запасами. М.: Наука, 1969. 343 с.
3. Рыжиков Ю.И.Теория очередей и управление запасами. СПб.: Питер, 2001. 384 с.
4. ЛотоцкийВ.А., Мандель А.С. Модели и методы управления запасами. М.: Наука, 1991. 189 с.
5. Porteus E.L. Foundations of stochastic inventory theory. Stanford University Press, 2002. 299 р.
6. Дадуна Г., Кнопов П.С., Тур Л.П. Оптимальные стратегии для системы запасов с функциями стоимости общего вида // Кибернетика и системный анализ. 1999. Вып.4. С. 106-123.
7. Демченко С.С., Кнопов П.С., Чорней Р.К. Оптимальные стратегии для полумарковской системы запасов // Кибернетика и системный анализ. 2002. Вып. 1. С. 146-160.
8. Шнурков П.В., Мельников Р.В. Оптимальное управление запасом непрерывного продукта в модели регенерации // Обозрение прикладной и промышленной математики. 2006. Вып. 3. С. 434-452.
9. Шнурков П.В., Мельников Р.В. Исследование проблемы управления запасом непрерывного продукта при детерминированной задержке поставки // Автоматика и телемеханика. 2008. Вып. 10. С. 93-113.
10. Королюк В.С., Турбин А.Ф. Полумарковские процессы и их приложения. Киев: Наукова думка, 1976. 184 с.
11. Королюк В.С., Портенко Н.И., Скороход А.В., Турбин А.Ф. Справочник по теории вероятностей и математической статистике. М.: Наука, 1985. 640 с.
12. Джевелл В. Управляемые полумарковские процессы // Кибернетический сборник. Новая серия. М.: Мир, 1967. Вып. 4. С. 97-134.
13. Вопросы математической теории надежности / под ред. Б.В. Гнеденко. М.: Радио и связь, 1983. 376 с.
14. Каштанов В.А. Об одном классе оптимальных дискретных управлений полумарковским процессом // Труды МИЭМ. Некоторые теоретические и прикладные вопросы теории вероятностей. 1975. Вып. 44. С. 67-76.
15. Халмош П. Теория меры. М.: Изд-во иностранной литературы, 1953. 282 с.
16. Волков И.К., Зуев С.М., Цветкова Г.М. Случайные процессы. М.: Изд-во МГТУ им. Н.Э. Баумана, 1999. 448 с.
REFERENCES
[1] Prabhu. N.U. Queues and inventories. New York, John Wiley & Sons, 1965. 275 p. (Russ. ed.: Prabkhu A. Metody teorii massovogo obsluzhivaniya i upravleniya zapasami. Moscow, Mashinostroenie Publ., 1969. 324 p.).
[2] Ryzhikov Yu.I. Upravlenie zapasami [Inventory management]. Moscow, Nauka Publ, 1969. 343 p.
[3] Ryzhikov Yu.I. Teoriya ocheredey i upravlenie zapasami [Queuing theory and inventory control]. St. Petersburg, Piter Publ., 2001. 384 p.
[4] Lototskiy V.A., Mandel' A.S. Modeli i metody upravleniya zapasami [Models and methods of inventory control]. Moscow, Nauka Publ., 1991. 189 p.
[5] Porteus E.L. Foundations of stochastic inventory theory. Stanford Univ. Press, 2002. 299 p.
[6] Daduna G., Knopov P.S., Tur L.P. Optimal strategies for the inventory system with cost functions of general form. Kibern. Sist. Anal. [Cybern. Syst. Anal.], 1999, no. 4, pp. 106-123 (in Russ.).
[7] Demchenko S.S., Knopov P.S., Chorney R.K. Optimal strategies for a semi-Markovian inventory system. Cybern. Syst. Anal., 2002, vol. 38, no. 1, pp. 124-136. doi: 10.1023/A:1015556518666
[8] Shnurkov P.V., Mel'nikov R.V. Optimal control of a continuous product inventory in the regeneration model. Obozr. Prikl. Prom. Mat. [Rev. Appl. Ind. Math.], 2006, no. 3, pp. 434-452 (in Russ.).
[9] Shnurkov P.V., Mel'nikov R.V. Analysis of the problem of continuous product inventory control under deterministic lead time. Autom. Remote Control, 2008, vol. 69, no. 10, pp. 1734-1751. doi: 10.1134/S0005117908100081
[10] Korolyuk V.S., Turbin A.F. Polumarkovskie protsessy i ikh prilozheniya [Semi-Markov processes and their applications]. Kiev, Naukova Dumka Publ., 1976. 184 p.
[11] Korolyuk V.S., Portenko N.I., Skorokhod A.V., Turbin A.F. Spravochnik po teorii veroyatnostey i matematicheskoy statistike [Handbook on the theory of probability and mathematical statistics]. Moscow, Nauka Publ., 1985. 640 p.
[12] Jewell W.S. Controlled semi-Markov processes. Kibern. Sb. Nov. Ser. [Cybern. Collect. New Ser.] Moscow, Mir Publ., 1967, no. 4, pp. 97-134 (in Russ.).
[13] Gnedenko B.V. Voprosy matematicheskoy teorii nadezhnosti [Problems of the mathematical theory of reliability]. Moscow, Radio i Svyaz' Publ., 1983. 376 p.
[14] Kashtanov V.A. A class of optimal discrete controls in a semi-Markovian process. Tr. MIEM "Nekotorye teoreticheskie i prikladnye voprosy teorii veroyatnostey" [Proc. MIEM. "Some theoretical and applied problems in the theory of probability"]. 1975, no. 44, pp. 67-76 (in Russ.).
[15] Halmos P.R. Measure theory. New York, Springer Verlag, 1950. 304 p. (Russ. ed.: Khalmosh P. Teoriya mery. Moscow, Izdatel'stvo Inostrannoy Literatury Publ., 1953. 282 p.).
[16] Volkov I.K., Zuev S.M., Tsvetkova G.M. Sluchaynye protsessy [Stochastic processes]. Moscow, MGTU im. N.E. Baumana Publ., 1999. 448 p.
Статья поступила в редакцию 7.06.2012
Петр Викторович Шнурков — канд. физ.-мат. наук, доцент кафедры "Высшая математика" МИЭМ НИУ ВШЭ. Автор более 30 научных работ в области теории управления полумарковскими случайными процессами, прикладной теории вероятностей (теория оптимального управления запасами, управление в системах массового обслуживания, оптимальное обслуживание технических систем), математической теории оптимального управления (детерминированные модели). МИЭМ НИУ ВШЭ, Российская Федерация, 109028, Москва, Б. Трехсвятительский пер., д. 3.
P.V. Shnurkov — Cand. Sci. (Phys.-Math.), assoc. professor of "Higher Mathematics" department of the Moscow State Institute of Electronics and Mathematics of the "Higher School of Economics" National Research University. Author of more than 30 publications in the field of theory of control of semi-Markov random processes, applied theory of probabilities (theory of optimal inventory control, control in queueing systems, optimal service of technical systems), mathematical theory of optimal control (deterministic models).
Moscow State Institute of Electronics and Mathematics of the "Higher School of Economics" National Research University, Bol'shoi Trekhsvyatitel'skii per., 3, Moscow, 109028 Russian Federation.
Алексей Валерьевич Иванов — аспирант кафедры "Высшая математика" МИЭМ НИУ ВШЭ. Автор одной научной работы в области теории управления полумарковскими случайными процессами.
МИЭМ НИУ ВШЭ, Российская Федерация, 109028, Москва, Б. Трехсвятительский пер., д. 3.
A.V. Ivanov — post-graduate of "Higher Mathematics" department of the Moscow State Institute of Electronics and Mathematics of the "Higher School of Economics" National Research University. Author of a publication in the field of theory of control of semi-Markov random processes.
Moscow State Institute of Electronics and Mathematics of the "Higher School of Economics" National Research University, Bol'shoi Trekhsvyatitel'skii per., 3, Moscow, 109028 Russian Federation.