ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
Сер. 10. 2009. Вып. 4
УДК 519.244.5
В. В. Мазалов, Е. Е. Ивашко
БАЙЕСОВСКАЯ МОДЕЛЬ В ЗАДАЧЕ НАИЛУЧШЕГО ВЫБОРА С «РАЗЛАДКОЙ»
1. Введение. Рассмотрим последовательность из п независимых одинаково распределенных случайных величин (с.в.) х\,Х2,.., хд—1,хд,...,хп. В случайный момент времени в происходит «разладка» и меняется закон распределения наблюдаемых с.в. То есть до момента в с.в. Х1, ...,хд—1 имеют непрерывное распределение -^(х) (будем говорить, что система находится в состоянии Н_), а последующие с.в. хд,.., хп - непрерывное распределение —2(х) (система находится в состоянии Н2).
Предполагается, что в имеет геометрическое распределение, т. е. в каждый момент времени «разладка» может произойти с одинаковой вероятностью 1 — а. Наблюдатель обладает информацией о параметрах задачи а, —1(х) и —2(х), но не знает истинного состояния системы. Информация о наблюдениях неполна - на каждом шаге известно лишь о том, превышает или нет полученная с.в. установленный наблюдателем порог. Наблюдения поступают последовательно, на каждом шаге наблюдатель принимает решение: либо принять наблюдение (закончить процесс и получить в качестве выигрыша значение принятой с.в.), либо отвергнуть (и перейти к следующему наблюдению). При этом он не может вернуться к наблюдению, которое отверг ранее. Если все наблюдения были им отвергнуты, то его выигрыш равен нулю.
Цель наблюдателя - максимизировать среднее выбранное значение из заданной последовательности с.в. Решение ищется в классе байесовских пороговых правил следующего вида. Перед шагом к, оценив апостериорную вероятность нахождения системы в состоянии Н1, наблюдатель устанавливает порог в = в^(х1,...,х/с—1) и принимает наблюдение х/., если оно превышает этот порог. В противном случае наблюдение отвергается.
Описанная задача относится к классу задач наилучшего выбора с «разладкой» и неполной информацией о наблюдениях. Задача наилучшего выбора с полной информацией впервые была рассмотрена в работе [1]. С тех пор класс задач наилучшего выбора был существенно расширен (см., например, [2]). В работах [3-5] исследовались задачи наилучшего выбора с неполной информацией о наблюдениях в условиях неизменного закона распределения. Статья [3] посвящена решению задачи в классе динамически изменяющихся порогов, а [4] - в классе однопороговых стратегий. В работе [5] рассмотрена задача наилучшего выбора с неполной информацией с несколькими
Мазалов Владимир Викторович — профессор Института прикладных математических исследований Карельского научного центра РАН. Количество опубликованных работ: 95. Научные направления: теория игр, стохастическое динамическое программирование, математическая биология. E-mail: [email protected].
Ивашко Евгений Евгеньевич — аспирант Института прикладных математических исследований Карельского научного центра РАН. Научный руководитель: проф. В. В. Мазалов. Количество опубликованных работ: 4. Научные направления: теория игр, теория оптимальной остановки, задачи наилучшего выбора. E-mail: [email protected].
© В. В. Мазалов, Е. Е. Ивашко, 2009
участниками, кроме того, вычислены значения оптимальных порогов в модели с платой за наблюдения.
Другой важной задачей в теории оптимальной остановки является задача о «разладке» - проблема скорейшего обнаружения момента изменения вероятностных характеристик последовательности случайных величин. Эта проблема описана в монографии А. Н. Ширяева [6], в которой, в частности, приводится решение задачи о разладке ви-неровского процесса и задачи в байесовской постановке. Задаче о «разладке» было посвящено большое количество работ других авторов (см., например, [7, 8]).
В статьях [9, 10] были рассмотрены модели, комбинирующие задачу о «разладке» и задачу наилучшего выбора. В первой работе наблюдатель в условиях ожидаемой «разладки» стремится максимизировать ожидаемое выбранное значение, а во второй - вероятность выбора максимального значения из последовательности случайных величин.
В настоящей работе продолжается исследование оптимальных стратегий выбора в классе задач с «разладкой».
2. Байесовская модель наилучшего выбора с дисконтированием выигрыша. Согласно условию задачи, наблюдатель не знает истинного состояния системы (Н или Н2). Однако эта неопределенность может быть компенсирована с помощью оценки вероятности «разладки». По значениям наблюдений вычисляется апостериорная (после получения информации о том, что х ^ в) вероятность нахождения системы в состоянии Н:
I \ л,,,- т Р(Н1)Р(х ^ вН) апГ1(в)
м.)-Р{Я,!»<.>- 1 ;(^,)' т
Здесь в = вг - порог, установленный наблюдателем за г шагов до завершения наблюдений, п - априорная вероятность нахождения системы в состоянии Н (до получения информации о том, что х ^ в), а -Рл-(в) = 7r.F1 (в) +т^2(в), где ¥ = 1 — 7г.
Для выбора оптимальной стратегии воспользуемся методом динамического программирования.
Пусть уг(п) - это выигрыш наблюдателя за г шагов до окончания наблюдений. Тогда уравнение оптимальности с учетом коэффициента дисконтирования А будет следующим:
Г Уг(п) = тахЕ [Ауг-1(пв)1{х<8} + х1{х>з}] , г > 1,
\ = 0. 8
После преобразования уравнение (2) примет вид
(в ОО \
/ А«г-1(пв)dFп (х) + / хё,Еп (х) =
-°о * /
= тах + 7гFl(s) + 7г£2(в)], * > 1,
в
«о = 0.
ОО
Здесь Ей (в) = / (х), к =1, 2.
(2)
Обозначим выражение в квадратных скобках (3) через Уг (п,в). Тогда за г шагов до окончания наблюдений оптимальный порог вг будет определяться решением оптимизационной задачи вг = а^шахУг(п, в).
в
В данной работе ограничимся построением оптимального правила остановки в классе стационарных стратегий, когда порог в выбора наблюдений зависит только от п и не зависит от номера шага (назовем такую стратегию В-стратегией).
Теорема 1. При фиксированном значении в последовательность функций У (п, в) можно представить в виде
Уг(п, в) = пСг(в) + Тг(в),
где Сг и Тг удовлетворяют следующим рекуррентным соотношениям:
Сг(в) = ХаГ1(в)Сг-1 (в) + ХТг-1(в)(Г1 (в) - Г2(в)) + Ег(в) - Е2(в), г > 1,
Тг(в) = Е2(в)ХТг-1 (в)+Е2(в), г > 1,
Со = То = 0.
Доказательство. Доказательство теоремы проведем по индукции.
Для г = 1 из (3) следует, что
У1(п, в) = п(Е1(в) - Е2(в)) + Е2(в) = пС1(в) +Т1(в),
где
С1(в) = Е1(в) - Е2(в),
Т1(в) = Е2(в).
Для г = 2, воспользовавшись (1) и (3) и учитывая значение У1(п, в), получим
У2(тг, 8) = (ха^^С^з) + АТ^)) *;(*) +7ГД100 +тщ8) =
= п \XaF1 (в)сЦ(в) + ХТ1(в)(Е1(в) - Е2(в)) + Е1(в) - Щв)] +
+ F2 (в)ХТ1(в) +Е2(в) = пС2(в)+Т2(в).
Здесь
С2(в) = ХaFl (в)С1(в) + ХТ1(в)^1 (в) - F2(в)) + Е1 (в) - Е^(в),
Т2(в) = F2(в)ХTl (в)+Е2(в).
Пусть теорема верна при г = к, тогда Ук(п, в) = пСк(в) + Тк(в).
Следуя тем же соображениям, что и ранее, получаем при г = к +1
14+1 (7Г, в) = +^Тк(в)^ ^(в) +пЕ1(в) +7тЕ2(в) =
= п ^1(в)Ск(в) + ХТк(в)^1 (в) - F2(в)) + Е1(в) - Е2(в)] +
+ ^ (в)ХТк (в) + Е2 (в) = пСк + 1(в) + Tk + 1(в),
где
Ск+1 (в) = ХaFl(в)Сk(в) + ХТк(в)^1 (в) - F2(в)) + Е1(в) - Е^(в),
Тк+1(в) = ^(в)ХТк (в) + E2(в),
что и требовалось доказать.
Компоненты функции выигрыша можно записать в матричной форме:
Ск(в) N = / \aF-i(в) \iF-i(в) - Е2(в)) N / Ск-1(в) \ + ( Ех(в) - Е2(в) Тк(в) \ 0 XF2(в) I I Т^в) 1 + { Е2(в)
+
XaF1(s) X(F1(s) - F2(s)) 0 XF2(s)
Ei (s) - E2(s)
E -
E2(s)
XaFi(s) X(Fi(s) - F2(s)) 0 XF2(s)
G0\ + fk—lf XaFi(s) X(Fi(s) - F2(s))
To ) + ^M 0 XF2(S)
XaFi(s) X(Fi(s) - F2(s)) V ( Go 0 XF2(s) I I To
+
E
XaFi (s)
X(Fi(s) - F2(s)) XF2(s)
Ei(s) - E2(s) E2(s)
i
где Е - единичная матрица.
Для дальнейшего упрощения воспользуемся тождеством
a b 0 с
ак Ъ
а —с
ск
0
справедливым для произвольных а, Ь, с таких, что а = с. Тогда
Gk(s) \ = (XaFi (s))k Afc№(S)-F2(S))(^My§M
Тк(s) J \ 0
м( 1 -(XaF^ A
aFi (s)-F2(s)
(XF2(s))k
k Гг? f „\\k
Go
To
0
1 - XF2 (s) X(Fi(s) - F2(s)) 0 1 - XaFi (s)
1 - (XF2(s))k Ei(s) - E2(s) E2(s)
+
[(1 - XaFi(s))(1 - XF2(s))r
При к компоненты Gk(s) и Тк(s) сходятся соответственно к G(s) и Т(s):
r( , _ E1(s)(1-XF2(s))-E2(s)(1-XF1(s))
~ (1 —AaFiO))(l-AF2(») ’
T(s) = E2{s)
1-А^2(з) '
Соответственно V(п, в) —> V(п, в), где
V(п, в) = пО(в) +Т(в). Порог принятия наблюдений в = в(п) определяется как
в = &rgтах V(п, в).
(4)
(5)
Докажем, что при заданных условиях всегда существует решение задачи (5). Теорема 2. Для любых непрерывных функций распределения Fl(x) и F2(x) таких, что Fl(х) стохастически доминирует F2(x), существует решение уравнения (5). Доказательство. Пусть распределение F2 таково, что
J xdF2 (x) = Ц2 =0
к
к
X
0
X
к
i
X
(если это не так, то проведем соответствующее преобразование). Тогда
ОО
/ х^Е.(х) = =0.
— О
Заметим, что
Ит V("7Г, в) = 7г(£^1(в) — Е2(з)) + ТгЕ2(з) = 7Г/Л1
в——О
и
Иш V(п, в) = 0.
в—►О
Покажем, что V(п, 0) > Ит V(п, в):
в——О
У(тг, 0) - я Ит^ У(7г, в) = 7г(С(0) - /XI) + Т(0) = тг (хзЦ^о) “ (х-ЛаД^о))^^^))) +
I ^2(0) _„((1 _ „ ( Ег(0) _ \ р Гпч1-ЛаР1(°)-7г(1-ЛР1(0))
+ 1-А^2(0) 7Г^1 — 71 ^1-Аа^1(0) ^1) +£'2{У) (1-Аа^1(0))(1-А^2(0)) '
Так как Е2(0) > 0 и £1(0) > ^1, то
1-АаД}(0) “ М1 > ^1(0) - М1 > 0,
1 — АаЕ1 (0) ^ 1 — А£1(0) ^ п(1 — А£1(0)).
Значит,
V(п, 0) — Ит V(п,в) > 0.
в——О
Так как функция V(п, в), определяемая формулой (4), является непрерывной, то ЗЫ1 > 0 : V(п, 0) > V(п, х) Ух € (—те, —М1), Уп € [0,1]
и
ЗМ2 > 0 : V(п, 0) > V(п, х) Ух € (М2, те), Уп € [0,1].
Согласно теореме Вейерштрасса, на отрезке [—М1,М2] существует точка, в которой функция (5) принимает максимальное значение, причем не меньшее, чем V(п, 0). Теорема доказана.
Рассмотрим примеры использования байесовской В-стратегии, определяемой формулой (5), в сравнении с А-стратегиями с постоянными порогами, не зависящими от п.
2.1. Нормальное распределение. Пусть функции распределения £1(х) и Е2(х) имеют нормальное распределение с дисперсией а2 = 1 и математическим ожиданием ^1 = 10 и Ц2 = 9 соответственно.
Помимо байесовской, рассмотрим дополнительно стратегии А1 и А2 с постоянными порогами, определяемые следующей формулой:
Е(в)
з = агёшах 1_^(з),
где Е(в) = Е1(в) и Е(в) = Е1(в) для стратегии А1; Е(в) = Е2(в) и Е(в) = Е2(в)
для стратегии А2 .
Значения порогов указанных двух стратегий в зависимости от коэффициента дисконтирования, приведены в табл. 1.
Л Стратегия Стратегия А2
0.99 10.851 9.902
0.9 9.088 8.210
0.7 7.000 6.300
Можно заметить, что коэффициент дисконтирования значительно влияет на пороги принятия наблюдений.
На рис. 1 представлены графики порогов Л-стратегий (51 и в2 для стратегий Л\ и Л2 соответственно) в сравнении с графиком порога байесовской В-стратегии (зо^) в зависимости от апостериорной вероятности п нахождения системы в состоянии Н1. Как из него видно, порог байесовской стратегии, в отличие от стратегий Л1 и Л2, зависит от апостериорной вероятности нахождения системы в состоянии Н1. При этом при понижении апостериорной вероятности п величина порога принятия байесовской стратегии сходится к значению, используемому при стратегии Л2.
Сравним выигрыши, получаемые в зависимости от вероятности «разладки» при применении каждой из трех стратегий. Пусть Уа - выигрыш, получаемый наблюдателем в условиях вышеописанной задачи о «разладке» в зависимости от исходного значения параметра а и при исходной (перед первым наблюдением) вероятности нахождения системы в состоянии Н1 п = 1.
Рис. 1. Графики стратегий А\, А 2 и В при а = 0.9, Л = 0.99
На рис. 2 приведены результаты численного моделирования выигрышей наблюдателей, придерживающихся байесовской стратегии и стратегий с постоянными порогами.
Заметим, что выигрыш, получаемый при применении байесовской стратегии, больше, чем при использовании лучшей из стратегий Л1 и Л2. Различие особенно заметно при а Е [0.75, 0.98], так как при таких значениях параметра наиболее велико влияние неопределенности, связанной с неизвестностью истинного состояния системы. В табл. 2 представлены основные характеристики, связанные с выбором наилучшего наблюдения. Здесь и далее используются результаты моделирования 15 тыс. вычислительных экспериментов с 10 тыс. наблюдений в каждом.
к
О 0.2 0.4 0.6 0.8 1.0
Рис. 2. Значения выигрышей в зависимости от а при Л = 0.99
Таблица 2. Основные характеристики стратегий при а = 0.9, Л = 0.99
Характеристика Стратегия А\ Стратегия А2 5-стратегия
Средний выигрыш 10.035 10.429 10.500
Средний шаг принятия 14.526 2.472 3.072
Задержка принятия 30.406 4.503 5.031
Количество значений,
принятых до «разладки», % 64.100 83.066 79.738
При небольшой вероятности «разладки» (1 — а = 0.1) порог принятия наблюдений, согласно стратегии А2, дает выигрыш (10.429), больший, чем при использовании стратегии А1 (10.035). Однако применение байесовской стратегии, в которой порог зависит от апостериорной вероятности п, позволяет улучшить этот результат и получить еще больший выигрыш (10.500). Увеличение выигрыша достигается, несмотря на меньший процент наблюдений, принятых до «разладки», чем при стратегии А2.
Из табл. 2 видно, что средний шаг принятия наблюдений возрастает при увеличении значения порога. Отметим, что стратегия А1 не реагирует на возникновение «разладки», а это приводит к значительной задержке принятия наблюдения. Задержка принятия наблюдения при использовании байесовской стратегии немногим больше, чем при стратегии А2 с низким порогом.
2.2. Экспоненциальное распределение. Рассмотрим пример экспоненциальных функций распределения Е1 (х) и Е2(х) с параметрами Х1 = 0.5 и Л2 = 1 соответственно. Как и в примере с нормальным распределением случайных величин, применим стратегии А1 и А2, определяемые формулой
Е (в)
з = ащтахТз^у,
где Е(5) = Е1 (5) и Е(5) = Е1 (5) для стратегии А1; Е(5) = Е2 (5) и Е(5) = Е2 (5)
для стратегии А2.
В табл. 3 представлены значения порогов принятия наблюдений для стратегий Л\ и Л 2 в зависимости от коэффициента дисконтирования.
Таблица 3. Значения порогов принятия наблюдений для стратегий А± и А2
Л Стратегия А\ Стратегия A2
0.99 6.756 3.378
0.9 3.358 1.679
Значение порога В-стратегии, так же как и в случае нормального распределения, убывает при уменьшении величины апостериорной вероятности «разладки» п, сходясь при п = 0 к значению порога стратегии Л2. Графики зависимости выигрышей от вероятности «разладки» имеют похожий вид, что и на рис. 1. В табл. 4 для сравнения приведены также другие характеристики процесса наилучшего выбора.
Таблица 4. Основные характеристики стратегий принятия наблюдений
при а = 0.9, Л = 0.99
Характеристика Стратегия А\ Стратегия Ач В-стратегия
Средний выигрыш 2.355 4.438 4.499
Средний шаг принятия 678.930 15.397 16.923
Задержка принятия 856.535 29.110 29.610
Количество значений,
принятых до «разладки», % 21.57 70.89 56.01
Так же как и раньше, байесовская стратегия дает больший выигрыш, чем стратегия Л2, однако имеет немного большие задержку принятия наблюдения после «разладки» и шаг принятия наблюдения.
3. Байесовская модель наилучшего выбора с платой за наблюдения. Используя те же рассуждения, что и в случае дисконтирования выигрыша, можно построить байесовскую стратегию для случая платы за наблюдения.
Обозначим с - значение, которое наблюдатель платит за каждое новое полученное наблюдение. Цель наблюдателя - максимизировать ожидаемый выигрыш с учетом платы за наблюдения. Выигрыш наблюдателя находим следующим образом:
Vi(n) = maxЕ [(vj_i(ns) - c)I{x<s} + xI{x>s}] =
(s o \
f (vi_i(ns) — c)dFn (x) + f xdFn (x) =
_o s
= max [(vj_i(7rs) -c)Fw(s)+7r£i(s)+ 7f£2(s)], * > 1,
s
„ vo = 0.
Обозначим выражение в квадратных скобках через Vi(n, s). Тогда за i шагов до окончания наблюдений оптимальный порог si будет определяться решением оптимизационной задачи si = argmax Vi(n, s).
s
Повторяя рассуждения, используемые при доказательстве теоремы 1, можно показать, что в классе стационарных стратегий выражение для Vi(n, s) имеет аналогичный вид:
Уг(п, в) = пСДв) + Щв), где Ог(в) и ^(в) удовлетворяют следующим рекуррентным соотношениям:
С^в) = а£1 (в)С—1(в) + (Т4_1(в) - с)(£ (в) - £2(в)) + £1(5) - Я2(*), г > 1, ТЦв) = Р2(в)(Т—1(8) - с)+ £2(в), г > 1, Со = То = 0.
При этом при к ^ ж компоненты Ск(в) и Тк(в) предельной функции выигрыша сходятся соответственно к С(в) и Т(в) вида
0(8) Т (8)
Ді(а)(1-Р2(а))-Д2(а)(1-Рі(а))-с(Рі(а)-Р2(а))
/ % / % (1-аР1(*))(1-Р2(*)) ’
Е2(ь) — сР2(ь)
1~Р2(з) '
3.1. Нормальное распределение. Как и в случае дисконтирования выигрыша, рассмотрим пример нормальных функций распределения случайных величин с дисперсией о2 = 1, математическими ожиданиями ^ = 10 и ^ = 9 функций £!(ж) и £2(х) соответственно. Стратегии с постоянными порогами определяются формулой
Е(э) — сР (в)
5 = а^тах 1__р(5) ?
где для стратегии Л1 £ (в) = £!(в), £(в) = £1(3), а для стратегии Л2 £ (в) = £2(3),
£(в) = £2(в) (табл. 5).
Таблица 5. Значения порогов принятия наблюдений для фиксированных стратегий
с Стратегия А\ Стратегия А2
0.01 11.94 10.94
0.03 11.49 10.49
В табл. 6 представлены основные характеристики стратегий принятия решения. Так же, как и в модели с дисконтированием выигрыша, использование В-стратегии дает больший выигрыш (10.178), чем применение стратегий с постоянным порогом (выигрыш 9.027 и 10.17 для стратегий Лі и Л2 соответственно).
Таблица 6. Основные характеристики стратегий при а = 0.9, с = 0.03
Характеристика Стратегия А\ Стратегия А2 В-стратегия
Среднее значение 9.027 10.170 10.178
Средний шаг принятия 25.944 3.880 4.046
Задержка принятия 30.530 4.410 4.563
Количество значений, 30.530 4.410 4.563
принятых до «разладки», % 21.32 42.99 42.00
3.2. Экспоненциальное распределение. Далее рассмотрим пример экспоненциальных функций распределения £.(ж) и £2(х) с параметрами А1 = 0.5 и А2 = 1 соответственно. Две пороговые стратегии Л1 и Л2 определяются формулой
Е(э) — сР (в)
в = а^ тах •
В табл. 7 представлены значения порогов принятия наблюдений в зависимости от величины платы за наблюдения, в табл. 8 - дополнительные характеристики стратегий выбора.
с Стратегия А\ Стратегия A2
0.01 10.597 4.605
0.03 8.399 3.507
Таблица 8. Основные характеристики стратегий при а = 0.9, с = 0.03
Характеристика Стратегия А\ Стратегия А2 В-стратегия
Среднее значение -12.465 4.605 4.734
Средний шаг принятия 682.282 14.050 17.593
Задержка принятия 885.94 28.430 33.149
Количество значений,
принятых до «разладки», % 23.87 63.87 60.00
4. Заключение. В работе рассмотрена задача наилучшего выбора с «разладкой», в которой наблюдатель имеет неполную информацию о наблюдаемых случайных величинах. Исследованы модели с дисконтированием выигрыша и платой за наблюдения. Предложена байесовская стратегия порогового вида, в которой порог принятия решения зависит от апостериорной оценки вероятности «разладки» п. Представлены результаты численного моделирования, на основании которых можно сделать вывод, что указанная процедура дает больший выигрыш, чем использование пороговых стратегий, не учитывающих поступающую информацию.
Литература
1. Gilbert J., Mosteller F. Recognizing the maximum of a sequence // J. of Amer. Stat. Assoc. 1966. Vol. 61. P. 35-73.
2. Березовский Б. А., Гнедин А. В. Задача наилучшего выбора. М.: Наука. 1984. 196 с.
3. Enns E. G. Selecting the maximum of a sequence with imperfect information // J. of Amer. Stat. Association. 1975. Vol. 70. P. 640-643.
4. Sakaguchi M., Szajowski K. Single-level strategies for full-information best-choice problems. I // Mathematica Japonica. 1997. Vol. 45. P. 483-495.
5. Мазалов В. В., Нейман П., Фалько И. А. Игровая задача оптимальной остановки наблюдений с неизвестными значениями // Дальневосточ. мат. сб. 1998. Вып. 6. C. 74-86.
6. Ширяев А. Н. Статистический последовательный анализ. М.: Наука, 1972. 272 с.
7. Bassevile M., Nikiforov I. Detection of Abrupt Changes: Theory and Applications. New York: Prentice-Hall; Englewood Cliffs, 1993. 469 p.
8. Hawkins D., Olwell D. Cumulative Sum Charts and Charting for Quality Improvement. New York: Springer Verlag, 1998. 272 p.
9. Sakaguchi M. A best-choice problem for a production system which deteriorates at a disorder time // Scientiae Mathematicae Japonicae. 2001. Vol. 54, N 1. P. 125-134.
10. Мазалов В. В., Ивашко Е. Е. Задача наилучшего выбора с полной информацией с разладкой // Обозрение прикл. и пром. математики. 2007. Т. 14, вып. 2. C. 215-224.
Статья рекомендована к печати проф. Л. А. Петросяном.
Статья принята к печати 28 мая 2009 г.