ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА_Сер. 10. 2012. Вып. 3
УДК 681.516.7.015.2
А. К. Розов, А. Н. Царапкин
МЕТОД ОБРАТНОЙ ИНДУКЦИИ В ЗАДАЧАХ ОБНАРУЖЕНИЯ СПОНТАННО ВОЗНИКАЮЩИХ ЯВЛЕНИЙ
Введение. Как получить наилучший результат? Не просто превосходящий уже полученные ранее, а такой, который для заданных условий будет лучше всех возможных.
Речь идет о задачах обнаружения разладки - изменения в случайный момент времени вероятностных характеристик у наблюдаемого процесса. Такое может происходить при статистическом контроле поштучно выпускаемой продукции, определении момента выхода за пределы допусков аппаратуры при хранении, а также в задачах обнаружения сигналов, появляющихся в случайный момент времени.
В этих задачах требуется решить вопрос о том, в какой момент следует объявлять «тревогу» о произошедшей разладке, но так, чтобы по возможности избежать ложной тревоги и чтобы время запаздывания в обнаружении было бы минимальным. Такое решение учитывается видом потерь Щ, а оптимизация процедуры обработки наблюдений связывается с достижением наименьшего значения риска
К? = ,
1 Vе[1,м\ и
где - потери от остановки наблюдений в момент V.
Возникает необходимость в применении такого математического аппарата, который позволил бы обеспечить достижение наибольшего выигрыша или снижения до наименьшего уровня потерь.
Таким аппаратом является теория оптимальных правил остановки, причем оказывается важной не сама остановка (хотя обеспечение в среднем меньшего времени наблюдения само по себе важно), а следующее при этом достижение наибольшего выигрыша.
Начало работ по оптимальной остановке относится к 1947 г., когда А. Вальдом была опубликована работа «Последовательный анализ». Его подход отличается тем, что момент прекращения наблюдений определяется в зависимости от результата наблюдений, благодаря чему удается сократить среднее число наблюдений.
Затем уже в байесовской постановке вопросы существования и способы определения оптимальных моментов остановки рассматривались Вальдом, Вольфовичем, Ар-роу, Блекуэллом и Гиршиком. После появления работ этих авторов и под их влиянием
Розов Алексей Константинович — доктор технических наук, старший научный сотрудник 6-го отдела ВУНЦ ВМФ «Военно-морская академия им. Н. Г. Кузнецова». Количество опубликованных работ: более 40. Научные направления: статистика случайных процессов, теория оптимальных правил остановки и их приложения. Телефон: 8(812)355-74-62.
Царапкин Андрей Николаевич — кандидат технических наук, преподаватель ВУНЦ ВМФ «Военно-морская академия им. Н. Г. Кузнецова». Количество опубликованных работ: более 20. Научные направления: статистика случайных процессов, обслуживание и эксплуатация сложных технических систем. E-mail: с-апёге|<Эуапдех.ги.
© А. К. Розов, А. Н. Царапкин, 2012
Снеллом [1] была сформулирована общая задача об оптимальной остановке на базе процессов типа мартингал.
Теория оптимальных правил остановки получила развитие в работах [2-7] и особенно благодаря исследованиям А. Н. Ширяева. Были получены результаты, отличающиеся компактностью и точностью решений. Однако, как часто бывает, ориентация на получение точных результатов сужала круг решаемых задач.
1. Случай дискретного времени. В [5] было показано, каким является правило остановки для условий, когда процесс, описывающий наступление разладки, является марковским с распределением начала разладки в:
„п- 1
Р(в = п) = (1 - е)в"
Когда же процесс, описывающий наступление разладки, не марковский, задачу приходится решать на базе общей теории оптимальных правил остановки - в мартингальной постановке.
Мартингальное представление выигрыша. Мартингальная постановка допускает меньшие ограничения по сравнению с марковской. Можно не требовать марковости в задании процесса наступления разладки. Более того, в мартингальной постановке саму разладку можно понимать шире. Так, в варианте непрерывного времени под разладкой можно понимать не просто как появление ненулевого сноса в виннеров-ском процессе [5], а как воздействие случайного по структуре сигнала в4.
В мартингальной постановке выигрыш может быть представлен процессом типа супермартингал, т. е. процессом, для которого
М(ип\из) < из, п > 8.
С его помощью динамика изменения выигрыша может быть определена рекуррентным соотношением [5], которое в байесовском варианте имеет вид
иN(Пп) = тахЫпп), М^+1(пп)}, где иN (пп) - наибольший выигрыш от остановки на интервале [п, N]; g(пn) - выигрыш от остановки в момент п; Ми£+_1(пп) - ожидаемый выигрыш от продолжения наблюдений; пп = Р(в ^ пЩ1) - апостериорная вероятность наступления разладки; Пп = П1, П2, ..., Пп - наблюдаемые воздействия.
Правило остановки определяется как условие, при котором остановка происходит в момент V, равный
V = шш{п : g(пn) = UN(Пп)}. (1)
Учет стоимости запаздывания. Процедура обнаружения должна минимизировать вероятность ложной тревоги и время запаздывания в принятии решения о наступлении разладки
Е(V) = Р(V < в) + сМ(V - в) или максимизировать выигрыш
и(V) = Р(V > в) - сМ(V - в),
понимаемый как вероятность обнаружения разладки, «уменьшенной» на стоимость запаздывания в ее обнаружении.
Выигрыши от остановки и продолжения наблюдений допускают представление
ё*(пи) = Пп - еИв^и^ - в\пи), М*и?+1(пп] = Рв>и(V > в\пп) - сМ(V - в\Пи).
После вычитания стоимости запаздывания в обнаружении на интервале [1, п] рекуррентное соотношение для выигрыша примет вид
и?(Пи) = тах{пи, Ми^Пи)} = = тах{п и, Рв>и(V > в\пи) - сМв>и(V - в\пи)},
где Р(■) и М(■) - отношения числа правильных решений и затраты времени к числу разыгрываемых на [п + 1, Ж] разладок, т. е. получаемых в результате статистического моделирования.
Статистическое моделирование позволяет преодолеть трудности, препятствующие аналитическому определению ожидаемого выигрыша Ми ?+1(пи). Оно, по сути дела, есть плата за возможность мартингального варианта решения задачи.
Нахождение границы,. Условию (1) соответствует процедура сравнения последовательно вычисляемых значений пп, п =1, ..., Ж, с границей области остановки П и и принятия решения о наступлении разладки в момент V, когда пи достигнет границы.
Непосредственно трансформировать условие (1) в уравнение для границы аналитически не удается, приходится обращаться к численному методу, методу обратной индукции.
При численном нахождении границы исходим из того, что наблюдения должны продолжаться, пока
Пи = и? (Пи ) = тах {Пи, Ми?+1(Пи )} < Ми?+1(Пи ), и прекращаться, как только
Пи = и? (Пи ) = Ми?+1(пи). (2)
Чтобы воспользоваться равенством (2) для нахождения границы, необходимо определить зависимость Ми?+1(пи) от пи. Для этого на интервале [п +1, Ж] разыгрывается начало наступления разладки, назначается начальное условие, положим 0.1, и с помощью рекуррентного соотношения
П +1
\Р(в = П+1)П ч 1 Р(в>п) V1 Пп> "Г +1
Г Р(в=п+1)Г1 ч Р(в>п) ^ + <Рп+1+(1 РСб»«)5)^ 7Г»)
в котором ¥>п+1 - отношение правдоподобия, последовательно вычисляются значения
Пи +1, Пи+2, ....
Путем сопоставления данных значений с ранее определенной границей на [п +1, N] вычисляются Ми ?+1(п и = 0.1), а также ожидаемые выигрыши с другими начальными условиями (0.2, 0.3 и т. д.). Тем самым определяется зависимость Ми?+1(пи) от пи, которая позволяет установить границу Пи, как такое начальное условие пи, которое равно Ми?+1(пи = Пи).
Такая процедура может рассматриваться как решение уравнения
Пп = Рв>и(V > в\пп) - еМв>п(V - в\пп),
наступающее при равенстве его левой и правой частей.
Найденная граница Пп пополнит ранее определенную границу на [п +1, N], что позволит при п ^ 1 построить всю границу на [1, N].
Пример 1. Обнаружение разладки - появления сигнала величины г, когда его воздействие задается процессом
Ч п<в,
г, п в,
Хп =
где в - начало воздействия непрекращающегося затем сигнала. Наблюдается величина
Г]п = Хп + л/С2Хп, хп~Н{ 0,1). Момент в подключения разладки разыгрывается согласно распределению
р чл
^ 1.
Решение о наступлении разладки принимается по достижении статистикой пп = Р(в < п\пП) границы Пп.
Рекуррентное соотношение для последовательного вычисления пп имеет вид
[е(1 - Пп)+Пп] Рп+1
Пп+1
[е(1 - Пп) + Пп] Рп+1 + (1 - е)(1 - Пп)'
где р
т 1 1 2
е , Ф„ = — гг]„ - —— г\
С2 2С2
В [5] было показано, что в этом марковском случае границей остановки является постоянная величина, которая, однако, аналитически определена не была. Она может быть получена статистически - путем подсчета числа своевременных и запоздалых обнаружений, а также времени запаздывания в обнаружении, при которых достигается тах и(V). Так, при е = 0.2, С2 = 1.0, е = 0.2 граница, обеспечивающая достижение наибольшего выигрыша и отвечающие ей вероятности обнаружения и среднего времени запаздывания, оказались следующими (табл. 1).
Таблица 1. Значения границы, обеспечивающей наибольший выигрыш, и отвечающие им вероятности обнаружения и среднего времени запаздывания
г Кп Р(и = в) Р(у > в) Р{у < в) М(и - в) Щи)
0.5 0.500 0.136 0.470 0.394 1.021 0.402
1.0 0.550 0.211 0.500 0.288 0.975 0.516
2.0 0.750 0.382 0.519 0.088 0.795 0.742
Пример 2. Рассмотрим немарковский случай, когда момент наступления разладки равномерно распределен на интервале [1, N]. Примем, что
Хп
0, п<в, г, п в,
Г]п = Хп + \fC~2Xn-, ЖП~ЛГ(0,1). Рекуррентное соотношение для последовательного вычисления пп имеет вид
Пп+1
Ы-п
(1 -■
Уп+1
—(1--
п-
_1
N-11
П1
VI
¥>п+1 + (1 - тЛт) (1 -7Гп)
1
1
VI = £ГГ"Пп
VI + N - 1' г± С2 п 2^2 Моделирование проводилось при г = 2, N = 20, С2 = 1, с = 0.2. Статистическим моделированием были рассчитаны ожидаемые выигрыши и вероятности ложной тревоги для моментов п = 19, 18, ..., 1. В табл. 2 они приведены для момента п = 7.
Таблица 2. Ожидаемые выигрыши и вероятности ложной тревоги для момента п = 7
1
п
п
п
п
п
п
2
к Рв>п(и = в\Ю Рв>п(у > в\<) Ре>п(»>в\К) -- сМд>п(и — в\пгп) Рв>п(и<в К)
0.5 0.468 0.364 0.727 0.169
0.55 0.463 0.353 0.715 0.184
0.6 0.458 0.340 0.701 0.202
0.65 0.451 0.327 0.685 0.221
0.7 0.441 0.312 0.664 0.247
0.75 0.430 0.295 0.641 0.275
0.8 0.416 0.273 0.611 0.311
0.85 0.393 0.247 0.569 0.360
0.9 0.359 0.210 0.509 0.431
Путем решения уравнения для пп (сопоставления пп с МиП+1(пп), для п = 19, 18, ..., 1) была найдена граница пп (п = 1, 2, ..., 20):
п 1 2 3 4 5 6 7 8 9 10
Пп 0.60 0.60 0.61 0.62 0.63 0.64 0.65 0.66 0.67 0.68
п 11 12 13 14 15 16 17 18 19 20
Пп 0.69 0.70 0.71 0.73 0.75 0.78 0.82 0.85 0.83 0.80
Ей соответствовали
Р(и = 0) = 0.373, Р(^>0)= 0.516, Р(V < 0) = 0.112, М(и - в) = 0.809,
Р(V = 0) + Р(V >в) - сМ(V - в) = 0.727.
Изменение границы - умножение ее значений на 0.8 и 1.2 - приводило к уменьшению выигрыша до Ц20 = 0.698 и Ц20 = 0.676.
2. Случай непрерывного времени. В варианте непрерывного времени класс задач обнаружения разладки намного шире: разладка - это изменение режимов в энергетических системах, это возникновение землетрясений, это появление цели, сопровождаемое поступлением сигнала, и т. д. В такой постановке требуется максимизировать выигрыш
и(V) = Р(V > в) - сМ(V - в)
или минимизировать потери.
Процедура обнаружения остается прежней - вычисление пг = Р(V ^ в\п0), сравнение ее с границей области остановки и принятие решения об обнаружении в момент достижения пг границы.
И здесь нахождение границы может быть сведено к решению уравнения
пг = Рв>г+к(V < в\пг) - сМ>+А(V - в\щ). (3)
Шаг Д, с которым решается уравнение (3), находится подбором в результате статистического эксперимента. Он должен быть таким, чтобы дальнейшее его уменьшение не изменяло результат.
При непрерывном времени сложнее обстоит дело с нахождением пг. Для этого могут применяться стохастические дифференциальные уравнения.
Уравнения для пг. Их вывод основан на использовании свойств винеровских процессов применительно к случаю, когда процесс наступления разладки представлен так:
_ /о, в <г
Хг = \вг, в > г,
где в - момент наступления разладки в виде процесса вг.
Предполагается, что наблюдаемые воздействия представляются соотношением
= ХгЛ + у/СЪАУЬъ,
в котором Д,шгк - приращение винеровского процесса.
Возможен вывод уравнения для пг, если ввести предложенную А. Н. Ширяевым вспомогательную статистику
г
вг = ! Ч>\I(в)М,
составить для нее дифференциальное уравнение, а затем с помощью формулы замены переменных (формулы Ито) перевести данное уравнение в уравнение для пг. Для этого представим апостериорную плотность I(в\ц0) в виде
нт г, = ¿РЩ) г1РЩв) Р(в > гШ ¿РЩе) т
ар{г11\9>ьу Щ)Р{9>ьу
¿РЩв) г
где { -- = щ - отношение правдоподобия.
аР(п0\в > г)
Тогда получим, что
= J f(0W0)de = -L^ J rtfme = -¿тгт^А,
p (e>t)' 0
откуда
вг ...
щ = Р(0>г)+ь- (4)
Соотношения (4), вообще говоря, достаточно для нахождения текущих значений пг. Необходимые для этого величины вг могут находиться в результате решения составленного для нее дифференциального уравнения. Последнее может быть получено, если в представлении
г+А
вг+л = J f me + J vi+Af me =
о г
= Фг+А [вг + I(г)Д] отношение правдоподобия фгг+А разложить в ряд
^г+А = е^тв(4)Дт74-^т^(4)Д =
= 1 + - щт*е№ + Щ + °(Д)
и вместо (Д^г)2 взять его среднее значение С2Д.
Тогда, пренебрегая членами порядка о(Д), получим
вг+А =вг + /(*)Д + -¿гтеЮргАъ
С2
и при Д ^ 0 придем к уравнению
<1вг = +
С2
где те (г) - оценка разладки, определяемая фильтром Калмана-Бьюси.
Уравнение для Пг можно получить, если воспользоваться формулой замены переменных (формула Ито)
ау^ау 1 1 а2 у ^ , ау
fdy dy 1 d2y Л dy
dy={ di+d^at+ J dt + d^hdWu
\ <JjO U/Jy U/Jy / U/Jy
приняв у = 7Tt, at = f(t), ¡3t = -¿rme(t)f3t, x = вг-
Подставляя соответствующие производные и выражая вг через пг, получим искомое уравнение в виде
dlTt = - n^dt + -prme{t)7rt(l - щ) [dr/t - me(t)irtdt] .
p(e > t) C2
Процедуру обнаружения проиллюстрируем примером, в котором в качестве разладки брался низкочастотный сигнал, достаточно сильный, чтобы принимать границу не зависящей от времени.
Пример 3. Обнаружение разладки, когда ее наступление представляется процессом
( \ 0, 0 < 0,
^ к ' [о, о>т,
по наблюдению за процессом гц с
¿ГЦ = Хг&+ \/С2<1и)1п\ где 01 - сигнал, удовлетворяющий уравнению
= —авгскЬ + а^л/С^/ки^.
Значение границы определялось подбором в результате статистического эксперимента. Условие выбора - снижение риска до наименьших величин.
Текущие значения п вычислялись в результате решения уравнения в рекуррентной форме
ък+1 = + ~7Г^)а+ -£гтв{1к)ъ1к{1 -щк) [тк+1 -щк - тв(гк)щкА].
Оценка шд(¿) в уравнении для п находилась путем решения уравнения Калмана-Бьюси, которое в рекуррентной форме имеет вид
тв^к+1) = тв(Ьк) - атв(гк)А + [%к+1 ~ Шк ~ тв(Ьк)А]
1
С2 1
Ък+1 = Ък - 2аЪкА - Д + о^Д,
с начальными условиями
т(0)=0, 7о =
Моделирование проводилось при а = 2п, а* = 20п, Т = 20с, С\ = 1с, С2 = 1с, с = 0.4.
Для разных границ вероятности правильного обнаружения, ложной тревоги и среднего времени запаздывания, а также величины риска оказались следующими:
П 0.7 0.75 0.8 0.9 0.95
Р (V > в) 0.73 0.78 0.80 0.87 0.94
Р (V < в) 0.27 0.22 0.20 0.13 0.06
М(V - в) 1.082 1.10 1.154 1.394 1.691
Я 0.707 0.660 0.662 0.668 0.706
где Я = Р(и < 0)+ 0,4М(и — 0).
Видно, что оптимальной (с наименьшим риском) оказалась граница П = 0.75, а также, что она совпадает со значением 1 — Р(и < 0). Такое совпадение, как отмечалось в [5], имеет место при экспоненциальном распределении начала разладки. Сохранится ли такое соотношение для других распределений, требует исследования.
Проведенное рассмотрение показало, что для заданных условий (распределение ](в), дифференциальное представление наблюдаемых воздействий, величины помех -6*2 и платы за наблюдения - с) может быть составлена процедура принятия решений, обеспечивающая снижение до наименьших потерь - суммы вероятности ложной тревоги и времени запаздывания в обнаружении разладки.
ПРИЛОЖЕНИЕ
Представление наблюдаемых воздействий. За возможность использования стохастических дифференциальных уравнений для нахождения апостериорной вероятности приходится платить некоторой усложненностью представления наблюдаемых воздействий. Причиной такой усложненности являются особенности винеровских процессов, лежащих в основе стохастических дифференциальных уравнений, - их нестационарность и независимость приращений.
Эти неудобные для приложений свойства могут быть преодолены дополнением алгоритма обработки некоторыми несложными процедурами.
Нестационарность преодолевается тем, что вместо самого винеровского процесса используются только его приращения, достаточные для решения стохастических дифференциальных уравнений.
Независимость приращений Дтг преодолевается условием, что помеха иг предполагается широкополосной. Настолько широкополосной, что сам винеровский процесс и его приращения допускают аппроксимацию
= J и33,а, = J и33,а.
0 гк
Если теперь наступление разладки представить процессом
(о, г < в,
\ви г > в,
а на входе системы обнаружения иметь интегратор, приравнивающийся нулю после каждого шага наблюдения Д = — то в стохастическом уравнении приращения наблюдаемого воздействия будут входить в форме
¿к + 1
ДПгк = Пгк+1 — Пгк = J + Д-Шгк. гк
Сказанное иллюстрирует рисунок, на котором разладка представлена величиной г.
Случай окрашенного шума. Если полосу шума сужать, то получим окрашенный шум, который может быть представлен уравнением
игк+1 = игк ~ ащкА + ау/С^Ат^.
Величины Аш1к могут быть получены в результате решения этого уравнения, т. е. с использованием наблюдаемых значений щк.
То что к наблюдаемым помехам щк в неизвестный момент времени добавится разладка Хк, не страшно, так как порядок малости хьк Д выше порядка и поэтому Д^гк в основном будет определяться значением Дщк. А раз так, то Д"Ш1к может выражаться через щк: точнее, заимствовать Д~>лгк из уравнения для щк.
Наблюдаемое воздействие Так, в случае низкочастотных помех, предоставляемых уравнением
utk+i = utk ~ autkA + a^/C~2Awtk, приращение наблюдаемого процесса будет
AVtk = xtk А + ^-(utk+1 -utk) + utk А.
а
Возможность пренебрежения слагаемым Xtk А подтверждена моделированием: в условиях, когда r = 2, а = 2nc-1, C2 = lc, в = 5c, оно было равно 0.0013, в то время как utk+1 — utk достигало величины 0.12.
Литература
1. Snell I. L. Applications of martingal system theorems // Trans. Amer. Math. Soc. 1953. P. 293-312.
2. Каллиянпур Г. Стохастическая теория фильтрации / пер. с англ. М.: Наука, 1987. 315 с. (Kallianpur G. Stochastic filtering theory.)
3. Роббинс Г., Сигмунд Д., Чао И. Теория оптимальных правил остановки / пер. с англ. А. А. Новикова; под ред. А. Н. Ширяева. М.: Наука, 1975. 168 с. (Robbins H., Siegmund D., Chow G. S. Creat expectations: the theory of optimal stopping.)
4. Эллиотт Р. Стохастический анализ и его приложения / пер. с англ. М. Г. Элуашвили; под ред. А. Н. Ширяева. М.: Мир, 1986. 350 с. (Elliott R. J. Stochastic calculus and applications.)
5. Ширяев А. Н. Статистический последовательный анализ. М.: Наука, 1976. 271 с.
6. Урусов М. А. Об одном свойстве момента достижения максимума броуновским движением в некоторых задачах оптимальной остановки // Теория вероятностей и ее применения. 2004. Т. 49, вып. 1. С. 184-196.
7. Peskir G., Shiryaev A. Optimal stopping and free-boundary problems. Basel: Birkhauser, 2006. 500 p.
Статья рекомендована к печати проф. Д. А. Овсянниковым. Статья принята к печати 26 апреля 2012 г.