2017 Теоретические основы прикладной дискретной математики №35
УДК 519.214.5
ОЦЕНКА ДЛЯ РАСПРЕДЕЛЕНИЯ ЧИСЕЛ СЕРИЙ В СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ, УПРАВЛЯЕМОЙ СТАЦИОНАРНОЙ ЦЕПЬЮ МАРКОВА
Н. М. Меженная
Московский государственный технический университет имени Н. Э. Баумана, г. Москва,
Россия
Проведено исследование асимптотических свойств совместного распределения чисел серий из разных знаков в последовательности случайных величин с полиномиальными распределениями, управляемой стационарной цепью Маркова с конечным числом состояний. Получена оценка расстояния по вариации между распределением случайного вектора из чисел серий заданных знаков и заданной длины в управляемой последовательности и сопровождающим многомерным распределением Пуассона. При доказательстве использованы метод Чена — Стейна, а также оценки расстояния по вариации между смешанным и обычным распределениями Пуассона. Из полученной оценки расстояния по вариации выведены многомерная пуассоновская и нормальная предельные теоремы для указанного случайного вектора.
Ключевые слова: число серий, цепь Маркова, расстояние по вариации,, метод Чена — Стейна, смешанное 'распределение Пуассона, предельная теорема Пуассона, центральная предельная теорема, скрытая марковская модель.
DOI 10.17223/20710410/35/2
ESTIMATOR FOR THE DISTRIBUTION OF THE NUMBERS OF RUNS IN A RANDOM SEQUENCE CONTROLLED BY STATIONARY
MARKOV CHAIN
N. M. Mezhennaya Bauman Moscow State Technical University E-mail: [email protected]
The sequences of random characters from a finite set a with polynomial distributions controlled by a stationary finite-state Markov chain are considered. For numbers of character runs in them, the asymptotic properties of joint distributions are studied. We deduce an estimate for the total variation distance pTV between the distribution of a random vector with components being numbers of runs in a controlled sequence of an enough length T and accompanying multidimensional Poisson distribution Pois(AA). The estimate is pTV (£(<и), Pois(AA)) ^ y (7T(p*)s* +1), where Y2 = |a|2(2s* + 3)(p*)s*, s* (s*) is the minimum (maximum) length of run in the set of components of the vector ^д, and p* is the maximum character probability in distributions given on a. For deriving this estimate, we use the functional variant of Chen — Stein method and an estimation for the total variation distance between the mixed and ordinal Poisson distributions. This estimation is a function of the variance of mixing parameter of mixed Poisson distribution. Using the derived estimate for
the total variation distance pTV, we deduce the multidimensional Poisson and normal limit theorems for the random vector ça under appropriate conditions for scheme parameters.
Keywords: number of runs, Markov chain, total variation distance, Chen — Stein method, mixed Poisson distribution, Poisson limit theorem, normal limit theorem, hidden Markov model.
Введение
Статистические свойства чисел серий в дискретных случайных последовательностях широко используются в задачах передачи информации, контроля качества, анализа генома и т.д. (см. [1, глава 1] и библиографию там же). Вероятностные свойства связанных с ними статистик (чисел серий, длин промежутков между сериями и т. п.) в последовательностях, образованных независимыми или слабо зависимыми случайными величинами, хорошо изучены [1, главы 5,7; 2]. Имеются как точные, так и асимптотические результаты.
В ряде работ изучены свойства чисел серий и цепочек специального вида из фиксированных знаков в марковских последовательностях. Например, в [3, 4] исследованы распределения времени до появления серии в цепи Маркова с двумя состояниями, а также распределения ряда других случайных величин, связанных с моментами появления серий в такой последовательности. В работах [5-7] найдено распределение чисел серий в марковской случайной последовательности с двумя и тремя состояниям. В [8] получены точные и приближённые формулы для вероятностей появления чисел серий из единиц в отрезках марковских случайных последовательностей с двумя состояниями и выражения для их математического ожидания и дисперсии. В [8,9] подробно описано использование статистик, связанных с числом серий, для анализа последовательностей из зависимых случайных величин. В [10] получена производящая функция совместных вероятностей появления серий в цепи Маркова с конечным множеством состояний. Она позволяет найти явные выражения для вероятностей и числовых характеристик.
В работах [11-13] рассмотрен вопрос об оценках скорости сходимости для распределения чисел серий и цепочек в марковской цепи к сложному пуассоновскому распределению. Предельное поведение наибольших длин серий изучено в [14, 15], а также в [16, глава 4]. В [17] получены асимптотические формулы для вероятностей цепочек в последовательности независимых случайных величин и проведено обобщение этого результата для марковских последовательностей. В [18, 19] доказаны предельные теоремы Пуассона для числа повторений и кратных повторений (соответственно) цепочек в эргодической марковской цепи с оценками скорости сходимости. В [20] доказана многомерная центральная предельная теорема для чисел серий в марковской случайной последовательности с двумя состояниями.
В последнее время особый интерес представляет анализ свойств скрытых цепей Маркова в связи с задачами распознавания образов, машинного обучения и анализа текста [21, 22]. Основные свойства скрытых марковских моделей подробно описаны в [23, главы 1-3]. Для таких моделей также представляет интерес задача о точном и асимптотическом поведении чисел серий и цепочек как в наблюдаемой последовательности, так и образованной состояниями цепи Маркова. В [24] приведён способ вычисления вероятностей появлений цепочек специального вида в последовательности, образованной состояниями скрытой марковской цепи, по известному участку наблю-
даемой последовательности. Однако вычисления по приведённым в [24] алгоритмам являются весьма трудоёмкими для больших длин последовательностей.
В настоящей работе рассматривается один частный случай скрытой марковской цепи, а именно полиномиальная последовательность, управляемая цепью Маркова. Такая последовательность может трактоваться как последовательность, полученная укрупнением состояний марковской цепи, и как скрытая марковская цепь. В [25] изучено предельное распределение для числа пар совпавших знаков в такой последовательности, когда её длина стремится к бесконечности, а наибольшая вероятность появления любого знака стремится к нулю (согласованным образом). В частности, доказаны пуассоновская и нормальная предельные теоремы (с оценками скорости сходимости) для чисел пар совпадений знаков и ряда связанных с ними случайных величин.
Данная работа посвящена изучению асимптотических свойств совместных распределений чисел серий разных знаков и различных длин в полиномиальной случайной последовательности, управляемой цепью Маркова с конечным числом состояний. Получены предельные теоремы пуассоновского и нормального типа для чисел серий длины не меньше заданной.
1. Оценки расстояния по вариации и предельные теоремы
Пусть Z = (^0,^1,^2,..., ,...) — стационарная цепь Маркова с множеством состояний Ем = {1,... , М} и стационарными вероятностями Пк = Пк(п) = Р{^га = к}. Обозначим
= Р{^+т = = к}, к,/ е Ем,
вероятность перехода из состояния к в состояние / за т шагов, т е N. Для простоты обозначений будем писать пк1 вместо пк!^ Известно [26, часть 2, §3], что существуют константы С, а > 0, при которых
тах ^ - Пк | ^ СПке-ап (1)
Пусть на множестве АN = {1,...,Х} заданы М вероятностных распределений (р/^а е AN),3 = 1,...,М. Рассмотрим последовательность случайных величин Х0, Х1, ... , Хт, ... , принимающих значения из множества AN с вероятностями
Р{Х/ = к} = рк7), к е Ам, з = 0,1, 2,...
Пусть ^ ^ 1. Обозначим ^^ = I{Х4-1 = а,Х4 = ... = Х4+5-1 = а} индикатор случайного события, состоящего в том, что в момент £ началась серия из знаков а длины не меньше в (для краткости будем писать а-серия). Тогда сумма случайных индикаторов
С = Ё (2)
t=l
равна числу а-серий длины не меньше в с началом в последовательности Х1,... , Хт.
Математическое ожидание случайной величины ^ обозначим Ла = Е^. Оно определяется формулой Ла = ЕЛ^), где
ла^ = Е(<да = ё (1 -п ). (3)
4=1
Пусть р* = тп {ра*} р* = тах {ра}, ра = .тах,ра* = . тп {р1'?)}.
Лемма 1. Пусть Т > в ^ 1, а € AN — фиксированный знак. Тогда
ЕС = л: = Т £ (1 - р1к0))Пк0 П №)пк._1к.; (4)
ко,...,к3еЕм 3=1
{ 2СА" \
бл:(7) ^ л: ^(2в +1)(1 -р„,)(р:)5 + Т -^. (5)
Замечание 1. Формула, аналогичная (4), приведена в [27] для более общего случая, когда цепь Z не является стационарной.
Пусть А С AN — фиксированное подмножество и заданы наборы чисел (ва, а € А) и Лд = (Л:а, а € А). Обозначим вектор яд = (яаа, а € А). Через Ро1з(Лд) будем обозначать распределение случайного вектора с независимыми компонентами, каждая из которых распределена по закону Пуассона с параметром Л^. Будем также использовать обозначение ¿(X) для распределения случайной величины X.
Напомним, что расстояние по вариации между распределениями случайных величин и ^2, принимающих значения в счётном множестве Е, выражается формулой
РТУ (¿Ы, ¿Ы) = 1 Е |Р{П1 = а} - Р{П2 = а}|. (6)
2 аЕ£
Пусть в* = тах{ва}, в* = тт{ва}. Мощность множества В будем обозначать |В|. аеЛ аел
Теорема 1. Пусть А С AN, задан набор натуральных чисел (ва,а € А), Т ^
сл
^ т-тт—гт-. Тогда выполнена оценка
(еа - ШУа
Рту (¿(яд), Ро18(Лд)) ^ 7 (ТТ(Р*Г + 1), (7)
где 72 = |А|2(2в* + 3)(р*)в*.
Замечание 2. Оценка расстояния по вариации, аналогичная оценке (7), для случая одноточечного множества А получена в [28]. Если А — одноточечное множество, то вектор Яд представляет собой одномерную случайную величину. В случае одномерного распределения оценка работы [28] точнее, так как при доказательстве использован одномерный вариант метода Чена — Стейна.
Следствие 1. Пусть А С AN — фиксированное множество, р* € (0,1), Т ^ то, а числа ва, а € А, меняются так, что ва ^ то и Т(р*)5* ^ с > 0. Тогда при всех а € А существуют
8
ИшЕ< = ИшТ Е (1 - рак0))Пко П рГЧ,_1к, = Ла ^ 0,
ко,...,квеЕм 3=1
а компоненты случайного вектора Яд = (яаа, а € А) асимптотически независимы и имеют в пределе распределения Пуассона с параметрами Ла соответственно.
Следствие 2. Пусть А С AN — фиксированное множество, р* € (0,1), Т ^ то, а числа ва,а € А, меняются так, что Т(р*)5* ^ то и 7Т(р*)5* ^ 0. Тогда компоненты
(яа - ла Л
случайного вектора I —а а, а € А I асимптотически независимы и распределены
\ V 5а /
в пределе по стандартному нормальному закону.
Замечание 3. Следствия 1 и 2 очевидным образом получаются из оценки (7), поэтому подробно на их доказательстве мы не останавливаемся.
2. Вывод оценки расстояния по вариации
Доказательство теоремы 1 начнём с более простой постановки задачи. Пусть случайные величины У1,... , Ут,... независимы и принимают значения из множества AN = {1,... , N}, причём
Р{у = к} = р' к е Ам, з е {1,..., М},
а наборы {р'"*} при каждом з удовлетворяют условию Е р' = 1. Классу таких
кеАм
последовтельностей принадлежит последовательность Х0,... , Хт,..., описанная в начале работы, при фиксированной Z.
т
Пусть в ^ 1, и? = I{У4-1 = а, У = ... = Уг+8-1 = а}, Са = Е . Случайные величи-
4=1
ны С? и Са аналогичны введённым в начале работы и с? (см. (2)). Математическое ожидание случайной величины Са определяется формулой
т т 4+8-1 , .
Еса = Е еса = £ (1 - ра4-1)) п р' (8)
4=1 4=1 '=4
Обозначим вектор Са = (с^, а е А). Сопровождающим пуассоновским распределением для вектора Са будет распределение вектора с независимыми компонентами, каждая из которых распределена по закону Пуассона с параметром ЕС^, а е А, определяемым формулой (8). Для этого распределения будем использовать обозначение Ро1з(ЕСа) =
= (Ро18(Ес* ),а е А).
Лемма 2. Пусть А С AN, задан набор натуральных чисел ва, а е А, Т ^ 1. Тогда выполнена оценка
рту ОС(са), Ро18(ЕСа)) ^ (2в* + 3)|А|(рТЛа, (9)
где Ла = Е ЕСаа.
а€А
Замечание 4. Если цепь Маркова Z представляет собой последовательность независимых одинаково распределённых случайных величин, то Х0, Х1,..., Хт,... является стационарной последовательностью с полиномиальным распределением. В этом случае оценка (9) может быть получена из теоремы 2 работы [2].
Доказательство леммы 2 приведено далее в п. 3. Вернёмся к задаче об управляемой последовательности. Запишем неравенство треугольника
Рту ОСЫ, Ро1й(Ла)) ^ рту ОСЫ, Ро1в(Ла^))) + рту (Pois(ЛA(Z)), Ро18(Ла)) . (10)
Здесь обозначение Pois(ЛA(Z)) используется для распределения вектора, компоненты которого имеют смешанные пуассоновские распределения с параметрами Ла Напомним, что случайная величина Х имеет смешанное распределение Пуассона с дискретным случайным параметром Л, принимающим значения в множестве Е, если
Л™
Р{Х = п} = Е Л-е-Л Р{Л = Л}. Ле£
Для оценки первого слагаемого в (10) воспользуемся леммой 2, согласно которой для каждой траектории ъ цепи Маркова Z
Рту ОСЫ, Pois(ЛA(ъ))) ^ (2в* + 3)|А|(р*)8*Ла(ъ); (11)
Т / 1 / \ Лд(г)= Е Лаа Ы=ЕЕ(1 - р«"-0) П ра') ^ Т |А|(1 - р*)(р*)5* ^ Т |А|(р*Г*, (12)
«еЛ «еЛ *=1 3=*
а также следующим утверждением.
Лемма 3. Пусть случайная величина П имеет смешанное дискретное распределение со случайным параметром в. Обозначим в не зависящую от П и в случайную величину. Тогда
Рту (¿(П), ¿(а)) ^ шахрту(¿(П|0), ¿(в)), (13)
о
где максимум берется по всем возможным значениям в, а через ¿(П|0) обозначено распределение случайной величины П при фиксированном значении параметра в = 0.
Из (11)-(13) следует, что
РТУ (¿(яд), Ро18(Ад^))) ^ 2Т(в* + 1)|А|2(р*)25* = 72Т(р*)5*. (14)
Для оценки второго слагаемого в правой части (10) понадобится ещё одно утверждение.
Лемма 4. В условиях теоремы 1
РТУ (Ро18(Лд^)), Ро18(Лд)) ^ 7. (15)
Подставляя (14) и (15) в (10), получаем
РТУ (¿(яд), Ро18(Лд)) ^ 72Т(р*)5* + 7 = 7 (7Т(р*)5* + 1).
Теорема 1 доказана. ■
3. Доказательства лемм
Доказательство леммы 1
Формула (4) в нашем случае очевидна (см. замечание к лемме 1), поэтому сразу перейдём к формуле (5).
Вычислим сначала второй момент случайной величины Л«^). Согласно (3),
Е(ла^))2 = е( Е (1 - ра^-1)) 'гТ р«2- ^ =
У=1 3= )
= Е Е Е 1 - ра ) П ра 1 - ра П ра ' _
уа I ^ ^а 11 -Ра
4=1*' = 1 4 7 3=' 3'=*'
= е £ (1 - р«^)2 '+п-1 (ра2- ))2+
+Е Е Е 1 - ра ) П ра ' 1 - ра П ра ' .
*=1 *'=1,...,Т ; 4 7 3= 4 7 3'=*'
Оценим отдельно слагаемые в правой части (16). Для первого слагаемого имеем
е е (1 - р«^-0)2 * п-1 (ра2- ))2 ^ (1 - ра*)(ра)5 е £ (1 - р:24_1)) * п"1 р«2- ) ^
^ (1 -р«*)(р«)5Л«.
16)
Перейдём к оцениванию второго слагаемого. Пусть ¿' е {£ + 1,...+ в}. Тогда аналогично предыдущему случаю
Е(1 -р«7'-1)э4+П-1 р?7') (1 -р!7"-1))"п1 р?7'') «
'=4 ^ ' ''=4'
'=4 ' =4 (18) 4+8-1 , .
^ е (1 -р!7^-1)) п р!7')(1 -ра*)(ра)8.
'=4
Пусть ¿' ^ £ + в + 1. Тогда
,(74-1)) 4+Г—1 р(7')(1 р(7^'-1)) 4'+£Т1 р(7'') =
е(1 -р!74-1)) п ра7')(1 -Р?7^) п р.
'=4 ''=4'
Е Е Р{^4-1 = к0 , . . . , ^4+8-1 = ^4'-1 = ¿0 . . . , ^4' +8-1 = /«}Х
ко,...,к3€Ем !о,...,'в€Ем
х(1 - рако)) п рак' )(1 - ра!о)) П р' )
'=1 ''=1
е Пко(1 - рако)) п рак')Пк, Л е (1 - ра^п4;-4-8) п ра!''ч,_,, ^
ко,...,к3€Ем '=1 !о,...,!в€Ем '' = 1
^ ё Пко(1 - рако)) I! рак')Пк'_1к' Ё (1 - ра!о))П!о(1+се-а(4'-4-8)) 11 р'ч. 1,''
ко,...,к3еЕм '=1 ' ' го,...,гвеЕм ''=1 ' '
(в последнем неравенстве мы воспользовались оценкой (1)). Значит,
е ЕЕ (1 - р?74-1)) 4+П-1 р?7' )(1 - р?74'-1)) 4'+П-1 р?7'' ) ^
4=1 4' = 1,...,т; '=4 ''=4'
|4'-4|>8
^ Ё Ё Ё пСко(1 - р?ко)) I! р?к')Пк'_1 к' X (19)
4=1 4'=1,...,т; ко,...,к3€Ем '=1
|4'-4|>8
X Ё (1 -ра!о))П!о(1 + Се-а|4'-4-81) I! р?''1,''.
го,...,гвеЕм ''=1 ' '
' 1 - 6«(«+4-т) 1 - еа(1-(8+4)) 2
Так как Е е-а|4'-4-81 =--1--^ -, то правая часть (19)
4'=1 т; еа - 1 еа - 1 еа - 1
|4'-4|>8
оценивается сверху выражением
Ё Ё пСко (1 - р?ко)) I! р?к')Пк'_1к' X
4=1 ко,...,к3еЕм '=1
х ё (1 - ра!о))п-!о (V+1! р',
еа - 1 У ¿=1 !''_1!''
Т Ё пСко (1 - р?ко)) ! р?к')Пк'_1к' X (20)
ко,...,к3€Ем '=1
/ 1 , 2С Л „С,").
а
(Л?)^ 1 + С2Т(еа - 1)) .
х Т Е (1 - ра!о))П!о 1 + Т7^Т П р?1' V'
го,...,гвеЕм V Т (е - ^У ''=1 ' 1'
Подставив оценки (17)-(20) в (16), получим
e(a:(z))2 ^ А« ((2s + i)(i - pa,)(p:)s + А« (1 + 2C
T(ea - 1)
2CA«
da?(z) ^ A:( (2s + i)(i - p„*)(p:r + s
Т(еа - 1)7 '
Лемма 1 доказана. ■
Доказательство леммы 2
Для каждой пары индексов (а,*), * Е {1,...,Т}, а Е А^, определим множество О(а, *) равенством
О(а,*) = {(б,*') : Ь Е А,*' Е {1,... ,Т} : шах{1,* - Sb} ^ ^ тт{Т,* + sa}} .
Тогда случайный индикатор й« и набор случайных индикаторов (й6'), (Ь,*') Е О (а,*), независимы. Согласно [29, глава 10, с. 210, теорема 10.А], расстояние по вариации между распределением случайного вектора йл = (я», а е А) и сопровождающим пуассо-новским распределением Ро1в(Есд) = (Ро18(Ей«а),а Е А оценивается как
рту (£(йл), Ро18(Еяд)) ^ й + Я (21)
й = Е ЕЕ Е Й»е й£, й = Е ЕЕ Е й« й£.
«ел *=1 (6,4')еО(а,4) «ел *=1 (6,*')еО(а,*)\{(а,*}}
Начнём с оценивания первой суммы й1. Так как
Ей* = (1 - р(4-1)) п ^ (1 - Р*) п Р* ^ (1 - Р*)(Р*г, (22)
то
(23)
Si = Е Е Ей? Е Ей* ^ (2s* + 1)|A|(1 -P*)(pTE Е Ей? = «eA i^t^T (ь ,t')eo(:,t) «eA 1<t<T
= (2s* + 1)|A|(1 -p*)(pT E Ей? = (2s* + 1)|A|(1 -р*)(р*ГЛа
«eA
(в силу формулы (8)).
Теперь перейдём к оцениванию S2. Перепишем формулу для S2 в виде
S2 =Е S2(a,b), S2(a,b) = ЕЕ Ей? й*.
beA t=1 (b,t')eO(:,t)\{(a,t}}
Заметим, что события, соответствующие случайным индикаторам й? и й?, (a, t') Е Е O(a,t)\{(a,t)}, несовместны. Действительно, при t' > t события {Yt-1 = a,Y = = ... = Yt+Sa-1 = a} и {Yt'-1 = a, Yt' = ... = Yt'+Sa-1 = a} (отвечающие случайным индикаторам й? и й? соответственно) зависят от одного и того же случайного знака Yz-b который в первом событии должен принимать значение a, а во втором — любое значение, отличное от a. Аналогично при t' < t. Поэтому S2(a, a) = 0.
Пусть теперь a = b. События, отвечающие й? и , (b, t') Е O(a, t)\{(a, t)}, совместны, если t' = t - sb или t' = t + s« (аналогично оценке для S2(a, a)), и
Ей? ^ = Е й? ^ = P{Y _1 = a} Ей?Е ^ (1 - р*)-1Ей?Е .
Поэтому из (22) имеем
й(а, Ь) = 2 £ (1 - Р*)-1Е¿«ЕС^ ^ 2(р*Г* Е ЕС« = 2(р*Г*ЕС«.
4=1
Таким образом,
= Е ^(а,Ь) ^ 2(р*)- £ ЕС« ^ 2|Д|(рТ Е ЕС» = 2|А|(р*)в*Лд. (24) «,ьеЛ «,ьеЛ «ел
Подставляя оценки (23) и (24) в (21), получаем
рту(¿(СО,Рс18(ЕСл)) ^ (28* + 3)|Л|(рТЛл.
Лемма 2 доказана. ■
Доказательство леммы 4
Нам понадобятся ещё одно вспомогательное утверждение и несколько дополнительных определений.
Пусть случайные величины П;, ] = 1,...,к, к ^ 1, имеют смешанные дискретные распределения с параметрами в; = в; (£). Будем писать С(П;|б;) для обозначения распределения случайной величины П; при фиксированном значении параметра в; = б;.
Пусть а1,... , аг — дискретные случайные величины. Обозначим при каждом фиксированном значении в; = б;
Г(С(П; ), ¿(а; ))= РТУ (¿(П; | б; ), С ( «; )).
Величина г(С(П;), С(а;)) равна расстоянию по вариации (см. (6)) между распределениями С(П; |б;) и С(а;).
Лемма 5. Пусть £ — дискретная случайная величина, случайные величины П;, ] = 1,...,к, к ^ 1, имеют смешанные дискретные распределения с параметрами в; = в; (£), причём при каждом фиксированном £ = х случайные величины П;, ] = 1,... , к, независимы. Обозначим а1,... , а независимые и не зависящие от П;, ] = 1,..., к, случайные величины. Тогда
к
рТу (С(П1,..., Пк), С(аь..., ак)) ^ Е Ег(£(П,-), С(а,-)). (25)
;=1
Из (25), подставляя вместо (П1,... , Пк) вектор со смешанным пуассоновским распределением Ро1з(Ад(7)), а вместо а1,..., ак — вектор с распределением Ро1з(Ад), получаем
рТу (Ро1в(Ал(2)), Ро18(Ал)) ^ Е Ег (Ро18(А«а(7)), Ро18(А«а)). (26)
«ел
Воспользуемся теоремой 1.С из [29, глава 1, с. 12], которая в нашем случае формулируется следующим образом:
рТу (Ро1я(А), Ро1я(^)) ^ ш1п | 1, —1=,-1 |А —
I л/А у/»)
Тогда
Ег (Ро18(Л«а(7)), Ро18(Л«а)) ^ т!п |1, —= \ Е|Л«а(г) - Л«а | ^ ^ шта^^ А/БЛ«а(г).
(27)
Из (5) и (27) следует, что
2СЛ«
Ег (Ро18(Л«а(г)), Ро18(Л«а)) ^/(2sв + 1)(1 - Р«*)(Р«)5 + в"
Т(еа - 1)'
Значит, из последней оценки и формулы (26) получаем, что при Т, удовлетворяющих
сл«
неравенству ^ а—^у ^ (р«) а, имеет место оценка
Рту (Ро1в(Лд(г)), Ро18(Лд)) ^ £ -ф« + 3)(рв)5а ^ |А|—(2в*ТзУ(р*)5*/2 = 7.
«ел
Лемма 4 доказана. ■
Доказательство леммы 5
Последовательно применяя неравенство треугольника, получаем следующую цепочку неравенств:
Рту (£(ПЬ ..., Щ), £(аь ..., «к)) ^ рту (£(ПЬ П2,..., П), £(аь П2,..., П)) + +рту (£(«1, П2,..., П), £(«1,..., а)) ^ рту (£(ПЬ П2,..., П), £(«1, П2,..., П)) +
+рту (£(«1, П2, Пз,..., Пк), £(«1, «2, Пз,..., П)) + (28)
+рту (£(«1, «2, Пз, . . . , Щ), £(«1, «2,..., «к)) ^ ... ^
к
^ Е Рту (£(«1,... ,«3-1, П,..., Пк), £(«1,.. .,«■_!,«, П3+1,..., Пк)) 3=1
(в формуле (28) считаем, что слагаемое при ] = 1 в правой части неравенства равно рту (£(П1, П2,..., Пк), £(«1, П2,..., Пк))).
Рассмотрим отдельно первое слагаемое в (28). Согласно определению расстояния по вариации (см. (6)), имеем
рту (£(П1, П2,..., Пк), £(«1, П2,..., Пк)) =
1 те
=1 Е |Р{П1 = /1,П2 = /2,...,Пк = /к}-Р{«1 = 11,П2 = /2,...,Пк = 1к}|.
2 ¿1 ,...1к =0
Так как параметры смешанных распределений случайных величин П1, П2,... , Пк зависят от дискретной случайной величины £, для вычисления оценки расстояния по вариации воспользуемся формулой полной вероятности:
1 те
Рту (£(П1, П2,..., Пк), £(«1, П2,..., Пк)) = - £ £ Р{£ = х}х
2 11,...1к=0 х
х |Р{П1 = /1, П2 = /2, . . . , Пк = /к|£ = х} - Р{«1 = /1, П2 = /2,..., Пк = /к|£ = х}| =
1 те
= 1 Е Е|Р{£ = х} (Р{П1 = /1,П2 = /2,...,Пк = /к|£ = х}-
2 =о х
- Р{«1 = /1, П2 = /2,..., Пк = /к|£ = х})|.
Здесь и далее суммирование по индексу x означает, что суммирование ведётся по всем возможным значениям случайной величины
Так как при фиксированном значении £ = x случайные величины Щ, П2,..., П независимы, продолжая цепочку равенств, получаем
PTV (£(ПЬ П2,..., П), L(ai, П2,..., П)) =
1 те
ô Е \ЕP{£ = x}(Р{П1 = Ii|£ = x}Р{П2 = /2,...,П = 1k= x}-
2 Zi,.../fc =0 x
- P{ai = /1} Р{П2 = /2,..., П = lkle = x})|
1 те
=2 e IEP{e = x}р{П2 = /2,...,Пк = /кle = x}x
2 1l,...1fc =0 x
x (Р{П1 = li|e = x}- P{ai = li}) | =
= 2 E IEP{e = x}р{П2 = /2,...,Пк = /кle = x}x ( )
2 Z1,...Zfc =0 x
x (Р{П1 = /lie = x} - P{ai = /i})| ^
1 те
^1 E EP{e = x}р{П2 = /2,...,Пк = /кle = x}x
2 11,...1k =0 x
x|(P{ni = /i|e = x}- P{ai = /i})| ^
1 те
^ 1 E E P{e = x} |(Р{П1 = /lie = x} - P{ai = /i})| = Er(L(ni), L(ai)).
2 1i=0 x
Аналогично для слагаемых в (28) при j ^ 2:
Ptv (L(ai,... ,aj-i, П,,..., Пк), £(аь ... , aj_i,aj, П,-+ь..., Пк)) =
1 те
= ô ^ |P{ai = /i,..., a,-i = j-i, П, = j,..., Пк = /к }-
2 ¿l,...,ifc=0
- P{ai = /i,..., ûj_i = /j-i, а, = j, П,+1 = /j+i,..., Пк = /к}| =
1 те
= 2 E |P{ai = /i,..., a,_i = /j_i} Р{П, = /j,..., Пк = /к} -
íi,...,ífc=0
- P{ai = /i,... ,aj_i = /j_i} Р{а, = j} P^+i = /j+i,..., Пк = /к}| ^
1
те
^ E |Р(П- = j,...,П = /fc} - P{«j = } P(nJ+1 = j+1,...,щ = /fc}|.
2 Zi,...,Zfc=0
Дальше достаточно применить доказанную ранее оценку (29):
Ptv (L(ai,..., aj-1, П,,..., Щ), L(ab... ,0,-1 , П,+ь..., Щ)) ^ Ег(£(П,), )). Тогда из (28) и последнего неравенства получим
Ptv (£(Пь ..., Щ), £(аь ..., a)) ^ е Ег(£(П,), )).
j=1
Лемма 5 доказана. ■
Доказательство леммы 3
Воспользуемся формулой (25) при k = 1:
Ptv (¿(Щ), £(«1)) ^ ЕгЩЩ), £(«1)). Так как Ег(£(П1), L(a1)) ^ maxг(£(П1 |x-), £(а1)), из двух последних формул полу-
x j
чаем (13). ■
Заключение
Проведено исследование свойств распределения чисел серий в последовательности случайных величин с полиномиальными распределениями, управляемой стационарной цепью Маркова с конечным числом состояний. Использованы функциональный вариант метода Чена — Стейна, а также оценки для аппроксимации смешанного пуас-соновского распределения простым распределением Пуассона. В работе получены:
1) оценка для расстояния по вариации между распределением случайного вектора из чисел серий заданных знаков и заданной длины в управляемой полиномиальной последовательности и сопровождающим многомерным распределением Пуассона;
2) выведены многомерные пуассоновская и нормальная предельные теоремы для указанного случайного вектора, когда длина T наблюдаемой последовательности стремится к бесконечности, а максимальная вероятность появления каждого знака — к нулю (согласованным образом с T).
Автор выражает глубокую признательность рецензенту за ценные замечания и рекомендации, а также В. Г. Михайлову за постановку задачи, советы и внимание к работе.
ЛИТЕРАТУРА
1. Balakrishnan N. and Koutras M. V. Runs and Scans with Applications. N.Y.: John Whiley & Sons Inc., 2002. 452 p.
2. Михайлов В. Г. Об асимптотических свойствах числа серий событий // Тр. по дискр. матем. 2006. Т. 9. С. 152-163.
3. Aki S. and Hirano K. Discrete distributions related to succession events in two-state Markov chain // Statistical Science and Data Analysis / eds. K. Matusita, M.L. Puri, T. Hayakawa. Zeist: VSP International Science Publishers, 1993. P. 467-474.
4. Aki S. and Hirano K. Sooner and later waiting time problems for runs in Markov dependent bivariate trials // Ann. Inst. Stat. Math. 1999. V. 51. P. 17-29.
5. Han Q. and Aki S. Formulae and recursions for the joint distributions of success runs of several lengths in a two-state Markov chain // Stat. Probab. Lett. 1998. V.40. No.3. P. 203-214.
6. Савельев Л. Я., Балакин С. В. Совместное распределение числа единиц и числа 1-серий в двоичных марковских последовательностях // Дискретная математика. 2004. Т. 16. №3. С. 43-62.
7. Савельев Л. Я., Балакин С. В. Комбинаторное вычисление моментов характеристик серий в троичных марковских последовательностях // Дискретная математика. 2011. Т. 23. №2. С. 76-92.
8. Савельев Л. Я. Распределения числа состояний в двоичных марковских стохастических моделях // Сиб. журн. вычисл. матем. 2015. Т. 18. №2. С. 191-200.
9. Савельев Л. Я., Балакин С. В. Некоторые применения стохастической теории серий // Сиб. журн. индустр. матем. 2012. Т. 15. №3. С. 111-123.
10. Shinde R. L. and Kotwal K. S. On the joint distribution of runs in the sequence of Markov-dependent multi-state trials // Stat. Probab. Lett. 2006. V. 76. No. 10. P. 1065-1074.
11. Geske M. X., Godbole A. P., Schaffner A. A., et al. Compound Poisson approximations for word patterns under Markovian hypotheses //J. Appl. Probab. 1995. V. 32. P. 877-892.
12. Erhardsson T. Compound Poisson approximation for Markov chains using Stein's method // Ann. Probab. 1999. V.27. No. 1. P. 565-596.
13. Chryssaphinou O. and Vaggelatou E. Compound Poisson approximation for multiple runs in a Markov chain // Ann. Inst. Stat. Math. 2002. V. 54. No. 2. P. 411-424.
14. Fu J. C., Wang L., and Lou W. Y. W. On exact and large deviation approximation for the distribution of the longest run in a sequence of two-state Markov dependent trials //J. Appl. Probab. 2003. V.40. No. 2. P. 346-360.
15. EryilmazS. Some results associated with the longest run statistic in a sequence of Markov dependent trials // Appl. Math. Comput. 2006. V. 175. No. 1. P. 119-130.
16. Pinsky M. A. and Karlin S. The long run behavior of Markov chains // An Introduction to Stochastic Modeling. Fourth Edition / eds. M.A. Pinsky, S. Karlin. Boston: Elsevier, 2011. P. 165-222.
17. Fu J. C. and Johnson B. C. Approximate probabilities for runs and patterns in i.i.d. and Markov-dependent multistate trials // Adv. Appl. Probab. Appl. Probab. Trust. 2009. V. 41. No. 1. P. 292-308.
18. Михайлов В. Г., Шойтов А. М. О длинных повторениях цепочек в цепи Маркова // Дискретная математика. 2014. Т. 26. №3. С. 79-89.
19. Михайлов В. Г. Оценки точности пуассоновской аппроксимации для распределения числа серий повторений длинных цепочек в цепи Маркова // Дискретная математика. 2015. Т. 27. №4. С. 67-78.
20. Mytalas G. C. and Zazanis M. A. Central Limit Theorem approximations for the number of runs in Markov-dependent binary sequences //J. Stat. Plan. Inference. 2013. V. 143. No. 2. P. 321-333.
21. Mahmoudzadeh E., Montazeri M. A., Zekri M., and Sadri S. Extended hidden Markov model for optimized segmentation of breast thermography images // Infrared Phys. Technol. 2015. V. 72. P. 19-28.
22. Yang W., Tao J., and Ye Z. Continuous sign language recognition using level building based on fast hidden Markov model // Pattern Recognit. Lett. 2016. V. 78. P. 28-35.
23. Elliott R. J., Aggoun L., and Moore J. B. Hidden Markov Models. N. Y.: Springer, 1995. V. 29. 382 p.
24. Aston J. A. D. and Martin D. E. K. Distributions associated with general runs and patterns in hidden Markov models // Ann. Appl. Stat. 2007. V. 1. No. 2. P. 585-611.
25. Меженная Н. М. О числе совпадений знаков в дискретной случайной последовательности, управляемой цепью Маркова // Сибирские электронные математические известия. 2016. Т. 13. С. 305-317.
26. Розанов Ю.А. Случайные процессы. Краткий курс. М.: Наука, 1979. 184с.
27. Mezhennaya N. M. On the distribution of the number of runs in polynomial sequence controlled by Markov chain // OP&PM Surv. Appl. Ind. Math. 2016. V. 23. No. 2. P. 186-187.
28. Меженная Н. М. О предельном распределении числа серий в полиномиальной последовательности, управляемой цепью Маркова // Вестник УдГУ. 2016. Т. 26. №3. C. 324-335.
29. Barbour A. D., HolstL., and JansonS. Poisson Approximation. Oxford: Oxford Univ. Press, 1992. 277р.
REFERENCES
1. Balakrishnan N. and Koutras M. V. Runs and Scans with Applications. N. Y., John Whiley & Sons Inc., 2002, 452 p.
2. Mikhaylov V. G. Ob asimptoticheskikh svoystvakh chisla seriy sobytiy [On asymptotic properties of the number of runs of events]. Tr. Diskr. Mat., 2006, vol.9, pp. 152-163. (in Russian)
3. Aki S. and Hirano K. Discrete distributions related to succession events in two-state Markov chain. Statistical Science and Data Analysis. Eds. K. Matusita, M.L. Puri, T. Hayakawa. Zeist, VSP International Science Publishers, 1993, pp. 467-474.
4. Aki S. and Hirano K. Sooner and later waiting time problems for runs in Markov dependent bivariate trials. Ann. Inst. Stat. Math., 1999, vol.51, pp. 17-29.
5. Han Q. and Aki S. Formulae and recursions for the joint distributions of success runs of several lengths in a two-state Markov chain. Stat. Probab. Lett., 1998, vol.40, no.3, pp.203-214.
6. Savel'ev L. Ja. and Balakin S. V. The joint distribution of the number of ones and the number of 1-runs in binary Markov sequences. Discr. Math. Appl., 2004, vol. 14, no. 4, pp. 353-372.
7. Savel'ev L. Ja. and Balakin S. V. A combinatorial approach to calculation of moments of characteristics of runs in ternary Markov sequences. Discr. Math. Appl., 2011, vol.21, no. 1, pp. 47-67.
8. Savel'ev L. Ja. Raspredeleniya chisla sostoyaniy v dvoichnykh markovskikh stokhasticheskikh modelyakh [Calculation of the number of states in binary Markov stochastic models]. Sib. Zh. Vychisl. Mat., 2015, vol.18, no. 2, pp. 191-200. (in Russian)
9. Savel'ev L. Ja. and Balakin S. V. Nekotorye primeneniya stokhasticheskoy teorii seriy [Some applications of the stochastic theory of runs]. Sib. Zh. Ind. Mat., 2012, vol. 15, no. 3, pp. 111123. (in Russian)
10. Shinde R. L. and Kotwal K. S. On the joint distribution of runs in the sequence of Markov-dependent multi-state trials. Stat. Probab. Lett., 2006, vol. 76, no. 10, pp. 1065-1074.
11. Geske M. X., Godbole A. P., Schaffner A. A., et al. Compound Poisson approximations for word patterns under Markovian hypotheses. J. Appl. Probab., 1995, vol.32, pp.877-892.
12. Erhardsson T. Compound Poisson approximation for Markov chains using Stein's method. Ann. Probab., 1999, vol.27, no. 1, pp. 565-596.
13. Chryssaphinou O. and Vaggelatou E. Compound Poisson approximation for multiple runs in a Markov chain. Ann. Inst. Stat. Math., 2002, vol.54, no. 2, pp. 411-424.
14. Fu J. C., Wang L., and Lou W. Y. W. On exact and large deviation approximation for the distribution of the longest run in a sequence of two-state Markov dependent trials. J. Appl. Probab., 2003, vol.40, no. 2, pp. 346-360.
15. EryilmazS. Some results associated with the longest run statistic in a sequence of Markov dependent trials. Appl. Math. Comput., 2006, vol. 175, no. 1, pp. 119-130.
16. Pinsky M. A. and Karlin S. The long run behavior of Markov chains. An Introduction to Stochastic Modeling. Fourth Edition, eds. M.A. Pinsky, S. Karlin. Boston, Elsevier, 2011, pp.165-222.
17. Fu J. C. and Johnson B. C. Approximate probabilities for runs and patterns in i.i.d. and Markov-dependent multistate trials. Adv. Appl. Probab. Appl. Probab. Trust, 2009, vol.41, no. 1, pp.292-308.
18. Mikhailov V. G. and Shoitov A. M. On repetitions of long tuples in a Markov chain. Discr. Math. Appl., 2015, vol.25, no. 5, pp. 295-303.
19. Mikhailov V. G. Estimates of accuracy of the Poisson approximation for the distribution of number of runs of long string repetitions in a Markov chain. Discr. Math. Appl., 2016, vol. 26, no. 2, pp.105-113.
20. Mytalas G. C. and Zazanis M. A. Central Limit Theorem approximations for the number of runs in Markov-dependent binary sequences. J. Stat. Plan. Inference, 2013, vol.143, no. 2, pp.321-333.
21. Mahmoudzadeh E., Montazeri M. A., Zekri M., and Sadri S. Extended hidden Markov model for optimized segmentation of breast thermography images. Infrared Phys. Technol., 2015, vol. 72, pp. 19-28.
22. Yang W., Tao J., and Ye Z. Continuous sign language recognition using level building based on fast hidden Markov model. Pattern Recognit. Lett., 2016, vol.78, pp.28-35.
23. Elliott R. J., Aggoun L., and Moore J. B. Hidden Markov Models. N. Y., Springer, 1995, vol. 29, 382 p.
24. Aston J. A. D. and Martin D. E. K. Distributions associated with general runs and patterns in hidden Markov models. Ann. Appl. Stat., 2007, vol.1, no. 2, pp. 585-611.
25. Mezhennaya N. M. O chisle sovpadeniy znakov v diskretnoy sluchaynoy posledovatel'nosti, upravlyaemoy tsep'yu Markova [On the number of characters matchings in discrete random sequence controlled by Markov chain]. Sib. Elektron. Mat. Izv., 2016, vol. 13, pp. 305-317. (in Russian)
26. Rozanov Yu. A. Sluchaynye protsessy. Kratkiy kurs [Random processes. Short course]. Moscow, Nauka Publ., 1979, 184 p. (in Russian)
27. Mezhennaya N. M. On the distribution of the number of runs in polynomial sequence controlled by Markov chain. OP&PM Surv. Appl. Ind. Math., 2016, vol. 23, no. 2, pp. 186-187.
28. Mezhennaya N. M. О предельном распределении числа серий в полиномиальной последовательности, управляемой цепью Маркова [On the limit distribution of a number of runs in polynomial sequence controlled by Markov chain]. Vestn. Udmurtsk. Univ. Mat. Mekh. Komp. Nauki, 2016, vol.26, iss.3, pp. 324-335. (in Russian)
29. Barbour A. D., HolstL., and Janson S. Poisson Approximation. Oxford, Oxford Univ. Press, 1992, 277р.