2015 Теоретические основы прикладной дискретной математики №2(28)
УДК 519.214
АППРОКСИМАЦИЯ РАСПРЕДЕЛЕНИЯ ЧИСЛА МОНОТОННЫХ ЦЕПОЧЕК ЗАДАННОЙ ДЛИНЫ В СЛУЧАЙНОЙ ПОСЛЕДОВАТЕЛЬНОСТИ СЛОЖНЫМ РАСПРЕДЕЛЕНИЕМ ПУАССОНА
А. А. Минаков
Московский государственный технический университет радиотехники, электроники и автоматики (МИРЭА), г. Москва, Россия
Рассматривается распределение числа монотонных цепочек заданной длины в в последовательности из п независимых равномерно распределённых на множестве {0,..., N — 1} случайных величин с фиксированным числом исходов N. С помощью метода Стейна получена оценка расстояния по вариации между распределением числа монотонных цепочек длины в и сложным пуассоновским распределением. На основании оценки доказана предельная теорема для числа монотонных цепочек при п, в ^ те. В теореме аппроксимирующим распределением является распределение суммы пуассоновского числа независимых случайных величин, имеющих геометрическое распределение.
Ключевые слова: монотонные цепочки, оценка точности сложной пуассонов-ской аппроксимации, сложное пуассоновское распределение, метод Стейна.
БОТ 10.17223/20710410/28/2
COMPOUND POISSON APPROXIMATION OF THE NUMBER DISTRIBUTION FOR MONOTONE STRINGS OF FIXED LENGTH
IN A RANDOM SEQUENCE
A. A. Minakov
Moscow State Institute of Radio Engineering, Electronics and Automation, Moscow, Russia
E-mail: [email protected]
We study the number distribution for monotone strings of a length s in a sequence of n random independent variables uniformly distributed on the set {0,... ,N — 1} where N is a constant. By means of the Stein method we construct an estimate of the variation distance between this distribution and a compound Poisson distribution. As a corollary of this result we prove the limit theorem as n, s ^ ж for the number of monotone strings. The approximating distribution is the distribution of the sum of Poisson number of independent random variables with geometric distribution.
Keywords: monotone strings, estimate of the variation distance of the compound Poisson approximation, compound Poisson distribution, Stein method.
Введение
Пусть X\,X2,...,Xn — отрезок последовательности, состоящей из независимых случайных величин, каждая из которых имеет равномерное распределение на множестве {0,...,N — 1}.
Определение 1. Монотонной цепочкой длины s, s G N, с началом в t назовём событие Et = {Xt ^ Xt+i ^ ... ^ Xi+s-i} .
Определение 2. Монотонной серией длины s, s G N, с началом в t назовём событие Yt = {Xt-i >Xt ^ Xt+i ^ ... ^ Xt+s-i > Xt+s}. Введём случайную величину
n
in (s) = E I {Et} , t=i
равную числу монотонных цепочек длины s, которые начинаются на отрезке Xi, X2,... ,Xn. Для избежания краевого эффекта и облегчения вычислений предполагаем, что рассматривается бесконечная в обе стороны последовательность {Xa : a G Z}. Через I {A} обозначаем индикатор события A.
В. Л. Гончаров [1] доказал несколько предельных теорем для монотонных серий в двоичной последовательности, рассмотрев чередование событий в ряде независимых опытов, отвечающих схеме Бернулли. J. Wolfowitz [2] доказал условия сходимости распределения числа монотонных серий заданной длины в конечной бесповторной последовательности к распределению Пуассона и стандартному нормальному распределению. F. N. David и D. E. Barton [3] доказали условия для пуассоновской аппроксимации числа монотонных серий длины больше заданной в конечной бесповторной последовательности. Их результаты обобщил B. G. Pittel [4], который доказал теорему о сходимости распределения числа монотонных серий длины больше заданной к распределению Пуассона. O. Chryssaphinou, S. Papastavridis и E. Vaggelatou [5] доказали теорему об аппроксимации распределения числа монотонных серий заданной длины в стационарной цепи Маркова пуассоновским распределением. Н. М. Меженная [6] доказала многомерную нормальную теорему для числа монотонных серий заданной длины. В данной работе находится оценка расстояния по вариации между распределением числа монотонных цепочек длины s и сложным пуассоновским распределением.
1. Оценка по вариации и предельная теорема
Введём некоторые обозначения. Условимся обозначать d (Ф, Ф) расстояние по вариации между распределениями Ф и Ф. Для распределений Ф и Ф на множестве {0,1,...} справедлива следующая формула (теорема Шеффе):
1 те
d (Ф, Ф) = - Е |Ф {m} - Ф {m}|.
2 m=0
Распределение случайной величины Z будем обозначать L (Z).
Пусть Л = (Ai, Л2,...) —последовательность неотрицательных действительных чите
сел, причём сходится ряд У] Ak < œ. Пусть {Oi, 62,...} —последовательность незави-
k=i
симых случайных величин, причём случайная величина Ok имеет распределение Пуас-
те
сона с параметром Ak, где k G N. Распределение случайной величины Е kOk называ-
k=i
ется сложным распределением Пуассона, которое будем обозначать CP (Л).
Введём несколько определений аналогично работе [6]. Пусть As — число неубывающих цепочек длины s из символов алфавита {0,...,N — 1}. Тогда для s,N G N справедлива формула
As = ( ' + N — 1
Пусть Б3 —число цепочек длины в + 1, не являющихся неубывающими, но становящихся таковыми после удаления первого элемента. Тогда для в, N Е N справедлива формула
в + N \ в ^ - 1) в+1 / N+в '
Bs
Пусть С — число цепочек длины в + 2, не являющихся неубывающими, но становящихся таковыми после удаления первого и последнего элементов. Тогда для N ^ 3 и в € N справедлива формула
Cs =
Далее положим
' nCs+V-1
s + N - 1 N N (s2 + s - 1) - s2 - s s + 2 N-2 '
Av
N s+v+1
n (2Bs+v-iN + (2s - 2 - V) Cs+v-i)
n^s- 1
vN s+v+1
(2s - 1) N3s-2
0
для V G {1, ' ' ' , s - 1}, для v G {s,''' , 2s - 2}, для v G {2s - 1}, для v G {2s, ro}.
На основе метода Стейна и результатов работы [7] докажем следующую теорему.
Теорема 1. Пусть (Xi, X2,... , Xn) —отрезок последовательности, состоящей из независимых случайных величин, каждая из которых имеет равномерное распределение на множестве {0,..., N — 1}, N = const ^ 3 и все Av имеют вид (2). Тогда
d (L (£„ (s)) ,CP (Ai,A2,...,A2s-i, 0,0,...)) ^
^ exp j Afc|
n (6s - 5) (sN-1 + 1)2 N2s
s+N s
Из теоремы 1 выведем предельную теорему для случайной величины £n (s).
Теорема 2. Пусть (X1,X2,''' ,Xn) —отрезок последовательности, состоящей из независимых случайных величин, каждая из которых имеет равномерное распределение на множестве {0, - - -, N - 1}, и N = const ^ 3. Если n, s ^ ro так, что 1) s/n ^ 0,
п (в + N)м-1 N-5-1 - 2)!)-1 ^ А Е (0, то), (4)
то Ь (£га (в)) ^ СР (А (1 - N-1), АN-1 (1 - N-1), АN-2 (1 - N-1),...).
Так как N фиксировано, а в ^ то, число монотонных цепочек длины в, не содержащих все символы из множества {0,... , N - 1}, стремится к нулю. В пределе количества монотонных цепочек длины в в монотонных сериях независимы и имеют геометрическое распределение (с параметром ). Число таких серий распределено по закону Пуассона (с параметром А).
Предельным распределением в теореме 2 является распределение суммы пуассо-новского (с параметром А) числа независимых случайных величин, имеющих геометрическое распределение (с параметром ).
2
2. Доказательство теорем
Для доказательства теоремы 1 понадобится следующая теорема о суммах случайных индикаторов [7].
Пусть Г — произвольный конечный набор индексов; 1а (а Е Г) —случайные индикаторы; Ш = Е 1а. Для каждого 1а разделим некоторым образом множество Г на аег
четыре непересекающихся множества {а}, Га5, Га, Га™ и положим
Ц = Е 4 К = Е II.
гег- гегь
Определим набор Л = (А1,..., А.о+1,0,...), где
Аг = г-1Е Е {1а1 {1а + и = г}} , (5)
аег
|Г28|+1
и величину О = тах | Га51. Введём обозначение ^ = Е Е ^аг, а аег г=1
где = Е |Е {1а1 {1а + Ц = г} | (Д : Ь Е Га™) } - Е {1а1 {1а + Ц = г}}| . (6)
Теорема 3. При любом выборе непересекающихся множеств {а}, Га5, Га, Га™ справедлива оценка
д (Ь (Ш) , СР (Л)) ^ С1 (Л) ф + С2 (Л) £ ((Е!а)2 + Е1аЕ (Ц + К) + Е1аК) ,
аег
где тах {с1 (Л), С2 (Л)} ^ ехр | Е А^.
Воспользуемся результатами теоремы 3. В нашем случае Г = {1, 2, ...,п}, 1а = = I {Е4} = I {X ^ Х4+1 ^ ... ^ Х4+5-1}. Выберем множества Га5, Га, Га™ следующим образом:
ГГ = {к Е Г\{£} : |£ - к| <5} , ГГ = {к Е Г : |£ - к| > 2в - 2} , Г = Г\ ({£} и Г^ и Г^™) = {к Е Г : 5 ^ |£ - к| ^ 2в - 2} .
В силу этих определений О = тах |Га5| = 25 - 2 и, следовательно, О + 1 = 2^ - 1.
а
В обозначениях теоремы 3 для £ Е {1,... , п} имеем
Ц = Е I {Е}; (7)
4+25-2
V = Е I {Е} + Е I {Е} . (8)
Согласно равенству (6), для !а = I {Е4} получаем
= Е |Е {IаI {Ia + Ц = г} |(!ь : Ь Е Га™) } - Е {!а! {!а + Ц = г}}| = 0, и из определения ф вытекает
|Г28|+1
ф =Е Е фаг = 0. (9)
аег г=1
По формулам (1) и (7) для £ € {1,..., п} получаем
5
4+5-1 ( в + N - 1
Е^ = £ Р {Е} = (25 - 2) Д^-5 = (25 - 2) 5 + ' 1 \N-5
По формулам (1) и (8) для £ € {1,..., п} нетрудно получить
ПО)
ЕИ
4+2«-2
Е Р {Е} + Е Р {Е} = (25 - 2) -
£=¿-2.5+2 £=¿+5
= (25 - 2) ( 5 + N - 1 ] N-5
П1)
С помощью равенств (10) и (11) получаем
Е (и + V) = (45 - 4) А^-
Г12)
В соответствии со способом разбиения множества Г случайные величины I {Е} и V независимы. Следовательно,
Е (I {Е} И) = Р {Е}- ЕИ.
По формуле (5) для любого V €{1,..., 2в - 1} имеем
п
Л^ = V-1 Е Е (I {Е} I {I {Е} + и = V})
4=1
Г13)
Г14)
Обозначим «¿(V) = I {Е} I {I {Е4} + и = V}. При фиксированном согласно (7), случайная величина «¿(V) равна 1 лишь в том случае, когда в отрезке (Х4-5+1,... , Х4+25-2) длины 35 - 2 встретились монотонная цепочка длины в с началом в £ и ещё ровно V - 1 монотонных цепочек длины в. Наличие монотонной цепочки длины в с началом в £ не позволяет без перекрытия с ней расположиться другой монотонной цепочке длины в. Следовательно, все V цепочек образуют на отрезке (Х4-5+1,... ,Х4+25-2) одну монотонную цепочку длины в + V - 1.
Для вычисления выражения (14) при V € {1,... , в - 1} подсчитаем число событий, при которых случайная величина «¿(V) равна 1. Учитывая наличие монотонной цепочки длины в с началом в монотонная цепочка длины в + V - 1 имеет V способов расположения на отрезке последовательности. Если зафиксировать положение монотонной цепочки длины в + V - 1, то число таких цепочек равно С5+^-1. Из определения следует, что остаются 2в - V - 3 элемента, которые могут принимать произвольные значения из множества {0,... , N - 1}. Из (14) получаем равенство (2) при V € {1,..., в - 1}:
Л„
1
V
Е
¿=1
vCs+v-lN
2.5—V—3
N 35-2
—1
N ^+1 '
Для вычисления выражения (14) при V € {в,... , 2в - 2} подсчитаем число событий, при которых случайная величина «¿(V) равна 1. Всего 2в - 2 - V вариантов расположения монотонной цепочки длины в + V - 1 на отрезке (Х4-.+1,... , Х4+2._2), когда она не начинается и не кончается на концах отрезка. Если зафиксировать положение монотонной цепочки, то число таких цепочек равно ь Если же монотонная цепочка длины в + V- 1 начинается либо заканчивается на концах отрезка (Х4-5+1,... , Х4+25-2),
то в каждом из этих двух случаев число монотонных цепочек длины в + V — 1 равно Из определения следует, что остаются 2в — V — 2 элемента, которые могут принимать произвольные значения из множества {0,... , N — 1}. Из (14) получаем равенство (2) при V € {в,... , 2в — 2}:
_! » 2Вв+1/_^_2 + (2в — 2 — V) _
^ — V ¿1 N3^ -
— п (2£я+у_^ + (2в — 2 — V) С^+у_1) vNs+v+1 .
Наконец, вычислим выражение (14) при V — 2в — 1. В этом случае отрезок (Х_8+1,... , Х4+25_2) содержит монотонную цепочку длины 3в — 2. Число таких монотонных цепочек равно А25_1. Из (14) получаем равенство (2) при V — 2в — 1:
Л _ 1 ™ пА25_1
Л2«_1 — ~-т ¿^
2в — 1 N3*_2 (2в — 1) N3*_2' На основе результатов теоремы 3 и с помощью выражений (2), (9), (11)—(13) имеем й (Ь (в)) ,СР (Л1,Л2,... Л2в_1,0,0,...)) ^
п
^ С1 (Л) ф + С2 (Л) £ ((Р {Е})2 + (Р {Е}) (Е (и + V)) + Е (I {Е} V)) ^
4=1
1 п //в + N — 1 \ 4 2
£ ехр <! Е Л4 Е (1 + 4в — 4 + 2в — 2) ( ( в + 'в 1 ^ лг_в
ехр{ £ Л^Е (1 + 4в — 4 + 2в — 2)(( в + N 1 )
= еХ4 £ Л4 (в + N)2 N2^
\ п (6в — 5) N2 ( ( в + N 44 2
( --1 лт\2~
I к=1
Теорема 1 доказана.
Перейдём к доказательству теоремы 2. Рассмотрим в оценке (3) множитель
Г ^ л
ехР —
и=1
Г ^ С^+к_1 + 2^_2 +(2в — 2 — к) С^+к_1) + п^2^_1
еХР \П ¿1 N^+к+1 + П kN^+к+1 + (2в — 1) N3*_2
Г15)
и покажем, что при переходе к пределу выражение (15) ограничено. Значит, требуется доказать, что существуют такие числа М, По,во < го, что для всех п ^ п0, в ^ во
(2з_1 Л
выполнено неравенство ехр < £ Лк > < М.
I к=1 )
Проверим это утверждение. Заметим, что найдётся такое число М' < го, при котором шах{А5, С} ^ М' (в + N)М_1. Заметим также, что при к € {в,... , 2в — 2} найдётся такое число М'' < го, что
2^+к_^ +(2в — 2 — к) С,+к_1 ^ М'' (в + к — 1 + N)м_1. к
Кроме того, из условия (4) теоремы 2 следует, что существуют такие числа п0, в' < го, что для всех п ^ п0, в ^ в' выполнено равенство п (в + N)М_1 N_5_1 < Л.
Тогда для каждого к Е {1,... , 2 в — 1} найдётся такое М1 < те, что
Л , м (в + N + к)"-1 м (в + N)"-1 (1 + к/(в + N))"-1 < Лк ^ м1п—— = м1п^+---^-<
(в + N)"-1 (-1)/(в+") \ к (-!)/(*+") N к
< м1^——^- --- < ЛМ1 ' '
) \ ■- (16)
V N ) " '""Ч N Выберем ^о = шах^', 2N}. Тогда
е("-1)/(в+") е("-1)/(3") е1/3
« (17)
Подставив оценки (16) и (17) в (15), для любых п ^ п0 и в ^ в0 получим
(2.8-1 } Г 28-1 (е1/3\к] ( те (е1/3 \ к'
V ------ Ьи ' " "
Г28-1 28-1/ р1/3\ к те /
ехр | Е лЛ < ехр ЛМ1 Е Г) > < ех^ ЛМ1 £ ( 3
18)
-1/3
= ехр | Лм1 <
Применяя (3) и (18) при условиях теоремы 2, получаем
й (Ь (£„ (5)) ,СР (Л1,Л2,...,Л2в-1, 0, 0,...)) ^
< ехр{1лк}(7+^ (( ^ \\2 = О = о(1). ^
Сформулируем лемму из [8] для оценки расстояния по вариации между двумя сложными распределениями Пуассона.
Лемма 1. Пусть Л(1) = ^Л]11), Л21),.. ^ и Л(2) = ^Л12), Л22),.. ^ , причём сходятся
те те те
ряды £ Лк1) < те и £ Лк2) < те. Тогда й (СР (Л(1)) , СР (Л(2))) ^ Е к=1 к=1 к=1
Воспользуемся леммой 1 и оценим расстояние по вариации между распределениями СР (Л1, Л2,... , Л28-1, 0, 0,...) и СР (Л (1 — N-1) , ЛN-1 (1 — N-1) , ЛN-2 (1 — N-1) ,...):
й (СР (Л1, Л2,..., Л2в-1, 0,0,...), СР (Л (1 — N-1) , ЛN-1 (1 — N-1) ,...)) ^
те
^ Е |Лк — ЛN-к+1 (1 — N-1)| . к=1
(20)
Теперь докажем, что сумма в правой части (20) стремится к 0 при условиях теоремы 2. Зададим произвольное малое положительное число е > 0 и выберем некоторое натуральное число к' (е), удовлетворяющее условиям
тее
Е Л^^1 (1 — N-1) <-; (21)
к=к'(е)+1 3
тее
Е Лк < -. (22)
к=к'(е)+1 3
Условие (21) выполнить легко: надо взять достаточно большое к' (е). Докажем условие (22). Из (16) и (17) следует, что существуют такие числа п0, з0 < го, что для всех п ^ п0, з ^ з0 выполнено неравенство
е1/з- к
Ак < АМ1
Значит,
25-1 25-1 / е1/з\к те / е1/з \к 27АМ1
Е кАк <АМ Е (т") <АМ ЕЛт") = ^^пм^ ^ (23>
Для выполнения условия (22) воспользуемся соотношением (23):
1 М2
*2
к=к'(е) + 1 (е) к=1 (е)
Е Ак < у— Е кАк <
Следовательно, взяв достаточно большое число к' (е), получим выполнение (22). Осталось заметить, что при условиях теоремы 2
к'(е) к'(е) к'(е)
Е | Ак - АЖ-к+1 (1 - N-1)| ^ Е Ак + Е АЖ-к+1 (1 - N-1) ^ 0 к=1 к=1 к=1
как сумма фиксированного числа величин, стремящихся к нулю. Значит, начиная с некоторого момента,
к'(£) | I е
Е |Ак - АЖ-к+1 (1 - Ж-1)| <-. (24)
к=1 3
Из (21), (22) и (24) следует, что, начиная с некоторого момента,
те
Е |Ак - АЖ-к+1 (1 - N-1) ^ к=1
к'(е) те те
^ Е | Ак - АЖ-к+1 (1 - N-1)| + Е Ак + Е АЖ-к+1 (1 - N-1) < е.
к=1 к=к'(е)+1 к=к'(е)+1
В силу произвольности выбора е > 0 это означает, что
те | |
Е |Ак - АЖ-к+1 (1 - Ж-1)| ^ 0. (25)
к=1
Используя (20) и (25), получаем, что при условиях теоремы 2
д (СР (А1, А2,..., А2в-1, 0,0,...), СР (А (1 - N-1) , АЖ-1 (1 - N-1) ,...)) ^ 0. (26)
Наконец, из (19) и (26) в силу неравенства треугольника для расстояния по вариации при условиях теоремы 2 следует, что
д (Ь (£га (з)) , СР (А (1 - N-1) , АЖ-1 (1 - N-1) , АЖ-2 (1 - N-1) ,...)) ^ 0,
а значит, следует и сходимость Ь (£га (з)) к сложному пуассоновскому распределению СР (А (1 - N-1), АЖ-1 (1 - N-1), АЖ-2 (1 - N-1),...). Теорема 2 доказана.
ЛИТЕРАТУРА
1. Гончаров В. Л. Из области комбинаторики // Изв. АН СССР. Сер. матем. 1944. Т. 8. Вып. 1. С. 3-48.
2. Wolfowitz J. Asymptotics distribution of runs up and down // Ann. Math. Statist. 1944. V. 15. P. 163-172.
3. David F. N. and Barton D. E. Combinatorial Chance. N.Y.: Hafner Publishing Co., 1962.
4. Pittel B. G. Limiting behavior of a process of runs // Ann. Probab. 1981. V. 9. No. 1. P. 119-129.
5. Chryssaphinou O., Papastavridis S., and Vaggelatou E. Poisson approximation for the non-overlapping appearances of several words in Markov chains // Combinatorics, Probability and Computing. 2001. V. 10. No. 4. P. 293-308.
6. Меженная Н. М. Многомерная нормальная теорема для числа монотонных серий заданной длины в равновероятной случайной последовательности // Обозр. прикл. промышл. матем. 2007. Т. 14. Вып.3. С. 503-505.
7. Roos V. Stein's method for compound Poisson approximation: the local approach // Ann. Appl. Probab. 1994. V.4. No. 4. P. 1177-1187.
8. Bollobas B, Janson S, and Riordan O. Sparse random graphs with clustering // Random Structures and Algorithms. 2011. V.38. P. 269-323.
REFERENCES
1. Goncharov V.L. Iz oblasti kombinatoriki [From the combinatorics]. Proc. of the Academy of Sciences USSR, Ser. Math., 1944, vol.8, iss. 1, pp.3-48. (in Russian)
2. Wolfowitz J. Asymptotics distribution of runs up and down. Ann. Math. Statist., 1944, vol. 15, pp.163-172.
3. David F. N. and Barton D. E. Combinatorial Chance. N.Y., Hafner Publishing Co., 1962.
4. Pittel B. G. Limiting behavior of a process of runs. Ann. Probab., 1981, vol.9, no. 1, pp.119-129.
5. Chryssaphinou O., Papastavridis S., and Vaggelatou E. Poisson approximation for the non-overlapping appearances of several words in Markov chains. Combinatorics, Probability and Computing, 2001, vol.10, no. 4, pp. 293-308.
6. Mezhennaya N. M. Mnogomernaya normal'naya teorema dlya chisla monotonnykh seriy zadannoy dliny v ravnoveroyatnoy sluchaynoy posledovatel'nosti [Multivariate normal theorem for the number of monotonous series of predetermined length in an equiprobable random sequence]. Obozr. Prikl. Promyshl. Matem., 2007, vol.14, iss. 3, pp. 503-505. (in Russian)
7. Roos V. Stein's method for compound Poisson approximation: the local approach. Ann. Appl. Probab., 1994, vol.4, no.4, pp. 1177-1187.
8. Bollobas B, Janson S, and Riordan O. Sparse random graphs with clustering. Random Structures and Algorithms, 2011, vol.38, pp.269-323.