Научная статья на тему 'Распознавание случайных последовательностей, различающихся сдвигом распределений, на основе ранговых статистик'

Распознавание случайных последовательностей, различающихся сдвигом распределений, на основе ранговых статистик Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
217
49
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Омельченко Анатолий Васильевич

Описываются ранговые решающие правила распознавания случайных последовательностей, различающихся сдвигом распределений, на основе ранговых статистик. Характеристики разработанных решающих правил исследуются аналитически и методом статистического моделирования. Показывается, что при распознавании случайных последовательностей с нормальным законом распределения ранговые правила распознавания являются более устойчивыми к 􀁈 -загрязнению распределений, чем параметрическое решающее правило.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Омельченко Анатолий Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Random sequences determination, distinguished by distribution transfer, on the basis of the rank statistics

Rank decision rules of random sequences determination have been built, distinguished by distribution transfer, on the basis of the rank statistics. A variant of the rank decision rule of determination on the basis of Whitney’s statistic has been proposed. Analytic formula for calculation of two random sequences determination probability has been drawn with the help of rank decision rule and the characteristics of the cultivated algorithm have been investigated.

Текст научной работы на тему «Распознавание случайных последовательностей, различающихся сдвигом распределений, на основе ранговых статистик»

КОМПЬЮТЕРНЫЕ _

УДК621.391

РАСПОЗНАВАНИЕ СЛУЧАЙНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ, РАЗЛИЧАЮЩИХСЯ СДВИГОМ РАСПРЕДЕЛЕНИЙ, НА ОСНОВЕ РАНГОВЫХ СТАТИСТИК

ОМЕЛЬЧЕНКО А.В.___________________________

Описываются ранговые решающие правила распознавания случайных последовательностей, различающихся сдвигом распределений, на основе ранговых статистик. Характеристики разработанных решающих правил исследуются аналитически и методом статистического моделирования. Показывается, что при распознавании случайных последовательностей с нормальным законом распределения ранговые правила распознавания являются более устойчивыми к є -загрязнению распределений, чем параметрическое решающее правило.

Введение

Традиционные процедуры математической статистики обеспечивают эффективное решение задач в рамках используемой модели о законах распределения наблюдений и весьма чувствительны к отклонениям от этой модели. Поэтому актуальна задача построения робастных процедур, предназначенных для обеспечения нечувствительности к малым отклонениям от предположений, используемых при разработке этих процедур. Одно из направлений построения робастных решающих процедур состоит в использовании ранговых критериев, основанных на перестановках элементов выборок [1,2].

Целью работы является создание устойчивых решающих правил распознавания случайных последовательностей на основе ранговых статистик. Для достижения поставленной цели необходимо решить следующие задачи: выполнить синтез решающих правил на основе ранговых статистик; найти аналитические выражения для вероятностей ошибок распознавания случайных последовательностей; провести анализ хар актеристик р азр аботанных решающих правил.

1. Постановка задачи

Полагается, что распознаванию подлежит выборка (xi,...,xn) объема n из последовательности независимых и одинаково распределенных случайных величин.

Рассматривается задача проверки гипотезы о том, что выборка (xi,...,xn) имеет то же распределение, что и

выборка (y0,...,ym), против альтернативы, что она имеет такое распределение, как другая выборка (УІ,.. ,Ут) • Предполагается, что элементы выборки (Уі,.. ,Уш) взяты из распределения с функцией распределения F0(x), а элементы выборки (y1,...,y^n) -из распределения с функцией распределения Fi(x) < F0(x), x є R.

Необходимо разработать ранговое решающее правило, принимающее решение о принадлежности выборки (x1,...,xn) к одному из распределений.

2. Решающие правила распознавания на основе ранговых статистик

Как известно [6], байесовское решающее правило распознавания выборки (x1,...,xn), состоящей из последовательности n независимых и одинаково распределенных случайных величин, в пользу одной из двух гипотез с одинаковыми дисперсиями и известными средними значениями ро и М-1 может быть представлено в следующем виде: принимается решение о принадлежности выборки (x1,...,xn) к распределению Fo со средним ро < М-1, если

2М <ро + Мь (1)

где решающая статистика формируется как выбороч-

- - 1 V

ное среднее наблюдаемой выборки М - L xi . Если

nk=1

же неравенство (1) не выполняется, то принимается решение в пользу распределения F1 .

Поскольку в сформулированной выше постановке задачи средние значения ро и М-1 неизвестны, то для построения решающего правила распознавания воспользуемся адаптивным байесовским подходом, в котором используются состоятельные оценки неизвестных параметров, найденные по обучающим выборкам (у0уП) и (у1,...,уП) . В результате придем к асимптотически оптимальному решающему правилу распознавания выборок с нормальным законом и одинаковыми дисперсиями. В соответствии с ним принимается решение о принадлежности выборки (x1,...,xn) к распределению Fo, если

2Р <ро +рь (2)

где р,До,Р1 формируются как выборочные средние:

- 1 ” - 1 ” о - 1^1

М = -Еxi ; Мо =-ЕУі ; М1 = ~ЕУі .

n

k=1

n

k=1

n

k=1

Если же неравенство (2) не выполняется, то принимается решение в пользу распределения F1 .

Недостатком параметрических решающих правил (1) и (2) является чувствительность к отклонению законов распределения выборок от модельных предположений. Для преодоления этого недостатка построим

8 5

BE, 2Ю5, 1 4

правила, в которых в качестве решающих статистик используются ранговые статистики [2].

Одним из наиболее известных ранговых критериев является критерий сдвига, использующий статистику Уилкоксона, которая имеет вид

T = £ Ri, (3)

1 =1

где Rj - ранги элементов выборки (xi,...,xn) в объединенной выборке (xi,...,xn,yi,...,ym) .

Со статистикой Уилкоксона однозначно связана статистика Уитни [3], характеризующая число пар (yi,x(k)), которые удовлетворяют неравенству

У1 < x(k):

U ни,

k=1 l=1

i,j = 0,1,

(4)

где Hkl

1 при yl< xk ,

0 при yl> xk .

Построим ранговое решающее правило распознавания последовательностей независимых и одинаково распределенных случайных величин. При этом воспользуемся следующими принципами: сохраним структуру параметрического правила (2) и используем в (2) вместо элементов выборок их ранги относительно наблюдаемой выборки (x1,...,xn). Конкретно вместо выборки (y1...ym), i = 1,2 будем использо-

вать вектор (a(r{),..., a(r1m)), i = 1,2, где a(i) - функция натурального аргумента, называемая меткой [2]; ранговые статистики

г/ = Е hkl, 1 = 1,m, i = 1,2 , (5)

k=1

10 при y1 < xk , где hkl = У

[1 при yl > xk •

При аналогичной замене вместо выборки (x1,...,xn) придем к вектору рангов (r1,...,rn).

В результате вместо параметрического решающего правила (2) получим ранговое решающее правило, в соответствии с которым выносится решение о принадлежности выборки (x1,...,xn) к распределению Fo, если

2 n 1 m 0 1 m 1 - Ё a(rk) ^ — Ё а(г0)+— Еа(г1). (6)

nk=1 mk=1 mk=1 V '

Если же неравенство (6) не выполняется, то принимается решение в пользу распределения F1 .

В случае тривиального задания меток a(i) = i, i = 1,2,... придем к решающему правилу, которое можно выразить через статистики Уитни (4). В соответствии с этим

правилом принимается решение в пользу распределения F0(x) , если

U0 + U1 < d, (7)

где порог d = (n +1) • m ; статистика U0 строится как статистика Уитни для выборки (x1,...,xn) относительно выборки (у°,...,у—) , а статистика U1 - относительно (у1,...,у—) . Если же неравенство в (7) не выполняется, то принимается решение в пользу распределения

F^x). Как будет доказано ниже, для обеспечения свойства несмещенности решающего правила при распознавании близких гипотез величину порога d в (7) следует выбрать равной d = n • m .

Решающее правило (7) асимптотически эквивалентно (при условии m ^ да) решающему правилу

U0 - d < U1 d

2 2

(8)

в котором выносится решение в пользу распределения F0 , если выполняется неравенство в (8), а в противном случае принимается решение в пользу F1.

Асимптотическая оптимальность правил (7) и (8) вытекает из того, что в пространстве решающих статистик U0, U1 правила (7) и (8) эквивалентны в области значений D , которая задается условием U0 > U1. С другой стороны, P( lim U є D) = 1.

Достоинством решающего правила (8) является то, что оно допускает простое обобщение на случай распознавания трех и более последовательностей:

1

i = min-----

j=1,M mj

Uj

d

2 ,

(9)

где mj - объем обучающей выборки (у1,...,у—),

i = 1M.

Наряду с тривиальным заданием меток в решающем правиле (6) могут быть использованы нормальные метки или приближенные нормальные метки [2]. В последнем случае правило (6) примет следующий вид: выносится решение о принадлежности выборки (x1,...,xn) к распределению Fo, если

m 1 Гі0

Е® (—

k=1

n +1

m 1

) + E®(

k=1

г1

) > 0

n +1

(10)

где ф 1(x) - обратная функция стандартного нормального закона распределения.

Наряду с правилом (10) может быть использовано многоальтернативное правило

1

i = min —

j=1,M mj

m 1 rk

E®(^)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

k=1

n + 1

(11)

основанное на тех же ранговых статистиках, что и правило (10).

8 6

BE, 2005, 1 4

3. Моменты распределений статистик Уитни

Для нахождения распределения решающих статистик в правиле (7) для каждой из двух гипотез воспользуемся ее представлением (4).

Очевидно,что

.. n m ..

aij = M[U1J] = £ £ M[H]k1] = nm 'aij, i,j = 1,2, k=1 1=1

где aij = P[Xk > Yj] = J Fj (x)dFi (x). (12)

Показано [3,4], что для случая j = i дисперсия статистики Уитни

D = ^nm^ + n +1). (13)

Кроме того, известны и дисперсии статистик Уитни для ситуаций, когда выборка имеет распределение Fi для распознаваемой выборки и Fj, j ^ i для гипотезы [3]:

Dij = M[Uij - aij]2 =

= nm[aij + (m - 1)Р.. + (n - 1)є.| - (n + m - 1)a2], (14)

где Pij = J F2 (x)dFi (x), Eij = J [1 - Fi (x)]2dFj (x).

Определим корреляцию решающих статистик:

Rij = M[(Uii - aii)(Uij - aij)] =

n m n m ij ij = M EE[Hlkl-M(Hkl)]EE[Hkl-mch^]) .

k=1l=1 k=1l=1 /

В результате преобразований полним

Rij=nm2 • (J [Fi(x) -,2]. Fj(x)dFi}. (15)

4. Анализ вероятностей ошибок распознавания

Вероятность ошибки распознавания для решающего правила (7) определим исходя из аппроксимации распределений решающих статистик нормальным законом распределения. Такая аппроксимация возможна при n,m > 8 [3-5].

В результате получим выражение для вероятностей ошибок распознавания выборок решающим правилом (7):

P01 ~ 1 — ®(m01) , р10 « 1 — ®(m1o) , (16)

где

d - 0,5mn - ao1 m 1,5mn - d - a01 (17)

m01 = , 01 ;m10 і r .(17)

д/d + D01 + 2R01 yD + D10 + 2R10

Из анализа выражений (16) и (17) следует, что при распознавании близких гипотез, когда нарушается

условие 0,5mn - a01 > d - mn, то вероятность ошибки распознавания Рю оказывается больше 0,5; если же нарушается условие 0,5mn - a01 > mn - d, то вероятность P01 превысит 0,5. В обоих случаях должно обеспечиваться условие 0,5mn - a01 > |d - mn|, для чего порог в решающем правиле (7) целесообразно выбрать d = mn.

Можно показать, что для параметрического решающего правила (2) вероятность ошибки распознавания можно представить в виде свертки

Р01 = 1 - JN0(x)• p(x)dx; Рю = JN1(x)• p(x)dx, (18)

где N.(x), i = 1,2 - функции нормального распределения с дисперсией n _1 и математическими ожиданиями р-1 и р2 соответственно;

p(x) exp{- m • (x--FL±Fl)2 |д = 1,2. (19)

Решающие правила (2), (7) и (8) исследованы применительно к распознаванию двух выборок с нормальным законом распределения, которые различаются математическими ожиданиями р 0, М-1 и имеют одинаковые (единичные) дисперсии.

На рис. 1 сплошной линией показана рабочая характеристика решающего правила (7) в виде зависимости вероятности распознавания Рош = Р12 = Р21 от разности математических ожиданий Ар при объемах выборок n = m = 100, рассчитанная согласно формулам (16). При моделировании использовалось по 1000 реализаций каждой из выборок. На этом же рисунке пунктирной линией представлена аналогичная зависимость для алгоритма (2), рассчитанная согласно (18).

Рис. 1. Зависимости Рош (Ар)

Достоверность полученных результатов подтверждена методом статистического моделирования. На рис. 1 отображены оценки вероятности ошибки распознавания Рош от параметра Ар . Для решающего правила

8 7

BE, 2005, 1 4

(7) указанные оценки показаны кружочками; для правила (8) - точками; для правила (2) - крестиками.

Из представленных результатов следует, что полученные теоретические характеристики хорошо согласуются с результатами статистического моделирования. В случае выборок с нормальным законом распределения ранговые алгоритмы (7) и (8) обеспечивают качество распознавания, близкое к качеству параметрического алгоритма (2).

В целях выяснения асимптотических свойств решающего правила (7) построены зависимости вероятности ошибки распознавания Рош двух последовательностей с нормальным законом распределения и одинаковыми дисперсиями от числа предъявленных на распознавание некоррелированных отсчетов п, которые представлены на рис. 2.

Рис. 2. Зависимости Рош (п) для случая m >> п

Показанные на рис. 2 зависимости найдены для случая достаточно малой разности математических ожиданий последовательностей Др = 0,1 и очень большого объема обучающих выборок (полагалось m = 106 отсчетов). На рис. 2 сплошной линией изображена зависимость Рош (п) для рангового решающего правила (7), вычисленная согласно формулам (16) и (17), а пунктирной - та же зависимость для байесовского правила (1).

На основе построенной характеристики определен коэффициент относительной эффективности правила (7) при условии п ^ да, m ^ да так, что m >> п . Коэффициент относительной эффективности служит мерой относительной эффективности рангового правила по сравнению с оптимальным параметрическим решающим правилом. В данном случае он определяется как отношение пб / пр , где пб и пр - число отсчетов, которое требуется для обеспечения заданной вероятности ошибки распознавания случайных последовательностей соответственно байесовским и робастным правилам. В рассмотренном случае получено пб /пр и 0,954.

8 8

На рис. 3 изображены зависимости вероятности Рош (п) для случая Др = 0,1 при объеме обучающей выборки m = п .

Рис. 3. Зависимости Рош (п) для случая m = п

Здесь сплошной линией показана характеристика рангового решающего правила (7), вычисленная согласно формулам (16) и (17), пунктирной - характеристика параметрического решающего правила (2), рассчитанная согласно выражениям (18) и (19). На этом же рисунке штрихпунктирной линией изо бражена хар ак-теристика байесовского решающего правила. Коэффициент относительной асимптотической эффективности (при п ^ да) рангового решающего правила (7) по сравнению с параметрическим решающим правилом (2) в данном случае составил 0,955.

Достоинство робастных алгоритмов проявляется при отсутствии априорной информации о виде распределения выборок для гипотез, а также при отклонении законов распределения от модельных предположений. Для иллюстрации этого свойства робастных алгоритмов проведено их исследование методом моделирования с использованием загрязненных выборок. Моделирование проводилось аналогично рассмотренному выше случаю, однако реализации контрольных выборок (х1,...,хп) генерировались согласно формуле xk = (1 -r|k)• xk +r|k • zk , k = 1,2,...,п, где Pk, k = 1,2,... - последовательность независимых величин, принимающих значение 1 с вероятностью засорения є и 0 - с вероятностью 1 -є ; xk, k = 1,2,...,п, i = 0,1 - элементы выборки, предъявляемой на распознавание и имеющей распределение Fi, i = 0,1; Zk, k = 1,2,...,п - элементы засоряющей выборки.

При моделировании элементы засоряющей выборки генерировались как последовательность независимых случайных величин с нормальным законом распределения, нулевым математическим ожиданием и дисперсией, в четыре раза превышающей дисперсию распознаваемых выборок. Вероятность загрязнения полагалась равной є = 0,01. При этом обучающие выборки не были загрязнены.

BE, 2005, 1 4

Результаты исследования качества распознавания загрязненных выборок представлены в таблице. Здесь в графах через косую черту указаны оценки вероятностей ошибок обоих родов: Ро^/Р^.

Зависимости Рош (Ар) для загрязненных выборок

Др 0,2 0,4 0,6 0,8 1,0

Алгоритм 0,282/ 0,132/ 0,051/ 0,008/ 0,005/

(2) 0,323 0,133 0,049 0,011 0

Алгоритм 0,237/ 0,066/ 0,017/ 0,002/ 0/0

(7) 0,234 0,053 0,010 0,001

Алгоритм 0,260/ 0,077 0,013/ 0,001/ 0/

(8) 0,306 /0,078 0,015 0,002 0,001

Алгоритм 0,283/ 0,091/ 0,028/ 0,003/ 0/

(10) 0,188 0,068 0,011 0,001 0

Алгоритм 0,344/ 0,098/ 0,017/ 0,003/ 0,005/

(11) 0,231 0,065 0,012 0,002 0,001

Как следует из анализа данных таблицы, робастные алгоритмы (7), (8), (10) и (11) обеспечивают лучшее качество распознавания є -загрязненных последовательностей, чем параметрический алгоритм (2).

Выводы

Научная новизна работы определяется тем, что в ней построены и исследованы новые решающие правила распознавания случайных последовательностей, которые принципиально отличаются от известных ранговых критериев [2-5] множеством принимаемых решений: в них выносится решение о принадлежности наблюдаемой выборки к одному из нескольких распределений, каждое из которых задано обучающей выборкой. В ранговых же критериях по двум или более выборкам выносится решение о том, имеют ли они одинаковое распределение против альтернативы о принадлежности их различным распределениям.

устойчивыми к є -загрязнению, чем параметрическое правило распознавания.

Практическая значимост ь работы определяется тем, что созданные ранговые решающие правила могут быть использованы для распознавания объектов различной природы в условиях изменяющейся обстановки наблюдения. Предварительные исследования показали высокую эффективность разработанных решающих правил для идентификации дикторов по голосу.

Дальнейшая перспектива исследований состоит в разработке решающих правил распознавания случайных последовательностей, различающихся параметрами сдвига и масштаба, а также применения разработанных правил для решения прикладных задач, в частности для задачи идентификации дикторов.

Литература: І.Хьюбер Дж. П. Робастность в статистике. М.: Мир, 1984. 304 с. 2. Гаек Я., Шидак З. Теория ранговых критериев. Гл. ред. физ.-мат. лит. изд-ва «Наука», 1971.375 с. 3. Хеттманспергер Т. Статистические выводы, основанные на рангах. М.: Финансы и статистика, 1987. 334 с.

4. Бикел П., Доксам К. Математическая статистика. Вып. 2. М.: Финансы и статистика, 1983.254 с. 5. Айвазян С.А. и др. Прикладная статистика: Основы моделирования и первичная обработка данных. Справ. изд. Финансы и статистика, 1983. 471 с. 6. Ивченко Г.И., Медведев Г.И. Математическая статистика. М.: Высш. шк., 1984. 248 с.

Поступила в редколлегию: 11.11.2005

Рецензент: д-р физ.-мат. наук Прокопов А.В.

Омельченко Анатолий Васильевич, канд. техн. наук, доцент кафедры «Сети связи» ХНУРЭ. Научные интересы: методы обработки сигналов и распознавания образов. Адрес: Украина, 61075, Харьков, ул. 3-го Интернационала, 7, кв. 38.

Приложение

Свойство P( lim U є D) = 1 вектора решающих статистик m

На основе анализа характеристик разработанных решающих правил распознавания сделаны следующие Выводы:

1. При распознавании последовательностей с нормальным законом распределения и одинаковыми дисперсиями ранговые решающие правила (7), (8), (10) и (11) обеспечивают качество распознавания, близкое к качеству распознавания параметрического решающего правила (2), если выполняются оговоренные выше условия.

2. Для распознавания последовательностей, имеющих нормальный закон распределения, с помощью разработанного рангового решающего правила (7) требуется всего на 5 % больший объем выборки по сравнению с оптимальным параметрическим решающим правилом для обеспечения той же вероятности ошибки распознавания.

3. При распознавании случайных последовательностей с нормальным законом распределения ранговые решающие правила распознавания являются более

следует из того, что событие lim U є D выполняется, если m—

lim [#(y° < xk)-#(yj < xk)] > 0, Vxk m

где #(yi < x ) - число элементов yi, l = 1,m , удовлетворяющих условию yl < x .

При этом

Р{ lim [#(y0 <x )-#(y} < x )] > 0} >

[#(y° < x )-#(y} < x )]

> P{ lim ----l-----------l------> 0} =

m^-да m

= P{F0(x) > Fx(x)} = 1

для Vx є R , поскольку согласно сформулированной постановке задачи F0(x) > Fi(x).

8 9

BE, 2005, 1 4

i Надоели баннеры? Вы всегда можете отключить рекламу.