Научная статья на тему 'Методика проверки гипотезы о распределениях многомерных случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов'

Методика проверки гипотезы о распределениях многомерных случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов Текст научной статьи по специальности «Математика»

CC BY
114
23
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕПАРАМЕТРИЧЕСКАЯ СТАТИСТИКА / РАСПОЗНАВАНИЕ ОБРАЗОВ / ПРОВЕРКА ГИПОТЕЗ / РАСПРЕДЕЛЕНИЯ СЛУЧАЙНЫХ ВЕЛИЧИН / NONPARAMETRIC STATISTICS / IMAGES RECOGNITION / HYPOTHESIS TESTING / DISTRIBUTIONS OF RANDOM VARIABLES

Аннотация научной статьи по математике, автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Молоков Вячеслав Витальевич

Предлагается методика проверки гипотезы о тождественности законов распределения многомерньх случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов и принципов коллективного оценивания.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Лапко Александр Васильевич, Лапко Василий Александрович, Молоков Вячеслав Витальевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

TECHNIQUE OF TESTING HYPOTHESIS ABOUT THE MULTIDIMENSIONAL RANDOM VARIABLES DISTRIBUTIONS BASED ON THE USE OF NONPARAMETRIC IMAGES RECOGNITION ALGORITHMS

The technique for testing of the hypothesis about identity of laws of multidimensional random variables distribution based on use of nonparametric images recognition algorithms and principles of collective estimation is offered.

Текст научной работы на тему «Методика проверки гипотезы о распределениях многомерных случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов»

УДК 681.513

иД Р ©

tM 4Ъ А

Александр Васильевич ЛАПКО,

главный научный сотрудник Института вычислительного моделирования СО РАН (г.Красноярск), доктор технических наук, профессор, заслуженный деятель науки Российской Федерации

Василий Александрович ЛАПКО,

ведущий научный сотрудник Института вычислительного моделирования СО РАН (г.Красноярск), доктор технических наук, профессор

Вячеслав Витальевич МОЛОКОВ,

доцент кафедры социально-экономических наук и информатики Сибирского юридического института МВД России (г.Красноярск), кандидат технических наук, доцент

МЕТОДИКА ПРОВЕРКИ ГИПОТЕЗЫ О РАСПРЕДЕЛЕНИЯХ МНОГОМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН, ОСНОВАННАЯ НА ИСПОЛЬЗОВАНИИ НЕПАРАМЕТРИЧЕСКИХ АЛГОРИТМОВ

РАСПОЗНАВАНИЯ ОБРАЗОВ

TECHNIQUE OF TESTING HYPOTHESIS ABOUT THE MULTIDIMENSIONAL

RANDOM VARIABLES DISTRIBUTIONS BASED ON THE USE OF NONPARAMETRIC IMAGES RECOGNITION ALGORITHMS

Предлагается методика проверки гипотезы о тождественности законов распределения многомерных случайных величин, основанная на использовании непараметрических алгоритмов распознавания образов и принципов коллективного оценивания.

The technique for testing of the hypothesis about identity of laws of multidimensional random variables distribution based on use of nonparametric images recognition algorithms and principles of collective estimation is offered.

Ключевые слова: непараметрическая статистика, распознавание образов, проверка гипотез, распределения случайных величин.

Keywords: nonparametric statistics, images recognition, hypothesis testing, distributions of random variables.

Вестник Сибирского юридического института МВД России= ■

Задачи проверки гипотезы о распределении случайных величин являются классическими при проведении всесторонних статистических исследований и широко распространены в научной практике. Не является исключением и область правоохранительной деятельности. Подобные подходы применимы для анализа закономерностей развития преступности, моделирования и прогнозирования ее показателей, выявления взаимосвязи в изучаемых процессах, классификации объектов или признаков, исследования криминологических характеристик преступного поведения и т.п.1

Относительно новым в обшей теории статистики является применение непараметрических алгоритмов распознавания образов и принципов коллективного оценивания для проверки статистических гипотез. Одно из реализуемых направлений применения методов непараметрической статистики связано с оценкой эффективности деятельности экспертно-криминалистических подразделений органов внутренних дел. Исходные данные деятельности подразделений представлены статистическими показателями и содержат выборки наблюдений многомерной случайной величины. Проверка гипотезы о равенстве законов распределения исходных выборок может являться основой объединения их в группы классов, близких не столько по уровню и размерности величин, их характеризу-юших, сколько по степени связей между признаками и однородности законов формирования. Такая постановка задачи позволит выявить критерии оценки эффективности работы экспертно-крими-налистических подразделений и согласовать сушествуюшие методики с результатами вычислительных экспериментов. Полученные данные могут являться основой для принятия различных управленческих решений руководством правоохранительных органов.

Для проверки гипотез о распределениях случайных величин широко используется критерий согласия К.Пирсона,

который не зависит от распределений случайных величин и их размерности.2 Однако методика формирования критерия Пирсона содержит трудно формализуемый этап разбиения области возможных значений случайной величины на многомерные интервалы. Данный этап отсутствует в критерии Колмогорова -Смирнова, который позволяет проверять гипотезы о распределениях одномерных случайных величин.3

В статье А.В.Лапко4 показана возможность использования непараметрических алгоритмов распознавания образов, со-ответствуюших критерию максимального правдоподобия, в задаче проверки статистических гипотез о распределениях случайных величин. Результаты использования предлагаемой методики сопоставимы с критерием Колмогорова - Смирнова для одномерных задач в условиях, когда количество элементов сравниваемых последовательностей случайных величин отличаются незначительно. При различных объемах случайных последовательностей наблюдается снижение эффективности предлагаемой методики. Данный факт согласуется с результатами исследований5, где показано значительное ухудшение аппроксимационных свойств непараметрической оценки уравнения разделяюшей поверхности при увеличении степени неравномерности распределения элементов обучаюшей выборки между классами.

Цель данной работы состоит в развитии предлагаемой методики для решения задач проверки гипотез о распределениях многомерных случайных величин.

Работа выполнена при поддержке гранта ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг., ГК №02.740.11.0621.

Модифицированная методика проверки гипотезы о распределениях

случайных величин. Пусть Х\ и Х2

- две генеральные совокупности с произвольными законами распределения.

Необходимо по независимым выборкам

V1 = (У , i = 1, п1) и V, = (хг, / = 1, п2)

многомерных случайных величин

X = , V = 1, k) ,

извлеченным из дан-

ных генеральных совокупностей, проверить либо опровергнуть гипотезу

И0 : р (х) = Р, (х)

о тождественности функций распределения.

Известно, что если при решении дву-альтернативной задачи распознавания образов вероятность ошибки классификации равна 0.5, то законы распределения случайных величин в области определения классов совпадают. Поэтому появляется возможность перехода от задачи сравнения законов распределения многомерных случайных величин к проверке гипотезы о равенстве статистической оценки вероятности ошибки распознавания образов значению 0.5.

Предлагаемая методика предполагает выполнение следуюших действий.

1. Пусть количество элементов сравниваемых последовательностей случайных величин отличается значительно, например

П >П . Сформировать набор сравнива-

емых

последовательностей

' )=(хг,1 е I' ) V =(хг,1 = 1 ,П2 )) ,

' = 1,Т". Элементы выборки V] (') объемом П2 формируются случайным образом из последовательности V . Здесь Ij - множество номеров элементов последовательности V1, составляюших сравниваемую последовательность V¡ (j). Присвоим элементам множества 1j зна-

чения п2 +1, t = 1, п2 .

2. На основе (V](''), V, ) определить обучаюшую выборку

¡Помощь ведущих специалистов

УО)= X , с(/),/' = 1, 2п, ) для решения задачи распознавания образов, где

с

(г)=

-1 V хг еП1

1 V х' е О,

указание о принадлежности значения

X к тому либо иному классу О1, О, . При этом полагаем, что элементы множеств V (') и V, принадлежат соответственно классам О1, О, .

3. По выборке V(') осушествить

синтез непараметрического алгоритма распознавания образов, соответствуюшего критерию максимального правдоподобия6,

т

(X ):

х еО: V //2 (х )< 0 х еО 2 V /' (х )> 0. (1)

При формировании оценки уравнения разделяюшей поверхности

//2 (х)= р (х)- Р1 (х ) (2)

будем использовать непараметрические оценки

, ч 1 П2 k 1

Р2 (х ) =- Е п—'Ф

п2 / =1 v=1cv

хv хv С,

2п2 к 1

р](х) = — Е П —'Ф п2 г = п2 +1 v=1 cv

сл,

плотностей вероятности распределения многомерной случайной величины х в

классах О1, О2 типа Розенблатта - Пар-зена.7 Ядерные функции Ф(uv) удовлетворяют условиям )=ф(- uv ) ,

0 <Ф(ил;) , = 1 , а

—да

Вестник Сибирского юридического института МВД России= ■

значения их коэффициентов размытости Су убывают с ростом П2 .

Тогда статистика (2) представляется выражением

~ , , \ 1 2П2 / ч к 1

~2(х) = — х ст(/)п — Ф

п2 г = 1 v=1 ^

(3)

Выбор оптимальных значений

Су ,у = 1, к коэффициентов размытости С = (су , V = 1, к) непараметрического решающего правила т, (х) осуществляется из условия минимума оценки вероятности ошибки распознавания образов

1 2п2

Р, (с) = — Е1(а((),а(()),

2п2 г=1

где индикаторная функция

[0 V а(г )=а(г)

1((),а()) =

1 V а()*а();

а(г) - «решение» алгоритма т,(х) о

принадлежности значений х к тому либо

иному классу 01, О2 , полученное в соответствии с правилом (1).

При вычислении Р,(с) «решение»

а(г) алгоритма (1) определяется в соответствии со знаком статистики

х )=)П

, х )=)П 1 ф

п2 г=1 V=1^ г ф г

г _ г

XV XV

то есть ситуация хг , которая подается на контроль, исключается из процесса обучения.

4.Проверить гипотезу Н0 (, ):

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

р, (с )= 0.5

в соответствии с критерием

Колмогорова. Для этого сравним его пороговое значение8

_ 1п — 2

( 1 >

4п2 у

0.5 _ р, (с) . Здесь

с отклонением = а - вероятность (риск) отвергнуть правильную гипотезу Н 0 (,).

Если выполняется соотношение

О12 < О(Х , то гипотеза

Н 0 (]) справедлива, иначе она отвергается.

5. В соответствии с пунктами 2-4

проверить гипотезы Н 0 (,) на основе последовательностей случайных величин

(у1 (,), ^2 ),, = 1,Т . По полученным данным рассчитать оценки вероятностей

р1 = V Р =

Т , р — /т справедливости гипотезы Н0 и ее отклонения соответственно. Здесь в - количество «решений» о справедливости, а £ - отклонения гипотез ^0

(,),

6. Проверить достоверность отличия р1 и р с использованием критерия

Смирнова.

Для этого вычислим его пороговое значение

которое

О =

Оа=У_ 1п |/ Т

сравним с

разностью

Р0(т)_Р1 (т) .

Исходная гипотеза Н0 подтверждается, если О > Оа и Р1 > Р , в про-

и

тивном случае при Р < Р она отвергается.

xv х\>

с

V

¡Помощь ведущих специалистов

Предлагаемая методика позволяет расширить условия применения критерия Колмогорова - Смирнова на задачи проверки гипотез о распределениях многомерных случайных величин. Ее использование обеспечивает обход проблемы разбиения области возможных значений случайной величины на многомерные интервалы, что свойственно критерию Пирсона.

Представленные результаты работы могут быть полезны при решении различных прикладных задач обработки экспериментальных данных в технических, социально-экономических, медико-биологических и иных системах.

1 Молоков В.В. Направления применения методов непараметрической статистики в решении задач профилактики и борьбы с преступностью // Актуальные проблемы борьбы с преступностью в Сибирском регионе : сборник материалов XII международной научно-практической конференции. Красноярск : СибЮИ МВД России, 2009. 4.2. С.115-118.

2 Пугачев B.C. Теория вероятностей и математическая статистика. М.: Наука: Главная редакция физико-математической литературы, 1979.

3 Смирнов Н.В. Оценка расхождения между эмпирическими кривыми распределений в двух независимых выборках // Бюллетень МГУ. Сер. А. Вып.2. 1939. С.3-14.

4 Ёапко A.B., Ёапко В. А. Применение непараметрического алгоритма распознавания образов в задаче проверки гипотезы о распределениях случайных величин // Системы управления и информационные технологии. 2010. 3(41). С.8-11.

5 Ёапко A.B., Ёапко В. А. Анализ асимптотических свойств непараметрической оценки уравнения разделяющей поверхности в двуальтернативной задаче распознавания образов // Автометрия. 2010. Т.46. №3. С.48-53.

6 Ёапко А.В., Ёапко В.А., Соколов М.И., Ченцов С.В. Непараметрические системы классификации. Новосибирск : Наука, 2000.

7 Parzen E. On estimation of a probability density function and mode // Ann. Math. Statistic. 1962. Vol.33, №3. P. 1065 1076.

8 Шаракшанэ А.С., Железнов И.Г., Ивниц-кий В.А. Сложные системы. М.: Высш. шк., 1977.

i Надоели баннеры? Вы всегда можете отключить рекламу.