СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ИНФОРМАЦИИ
УДК 681.513
А. В. Лапко, М. А. Шарков
Сибирский федеральный университет Красноярск
В. А. Лапко
Институт вычислительного моделирования СО РАН Красноярск
НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОБНАРУЖЕНИЯ ЗАКОНОМЕРНОСТЕЙ
В УСЛОВИЯХ МАЛЫХ ВЫБОРОК
Рассматриваются непараметрические оценки плотности вероятности и алгоритмы распознавания образов в условиях малых выборок, основанные на искусственной генерации дополнительных статистических данных. Исследования их свойств выполнены аналитически и методом вычислительного эксперимента.
Большинство статистических методов распознавания образов ориентировано на представительные обучающие выборки. Однако при решении прикладных задач исследователи часто располагают ограниченным объемом наблюдений — короткой либо малой выборкой, что обусловливается нестационарностью объекта исследования, высокой сложностью и стоимостью получения дополнительной информации. Получаемые решающие правила не всегда обеспечивают приемлемых результатов классификации, так как информации малых обучающих выборок недостаточно для оценивания вероятностных характеристик изучаемых закономерностей.
В условиях малых выборок широкое распространение получили принципы декомпозиции систем и последовательные процедуры формирования решений. Так, для увеличения отношения „объем/размерность" (п / к ) обучающей выборки формируются наборы признаков классифицируемых объектов, в пространстве которых формулируются частные решающие правила. Для получения обобщенного решения используются методы коллективного оценивания на основе вторичных факторов, определяемых количеством наборов исходных признаков [1, 2].
Метод группового учета аргументов (МГУА) реализует последовательную процедуру усложнения решающего правила путем целенаправленного отбора (селекции) пар, состоящих из первичных и промежуточных признаков [3]. Каждый этап синтеза алгоритма характеризуется отношением п / к = п /2. Алгоритмы МГУА отличаются друг от друга критерием селекции, количеством промежуточных моделей и их сложностью.
В работе [4] приведены результаты исследований по генерации случайных величин с плотностью вероятности, представляющей собой ядерную оценку Розенблатта—Парзена. Предложенные процедуры продолжения случайных последовательностей обосновывают возможность искусственного увеличения объема п обучающей выборки, а следовательно и отношения п / к. Асимптотические свойства получаемой при этом ядерной оценки плотности вероятности исследованы в работе [5], результаты которой являются основой для синтеза непараметрических алгоритмов распознавания образов в условиях малых выборок.
Оценивание плотности вероятности в условиях малых выборок. Будем считать, что восстанавливаемая плотность вероятности р (х) и первые две ее производные ограничены и непрерывны.
При оценивании плотности вероятности р(х)Ух е Е1 в условиях малых выборок увеличим
объем исходных данных V = (х1, г = 1, п) за счет результатов статистического моделирования. С этой целью в Р-окрестности каждой г-й ситуации выборки проведем т имитаций случайной величины х с законом распределения р1 (х) и нулевым математическим ожиданием.
Нетрудно заметить, что полученная статистическая выборка V2 = (X + х , у = 1, т, г = 1, п) соответствует смеси плотностей вероятности
1 п _
р (х) = -Е Рг (х К
п г=1
п т ( х - хг - х ^
ее непараметрическая оценка запишется в виде
Р( х) = (птс)-1 ЕЕФ
г=1 у=1 ^ ^ >
где Ф(и) — ядерная функция, удовлетворяющая условиям
Ф(и)>0, |ф(м)ёи = 1, Ф(и) = Ф(-и), |иуФ(и)ёи, V>2,
Ф(и2)>Ф(и1), V |и2|<\щ\, с = с(п) — параметр размытости ядерной функции.
В многомерном случае х е Як оценка плотности вероятности имеет вид
(1)
__п т к 1
р( х) = (пт)-1 ЕЕП -Ф
( г - У ^
ху ху
г=1 у =1 у=1 СУ
СУ
(2)
В работе [5] определены асимптотические выражения для смещения
М (р (х)-р (х))~ р(22(х) (С2 +Ц2) (3)
и среднего квадратического отклонения
V(х, х) = М(((х)-р(х))2~ р(х)11Ф(и)11 ц2 +1Гр2(~х)-2р(х)р(1)(х)^1 +
' 2птс п
+((р(1) (х))2 + рСх)р(2) (^))Ц2 -р(1) 00р(2) (хЦ+(р(2)4(х))2 Ц4 ]+ (4)
р 2( х) - (/)(х))2 Ц2 + Ц4 + р( х)р<2>( х)Ц2
(р(2)(х))2 (С2 +Ц2)2.
Здесь М — знак математического ожидания; р(у)( х), р(у)( х), у = 1,2 — первые и вторые производные плотностей вероятности случайных величин х и х;
_ _у Р_у _ _
хур(х)ёх, V = 1,4, |/ = | Хр(х)йх,у = 1,2, ||Ф(и)|| = |ф2(и) ёи .
-Р
Доказательство асимптотической сходимости непараметрических оценок, предназначенных для обнаружения закономерностей в условиях малых выборок, позволяет аналитически обосновать методику их синтеза. На этой основе появляется возможность определить количественную взаимосвязь между характеристиками обучающей выборки, параметрами имитационной процедуры формирования дополнительной статистической информации и исследуемых алгоритмов их обработки, что необходимо для объяснения результатов вычислительных экспериментов.
Проведем анализ асимптотического выражения среднего квадратического отклонения Ж (X, х) на всем диапазоне изменения х и х. При этом будем полагать
р( X) = (2р)-1Ухе[-р; в]
3 2 2 4 3
и пренебрегать вследствие малости в , в с , с , в /(птс) в процессе преобразований. Тогда, проинтегрировав выражения Ж(х, х) по переменным х, х, получим
_ А Р(х)||2 в
ж+ ^ 711 н, (5)
2пв т
где А — длина интервала изменения х.
Отметим зависимость асимптотических свойств оценки плотности р(х) от объема исходной информации и результатов статистического моделирования.
Как и следовало ожидать, с ростом т оценка среднего квадратического отклонения (5)
стремится к пределу ——. Полученные выводы подтверждают принципиальную возможность
2пв
использования оценок типа (1) при обработке малых выборок. Вместе с тем условия конечных п и т ^ да не обеспечивают сходимость р(х) к р(х).
Причем зависимость Ж от в при определенных значениях т и п имеет экстремальный характер и при оптимальном
( V/2
тА
в =
4п||р( х)||
2
J
(6)
достигает своего минимума.
Из анализа выражения (6) следуют вполне очевидные соотношения между параметрами
* ^
в , т и А. Интервал 2в генерирования искусственной обучающей последовательности увеличивается с ростом области определения р(х) и количества имитаций т и снижается по мере увеличения объема п исходной выборки.
Определим условия, при которых предлагаемая методика увеличения объема выборки обеспечивает повышение эффективности оценивания плотности вероятности. Известно, что традиционной непараметрической оценке ядерного типа [6]
Л. .а Л
^ х - х
р (х) = (пс)-1
г=1
(7)
V J
соответствует минимальное значение асимптотического выражения среднего квадратическо-го отклонения
V р ( х) - р( х)||2~4
2 Л4
Ф
л1/5
п
(2) рх
Для определения эффективности оценки (1) используем выражение (5) для ее среднего
*
квадратического отклонения при оптимальном значении в (6):
V ~2
р (х)||2 у/2
пт
Тогда из условия V / V >1 можно определить требование на количество имитаций т процедуры генерирования искусственной обучающей выборки
т > 2,56Д|| р (х)||2
п3/
МП р (2)( х)
ЛЛ15
(8)
уУ
при котором оценка (1) будет обладать более высокими аппроксимационными свойствами по сравнению с традиционной непараметрической оценкой плотности вероятности ядерного типа (7).
Синтез уравнения разделяющей поверхности в условиях малых выборок. Для упрощения выкладок, без существенной потери в получаемых результатах, рассмотрим методику построения уравнения разделяющей поверхности в условиях малых выборок на примере двухвариантной задачи распознавания образов в пространстве непрерывных признаков. В этом случае решающее правило имеет вид
Г хе°ь если /12(х) > а
Г(х):^ (9)
[хе02, если /12(х)<0,
где /12 (х) = р1( х) - р2 (х) — байесовское уравнение разделяющей поверхности между классами 01 и 02, соответствующее критерию максимального правдоподобия.
Для построения решающего правила воспользуемся оценкой плотности вероятности, предложенной в выражении (2). Пусть п1 и п2 — количество ситуаций обучающей выборки (хг, о(г), г = 1, п), принадлежащих первому и второму классу. Тогда непараметрическая оценка
уравнения разделяющей поверхности может быть представлена следующим образом:
( г - 1Л к ( г - Л
^ л т к л _ .. г
______1 т к 1
/12 (х)=рх (х)- р2 (х)=—ЕЕП—ф
п1тге11 у=1 у=1 С
1 т к л
—ЕЕП
п2 тге12 у=1 у=1 Сг
( к Л1 п т к ^
пт П Ео(г )ЕПФ
- ' л
Л^ Лу хУ
л
V
где
V у=1 у г=1 У=1 у=1
(«1 / п), если х е0ь
(10)
о(1) =
[-(и2 / п), если х е02,
1]_, 12 — множество номеров ситуаций из обучающей выборки, принадлежащих первому и второму классу соответственно.
При оптимизации решающей функции (10) сначала определяются параметры в проце-
дуры генерирования обучающей выборки V = (х1 + х , о(г), у = 1, т, г = 1, п), где параметр о(1)
указывает на принадлежность ситуации х1 + х к одному из классов. Выбор значения в осуществляется для каждого класса из условия полного покрытия Р-окрестностями области определения соответствующей части обучающей выборки. При этом количество пересечений всех Р-окрестностей должно быть минимальным.
Затем определяются параметры т и ^, V=1, к непараметрической оценки уравнения разделяющей поверхности из условия минимума эмпирической оценки вероятности ошибки распознавания образов в режиме „скользящего экзамена" по выборке V [7].
Для повышения эффективности непараметрических алгоритмов распознавания образов в условиях малых выборок возможно использовать принципы коллективного оценивания.
Пусть ^ (х), у = 1, М — непараметрические решающие правила для двухвариантной задачи
распознавания образов, которые построены по выборкам (х1 + х], ст(1), у = 1, т, 1=1, п), отличающимся случайными последовательностями, „расширяющими" при одних и тех же значениях параметров имитации т и в исходную обучающую выборку.
Воспользуемся одним из известных подходов коллективного оценивания, например, методом „голосования" и построим решающее правило
'12
(х ):
^ Мл М2
хеОь если ->-;
1 ММ
о М1 М2
х££¿2, если —— <-
ММ
где Му, у = 1, 2 — число „решений", которые принимают „члены коллектива" о принадлежности объекта с набором признаков х в пользуу-го класса.
Результаты вычислительного эксперимента. Анализ результатов вычислительного эксперимента подтверждает преимущество в условиях малых выборок исследуемого классификатора по сравнению с традиционным непараметрическим алгоритмом распознавания образов. Достаточно конечного числа имитаций т в Р-окрестности ситуаций исходной обучающей выборки для значительного снижения ошибки классификации. Подтверждено наличие порогового значения т, что согласуется с аналитическим результатом (8).
Обнаруженную закономерность можно объяснить, если учесть, что выражение (1) является непараметрической оценкой смеси плотностей вероятности р1 (х), 1 = 1, п. Каждая
составляющая р1 (х) определена на Р-окрестности исходной ситуации х1 и восстанавливается по данным VI =(х1 + х], у = 1, т). Очевидно, что при малых значениях т информации выборки VI явно недостаточно для оценивания (х), поэтому закон распределения х в классах, представленных исходными данными, искажается. Следовательно, в области малых значений т преимущество предлагаемого непараметрического классификатора не наблюдается.
Установлено наличие минимума зависимости оценки вероятности ошибки распознавания образов от значения Р-окрестности процедуры генерирования искусственной обучающей выборки. Данный факт согласуется с аналитическим выводом (6), полученным при анализе асимптотического выражения среднего квадратического отклонения (5) непараметрической оценки плотности вероятности р (х) от р (х).
Результаты вычислительного эксперимента подтверждают, что значение параметра Р должно обеспечивать полное покрытие Р-окрестностями области определения классов при их минимальном взаимном пересечении.
Непараметрическая регрессия в условиях пропуска данных
67
Увеличение объема исходных данных на основе принципов имитационного моделирования является эффективным средством решения задач классификации в условиях малых обучающих выборок. Получаемые при этом непараметрические алгоритмы распознавания образов обеспечивают существенное снижение ошибки распознавания на контрольных выборках по сравнению с традиционным классификатором ядерного типа.
Работа выполнена в рамках гранта Президента РФ № НШ-3431.2008.9.
СПИСОК ЛИТЕРАТУРЫ
1. Лапко В. А., Капустин А. Н. Синтез нелинейных непараметрических коллективов решающих правил в задачах распознавания образов // Автометрия. 2006. № 6. С. 26—34.
2. Лапко В. А. Синтез и анализ непараметрических моделей коллективного типа // Автометрия. 2001. № 6. С. 98—106.
3. Ивахненко А. Г., Чаинская В. А., Ивахненко Н. А. Непараметрический комбинаторный алгоритм МГУА на операторах поиска аналогов // Автоматика. 1990. № 5. С. 14—27.
4. Деврой Л., Дъерфи Л. Непараметрическое оценивание плотности (Ьх -подход). М.: Мир, 1988. 407 с.
5. Лапко А. В., Лапко В. А., Соколов М. И., Ченцов С. В. Непараметрические системы классификации. Новосибирск: Наука, 2000. 240 с.
6. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, вып. 1. С. 156—161.
7. Лапко А. В., Ченцов С. В., Крохов С. И., Фелъдман Л. А. Обучающиеся системы обработки информации и принятия решений. Новосибирск: Наука, 1996. 296 с.
Рекомендована Поступила в редакцию
НПО ПМ 12.01.08 г.
УДК 519.95
М. И. Соколов
Сибирский федеральный университет Железногорский филиал
НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ В УСЛОВИЯХ ПРОПУСКА ДАННЫХ
С использованием принципов имитации систем и коллективного оценивания разработаны непараметрические модели восстановления стохастических зависимостей в условиях пропуска данных путем „размножения" строк на основе их аналогов из исходной таблицы „объект—признак" с последующим синтезом непараметрической регрессии.
Одной из проблем теории обучающихся систем является обработка массивов данных с пропусками. В этих условиях перед исследователем возникает дилемма — исключение информации с пропусками или их заполнение, решать которую необходимо исходя из имеющихся объективных предпосылок.
В первом случае теряется полезная информация, содержащаяся в остальных позициях строки таблицы „объект—признак", и возрастают материальные затраты на их получение. Основным путем решения проблемы недостающих данных является их восстановление в соответствии с закономерностями, определяющими взаимосвязь между признаками исходной выборки данных. Наиболее известны локальные алгоритмы заполнения пропусков исходной