Увеличение объема исходных данных на основе принципов имитационного моделирования является эффективным средством решения задач классификации в условиях малых обучающих выборок. Получаемые при этом непараметрические алгоритмы распознавания образов обеспечивают существенное снижение ошибки распознавания на контрольных выборках по сравнению с традиционным классификатором ядерного типа.
Работа выполнена в рамках гранта Президента РФ № НШ-3431.2008.9.
список литературы
1. Лапко В. А., Капустин А. Н. Синтез нелинейных непараметрических коллективов решающих правил в задачах распознавания образов // Автометрия. 2006. № 6. С. 26—34.
2. Лапко В. А. Синтез и анализ непараметрических моделей коллективного типа // Автометрия. 2001. № 6. С. 98—106.
3. Ивахненко А. Г., Чаинская В. А., Ивахненко Н. А. Непараметрический комбинаторный алгоритм МГУА на операторах поиска аналогов // Автоматика. 1990. № 5. С. 14—27.
4. Деврой Л., Дъерфи Л. Непараметрическое оценивание плотности (Ьх -подход). М.: Мир, 1988. 407 с.
5. Лапко А. В., Лапко В. А., Соколов М. И., Ченцов С. В. Непараметрические системы классификации. Новосибирск: Наука, 2000. 240 с.
6. Епанечников В. А. Непараметрическая оценка многомерной плотности вероятности // Теория вероятности и ее применения. 1969. Т. 14, вып. 1. С. 156—161.
7. Лапко А. В., Ченцов С. В., Крохов С. И., Фелъдман Л. А. Обучающиеся системы обработки информации и принятия решений. Новосибирск: Наука, 1996. 296 с.
Рекомендована Поступила в редакцию
НПО ПМ 12.01.08 г.
УДК 519.95
М. И. Соколов
Сибирский федеральный университет Железногорский филиал
НЕПАРАМЕТРИЧЕСКАЯ РЕГРЕССИЯ В УСЛОВИЯХ ПРОПУСКА ДАННЫХ
С использованием принципов имитации систем и коллективного оценивания разработаны непараметрические модели восстановления стохастических зависимостей в условиях пропуска данных путем „размножения" строк на основе их аналогов из исходной таблицы „объект—признак" с последующим синтезом непараметрической регрессии.
Одной из проблем теории обучающихся систем является обработка массивов данных с пропусками. В этих условиях перед исследователем возникает дилемма — исключение информации с пропусками или их заполнение, решать которую необходимо исходя из имеющихся объективных предпосылок.
В первом случае теряется полезная информация, содержащаяся в остальных позициях строки таблицы „объект—признак", и возрастают материальные затраты на их получение. Основным путем решения проблемы недостающих данных является их восстановление в соответствии с закономерностями, определяющими взаимосвязь между признаками исходной выборки данных. Наиболее известны локальные алгоритмы заполнения пропусков исходной
некомплектной таблицы „объект—признак", основанные на оценивании зависимостей между ее строками и столбцами в ограниченной окрестности анализируемого элемента [1].
В предлагаемом в настоящей статье подходе преобразование исходной информации заменяется процедурой „размножения" строк с пропусками данных на основе принципов имитации систем, что позволяет обойти проблему искажений априорных сведений за счет неточности используемых моделей и субъективных предположений исследователя. Возникающая при этом естественная неоднородность получаемых данных (наличие в преобразованной таблице строк с пропусками и без них) требует разработки модифицированных непараметрических алгоритмов обработки информации. Для этой цели используются совокупности решающих правил, позволяющие учитывать особенности обрабатываемой информации.
Имитационный метод заполнения пропусков данных. Пусть при восстановлении однозначной стохастической зависимости
у = ф(х), хе Як, у е Я1 (1)
имеется выборка V = (хг, у1, г = 1, п), составленная из статистически независимых наблюдений переменных х, у с неизвестной плотностью вероятности р(х, у).
В выборке V часть данных с номерами ге 1п ^ I = [г = 1, п] имеет пропуски некоторых
значений (,..., хк ) . Обозначим через 3 множество номеров этих признаков, 3 = [у = 1, к].
Идея предлагаемого подхода заключается в поиске да-аналогов для каждой строки выборки V с номером ге 1п в пространстве переменных (ху,уе3\3г,у) с последующим использованием их информации в процессе „размножения" строки с пропусками данных, что предполагает выполнение следующих действий.
1. Выбор строки с номером 1е 1п и определение показателей ее близости
(, уе3\3, у) со строками у еI\ 1п выборки V в пространстве переменных
(ху, уе3\3, у).
В качестве показателя близости может быть принято, например, евклидово расстояние:
11/2
ёу(ху, Уе3\3,у) =
Е (х; - х\ )2 +(уг - уу )2
уе3 \ 3
2. Ранжирование значений (,у е3\3, у), у еI\ 1п по их возрастанию. Строки (,у] ), у е 1а ^I\1п, |1а | = т обучающей выборки, соответствующие первым т элементам
ранжированного ряда {ё, (, у е 3\3, у)}, будем называть аналогами 1-й строки с пропусками.
3. Выполнение операции „размножения" 1-й строки на т новых строк (,уе3\3, х^,уе3,у1), у е 1а, каждая из которых повторяет информацию 1-й строки, а
пробелы заполняются значениями соответствующих переменных х{,, уе 3 из строк аналогов.
4. Повторение действий 1—3 для каждой строки с пропусками, т.е. для строк с номерами г е 1п.
В результате получим преобразованную выборку V1 = (х1, у1, ге I \ 1п, х1, у1, ге 1з), где 1з — множество номеров строк с заполненными пробелами.
Если ип — количество строк с пропусками данных в исходной выборке V, то количество элементов множества 1з = ппт, а общий объем выборки VI = п+пп (т-1).
Непараметрические модели восстановления стохастических зависимостей. Наличие выборки V = (X, у1, 1 = 1, п+пп (т-1)) объясняет желание исследователя использовать для восстановления стохастической зависимости (1) традиционную непараметрическую регрессию
_ п+пп (т-1)
У(X) = 2 У в(X), (2)
1=1
где
к („ Л
ПФ
«\ ^=1
в( X1) =
п+пп(т-1) к ( х - х Л
2 Пф х
г =1 у=1
Ф
Ху Ху
1 Л
— положительные, симметричные и нормированные ядерные функции [2]. Од-
нако неоднородность выборки V и различная информационная ценность ее составляющих ставят под сомнение целесообразность использования модели типа (2).
Будем различать в выборке V строки без пропусков (X,у1,1еI\/п) , с малым их количеством (х1, у1, /е I1), средним — (х1, у1, / е и большим — (X, у1, г е 13), причем 12 3
/з = /з ^/з ^/з . Тогда появляется возможность с использованием принципов коллективного оценивания построить модель типа
у( х)=2а ] ф ](x), 2а ] =!
(3)
'=0
где
Ф0(х)=
к ( 2 у Пф
/е/\/п у=1
х - хг Л
V
к( 2 Пф
'е/\/п v=1
- 1 Л xv xv
' =0
, ф ' (х ) =2 у1 в1( * ), ' = 1,3,
1еН
(4)
^ У к
в1( х1) = -
ПФ
v=1
- 1 ^ xv xv
х - х1 Л xv xv
к( 2Пф
Оптимизация непараметрической модели в основном сводится к выбору коэффициентов размытости cv, v = 1, к, ядерных функций и параметров а совокупности решающих правил.
При этом информация (х1, у1, 1е /\/п), содержащаяся в данных без пропусков, пользуется преимущественным доверием.
Поэтому эмпирический критерий точности аппроксимации целесообразно формировать на этой основе
*=|т\п Е (У - у (х ))2- (5)
К \1 п| «е/ \ 1п
Непараметрические модели допускают упрощение задачи оптимизации по коэффициентам размытости за счет введения допущения еу = еоу, у = 1, к, где ау — статистическая
оценка среднего квадратичного отклонения переменной ху, у = 1, к, вычисляемые по выборке
х^, V = 1,к, /е/\/п .
Выбор параметров аj, ] = 0,2 в модели (3) может быть осуществлен последовательно по следующей методике:
— построить коллектив для второй и третьей группы данных выборки V
ф23(ха2) = а2 ф2(х)+(1-а2) ф3(x), (6)
где параметр а2 обеспечивает минимум критерия (5);
— по аналогии с пунктом 1 осуществить синтез выражения
ф1-з(ха 2' а1)=а1 ф1(х)+(1-а1) ф2з(х); (7)
— используя модели (6), (7), построить интегрированную модель
ф0-3(x, а0, аl, а2) = а0 ф0(х)+(1-а0) [а1 ф1(х)+(1-а1)а2 ф2(х)+(1-а1)(1-а2) ф3(х)] ,
в которой параметры а0, а 2 последовательно находятся из условия минимума критерия (5).
Асимптотические свойства непараметрической модели. Для упрощения доказательства без существенной потери общности получаемых выводов примем модель (3) в виде
У (х) = ау (х)+(1-а)У2(х) V хеЯ2, (8)
где
У1( х)=—г-Ц—Е у« ф
п1 Р(x1, х2) С1 с2 /=1
_ 1 П
У2(х)=- Е У1 ф
п2 Р(хЬ х2) С1 с2 /=п1+1
Х1 — Х1
ф
Xо Хо
V 2 У
(„ л Л Л. л Л
Х1 Х1
С1
V 1
Ф
Xо Хо
V 2 У
— непараметрические регрессии, построенные по выборке данных без пропусков V = (х«, у«,«= 1, п1) и с пропусками V = (х1, х2, у1,/= п1 +1, п).
Элементы выборки V формируются на основе имитационного метода заполнения пропусков значений переменной х1 .
Предположим, что некоторая функция у (и) ограничена и непрерывна со всеми своими производными до порядка т включительно. Эти условия, накладываемые на у (и), обозначим через От , тогда справедлива следующая теорема.
Теорема. Пусть
1) ф(х), р(х, у) и р(х) V хеЯ2 в области определения восстанавливаемой зависимости у = ф(х) удовлетворяют условиям G2;
2) погрешности в имитационного метода заполнения пропусков являются случайными
_ 2 2 / \
х1 = х1 +в с нулевым математическим ожиданием и конечной дисперсией Мв = а (п) , зависящей от объема обучающей выборки;
3) ядерные функции Ф(и) являются положительными, симметричными и нормированными при |итф(и)йи < да V т < да;
4) последовательности еу = еу (пу )^да при щ ^ да, а nvc1 с2 ^да , V = 1,2;
5) дисперсия погрешности метода а2 (п0 при п = (П1 + )^да .
Тогда смещение модели (8) имеет вид
с2
М (у (х) -Ф(x1, х2 )) = 1-Г ( Ф(хЬ х2) ^1(2) (хЬ х2) + 2Ф(1)(x1, х2)1)(хЬ х2) +
2 Р (x1, х2 )
с2
+Ф(2) (х1, х2) Р (x1, х2) -Г ( ф(х1, х2 ) р22) (х1, х2)+2 Р(1) (х1, х2 )ф21) (х1, х2)+
' 2Р (x1, х2 )
+ф22)(х1, х2) Р(х1, х2) х. х.) р1
3 С1 (1-а) а ф(2)(х1,х2) Р1(х1,х2)+
С22(1 -а) а2
4 Р (хЬ х2)
1 (1-а) а2
2 Р(x1, х2)
( Ф(2) (х1, х2) Р22) (х1, х2)+Ф22) (х1, х2) Р1(2) (х1, х2) )
(1 -а) а2 2 Р (хЪ х2)
( Р1(2) (х1, х2 ) Ф(х1, х2 ) + 2Ф(1) (х1, х2 ) р (х1, х2) + Ф(2) (х1, х2 ) Р(х1, х2) ) + + МВ4 (1 -а) ф(2) (х х ) Р(2)(„ „ ч , ^ „4 „4 „2 „2
Ф( )(x1, х2) Р1 (хЪ х2) + 0 ( c1, С2 , С1С2 ),
4 Р (x1, х2) а среднее квадратическое отклонение
М(у(х)-у(х))2 <(аГМ(у(х)-л(х))2+ (1-а)Г М(у(х)-у2(х))2
1/2 ~
(9)
(10)
где
М (у( х) - у (х))2 = М у2 (х) - 2 у( х) М у (х) + у2 (х)
Ф2( хь х2) (|Ф(и )||
1
п1 Р(x1, х2)с1 С2 4Р (x1, х2)
с12 (ф(х1, х2)р(х1, х2))(2) + С2 (ф(хЬ х2)Р(х1, х2))
( 1 Л
(2) 2
+0(,С24, С2С22) + 0
\
V п1 У
(11)
М (у(х)-у2(х))2
Ф (x(, х2)
п2 Р(хЬ х2 )с1с2
С +а2)
2Р(хЬ х2)
(ф(хь х2)Р(хЬ х2))(
) ■- 2 С ) (Ф(х1,х2)р(х1,х2))
2 р( х1, х2) 2
+а
3с2
2Р(х1, х2)
1-Г Ф( )( хЬ х2) Р1 )( х2) +
-(ф(2) (X! , х2 )(Xl, x2 ) + ф22) (x1, x2 )p1(2) (x1, x2 ))
(12)
4 p( X1, x2)
Здесь ф(Xl, X2 ) = |yp ^х ^а1У — оптимальное решающее правило в смысле минимума
среднего квадратического критерия; рУ^ (х1, Х2 ), фУ^ ( , Х2 ) — ^е производные функций р (х1, х2 ), ф(х1, х2 ) по у-й компоненте вектора х = ( х1, х2 ) .
Из анализа выражения (9) следует, что выражение (8) обладает свойством асимптотической несмещенности, если при щ ^го и П2 ^^ параметры размытости ядерной функции
2 4
С ^ 0 и С2 ^ 0, а дисперсия а и Мв погрешности метода заполнения пропусков близки к нулю.
Если закон распределения случайных величин (х1, х2) является равномерным, то сме-
2
(1 -а) а (2), Л
щение определяется выражением --ф1 (х1, х2). Поэтому в случае линейного характера полинома ф(х1, х2) относительно переменной х1, которой в обучающей выборке свойственны пропуски, смещения можно избежать.
Нелинейность восстанавливаемой зависимости по переменным, имеющим пропуски в исходных данных, приводит к появлению смещения ее оценки. Причем величина смещения зависит от метода заполнения пропусков в исходных данных и может быть компенсирована за счет особенностей структуры коллектива (8) — выбора параметра а из условия минимума эмпирической ошибки аппроксимации.
Подставим асимптотические выражения (11), (12) в соотношение (10). Из его анализа следует, что при выполнении условий 4 и 5 теоремы верхняя граница среднего квадратического отклонения (10) стремится к нулю.
Если дисперсия а является конечной, т.е. не выполняется условие 5 теоремы, то минимальное значение (10) соответствует
2_4
(1 -а)2 а
4 Р2(хьх2)
(ф (хь х2) Р (хЬ х2))(2)
2
Тогда сходимость в среднем квадратическом отклонении наблюдается только при наличии линейного преобразования заполненных данных в обучающей выборке, когда соблюдается условие ф(2)(х1, х2 ) = 0.
Анализ некомплектных таблиц „объект—признак" сопряжен не только с решением проблем заполнения имеющихся пропусков в данных, но и с созданием адекватных алгоритмов обработки получаемых при этом неоднородных обучающих выборок. Идея предлагаемого подхода состоит в дублировании строк с пропусками исходной таблицы и их заполнении соответствующими данными строк-аналогов, что позволяет избежать традиционного этапа восстановления пропусков на основе специальных моделей. Затем производятся декомпозиция полученной неоднородной обучающей выборки на части, из которых формируется семейство непараметрических регрессий. Объединение последних в обобщенную модель, которая обладает свойствами асимптотической несмещенности и состоятельности, если дисперсия погрешности метода заполнения пропусков с ростом объема обучающей выборки стремится к нулю либо если искомая зависимость является линейной относительно ее признаков, имеющих пропуски данных. При нарушении указанных условий существует возможность частичной компенсации смещений за счет оптимизации предлагаемой совокупности непара-
2
Модульные характеристики нелинейных статических моделей стохастических объектов 73
метрических регрессий. Полученные выводы являются общими и не зависят от используемого метода заполнения пропусков в исходных данных.
список литературы
1. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. Новосибирск, 1999. 270 с.
2. Лапко А. В., Лапко В. А., Соколов М. И., Ченцов С. В. Непараметрические модели коллективного типа. Новосибирск: Наука, 2000. 144 с.
Рекомендована Поступила в редакцию
НПО ПМ 12.01.08 г.
УДК 681.5.015
А. И. Рубан
Сибирский федеральный университет Красноярск
МОДУЛЬНЫЕ ХАРАКТЕРИСТИКИ НЕЛИНЕЙНЫХ СТАТИЧЕСКИХ МОДЕЛЕЙ СТОХАСТИЧЕСКИХ ОБЪЕКТОВ
Рассмотрены модульные характеристики, определяющие качество нелинейных статических моделей стохастических объектов, на их основе построены коэффициенты близости между медианной моделью (оптимальной моделью в смысле минимума среднего модульного отклонения выходов объекта и модели) и субоптимальными медианными параметрическими статическими моделями стохастических объектов. По коэффициентам близости можно отслеживать изменение качества параметрических моделей при подборе их структуры.
Введение. Рассмотрим стохастический объект, который имеет один вход и один выход. X и Y — непрерывные входная и выходная случайные величины. Идеализированными моделями стохастического объекта являются условные статистические характеристики. Особое место среди них занимает регрессия — зависимость средних значений между выходом и входом объекта [1, 2]:
да
М(7|х}-Л(х) = | Уf (у|х)йу, (1)
-да
где М [7 | х} — условное математическое ожидание.
Для фиксированного значения входа X = х регрессия удовлетворяет критерию минимума среднего условного квадратического отклонения:
/1(х)=MY [(7-П)2 |Х = х} = пип. (2)
п
Наименьшее значение параметра /1 (х) обозначим через
А (х) = MY {[-п(х)]2 |Х = х} - Б {7| х} . (3)
Здесь £!(х) - Б {71 х} — условная дисперсия выхода объекта.
Минимума достигает и усредненное (по X ) значение условной дисперсии
А -Б[71X}=Мх [А (X)}=М7X [(7-п(X))2 } , (4)