УДК 681.513 А.В. Лапко, В.А. Лапко, Г.И. Цугленок
ИССЛЕДОВАНИЕ НЕПАРАМЕТРИЧЕСКИХ АЛГОРИТМОВ РАСПОЗНАВАНИЯ ОБРАЗОВ В УСЛОВИЯХ НЕОДНОРОДНОЙ АГРОИНФОРМАЦИИ*
Предлагаются непараметрические алгоритмы распознавания образов при решении задач агрокибернетики в условиях пропусков данных. Исследуются их асимптотические свойства. На этой основе обосновываются требования к методам заполнения пропусков данных.
Методы распознавания образов получили широкое распространение при решении разнообразных задач агрокибернетики, например, при оценивании и прогнозировании состояния посевных площадей сельскохозяйственных культур с использованием данных дистанционного зондирования. Возникающие при этом проблемы связаны с пропуском данных в исходной статистической информации. Отсев данных с пропусками приводит к потере полезной информации, содержащейся в остальных позициях строки таблицы «объект-признак» и материальные затраты на их получение. Поэтому основным направлением решения проблемы пропуска данных является их восстановление в соответствии с моделями закономерностей взаимосвязи между признаками исходной выборки данных [1, 2]. Возникающая при этом естественная неоднородность получаемых данных (наличие в преобразованной таблице строк без пропусков и с их заполнением) требует разработки модифицированных непараметрических алгоритмов обработки агроинформации и исследования их свойств.
Предлагается методика анализа непараметрических алгоритмов распознавания образов в условиях неоднородных выборок, основанная на исследовании асимптотических свойств оценки уравнения разделяющей поверхности с учетом погрешности используемого метода заполнения пропусков данных.
1. Оценивание плотности вероятности
Синтез непараметрических алгоритмов распознавания образов основан на оценивании линейных
ионалов от статистических фицируемых объектов типа [3, 4]
функционалов от статистических оценок плотности вероятности распределения признаков * е Як класси-
p{x)= n n cv X Пф
V v=1 J i=lv=1
Xv _ Xv V Cv _
(1)
восстанавливаемой по выборке V = (хг, г = 1, п).
Здесь Ф() - ядерные функции, удовлетворяющие требованиям положительности, симметричности и
нормированности, а су = су (п), уе ] = (у = 1, к) - последовательности коэффициентов их размытости. Пусть имеются пропуски данных и после их заполнения тем или иным методом получаем выборку V1 = (ху , у е ], г е I \ I; х1у , у е ] \ З1, х1у , у е З1, г е I), где I - множество номеров ее элементов с заполненными пропусками данных, а I = (г = 1, п).
В выборке V1 наблюдения ху , у е ]1 сформированы в соответствии с принятым методом заполнения пропусков данных с погрешностью £ . Примем
—г г , Л тг . Т
ху = ху + £ , у е З , г е I,
где £г - наблюдения случайной величины с плотностью вероятности р(е). Будем считать
2 2
М £ = 0, М £ = о (М - знак математического ожидания).
Восстановим плотность вероятности р(х) в виде смеси
Р(х) = Р1 Р1(х)+ Р2 Р2 (х) , (2)
Работа выполнена в рамках гранта Президента РФ № НШ - 3428.2006.9.
где Р! , } = 1,2 - априорные вероятности появления в выборке V1 данных без пропусков и с ними.
Для оценивания плотностей вероятности Р1 (х) по выборке V11 = (х[, , V е ], I е I \ I) и Р2 (х)
по данным V12
V є ] \ Ґ; х[, , V є Ґ , і є /) с заполненными пропусками будем использовать
непараметрические статистики ядерного типа (1).
Обозначим через п
п1
I \ I
количество элементов множеств I , I \ I, причем
п = щ + п .
Тогда непараметрическая оценка (2) запишется в виде
( IЛ
р{х ) = п
-1
Е П с-1 ф
ієі \ I vєJ
с-1 Ф
і ( -і Л
х- - xv П ^ Ф хV - Х
СV } V J ті vєJ СV ) V J
ІеI vеJ \
Асимптотические свойства р(х). Для упрощения выкладок, без существенной потери общности получаемых выводов, предположим наличие выборки
V1 = (х1, х2 , і = 1, пі; XIі, х2 , і = пі +1, п),
по
которой восстанавливается плотность вероятности р(х1, Х2) с помощью
статистики
р{х1, х2 ) = {п с1 с2 )
-1
п1 2
Е Пф
і=1 v=1
(
і
+ Е ф
і = п1 +1
х1 - х1 с1
г
ф
х2 - х2 С2
\
(3)
Предположим, что плотность р(х1, Х2) ограничена и непрерывна со всеми производными до порядка 7 включительно. Эти условия, накладываемые на р(х1, х2), обозначим через Оу.
Справедлива следующая теорема.
Теорема. Пусть р(х) V х е Я2 удовлетворяет условиям О2; ядерные функции Ф(и) являются положительными, симметричными, нормированными и имеют ограниченные центральные моменты; последовательности коэффициентов размытости С1 = С1 (п)> 0, с2 = с2 (п)> 0 ядерных функций
таковы, что при п значения С1 ^ 0 , С2 ^ 0, щЩ ^ 0, пс1 С2 . Тогда непараметриче-
ская оценка плотности вероятности р(х) обладает свойством асимптотической несмещенности и состоятельности.
Доказательство.
1) Асимптотическая несмещенность. Определим асимптотическое выражение для математического ожидания Р(х).
М р{х) = -
1 п1
-----Е М
пС1С2 і=1
1
Ф
( і Л х1 - х1
С1
ф
( і Л х2 - х2
С2
пС1С2 і=1
п1
Е Я ф
V У V
( і Л (
+ -
1
п
Е
пС1С2 і=п1 +1
ф
+ ■
1
п
Е ШФ
пС1С2 і=п1 +1
х1 - х1 С1
Ф
і
х2 - х2
с2
?{х1 , х2 ) йх1
( -і Л
х1 - х1
С1 йх2 +
Ф
( і Л х2 - х2
с2
х1 - х1 -1
С1
Ф
х2 - х2 с2
Л
р{х1 , х2 ) р(е1 ) йх11 йх12
(4)
Бесконечные пределы интегрирования здесь и в дальнейшем опускаются. Первая сумма после замены переменных преобразуется к виду
п
- Я Ф{“ 1) ф{и2) р(х1 - Си , х2 - С2и2) йщ йи2 .
I
П
V
С
V
Разлагая в ряд Тейлора плотность вероятности р(х1 - си , х2 - С2и2) в точке х = (х1, х2) и интегрируя полученное выражение с учетом свойств ядерной функции, имеем
2 _ 2
п
р(хЪ х2) + рх^2) (х1 ’ х2) + pХ:2)(x1, х2) + °(с14 , С2 )
где р (2)(хь х2) - вторая производная плотности вероятности р(х1, х2) по переменной xv , V = 1,2.
ХV
Проведем по аналогии преобразование второй суммы выражения (4), получим
пС1С2
Ш ф
х1 — 11 — £ . С1
Ф
р(^ , 12) р(£) &1 2 й£
п
п
V с2 У
р(х1, х2)'+ р (х2) (х1, х2) + ~г р ¥} (х1, х2) + х1 „--------------а2 + о(с14 , с4 )
2 * х1 ' * ^ 2 х2
Окончательно имеем М р(х) ~ р(х1, х2)+р(2)(х1, х2)+^р(2)(х1, х2)
2
2 , ч _2 , ^ — 2 , . / \
+п-рх2 (х1, х2) + о(с4, с2 ).
2 х1
2 х2
п
(5)
Отсюда, при выполнении условий теоремы С1 (п)^ 0, С2(п)^ 0 и ^ ^ 0 с ростом п ,
следует асимптотическая несмещенность р(х). В противном случае будет наблюдаться смещение, которое
2
растет с увеличением дисперсии а погрешности £ метода заполнения пропусков в данных и их количества п .
2) Сходимость в среднеквадратическом. Рассмотрим выражение
\2
М(р(х) — р(х))2 = М р2(х) — 2р(х)М р(х)+ р2(х), где дополнительного исследования требует выражение
(6)
М р 2 (х) =
2 2 2 п С1 с 2
п1 п1
II М
I=1]=1
Г а
Ф
1 — 1
С1
V 1 У
Ф
х2 х2 С2
V 2 У
л г
Ф
Л
1 — 1 С1
V у
А
Ф
ЛЛ
х2 — х2 с2
V УУ
+
г г
+ I I М
I=«1 +1 у=«1 +1
Ф
х1 — х1
^Л Л. „I Л г.. ТУ
С1
Ф
х2 — х2
с2
Ф
Л г
1 — 1
V * У
Ф
Л
И1 п
2 II М
I=1]=п1 +1
г г
Ф
1 — 1
С1
л
г
Ф
х2 — х2
г
С2
Ф
Т]
Л (
1 — 1
С1
Ф
х2 — х2
. С2 ,, V уУ
] ЛЛ ■
+
2 — 2
С2
УУ
Последовательно анализируя слагаемые М р 2 (х) в соответствии с вышеприведенной технологией при достаточно больших п , нетрудно получить
\2
1 2
М р2(х) = р2(х1,х2)+(^Ф (и)^и) р(х1,х2) +1(с2 рх2)(х1, х2) + с2 рх2)(х1, х2))
2
2 -а п р
(х2)(х 1,х2 )
+ -
х1
2 п
пс1 с2 12 р( 21)( 1, 2)
+
— 2 2 _ п1 + пс1 , 2 (2)( ), а2 п (2)( )
------------+ С2 рхо (х 1,х2-----------------рх (х1,х2 )
п 2 2 2п 1
+
+
с12 р(х1,х2) рх1,х2)+ с2 р(х1,х2) р (2)( - ,х2)
— 2 п а
+---------р
п х1
1:)(х ■ ,х2) р(х1,х2)
+
п
1
+ O (c,4, 4)+ O (c|2, cj)+ O Г 1 1.
(7)
Подставим полученный результат (7) с учетом М р(х) (4) в выражение (6) и после несложных преобразований имеем
M (p(x
°2 n Рi2)(xb x2)
xl
)-p(x ))2 ~ (ф 2 (И ]“U >2p(xi' x2 ) + 4 (cj Р xj)(xi, xj ) + c2 Р <2>C*1. xj )f +
n Cl C2 4 x1 x2
2 n
— 2
c2 Р x2 ) + “---- + c2 Р x2)(x1’ x2 )^-^2-ПР x2 )-2Р(x1, x2 )
l xl n 2 x2 2 n xl
x2
. (8)
Отсюда следует, что р(х) обладает свойством сходимости в среднеквадратическом, а с учетом свойств асимптотической несмещенности (5) является состоятельной, если выполняются условия
п С1 с2 ^ , С ^ 0 , с2 ^ 0, / ^ 0 при п ^ те .
/ п
2. Непараметрические алгоритмы распознавания образов
м
Пусть V = - это неоднородная обучающая выборка при решении многоальтернативной задачи
■=1
распознавания образов. Элементы выборки ]-го класса
Vj = (xlv, v є J, і є I,- \ І,-; xlv, v є J \ Ji, xv, v є Ji,i є /,•)
-j
J'
составлены
из
признаков
х' , у е 7 = (у = 1,£) классифицируемых объектов без пропусков и с заполненными пропусками данных Х^ , у е с 7, г е I■ с /у. Здесь /у - множество номеров элементов обучающей выборки V, принадлежащих ]-му классу. Обозначим через пу и пу - количество элементов соответственно множеств /у , /у .
Воспользуемся статистикой типа (3) при построении непараметрической оценки плотности вероятности распределение признаков х в]-м классе
Pj (x)
-1
= П і
(
Z_ П cvl0
іє I j \ I j VE J
(
+ Z П cv1 Ф
ієІ j VE J \ J1
\
f
П Є-1Ф
VE Ji
-i.\
. (9)
Тогда оценка решающего правила распознавания образов соответствующего, например, критерия максимального правдоподобия, запишется в виде
m(x): x е П j, если pj (x) = max pt (x). (10)
t=1, M
Оптимизация m(x) по коэффициентам размытости cv, v = 1, £ ядерных функций осуществляется из условия минимума эмпирической ошибки классификации в режиме «скользящего экзамена»
- _i M -
Р( x) = nv Е Е1(с(г), а(г)), j=Ие/;
где пу - объем обучающей выборки V; с(1) - «указание учителя» о принадлежности ситуации х1 к одному из М классов, а сг(г) - «решение» правила (10);
11, если с(1) Ф с(1)
0, если с(1) = с(1).
1(с(0, a(i))
c
c
c
V
V
V
3. Асимптотические свойства непараметрической решающей функции
Для использования результатов предыдущего раздела сохраним условия и предположения, введенные при исследовании асимптотических свойств непараметрической оценки плотности вероятности р(х) (3).
Рассмотрим двуальтернативную задачу распознавания образов. В этом случае непараметрическая оценка уравнения разделяющей поверхности, соответствующая решающему правилу (10), представима в виде
/12 (х) = Р1(х) - р2 (х). (11)
Ее составляющие р1(х) и р2(х) V х е Я2 восстанавливаются на основе статистики типа (3) по выборкам
VI = (х1, х2,1 = 1, щ; х1, х2,1 = «1 +1, щ),
^2 = (х1,х2,1 = 1,п2; х1,х2,1 = п2 +1,«2).
Так как f 12 (х) является линейным функционалом от р1(х), р2(х), то в соответствии с выражением (5) непараметрическая оценка уравнения разделяющей поверхности (11) обладает свойством асимптотической несмещенности.
Примем в качестве основного показателя эффективности fl2 (х) среднеквадратический критерий
V = М(Ых) - ^(х))2, (12)
отражающий точность аппроксимации ^2 (х) байесовой решающей функции
fl2(х) = Р1(х) - Рг(х). (13)
С учетом (11) и (13) представим (12) в виде
V(х) = М (Р1 (х) - Р1 (х))2 + М(Р2 (х) - Р2 (х))2 - 2М [(Р1 (х) - р1 (х))(Р2 (х) - р2 (х))]. (14) На основе результатов (5) и (8) определим асимптотическое выражение (12). Пренебрегая величина-
2-
I ,, - 12; ? = 12 ™
2 „2- ( _2- ^
Суп, _ 1
ми малости-------—, V = 1,2;? = 1,2, где п ? = п ? - п ?, получим
п?
— 2 V (х)~ Е
?=1
п-^ +^2п~Р?1{х) - 2Р?(х)
V У
—1—^ а4 рЛ (х) р22) (х) +1 С2 (рЛ (х) - р22) (х))+ С22 (р(22? (х) - р222 (х)
п1п2 ’ ’ 4
где р <?2|) (х), р <?'2)(х) - вторые производные по х1, х2 плотностей вероятности р? (х), ? = 1,2;
У,1 ?,2 ?
п? - количество заполненных пропусков измерений х1 в/-м классе.
Для удобства последующего анализа получаемых результатов будем считать п? = п,
п? = п, ? = 1,2 и с1 = с2 = с . Тогда интеграл от выражения V (х) перепишется в виде
V + С44 р+о^ Г л-л Р1 -вз ^ +о^ ( - 2 в 4 ^, (15)
пс 4 п V 2п у nV 4 У
где в = II((р1(,1) (х) - р(д (х))+ (р® (х) - р(2) (х)Г йх1йх2, в1 = II(р1(,1) (х) + р(д (х))йх1йх2, в2 = II(р1? (х) - р2д (х)Г йх1йх2 , вз = II(р1? (х) р1 (х)+ р2д (х) р2(х))йх1йх2,
)
2
в1 = II р1? (х) р2д (х) йх1йх2 .
Нетрудно заметить, что непараметрическая оценка ^(х) (11) уравнения разделяющей поверхности ^(х) (13) обладает свойством сходимости в среднеквадратическом, если при п ^ те выполняются
2 п
условия пс ^ те, с ^ 0,---------> 0. Поэтому с учетом ее асимптотической несмещенности она является
п
состоятельной оценкой ^2 (х).
4. Анализ аппроксимационных свойств ^( х)
Определим оптимальный коэффициент размытости ядерной функции для ^(х) из условия минимума по с выражения V (15), получим
*
С =
2 (і" Ф 2 (и) йи) пР
1/6
При с = с минимальное значение асимптотического выражения V среднеквадратического кри терия (14) равно
. и V73
=* 3
V = -2
( Ф 2 (и) йи )*р
2
а2 п ( п - п п г, "] а4 п 2 ( В 2
++--------1------Рі -Рз I +
2
п V
— - 2 р 4
(16)
Оценим значимость информации, содержащейся в элементах обучающей выборки с заполненными
V =*
пропусками данных. Для этого рассмотрим отношение Э = —— значения V (16) к соответствующему
#
значению V* для непараметрической решающей функции, восстанавливаемой по обучающей выборке
V = (хг,о(г),I = 1, 2п) без пропусков данных. В принятых условиях V* соответствует первому слагаемому в выражении (16) [5].
Тогда при соблюдении принятого ранее условия п^ ^ 0 V п ^ те отношение
В ~1 +
а2 п
1 (| Ф 2 (и) йи )4 р п
л/з
(17)
— 1/3
имеет предел, равный единице, если п / п ^ 0 при п ^ те .
Тем самым обосновываются существование условий, когда заполнение пропусков данных позволяет восполнить информацию обучающей выборки, достаточной для эффективного решения задачи классификации, с помощью непараметрических методов.
Нетрудно показать, что даже при постоянной дисперсии а2 погрешности метода заполнения пропусков данных приведенные выше требования выполняются при количестве ситуаций в обучающей выборке с
пропусками данных п < X .
Применение методов заполнения пропусков данных, обеспечивающих уменьшение дисперсии а2 (п) ^ 0 с ростом объема выборки п ^ те, позволяет значительно повысить эффективность непараметрических алгоритмов классификации. Положив п =Х па, а< 1, а2(п) = Х п, можно определить, что порядок асимптотической сходимости второго слагаемого к нулю достигает уровня п _(1/3+У-а).
Отсюда следует очевидное ограничение на а< 3 + у и на возможное количество пропусков
n < n1/3+Y в исходной обучающей выборке.
Заключение
Непараметрические алгоритмы распознавания образов, синтез которых осуществляется на основе обучающих выборок с пропусками данных, обладают свойством асимптотической сходимости. При конечной дисперсии погрешности метода заполнения пропусков данных существуют условия асимптотической несмещенности и состоятельности непараметрической оценки уравнения разделяющей поверхности, основанной на ядерной оценке плотности вероятности типа Розенблатта-Парзена. Снижение дисперсии с ростом объема обучающей выборки способствует повышению эффективности непараметрических алгоритмов классификации. Обосновано существование предела, равного 1, для отношения среднеквадратических критериев точности аппроксимации байесового уравнения разделяющей поверхности ее непараметрическими оценками, построенными по выборкам с заполненными пропусками данных и без них. С этих позиций определены условия, когда заполнение пропусков данных позволяет восполнить информацию обучающей выборки, достаточной для эффективного решения задачи классификации с помощью непараметрических методов.
Литература
1. Загоруйко, Н.Г. Алгоритм заполнения пропусков в эмпирических таблицах (алгоритм ZET) / Н.Г. Заго-руйко, В.Н. Елкина, В.С. Тимеркаев // Вычислительные системы «Эмпирическое предсказание и распознавание образов». - Новосибирск, 1975 - (Вып. 61). - С. 3-27.
2. Лапко, А.В. Синтез и анализ непараметрических моделей стохастических зависимостей и распознавания образов в условиях пропуска данных / А.В. Лапко, В.А Лапко, Г.И. Цугленок // Вестн. КрасГАУ. - 2005. -№7. - С. 64-70.
3. Parzen, E. On the estimation of a probability density function and mode / E. Parzen // Ann. Mathem. Statis. -1962. - V.33. - С. 1065-1076.
4. Епанечников, В.А. Непараметрическая оценка многомерной плотности вероятности / В.А. Епанечников // Теория вероятности и ее применения. - 1969. - Т.14. - (Вып. 1). - С. 156-161.
5. Непараметрические системы классификации / А.В. Лапко [и др.]. - Новосибирск: Наука, 2000. - 240 с.
УДК 681.142.37 Р.Н. Амбросенко
ТРАНЗАКЦИОННЫЙ ПОДХОД К ПОВЫШЕНИЮ КАЧЕСТВА ОБРАБОТКИ ИНФОРМАЦИИ В ОБРАЗОВАТЕЛЬНЫХ СРЕДАХ ДИСТАНЦИОННОГО ОБУЧЕНИЯ
В статье рассмотрены вопросы целостности баз данных в многопользовательских образовательных средах, используемых в дистанционном обучении. Предложен алгоритм работы планировщика СУБД, основанный на временных метках (multiversion timestamp ordering, MVTO).
В настоящее время транзакционная обработка информации становится одним из важнейших аспектов, определяющих корректность производимых вычислений и целостность данных, а следовательно, и характеристики качества информационно-образовательных сред дистанционного обучения.
Возрастающая сложность образовательных сред, используемых в дистанционном обучении и предусматривающих транзакционную обработку информации, требует повышенного внимания к моделированию транзакций на протяжении всего процесса разработки и эксплуатации информационной образовательной среды.
Реализуемая в образовательной среде модель транзакционных вычислений, по сути, определяет, будет ли находиться среда в целостном состоянии и поддерживать требуемый уровень надежности. Учитывая