Научная статья на тему 'Рекуррентная процедура построения линейного дискриминатора по зашумлённой малой выборке'

Рекуррентная процедура построения линейного дискриминатора по зашумлённой малой выборке Текст научной статьи по специальности «Математика»

CC BY
127
26
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по математике, автор научной работы — Якунин Анатолий Викторович

На основе рекуррентных процедур псевдообращения матриц предлагается численно устойчивый метод построения линейного классификатора, минимизирующий ошибку распознавания объектов обучающей выборки. Доказывается его сходимость в случае линейной разделимости классов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The recurrent procedure of the design linear discriminator when are small number of samples and noises

The design method of MLS-evaluation of linear classifier and it subsequent correction with the purpose of minimization of error recognition is proposed. This method is based on the recurrent procedures of the Greville method of pseudoinversion of matrices. The factorization computing scheme of method is numerically stable. The convergence of method when presenting the case of linearly divided patterns is proved. The present approach can be regarded as the modification of method of relaxation with the locally optimum choice of step.

Текст научной работы на тему «Рекуррентная процедура построения линейного дискриминатора по зашумлённой малой выборке»

КОМПЬЮТЕРНЫЕ

УДК 007.001.362

РЕКУРРЕНТНАЯ ПРОЦЕДУРА ПОСТРОЕНИЯ ЛИНЕЙНОГО ДИСКРИМИНАТОРА ПО ЗАШУМЛЁННОЙ МАЛОЙ ВЫБОРКЕ

ЯКУНИН А.В.

На основе рекуррентных процедур псевдообращения матриц предлагается численно устойчивый метод построения линейного классификатора, минимизирующий ошибку распознавания объектов обучающей выборки. Доказывается его сходимость в случае линейной разделимости классов.

Ряд задач технической диагностики, решаемых методами распознавания образов, в частности, сплошной неразрушающий контроль по результатам выборочного разрушающего контроля, характеризуется малым объёмом и зашумлённостью обучающей выборки (ОВ) при отсутствии априорной информации о законе распределения признаков в классах [1, 2]. В таких случаях используется построение в признаковом пространстве кусочно-линейной разделяющей гиперповерхности, аппроксимирующей границу между каждой парой классов гиперплоскостью, коэффициенты которой обычно оцениваются с помощью метода наименьших квадратов (МНК) [3, 4]. Достоинство такого дискриминатора состоит в том, что с ростом объёма ОВ он асимптотически приближается к оптимальной функции Байеса [3].

Однако при зашумлённой малой ОВ полученный классификатор, в общем случае, не минимизирует вероятность ошибки распознавания, поскольку наибольший вклад в среднеквадратичную ошибку вносят точки, расположенные далеко от разделяющей гиперповерхности, среди которых могут встречаться редкие выбросы. Кроме того, в рассматриваемой ситуации традиционные вычислительные схемы МНК теряют устойчивость. Указанные обстоятельства заставляют модернизировать известные подходы или искать альтернативные пути построения линейных решающих правил, краткий анализ которых приведен в [5].

Предлагаемый метод получения и последующей корректировки МНК-оценок коэффициентов линейной дискриминантной функции имеет рекуррентный характер и основан на увеличении веса неправильно классифицируемых объектов ОВ в целях уменьшения ошибки распознавания. Увеличение веса ошибочно классифицируемых объектов, которые, как правило, лежат вблизи разделяющей гиперповерхности, соответствует учёту локальных свойств распределения признаков в классах. Это особенно важно в условиях ОВ малого объёма, когда методы

локального оценивания более эффективны [6]. Зашумлённость ОВ и рекуррентная форма предлагаемого алгоритма обостряют проблемы его программной реализации. Приведены соответствующие процедуры, обладающие высокой численной устойчивостью. Доказана сходимость метода в случае линейной разделимости классов. Данный подход можно рассматривать как модификацию метода релаксации с локально оптимальным выбором шага.

1. Постановка задачи

Не ограничивая общности, рассмотрим случай дихотомии. Пусть ОВ состоит из N точек (векторов)

Xj = (x ;1 ,xj2,...,xjm У , j=1,N m-мерного евклидова

пространства информативных признаков Rm , принадлежащих классам ш1 и ш 2. Для удобства геометрической интерпретации вектор Xj дополним

постоянной компонентой Xj (m+1) =1. Переход в дополненное пространство признаков Rm+1 не нарушает соотношений в расстояниях между объектами ОВ [3, 4].

Дискриминантную функцию ищем в виде линейной регрессионной модели M [G ]=А0 , где G =

= (G„G2,...,G„ )г - N -мерный вектор измеренных значений критериального параметра;

A = (x1 ,x2,...,xN У — матрица измеренных значений информативных признаков для объектов ОВ;

e=(01,02,...,0m+1 У — (m+1) -мерный вектор неизвестных коэффициентов; M — знак математического ожидания.

Согласно МНК оценку вектора 0 задаём выра-

жением 0=A G , где А+ — матрица, псевдообратная к A [7, 8].

Классифицирующее правило имеет вид [3, 4]:

x&Q1 , если xT 0 > Gp ; xєш2 , если xT 0 < Gsp

(1)

(2)

Пороговое значение Gp критериального параметра определяет соотношение ошибок первого и второго рода при распознавании [1, 2].

Разделяющую гиперплоскость задаём уравнением

xT 0 = Gzp . (3)

2. Теоретическое обоснование алгоритма

Процедура корректировки МНК-оценки вектора 0 в целях минимизации ошибки распознавания опирается на рекуррентные формулы метода Гревиля псевдообращения матриц [7, 8]. Эти преобразования позволяют пересчитать оценку вектора 0 при появлении нового скалярного наблюдения (xi :G; ) по имеющимся предыдущим приближениям для векто-

ра 0 и матрицы ковариации

ошибки P=(at А)

РИ, 1999, № 3

61

Далее предположим, что матрица A полного столбцевого ранга, т.е. rank A = m+1. Это условие выполняется, поскольку точки зашумлённой ОВ хорошо

размещены [4] в пространстве Rm , т.е. ни одно из подмножеств ОВ, состоящее из m+1 точек, не лежит

на (т — l) -мерной гиперплоскости.

Справедливы следующие утверждения.

Теорема 1. Добавление к расширенной матрице

(AG) строки (x^ G ), соответствуюшей ошибочно классифицируемому объекту ОВ, уменьшает отклонение прогнозируемого значения G. = x, 0 критериаль-

Ч гк

ного параметра от реального Gt .

Доказательство. При повторении ik -й строки матрицы A осуществляется переход от системы A(k) 0=G(k) к системе A(k+1) 0=G(k+1) , где

A+T \x. ) ; A1"' = A ; (4)

G (k+1)T =(g<k)T Gk ) , G101 =G .

В результате, следуя рекуррентной схеме [7], имеем новые оценки вектора 0 и матрицы ковариации P:

0(k+1) =0(k> +s(k> (g, —xj 0(k> ) ; (5)

P(k+1) =P(k) —s(k) xT P(k) . (6)

lk v 7

Здесь

s(k) =(l/a(k))Pik)xik ; P(k) =(A(k)TA(k))+ ; (7) a(k) =1+xjp) x4 . (8)

При этом a(k) =1+(xjA(k )+')pxThA{k )+)T >1 , где знак

“=“ соответствует случаю, когда вектор x, равен нулю или ортогонален пространству столбцов матрицы A(k)+ .

В рассматриваемой задаче вектор xt отвечает ошибочно классифицируемому объекту ОВ. Следовательно, a(k) >1 . Тогда, используя выражения (5), (7) и (8), для евклидовой нормы новой оценки

отклонения xT 0—G получаем соотношение:

x7 0(k+1) — G

4 4

Ч Ч

x

< (0“) +*“) G — xT е“) ))—

(1—<*'k) Pi0(k) G)

4t 0( k)—G.)

<

(k) G

ik

= 11(1/ a(k) У

xi 0( k) — G,

—G,

Это соответствует уменьшению отклонения

k

k

прогнозируемого значения G- критериального па-

ik

раметра от измеренного на практике G .

Ч

Теорема 2. Если классы ш1 и ш2 линейно разделимы в пространстве признаков R , то предлагаемый алгоритм разделяет их за конечное число шагов.

Доказательство. Путём переноса начала координат всегда можно добиться того, что Gzp =0 .

Поменяем на противоположные знаки векторов

xj и соответствующих значений критериального параметра Gj для объектов О В класса ш2. Тогда при линейной разделимости классов ш1 и ш2 существуют [3, 4] такие векторы 0 и b > 0 , что выполняется условие A0=b >0 .

Для произвольного s >0 вектор 80 также служит вектором нормали разделяющей гиперплоскости. Выберем s >0, для которого справедливо неравенство

sA0—G>0 . (9)

Из выражений (4) следует, что

A(k)TA(k) — ATA>0 ; (ata)+—(a (k)TA(k) )+ >0 , (10)

т.е. указанные разности являются неотрицательно определёнными матрицами.

Используя представление квадрата евклидовой нормы вектора в форме скалярного произведения и простейшие свойства псевдообращения матриц [7, 8],

для вектора отклонений A0(k) —sA0 на основе формулы (5) с учётом выражений (7), (8) и неравенств (9), (10) можно получить цепочку соотношений:

A0( k+1) —sA0

a(0( k) +(1/ a(k) )(A(k )TA(k))

2

X

G — xi 0(k) ))-sA§

x x, G, — xt

ik ik ik

(k)

A0(k) —sA0 — (Va(k) )Gik — xi0(k)) xi A)TA'k) )+ AT A

x (sg—B11))+ (Va(k)2)(G —xi0(k)) xi

x (A(k)iA(k))+ AtA (A(k)iA(k))+ x, <

A0(k) —sA0||2 —(2/a(k))(Gk — xi0(k)) xit x x (ata)+ At A (s0—0(k)) + (1/a(k)2 )x

x G —xfi'))2 < A)tA<‘))+ AW))

(A(k)iA(k))+ xlk =

A0(k) —sA0

(2/ a(k) )x

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

G — t0(k) )GT e— xi 0(k) )+(l/ a(k)2)

(g, —xig(k))2 xi (A(k)iA(k))+ x, <

■(y a(k) )(Gik — xi 0( k) ) +

x ... — v- 0(k)

< I|A0(k) —sA0

+ ((a(k) —1)/a(k )2 )G — xi 0<‘) )2

A0(k) —sA0

(11)

2

2

X

X

2

x

x

x

2

5

62

РИ, 1999, № 3

где8„ = ((а«> +l)/a(k 12) (g„-<G«) > (l/a(k>) G> .

Таким образом, квадрат евклидовой нормы вектора отклонений уменьшается с ростом k .

Пусть 8min = min 8ik > 0 . Тогда из соотношения

(11)следует

AG( k 1 -sAG

<

AG(0) -sAG

-k 5„

2

2

Поскольку норма вектора есть величина неотрицательная и Убывающая, а значит, имеет неотрицательный предел, то процесс корректировки вектора

0 должен закончиться не более, чем через kmax

ШаГОЩ где kmax

(18 m. )

AG(0) -sAG

2

Необходимо обратить внимание на вычислительные аспекты предлагаемого алгоритма. Известно, что существенным недостатком метода Гревиля (5)-(8) является использование в вычислениях трансформации Гаусса ковариационной матрицы, что вызывает его неустойчивость по начальным условиям и ошибкам округления [7, 8] в силу плохой обусловленности промежуточных матриц, участвующих в вычислениях. Для улучшения процедуры псевдообращения

следует производить факторизацию матрицы Р{к 1 :

P(k 1 = U/(k 1 D(k 1 u(k)T , (12)

где JJ( k 1 = (t/1(k ^ ,uf ^+4 ) - верхнетреу-

гольная матрица с единицами на диагонали; U(k 1 —

(ш+1)-мерный вектор, j = 1,m +1;

D)(k 1 =diag(c71(k-V2k ^.^ ) — диагональная матрица. При этом сомножители в выражении (12) обладают обусловленностью, которая не выше обусловленности исходной матрицы [7, 8].

Коэффициент усиления s(k 1 в (5), а также матрицы U(( k+11 и L)('k+11 определяются из следующих рекуррентных соотношений [8].

Пусть f =(f1,f2,...,fm+1 )T , v =(V1,V2,...,Vm+1 )T и rj =(rj1,rj2—T(m+11 У — (ш+1)-мерные вспомогательные векторы, j = 1,m +1; в(j 1, j = 1,m +1 и

j), j = 2,m +1 — вспомогательные переменные. Сначала при j =1 вычисляются:

fT = xT4U(k 1 ; v=D('k 1 f ; p(11 =1+v1 f ; (13)

r1 =(v1,0,-,0)T ; d[k+11 =d(k VP(11 . (14) Затем для j = 2,3, ... , m+1 рекуррентно находятся:

P(j1 =p(j-11 +vjfj ; dlf^ =(p(j-11 j )p(j1 ; (15) ^( j 1 =-f./ P(j -11 ; u(k+11 =U(k 1 +^( j1 rj -1 ; (16)

rj =rj-1 +vjU?1 . (17)

Тогда

s(k1 =rm+JPim+1) . (18)

Предполагается, что для получения начальных приближений (0(01 и Р1-0-1 используется матрица A(0), составленная из n (m+1 <n <N) строк исходной матрицы A , для которой rank A(o1 = m+1 .

В соотношениях (12)-(18) отсутствует трансформация Гаусса, что обеспечивает численную устойчивость предлагаемого алгоритма. В работе [9] проведено исследование данной вычислительной схемы (12)-(18) и даны рекомендации по её практической реализации.

3. Краткое описание алгоритма

Итерационная процедура построения и корректировки положения разделяющей гиперплоскости (3) включает в себя три этапа.

1. Находятся начальные оценки G(0:i и Р1-0-1 вектора неизвестных коэффициентов 0 и матрицы ковариации P. Для этого из n (m+1 < n < N) случайным образом отобранных строк исходной расширенной матрицыA:G составляется матрица(a(0)G(0)) . Производится факторизация матрицы

pl(01 =(a(0)t A(0))+ с помощью ортогональных преобразований Хаусхольдера [7, 8] и находятся сомножители U(0) и iD(0). Вычисляется оценка G(0:i и полагается k=0 .

2. Добавляется новое скалярное наблюдение (xT G ), соответствующее ik -й строке матрицы (AG ) , не входящей в (A(k 1G(k 1). Согласно формулам (5), (13)-(18) вычисляются новые оценки G(k+1:i,

Uj(k+11, D++11 и полагается k=k+1. Если k<N-n, то процесс повторяется.

Полученные значения G(N-n, U('N-n1, D(N-n) используются в качестве начальных приближений на третьем этапе алгоритма.

3. Последовательно циклически перебираются объекты ОВ и производится их классификация согласно решающему правилу (1), (2). Если рассмат-

риваемый ik -й объект распознан неправильно, то к

матрице

(A(k yG(k 1) добавляется

строка

kG).

Находятся новые оценки G(k+11, U/( k+11, D(k+11 по формулам (5), (13)-(18). Полагается k=k+1 и процесс классификации-корректировки продолжается, начиная со следующего (ik-1 +1) -го объекта ОВ.

Выполнение третьего этапа алгоритма может быть закончено либо после того, как ошибка классификации уменьшается до определённого уровня — например, достигается безошибочное распознавание объектов ОВ заданного класса, либо после заранее указанного числа итераций.

Необходимость введения условий остановки описанной процедуры объясняется тем, что даже в случае линейной разделимости классов невозможно заранее

РИ, 1999, № 3

63

указать число шагов, приводящих к разделению. К сожалению, это является общим недостатком большинства известных методов построения линейной дискриминантной функции [1-5].

Литература: 1. Биргер И.А. Техническая диагностика. М.: Машиностроение, 1978. 239 с. 2. Фор А. Восприятие и распознавание образов. М.: Машиностроение, 1989. 271 с. 3. Фукунага К. Введение в статистическую теорию распознавания образов. М.: Наука, 1979. 368 с. 4. Ту Дж, Гонсалес Р. Принципы распознавания образов. М.: Мир, 1978. 412 с. 5. Якунин А.В. Кусочно-линейные процедуры диагностики: достижения и проблемы // Коммунальное хозяйство городов. 1998. Вып. 16. С. 129-135. 6. Горелик А.Л., Гуревич И.Б., Скрипкин В.А. Современное состояние проблемы распознавания: Некоторые аспекты. М.: Радио и связь, 1985. 161с. 7. Алберт А. Регрессия, псевдо-

УДК 681.324.001.57 “

МОДЕЛЬ ПРОТОКОЛА TCP-RENO С БЕСКОНЕЧНЫМ ИСТОЧНИКОМ ЗАЯВОК

ГУСАК О.Ю, КОБЗЕВ И.В, РУДЕНКО ДА.

В настоящее время Transmission Control Protocol (TCP) является стандартным протоколом транспортного уровня для глобальных сетей, таких как Internet. Рассматривается аналитическая модель TCP версии -TCP-Reno, которая является наиболее используемым протоколом Internet. В нашей модели предполагается, что данные передаются от источника постоянно, а источником является сервер мультимедийной системы.

Наиболее распространенным протоколом транспортного уровня, который фактически стал стандартом глобальных вычислительных сетей, является протокол TCP, принадлежащий к семейству протоколов c n-возвращениями [1]. Его последняя версия TCP-Reno (далее протокол), позволяет адаптивно управлять параметрами активного соединения (размером окна) в зависимости от загруженности канала передачи.

Существующие аналитические модели ТСР протокола в основном ориентированы на стандартню версию протоколов с n-возвращениями и не учитывают адаптивные возможности новой версии, протокола TCP-Reno. Более того, входными параметрами для такого рода моделей служат распределение интенсивности работы источника ТСР пакетов, вероятность потери пакета данных в виду ошибок канала соединения и прочее. В реальных системах связи данные параметры не всегда удается определить, либо полученные характеристики не позволяют применять последние в существующих моделях. Так большинство аналитических моделей строится на предположении о пуассоновском распределении входного потока пакетов. Принимая во внимание подавляющее присутствие систем, предназначенных для передачи аудио-видео информации, генерирующих трафик высокой интенсивности, в настоящей работе в качестве источника данных TCP соединения рассматривается бесконечный источник заявок. Наконец, разработанная концепция комплексной модели

инверсия и рекуррентное оценивание. М.: Наука, 1977. 223 с. 8. Bierman G.J. Factorization methods for discret sequential estimation. N. Y.: Academic Press, 1977. 241 p.

9. Регуляризованные UTDU -факторизации симметричных матриц и их применение/ В.И. Мелешко, В.М. Задачин, Т.В. Ткаченко, И.Ф. Шматько. К.: Ин-т кибернетики, 1986. 28 с.

Поступила в редколлегию 21.07.99 Рецензент: д-р техн. наук, проф. Раскин Л.Г. Якунин Анатолий Викторович, канд. техн. наук, доцент кафедры высшей математики Харьковской государственной академии городского хозяйства. Научные интересы: численный анализ, распознавание образов, нестационарная гидродинамика. Увлечения: музыцирова-ние, шахматы. Адрес: Украина, 310002, Харьков, ул. Революции, 12, тел.45-90-30.

сети [3-5] тербует создания простой модели протокола транспортного уровня, являющегося в настоящее время стандартом де-факто, которая впоследствии может быть включена в общую модель компьютерной сети.

TCP является классическим протоколом транспортного уровня, использующим стратегию “окна”, обеспечивающую эффективную и надежную передачу данных. Максимальный размер окна определяется принимающей стороной в период установления соединения и зависит от физических особенностей данного узла (объем свободной памяти, скорость обработки получаемых данных и прочее).

Детальное описание алгоритма работы протокола может быть найдено в [6]. В соответствии с данным алгоритмом, протокол может функционировать в одной из двух фаз: фазе медленного старта и фазе избежания столкновений. В первом случае, после каждой успешной передачи пакета окно протокола увеличивается на 1, а при обнаружении потери пакета по таймауту сбрасывается в начальное состояние (т.е. в единицу). В фазе избежания столкновений, протокол наращивает окно соединения на 1 при успешной передаче числа пакетов, равного размеру текущего окна. При обнаружении потери пакета через получение дублирующих уведомлений размер окна сокращается в два раза, и протокол продолжает функционировать в данной фазе.

Очевидно, что при моделировании процесса передачи интерес будет представлять случай, в котором мощность источника (потенциальная скорость отправления сообщений) и получателя (потенциальная интенсивность обработки пакетов) превосходит пропускную способность канала передачи, связывающего данные две точки сети. В противном случае время передачи файла длиной L есть L/l, где l=min(ls, lr) — минимальное значение интенсивности источника и получателя сообщений соответственно. Более того, канал передачи данных обычно состоит из нескольких сегментов, однако фактором, определяющим параметры модели, будет сегмент сети, имеющий наименьшую пропускную способность. Отметим также, что в данной модели предполагается бесконечный источник заявок, т.е. станция-отправитель всегда имеет готовые пакеты на передачу. Данное предположение справедливо для систем multimedia,

64

РИ, 1999, № 3

i Надоели баннеры? Вы всегда можете отключить рекламу.