Научная статья на тему 'Метод непараметрической классификации в распознавании образов'

Метод непараметрической классификации в распознавании образов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
696
159
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — В М. Черненький, Н В. Птицын

Рассмотрены методы непараметрической классификации в задачах распознавания образов. Кратко описаны два известных метода — k-NN (k ближайших соседа) и окно Парзена. Оба метода расширены для приложений с нечетким обучающим набором. Предложен новый гибридный метод, сочетающий преимущества метода k-NN и окна Парзена.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — В М. Черненький, Н В. Птицын

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод непараметрической классификации в распознавании образов»

УДК 519.6

В. М. Черненький, Н. В. Птицын

МЕТОД НЕПАРАМЕТРИЧЕСКОЙ КЛАССИФИКАЦИИ В РАСПОЗНАВАНИИ ОБРАЗОВ

Рассмотрены методы непараметрической классификации в задачах распознавания образов. Кратко описаны два известных метода — k-NN (k ближайших соседа) и окно Парзена. Оба метода расширены для приложений с нечетким обучающим набором. Предложен новый гибридный метод, сочетающий преимущества метода k-NN и окна Парзена.

Целью исследований в области распознавания образов (pattern recognition) [1-4] является создание систем, обеспечивающих автоматическую классификацию наблюдаемых объектов по заранее предопределенным или даже неизвестным классам (типам, группам, ситуациям). Образ поступает в систему в виде сигналов, например, звука, изображения или показаний измерительных приборов. Результатом распознавания, в общем случае, является вектор значений, который определяет вероятность или степень принадлежности образа к предварительно определенным классам.

Системы распознавания образов успешно используются в приложениях различного уровня сложности: управление роботами, контроль качества в производстве, системы безопасности, распознавание печатных текстов, медицинская диагностика. Распознавание образов тесно связано с такими понятиями как искусственный интеллект, система поддержки принятия решений и экспертная система.

В работах [4, 5] авторы выделяют следующие подходы к построению систем распознавания: статистическая классификация; сравнение с шаблоном; синтаксическое или структурное сравнение; нейронные сети. Эти подходы не являются независимыми; одинаковые методы распознавания могут иметь разную интерпретацию (см., например, [6]). Очевидно, что пока не существует универсального метода и выбор оптимального метода зависит от условий задачи: типа входной информации, сложности образов, требуемой степени обобщения и ожидаемого результата распознавания.

Настоящая статья посвящена методу на основе первого из упомянутых подходов, так называемой статистической классификации [7-10]. Особенностью статистического подхода является то, что распознаваемый объект задается точкой в D-мерном пространстве признаков. Признак представляет собой число, характеризующее образ, например,

для изображения могут использоваться такие признаки, как площадь объекта, параметры гистограммы интенсивностей, фрактальная размерность. Разработка системы распознавания включает такие задачи, как определение классов, выбор признаков, создание классификатора, обучение системы и оценка качества распознавания. На этапе выбора признаков главной целью является нахождение такого пространства признаков, в котором объекты разных классов представлены непересекающимися подмножествами. Эффективность статистического классификатора будет зависеть от того, насколько различимы подмножества классов.

Задача распознавания образов. Обычно под задачей распознавания понимается классификация образов после предварительного обучения учителем1 (supervised learning). В процессе обучения, знания экспертов формализуются и записываются в память системы распознавания. Знание может быть представлено набором обучающих образов, снабженных экспертными оценками. После обучения, система должна уметь обобщать накопленное знание и классифицировать неизвестные образы автоматически.

Обучение. Рассмотрим базовую схему непараметрической системы распознавания с учителем (рисунок). Эксперты формируют обучающую выборку из N образов и определяют множество из K классов (блок "Выделение классов").

Затем эксперты определяют признаки (блок "Выделение признаков"), на основе которых будет происходить классификация. Другими словами, задается преобразование образа (сигнала) в вектор признаков y Е RD. Признаки могут иметь разный масштаб и вес, для учета которых вводится нормирующий вектор w Е RD. Методы выделения признаков широко освещены в литературе, например [10-12]. В блоке "Вычисление признаков" каждый n-й обучающий образ сопоставляется с вектором признаков yn Е RD.

Каждый n-й образ выборки получает экспертную оценку в виде вектора

к

qn = (Qi,n,Q2,n,---,QK,n), 0 < q,j.n < 1, ^^ q,j.n = 1.

j=i

где qj n — степень принадлежности n-го образа к j-му классу, а сумма есть условие нормировки. Значение qj n можно интерпретировать как оценку вероятности — при отсутствии достоверной информации эксперты оценивают вероятность j-го класса, т.е. условную вероятность

1 Распознавание без учителя не затрагивается в настоящей работе.

Общая схема обучения и распознавания образов

qj n = P (j-й класс|yn) и как степень принадлежности, если образ по своей сути может принадлежать к нескольким классам одновременно и классификация задается нечеткими (мягкими) множествами, т.е. qj n = Xj (Уп), где Xj — функция принадлежности j-го класса (membership function).

В обоих случаях методы распознавания оказываются одинаковыми.

Из вектора признаков и вектора принадлежностей, заданных экспертами, формируется обучающая пара (y, q). Результатом обучения является множество обучающих пар

Т = {(уь qi }, (У2, q2),•••, (yN, qN

Распознавание. На вход системы поступает неизвестный образ. В блоке "Вычисление признаков" рассчитывается вектор x е RD по алгоритму, определенному в процессе обучения. Классифицировать (или распознать) образ означает найти вектор

к

Р = (Р1,Р2,---,Рк), 0 < р3 < 1, = 1,

3

где (р3) показывает вероятность ]-го класса при условии х или, в другой интерпретации, степень принадлежности точки х к ]-му классу. Тогда задача построения классификатора (блок "Классификация") сводится к нахождению функции

Рз = Р ^-й класс |х)

на основе обучающей информации Т. Для нескольких классов, достаточно использовать векторную запись вероятностей р = Р(х).

Параметрические и непараметрические классификаторы. Статистические классификаторы можно разделить на две группы с точки зрения способа оценки вероятностей класса:

1. В параметрических методах необходима предварительная информация о форме функции плотности вероятности (р3), и в процессе обучения вычисляется оценка параметров этой функции. Например, часто используется функция нормального распределения

, , 1 (х-м)2

Рз = Рз(Х ^ о) = —е 2а2 , оу 2п

где ^ и о — параметры, получаемые из обучающего набора Т. Этот подход не эффективен, когда нет предварительной информации о форме функции плотности распределения или она имеет сложный вид (например, несколько локальных максимумов).

2. Непараметрические методы позволяют получить оценку вероятности напрямую из обучающего набора Т:

Pj = Pj(x,T )•

Непараметрические методы могут работать со сложными многомерными функциями распределения. Очевидно, такой подход более универсальный, но ресурсоемкий.

Далее речь пойдет о непараметрических классификаторах. В работе [1] выделяют два эффективных метода непараметрической классификации — окно Парзена (Parzen window) и k-NN (k Nearest Neighbours — k ближайших соседей). Ряд альтернативных подходов [4] обеспечивает высокое качество распознавания, но два упомянутых метода привлекательны своей простотой и универсальностью. В их основе лежит мера сходства/различия между образами.

Мера сходства/различия. Пусть необходимо сравнить два образа с признаками х и у. Распространенной мерой является евклидово расстояние

d(x, y) =

\

D

Y^ (xd - Vdf,

d= 1

заданное в Д-мерном пространстве признаков. При расчете меры важно учитывать масштаб признаков, так как признаки с большим диапазоном значений подавляют остальные. Для этого признаки могут быть нормализированы:

d(x, y) =

\

D

(xd - yd)2

d=1

где вектор нормализирующих коэффициентов w = (у)1,...,у)п) определяется в процессе обучения. В векторе w может быть так же учтен вес признака.

Евклидова мера работает с пространствами небольшой размерности (Д<30). При больших V расстояние между двумя случайными точками стремится к одной величине, а все точки находятся на поверхности гиперсферы. В литературе известны и альтернативные меры, такие как /„-норма, супремум-норма и расстояние Махаланобиса, однако в задачах распознавания они используются реже.

Окно Парзена. Пусть дана выборка {уп} из N точек. Тогда оценка вероятности в точке х будет

*0 = (1)

п=1 4 '

где д( ■) — "окно" или ядро — гладкая сглаживающая функция; а — относительный размер окна. В пределе N ^то и а ^0 функция р(х) приближается к действительной плотности распределения р(х) [13]. Окном часто является гауссовская функция, тогда

р(х)=^Жп 5 еЧ -хН • (2)

Основной проблемой данного подхода является выбор размера окна а. В случае, когда точки уп неравномерно распределены в пространстве признаков, а должна адаптивно выбираться исходя из их локальной плотности. В работе [14] предложен метод адаптивной подстройки

размера окна на основе оценки дисперсии в точке х. Так же следует отметить, что выражение (1) описывает идеальный случай и не учитывает возможные ошибки признаков х и уп.

Вычисление суммы (1) ресурсоемко в случае большой выборки. Ряд методов [15, 16] был предложен для решения этой проблемы, в частности на базе оптимального сокращенного набора из {уп} [17].

к ближайших соседей (к-ММ). Пусть дана выборка {уп} из N точек. Выберем число соседних точек к < N, например к = [1].

Тогда оценка ПР в точке х будет

р(х) =

NVk (х):

где Vk (х) — объем наименьшей гиперсферы, которая содержит к точек, ближайших к х. Другими словами, для того чтобы отнести точку х к тому или иному классу, необходимо зафиксировать к и сравнить размеры (радиусы) окрестностей V},(х), покрывающие к точек из {уп}, ближайших к х. Тогда класс с наименьшим Vk (х) будет наиболее вероятным.

Недостатком метода к-К№ является то, что в нем не учитываются расстояния между рассматриваемой точкой х и точками выборки {уп} внутри окрестности Vk (х). Очевидно, ближайшие точки должны иметь больший вес, чем остальные. Другой проблемой метода является выбор оптимального к в случае неоднородности выборок по каждому классу.

Новый метод: нечеткий обучающий набор. В рассмотренных подходах Парзена и к-К№ предполагается, что все элементы обучающего набора имеют одинаковый вес и принадлежат только к одному из классов, т. е.

к

Яз,и е{0, 1}, = 1

3 = 1

где qj¡n — экспертная оценка, ] — номер класса и п — номер обучающего элемента. Расширим оба рассмотренных метода для классификации с нечетким обучающим набором, для которого

к

0 < qjn < 1, = 1.

Окно Парзена. Для реализации взвешенного суммирования добавим множитель qj¡n в выражение (1):

рз (х)=^Олл £ 3 еЧ • (3)

Под суммой (3) теперь стоит произведение. Первый сомножитель представляет собой вес, соответствующий вероятности ]-го класса для п-го элемента обучающего набора. Второй сомножитель, гауссовская функция, задает вес в зависимости от расстояния между уп и х. Чем больше расстояние, тем меньше вклад в сумму от данного элемента. к ближайших соседей (к-ММ). Для выражения

р(х) = ЩдХ)

заменим определение к (х)— объем наименьшей гиперсферы, которая содержит к точек]-го класса из обучающего набора, ближайших к х — на определение УЗ,Ф(*0 (х)— объем наименьшей гиперсферы, такой что

^ Ш > Я3 (к):

1 <1<М УгЩ,Я(х)

где

N

Яз (к) = (4)

определяет суммарный вес точек в объеме УЗ,Ф(к)(х) для ]-го класса и к > 0 имеет такой же смысл, как в k-NN, но может принимать дробное значение.

Будем называть такой метод Его основное отличие от к-К№

заключается в том, что число точек обучающего набора, используемое для классификации в данной окрестности, не является фиксированным, а выбирается адаптивно в зависимости от их веса. Чем больше вес точек уп в окрестности х, тем меньше точек рассматривается. Формула (4) — один из простых способов выбора суммарного веса окрестности. На практике проще оказывается выбрать одно значение экспериментально сразу для всех классов:

Q = Qi = ... = Q

к •

Новый метод: гибрид окна Парзена и кММ Для решения главной проблемы рассмотренных подходов — выбора значения а и к— рассмотрим следующий адаптивных метод. Запишем оценку вероятности Парзена (3) как функцию, зависимую от х и а:

(х,а) = Е Ш ехК • (5)

У П=1 4 7

На практике обучающий набор обычно не нормирован ввиду того, что экспертная оценка qj n является неравномерной по пространству признаков и несбалансированной между классами, т.е.

N N

= 5^г =j, i,jG 12,...,K

n=l n=1

Поэтому целесообразно рассматривать нормированную оценку вероятности

(х,а) = (х,а) / ^ р3 (х,а). (6)

/ j=i

Нормировочный коэффициент 1/(Nav^2n) выражения (6) сокращается в отношении (5), поэтому далее при расчетах его будем опускать.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Объединим методы Парзена и Q-NN в гибридный метод, суть которого заключается в адаптивном выборе а в соответствии с принципом Q-NN:

а = min |а'\3pj(х,а') > Q, 1 < j < K} , (7)

где

-w л ^ fd2(х, УПЛ

Pj(х,а ) = qj,n exp I 2а/2 . (8)

п=1 ^ '

Значение Qj (k) выбирается для каждого класса в зависимости от суммарного веса экспертных оценок "Ошибка!" и плотности точек yn в пространстве признаков. Один из способов выбора оценки "Ошибка!" — формула (4).

Альтернативным подходом к адаптивной подстройке а является не минимальное значение в условии (7), а максимальное различие нормированных вероятностей:

а = min (maxarg^ pj (х,а)) : 3 pj (х,а) > Qj, 1 ^ j ^ K,

Гибридный метод может быть реализован при помощи алгоритмов [15-17, 19], оптимизирующих поиск ближайших соседей и вычисление оценки pj.

Выводы. 1. Рассмотрены методы непараметрической классификации k-NN и окно Парзена. Эти методы расширены для приложений с нечетким обучающим набором. Введение нечеткости при помощи вектора qn в обучающий набор позволяет задавать классификацию в терминах теории вероятности или мягких множеств, а так же учитывать такие факторы, как точность измерений признаков.

2. Получен новый гибридный метод, объединяющий преимущества подходов k-NN и Парзена. Гибридный метод повышает точность распознавания образа с признаками x за счет адаптивной подстройки оконного параметра а в зависимости от плотности и веса обучающих пар (yn, qn) в окрестности x. Описанный гибридный метод апробирован в экспертной системе распознавания бумажных документов.

СПИСОК ЛИТЕРАТУРЫ

1. Duda, R. O. Pattern Classification and Scene Analysis. second ed. / R.O. Duda, P.E. Hart, D.G. Stork. - NY: John Wiley & Sons, 2000.

2. Theodoridis, S. Pattern Recognition / S. Theodoridis, K. Koutroumbas. — New York: Academic Press, 1999.

3. D a v i e s, E. R. Machine Vision: Theory, Algorithms, Practicalities / E.R. Davies. -Oxford: Academic Press, 1997.

4. J a i n, A. K. Statistical pattern recognition: A review / A.K. Jain, R.P.W. Duin, J. Mao // IEEE Transactions on Pattern Analysis and Machine Intelligence. - 2000. -Vol. 22, no. 1. - P. 4-37. citeseer.ist.psu.edu/jain99statistical.html.

5. Schalkoff, R. Pattern recognition: Statistical, structural and neural approaches / R. Schalkoff. - Wiley, 1992.

6. Schurmann, J. Pattern classification, a unified view of statistical and neural approaches / J. Schurmann. - John Wiley & Sons, 1996.

7. Webb, A. Statistical Pattern Recognition / A. Webb. -London: Arnold, 1999.

8. Fukunaga, K. Introduction to statistical pattern recognition, second edition / K. Fukunaga. - Academic Press, 1990.

9. M c L a c h l a n, G. Discriminant Analysis and Statistical Pattern Recognition / G. McLachlan. - John Wiley & Sons, 1992.

10. Devroye, L. A probabilistic theory of pattern recognition / L. Devroye, L. Gyorfi, G. Lugosi. - Springer, 1996.

11. H a s t i e, T. The Elements of Statistical Learning / T. Hastie, R. Tibishirani, J. Friedman. - Berlin: Springer, 2001.

12. V a p n i k, V Statistical Learning Theory / V. Vapnik. - New York: John Wiley & Sons, 1998.

13. P a r z e n, E. On estimation of a probability density function and mode / E. Parzen // Annals of Math. Statistics. - 1962. - Vol. 33. - P. 1065-1076.

14. Katkovnik, V Nonparametric density estimation with adaptive varying window size. - Signal Processing Laboratory, Tampere University of Technology. - 2000.

. http://www2.mdanderson.org/app/ilya/Publications/europtoparzen.pdf

15. I z e n m a n, A. J. Recent developments in nonparametric density estimation / A. J. Izenman // J. Am. Statistical Assoc. - 1991. - Vol. 86. - P. 205-224.

16. Jeon, B. Fast parzen density estimation using clustering-based branch and bound / B. Jeon, D. Landgrebe // IEEE Trans. Pattern Analysis and Machine Intelligence. -1994. - Vol. 16, no. 9. - P. 950-954.

17. G i r o l a m i, M. Probability density estimation from optimally condensed data samples / M. Girolami, C. He // IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE. - 2003. - Vol. 25, no. 10. - P. 1253-1264.

18. V. A h o. A Data structures and algorithms / A. V Aho, J.E. Hopkroft, J.D. Ullman. -Addison-Wesley, 1983.

19. O m a c h i, S. A fast algorithm for a k-NN classifier based on branch and bound method and computational quantity estimation. http://citeseer.ist.psu.edu/611715.html.

Статья поступила в редакцию 5.07.2005

Валерий Михайлович Черненький родился в 1941 г., окончил МВТУ им. Н.Э. Баумана в 1964 г. Д-р техн. наук, профессор, заведующий кафедрой "Системы обработки информации и управления" МГТУ им. Н.Э. Баумана. Академик Международной академии информатизации. Автор 105 научных работ в области моделирования и системного анализа.

V.M. Chornenkiy (b. 1941) graduated from the Bauman Moscow Higher Technical School in 1964. D. Sc. (Eng.). professor, head of "Systems of Data Processing and Control" department of the Bauman Moscow State Technical University. Academician of the International Academy of Information Technology. Author of 105 publications in the field of modeling and system analysis.

Николай Валентинович Птицын родился в 1979 г., окончил МГТУ им. Н.Э. Баумана в 2002 г. Аспирант кафедры "Системы обработки информации и управления" МГТУ им. Н.Э. Баумана. Автор 8 научных работ в области системного анализа.

N.V. Ptitsyn (1979) graduated from the Bauman Moscow State Technical University in 2002. Post-graduate of "Systems of Data Processing and Control" department of the Bauman Moscow State Technical University. Author of 8 publications in the field of system analysis.

УДК 519.6

Н. В. Птицын

РАЗНОСТНЫЙ МЕТОД ИНТЕГРАЛЬНОГО ПРЕОБРАЗОВАНИЯ ИЗОБРАЖЕНИЯ

Рассмотрен метод дискретного интегрального преобразования, основанный на вычислении разности между соседними суммами. Исследовано приложение метода к обработке изображения. Представлено сравнение с известными алгоритмами быстрой свертки.

Дискретные интегральные преобразования [1, 2] играют важную роль в задачах распознавания образов. С их помощью строятся фильтры для подавления шума, выделения признаков, сегментации и других операций, связанных с обработкой сигналов, таких как звук и изображение. Интегральные преобразования являются ресурсоемкими, особенно для многомерных сигналов и больших ядер. Настоящая статья представляет новый метод интегрального преобразования изображения, который в определенных случаях превосходит существующие методы с точки зрения точности, удобства реализации и быстродействия.

i Надоели баннеры? Вы всегда можете отключить рекламу.