электронное научно-техническое издание
НАУКА и ОБРАЗОВАНИЕ
Зл № ФС 77 - 30569. Государственная регистрация №0421100025. ISSN 1994-0406
Методика селекции признаков классификации в задачах распознавания образов сложных пространственных объектов
77-30569/316296
# 01, январь 2012
Гулевич С. П., Шевченко Р. А., Прядкин С. П., Веселов Ю. Г.
УДК 778.35:629.7
МГТУ им. Н.Э. Баумана Радиотехнический институт имени академика А.Л. Минца ВУНЦВВС «Военно-воздушная академия имени профессора Н.Е. Жуковского
и Ю.А. Гагарина» [email protected] info@rti-mints. т
ОСОБЕННОСТИ РЕШЕНИЯ ЗАДАЧИ КЛАССИФИКАЦИИ ОБРАЗОВ ДЛЯ СЛОЖНЫХ
ПРОСТРАНСТВЕННЫХ ОБЪЕКТОВ
Анализ дифракционных изображений, полученных в результате рассеивания широкополосных радиолокационных сигналов на объектах со сложной трехмерной поверхностью, во многом зависит от качества обработки информации. На формирование радиолокационного дифракционного изображения сказываются ряд случайных факторов. Случайные факторы можно в зависимости от причин возникновения разделить на группы. Первая группа факторов определяется самим объектом - характером отражения и рассеивания сигнала от его поверхности. Ввиду структурной сложности дифракционного изображения объекта, многовариантностью ракурсов, внешнего оборудования и средств маскировки эта группа имеет детерминированную и случайную составляющие. Вторая группа связана с влиянием среды -рассеивание электромагнитного излучения в атмосфере и зависит от метеоусловий, замирания радиолокационного сигнала в атмосфере на участке "РЛ - объект". Третья группа случайных факторов связана с приемной антенной. Проходя приемные тракты входных усилителей происходит оцифровка дифракционного изображения - квантование по мощности сигнала и квантованию по времени, обусловленные спектральной чувствительностью антенны и характеристиками АЦП входных каскадов приемного тракта. К этой же группе относятся помехи: естественные и искусственные (крыши домов, трубопроводы, линии электропередач, кабельные каналы и другие). К шумовому воздействию можно также отнести различные ложные объекты.
Успешность выполнения задачи анализа дифракционного изображения можно характеризовать показателями эффективности применяемыми к системам технического зрения. В большинстве систем технического зрения в качестве показателей используются вероятность правильного распознавания (классификации) или достоверность оцениваемых классификатором признаков РЛ изображения. Очевидно, что показатели эффективности зависят от дальности, помех, метеоусловий и целого ряда случайных факторов.
В статье для определенности будем рассматривать систему технического зрения с обучением по эталонным сигналам, в этой связи будем рассматривать ее работу на 2 этапах:
- проектирование и первичное обучение,
- эксплуатация и дообучение с целью распознавания новых объектов.
Рассмотрим некоторые принципы построения систем технического зрения, которые закладываются на первом этапе и определяют потенциальные возможности по распознаванию дифракционных изображений объектов. Общая схема решения задачи распознавания приведена на рисунке 1.
Рисунок 1 - Схема решения задачи распознавания
Изображение объекта, сформированное в приемном тракте РЛС и оцифрованное АЦП, будем обозначать 2. По-существу, Z представляет собой двумерную матрицу размером №М (размер в пикселях). Последовательно считывая строки матрицы 2 преобразуем её
в вектор 7л размерности Вектор Ъ будем называть образом 2. Будем считать, что образ
объекта может принадлежать к классу Ш] множества классов Л={Ш|, ]=1...К}. Множество П счетно. Каждый класс определяется конкретной моделью объекта. Алгоритм соотнесения
образа одному из классов со, будем называть классификатором. Если образу объекта 7 в
Ь-мерном метрическом пространстве признаков соответствует вектор А'. Из рисунка 1 видно, что выбор информационных признаков происходит перед первичным обучением
системы технического зрения, и после обучения оказывает определяющее значение на эффективность процесса распознавания дифракционного изображения.
В качестве признаков, как правило, выбирают следующие признаки изображения:
- геометрические (отрезки прямых, дуги - обобщенный метод Хафа, детекторы углов -методы Харриса и Томаши, контуры и другие особенности изображения);
- спектральные (спектральные характеристики на основе Фурье или вейвлет преобразования);
- структурные (на основе морфологического анализа и других методов);
- энергетические;
- статистические (на основе анализа распределений и статистик) и другие.
Без ограничения общности могут быть использованы любые признаки и их комбинации для обучения системы технического зрения (СТЗ). Будем предполагать, что при фиксированном выборе векторного пространства признаков классификатор обеспечивает оптимальное решение по распознаванию объекта.
Обработка признаков в СТЗ наиболее часто ведется тремя способами: отбором наиболее информативных признаков (отбором подпространств вектора признаков), образованием отношений отдельных признаков (отношений отдельных компонент вектора признаков) и образованием линейных комбинаций отдельных признаков. В теории распознавания используется термин "существенная размерность", обозначающий минимальное число измерений (выделяемых признаков), необходимое для достаточно точной идентификации распознаваемых объектов. Поэтому при разработке новых и совершенствовании существующих СТЗ важно отобрать минимальное число признаков, обеспечивающих заданные показатели эффективности работы СТЗ без усложнения её конструкции, тем самым, повысить надежность работы и понизить стоимость её производства и эксплуатации.
Постановка задачи исследования
Выбор наиболее информативных признаков, описывающих множество классов объектов П={Ш|, ]=1...К}, является ключевым моментом в задаче распознавания сложных по форме, спектру и другими признакам объектов, находящихся на "пестром" фоне. Задача ставится следующим образом: разработать критерии выбора информационных признаков образов, обеспечивающих решение задачи распознавания образов из К классов с максимальным уровнем вероятности распознавания Ррасп объекта. Классы со, и со, являются не пересекающимися: если X Е и X Е , то следует X Е 0.
Допущения:
1 в кадре присутствует информация только об одном нормализованном образе;
—»
2 векторы признаков X для всех классов имеют одинаковый закон распределения.
КРИТЕРИЙ РАЗДЕЛИМОСТИ КЛАССОВ С ТОЧКИ ЗРЕНИЯ ТЕОРИИ ИНФОРМАЦИИ
Для оценки информативности признаков воспользуемся положениями теории информации - используем понятия объем информации /(Z) и энтропия Н (Z). Ральф Хартли в работе [1] предложил объем информации I (Z), содержащийся в образе и связанный с реализацией события Z = Zfc с вероятностью рк, определять как логарифмическую функцию:
(1)
где основание логарифма, как правило, равно 2 (единица информации - bit) или e (единица информации - nat). Для определенности будем использовать последнюю. Ввиду того, что разрешение приемника ОЭС определено - M-N, тогда множество реализаций образов объекта можно рассматривать как случайное событие Z = Z^. Это множество счетно и ограничивается условием: 0 < / < М • N.
Здесь предполагаем, что минимальный объем информации соответствует достоверному событию (pk = 1), а максимальный соответствует событию с наибольшей неопределенностью - реализация образа в виде 1 точки рк = 1/NM).
Среднее значение объема информации /(4) при всех возможных реализациях образа называют энтропией И (Z ):
По своей сути энтропия определяется как мера априорной неопределенности информации о системе (образе), учитывающая как вероятность наступления события в системе, так и число степеней свободы системы (сомножитель log р¡с).
Считая, что 0-log0=0 для энтропии И (Z ) получим диапазон:
О < H(z) < log(>i ■ AO.
Под условной энтропией Н(Х | У) будем понимать меру оставшейся неопределенности
относительно X после того, как было получено наблюдение У. Величину Н(Х,У) определим как совместную энтропию:
где р(^дг'У^) " функция совместной вероятности случайных векторов X, Y.
7(4) = log(^) = - log Рк
Так как энтропия Н (Х) представляет неопределенность относительно входа системы перед наблюдением выхода системы, а условная энтропия Н(Х\ У) - ту же неопределенность
после наблюдения выхода, то разность И ( А') — И ( А' У) будет определять ту часть неопределенности, которая была разрешена наблюдением выхода системы. Эта величина называется взаимной информацией между случайными векторами X, У. Обозначив эту величину как /(X, У), можно записать[1]:
т.е. ¡(Х, У)- величина разрешенной данной реализацией образа неопределенности.
Прежде чем приступить к решению задачи селекции минимального набора признаков решим 2 подзадачи.
1. Какой из двух наборов признаков /\у и (¡у с распределениями (х), дхОО несет больший объем информации об образе?
2. Как изменится взаимная информация 1{Х, У) между входом X и выходом У класси-
—♦ —*
фикатора при появлении гауссова шума в измерении признаков X образа Z?
Рассмотрим первую подзадачу.
В работе [2] был сформулирован принцип максимальной энтропии: "Если выводы основываются на неполной информации, она должна выбираться из распределения вероятности, максимизирующего энтропию при заданных ограничениях на распределение". В [3] доказано, что принцип максимальной энтропии корректен и существует только одно распределение, обеспечивающее максимум энтропии, которое можно выбрать с помощью "аксиом согласованности":
1 уникальность (результат должен быть уникальным);
2 инвариантность (выбор системы координат не должен влиять на результат);
3 независимость системы (не должно иметь значения, будет ли независимая информация о независимых системах браться в расчет как в терминах различных плотностей вероятности раздельно, так и вместе, в терминах совместной плотности вероятности);
4 независимость подмножеств (не должно иметь значения, будет ли независимое множество состояний системы рассматриваться в терминах условной плотности вероятности или полной плотности вероятности системы).
Для случая многомерного гауссового распределения центрированного вектора
признаков X известно
Тогда доопределим энтропию для непрерывного вектора признаков X следующим выражением [7]:
Последняя величина получается из (2) как предельный переход по количеству состояний для вектора признаков X и в литературе [6] носит название дифференциальной энтропии. Поскольку на практике, как правило, используется квантованная оценка признаков и выборочные оценки вектора математического ожидания и матрицы ковариации, то нас будет интересовать только вывод некоторых выражений для оценки энтропии с переходом к дискретному представлению. Подставляя выражение (5) в интеграл (6), для многомерного
гауссовою распределения (Х) получено выражение для энтропии Н (X) [4]:
Н[Х) = - L ■ logo I - log det(X) ], (7)
где L - размерность вектора признаков X,E - матрица ковариации случайного вектора при-
—♦
знаков X, det(.£)- определитель матрицы Из выражения (7) вытекает 3 вывода.
1 Если вектор признаков X описывается гауссовой статистикой, то энтропия информации,
содержащейся в X имеет наибольшее значение среди прочих векторов признаков X , описываемых иной статистикой с таким же вектором средних значений. При этом выполняется неравенство: //(ЛГ) > Н(Х!^, причем равенство достигается только при совпадении распределений X и X .
2 Энтропия Н (Х) гауссовою случайного вектора признаков
X
однозначно определяется его ковариационной матрицей 2 и не зависит от среднего значения вектора признаков X.
3 Понижение размерности вектора признаков X (например, с L до L-1) вызывает скачкообразное уменьшение энтропии, поэтому при выборе информативности признаков следует учитывать разбиение классов образов на подклассы. Это означает, например, что если у объекта изменяется ракурс и при этом какой-то из компонентов вектора признаков пропадает или появляется, то с этого ракурса объекта следует выделить новый подкласс данного объекта.
В этой связи может быть сформулирован критерий 1- разделение множества признаков сложных объектов на подклассы: скачкообразное изменение энтропии вектора признаков X образа, принадлежащего некоторому классу, является необходимым и достаточным условием выделения его подкласса.
Рассмотрим вторую подзадачу.
Для этого рассмотрим линейный классификатор сигналов из вектора признаков (метод главных компонент, метод линейной нейронной сети). Пусть выход этого классификатора с учетом шума выражается соотношением:
где СС1 - 1-й весовой коэффициент; К - гауссов шум с дисперсией <7^2 с нулевым средним, оставшийся в признаках после их выделения из образа. Будем также предполагать, что компоненты случайного вектора признаков X = (д^, Хд,..., также имеют гауссово распределение, тогда выход У также будет иметь гауссово распределение, как взвешенная сумма гауссовых случайных переменных.
Учитывая свойство взаимности информации из (4) можно записать:
Несложно заметить из (9), что функция плотности вероятности переменной У для входного
—♦
вектора X равна функции плотности вероятности суммы константы и гауссовой случайной переменной, следовательно, условная энтропия //(У| X) является "информацией", которую выход У линейного классификатора (8) накапливает о шуме обработки сигнала К, а не о самом векторе полезного сигнала X. Исходя из этого, будем считать
.
Тогда (9) перепишем в следующем виде: Из выражения (7) для Н(У) и Н(К) получим:
После подстановки в формулу (6) и упрощения получим:
Из выражения (11) вытекает 2 вывода. «г
1 Частное —- можно рассматривать как отношение сигнал/шум. Предполагая, что дисперсия <7$2 является константой, взаимная информация I(У,А') достигает максимума при увеличении дисперсии (Ту выхода линейного классификатора.
2 Рост дисперсии шума <7$ 2 снижает взаимную информацию между входным и выходным сигналами классификатора.
Теперь вернемся к решению основной задачи по разработке критериев выбора признаков, обеспечивающих решение задачи распознавания с максимальным уровнем вероятности распознавания объекта.
Поскольку на основании зависимости (7) энтропия Н^Х} для наиболее информативного набора признаков X образа определяется его ковариационной матрицей 2, то учитывая ее симметричный характер, выполним разложение Карунена-Лоева[5]:
l = 4fl ■ Л- Ч\ (12)
О
где Л - диагональная матрица состоящая из собственных значений А,, а Ч* - матрица составленная из столбцов - собственных векторов, соответствующих Aj. Заметим, что ранг матрицы £ т.е. L! = Tank (£) < L определяет количество линейно независимых векторов признаков, отвечающих за классификацию X. Выполняя процедуру нормализации для собственных значений и собственных векторов 2, получим:
т
Учитывая тот факт, что Ч* соответствует ортогональному преобразованию т.е.
Y1 W = 1,
для det(S) получим:
Подставляя выражение (13) в (7), получим:
В работе [5] показано, что максимальная погрешность разложения (12) определяется выражением:
В (15) предполагается, что все собственные значения и их собственные вектора упоря-
—»
дочены в порядке убывания, так как значимость каждого компонента вектора признаков X определяется его собственным значением:
>И2> - > № (16)
Рассмотрим ортогональное преобразование исходного вектора признаков Аобраза:
У = Ч*т -X, Ч* ■ Ч*т ■ X = Ф У, Х = Ф-У, (17)
т.е. матрица V состоит из Ь1 линейно независимых векторов-столбцов (1^1 Ф О) и эти столбцы ортонормированны:
шТш
^^ (О, ¡ = Г
Тогда для матрицы ковариации получим:
2Х = Е[(Х- Е(х}) -(X - Е(х})т]= Е[(*Р ■ У - ■ у}) -(V ■ У — Е{<Р ■ у})т]=
На основании выражения (18) и с учетом (12) получим:
¿е^х) = Ае^ФФ7') ■ йе^у) = с^ау). (19)
Можно сделать вывод о том, что ортогональное преобразование пространства признаков не меняет энтропии (7) для вектора У. Из свойств ортогонального преобразования вытекает, что оно не изменяет расстояний в пространстве признаков и эквивалентно повороту относительно центра рассеивания. Рассеивание, в нашем случае, описывается матрицей кова-
риации вектора признаков Ех. Для многомерного гауссовою распределения 1:х(Х) из (5)
видно, что поверхность постоянной плотности вероятности вектора признаков X является поверхность второго порядка. Учитывая симметричный характер гауссового распределения
относительно вектора математического ожидания = Е{х| = тХ2> "' > тхЬ]) '
установлено [7], что эта поверхность - Ь-мерный эллипсоид рассеивания. Поскольку в результате выполнения ортогонального преобразования матрица ковариации вектора признаков Еу приведена к диагональному виду (12), то это означает, что полуоси эллипсоида указывают направления максимального рассеивания в Ь-мерном пространстве признаков.
Смысл ортогонального преобразования У — • X заключается в повороте системы координат относительно центра рассеивания до совмещения координатных осей О У с главными полуосями рассеивания в Ь-мерном пространстве признаков. Так как каждый о^-й
класс образов имеет свой эллипсоид рассеивания £/, то задача выбора набора признаков, обеспечивающих решение задачи определения вероятности распознавания сводит-
ся к рассмотрению геометрической задаче с К эллипсоидами постоянной плотности вероятности.
ГЕОМЕТРИЧЕСКИЙ ПОДХОД К ЗАДАЧЕ РАЗДЕЛИМОСТИ КЛАССОВ
Для определенности будем рассматривать эллипсоиды постоянной плотности вероятности с полуосями равными (Ту = 1 /■^''Л;, где Х-ь - собственные значения выборочной ковариационной матрицы (12). При этом правильность выбора вектора признаков X будет интерпретироваться как отсутствие пересечений эллипсоидов рассеивания различных классов. В этой связи может быть сформулирован критерий 2-разделимости классов: множества признаков для классов разделимы тогда и только тогда, когда выполняются условия теоремы 1.
Теорема 1[8]. Пусть X1 А±Х = \и X' А2Х = 1 квадрики в примем первая является эллипсоидом. Квадрики не пересекаются тогда и только тогда, когда матрица является знакоопределенной.
Последняя теорема может быть использована для матриц = 1 и Л2 = Е2 ^■
_^ _^
Применяя критерий Сильвестра[9] для матрицы Д^ = — ^2 > необходимо прове-
рить, что все главные миноры матрицы Д12 положительны, либо все главные миноры отрицательны.
Непересечение эллипсоидов рассеивания различных классов является необходимым условием при выборе эффективного набора признаков классификатора образов. В случае зашумления вектора признаков среднеквадратические отклонения ошибок (СКО) компонент вектора признаков, а, следовательно, и главные оси эллипсоидов рассевания будут расти, что, в конце концов, приведет к их пересечению и возникновению состояния неопределенности. Для контроля выполнения необходимого критерия выбора признаков и оценки устойчивости классификатора к шумам можно использовать расстояние между близкими классами (эллипсоидами рассеивания). Для этого воспользуемся следующей теоремой. 77-30569/316296, №01 январь 2012 г. http://technomag.edu.ru 10
Теорема 2[8]. Если выполняется условие теоремы 1, то квадрат расстояния между эллипсоидом X' А±Х = 1 и квадрикой ХТ А2Х = 1 совпадает с минимальным положительным корнем полинома
в предположении, что этот корень не является кратным. Здесь Ор— дискриминант полинома рассматриваемого относительно переменной р.
Таким образом, для каждой пары близких эллипсоидов рассеивания с матрицами А^ = 1 и А2 = £2 1 необходимо составить матрицу размерности Ь-Ь\ 0(е, р ) = рА1 — (Е — 0)А2 — р[Е — р )А1А2 . Далее, разложив детерминант с1е1[0(Е,/?)] в виде характеристического многочлена по степеням р, получим полином порядка п=Ь+2: (1(г) = с1е1[0(г, р)] = (10 + (1грг +----1- С^р71, где ^ = (¿¿(г). Отметим, что дискриминант полинома равен нулю тогда и только тогда, когда полином имеет кратные корни. Поскольку машинное определение выборочной оценки ковариационных матриц выполняется с точностью до погрешностей округления, то событие получения кратных корней практически является маловероятным. Выражение для дискриминанта имеет вид:
где К - результант полинома й(Е) и его производной (г)
= _ 2с1-2Р1 -----
Результант с1р) равен определителю следующей (2п-1)-(2п-1) матрицы:
<п <п-1 <п-2 <0 0 0
0 <п <п-1 <п-2 <0 0 0
0 0 0 0 0 <п <п-1 <п-2 <0
п<п (п-1)<п-1 (п-2)<п-2 <1 0 0 0
0 п<п (п-1)<п-1 (п-2)<п-2 <1 0 0 0
0 0 п<п (п-1)<п-1 (п-2)<п-2 <1 0 0
0 0 0 0 0 0 пй„.1 (п- 1)<п-2 (п-2)<п-2 <1
Тогда, выбирая минимальный положительный корень - 7. полинома с!(г), получим евклидово расстояние между двумя эллипсоидами в Ь-мерном пространстве признаков: http://technomag.edu.ru/doc/316296.html 11
012 = \2 . (20) Отметим, что указанная процедура оценки расстояний может быть рассчитана на этапе проектирования классификатора. Выполняя пропорциональное расширение (^-коэффициент пропорциональности) главных полуосей эллипсоида рассеивания
а.
У*
к • ау1,
к > 1
получим таблицу соответствий к -» ксГу^ расстояний между классами / и Макси-
мальное значение к при котором > 0, определит запас устойчивости выбранного набора Ь признаков к воздействию шума.
При некотором упрощении задачи может быть получена оценка вероятности распознавания. Выполняя процедуру нормализации и ранжирования (16) собственных значений для выборочной ковариационной матрицы каждого класса, можно оставить только три значимых компоненты вектора признака:
.
В работе [7] найдено аналитическое выражение для вероятности попадания случайного трехмерного вектора признаков с гауссовой плотностью вероятности в эллипсоид рассеивания:
7 7 7
Xе- у г^ . о
.
(7Х (Ту
Последнее выражение было получено для центрированного вектора признаков. В более общем случае - рассматриваем несколько эллипсоидов в одной системе координат,
Му= /^к )т = 0 и уравнение эллипсоида рассеивания выглядит так:
.
Здесь, как и при составлении таблицы расстояний между классами, полуоси эллипсоида (а,Ь,с) пропорциональны СКО компонент вектора признаков:
(21)
В соответствии с выражением (5) для постоянной плотности вероятности вектора признаков при Ь=3, потребуем для степени экспоненты:
В
(X — МК)1 £ (X — Мх) = к2,
м
(22)
где Ощ - квадрат расстояния Махаланобиса (предложено индийским математиком в 1936 году и носит его имя), являющегося обобщением меры расстояния в многомерном
пространстве признаков с учетом характера рассеивания вектора признаков разных классов. Подставляя в (22) выражение для Е-1 = Ч*т ■ Л1 ■ Т (следует из (12), свойства ортого-
ПГ _4 _А
нального преобразования 4м =4* И Е
), получим:
Матрица Т = (у^, - , у^) состоит из столбцов - собственных векторов соответствующих
собственным значениям, например, у^ —> А^. В последнем выражении матрица Л 1 на основании (12) определяется так:
\1/\ - О • • •
« • ■
о ... 1[кх)
-1
Выполняя замену переменных X' = Ч* (X — получим:
Из последнего выражения следует:
= (7К к , Х2 = (Ту к , А ч =
- а2к2.
(23)
т
Далее получим выражение для вероятности попадания вектора признаков Х=(х,у,г) в эллипсоид В):
Переходя к сферическим координатам и интегрируя по частям, получим:
(24)
где Ф(к) = ■ е 2 - функция Лапласа[7].
В [6] показано, что уровень значимости признаков, как правило, резко падает с увеличением ранжированного номера собственного значения выборочной матрицы ковариации и на основании (15) относительная ошибка представления вектора признаков для размерности
Ь>3 составит единицы процента. Реализация вектора признаков Х=(х,у,г) позволяет выра-
зить отклонение от центра эллипсоида рассеивания = ТПу ,771^.) через расстояние, выраженное в среднеквадратических отклонениях, аналогично (21):
Поскольку значения СКО были получены на этапе первичного обучения, то для текущего вектора признака Х=(х,у,г)т найдем к = А'у для заданного класса с вектором матрицей Подставляя ку в (24) получим вероятность попадания в эллипсоид Р(Х а В^У Обратно, задавая вероятность Р(Х с \ получим размер эллипсоида kj, т.е. расстояние Махаланобиса Так для Р[Х а £?у) = 0.997 вычислено к=3,9, что превышает оценку для трехмерного нормального распределения к=3,4 (обобщенное «правило трех сигм» на пространство Я ). Это факт свидетельствует о том, что не правомерно использовать аппроксимацию многомерного эллипсоида соответствующей размерности параллелепипедом (как это делается в большинстве расчетов), так как в этом случае получается завышенная оценка вероятности, а доверительные интервалы имеют заниженную оценку. Для эллипсоида рассеивания доверительный интервал составил 3,9 СКО (на 15 % больше).
а) б)
а) - вероятность попадания вектора признаков в эллипсоид, куб и эллипс.
б) - отношение вероятностей попадания вектора признаков в куб и эллипсоид
Рисунок 2 - Зависимость вероятности рассеивания признаков от СКО
При использовании более низкого уровня доверительной вероятности, как видно из рисунка 2.а) доверительный интервал уменьшается и при малых значениях СКО (рисунок 2.б) такое несоответствие весьма существенно.
Обобщая на случай размерности нормально распределенного вектора признаков с Ь>3 и учитывая недиагональность матрицы ковариации, можно построить доверительную область с помощью обобщения распределения Стьюдента на случай Ь>1. В теории многомерного статистического анализа[10] для построения доверительной области оценки неизвестного математического ожидания вектора признаков = (ш^, 7712» < Т71^)Тиспользуется статистика Хотеллинга (Т2).
Для выборки объемом п нормально распределенного вектора признаков X размерностью Ь и уровнем значимости а = 1 — (д - доверительная вероятность) величина
(25)
определяется через Р^ ^ (а) распределение Фишера-Снедекора[10] со степенями свободы \1=Ь и у2=п-Ь в соответствии с выражением:
Здесь X - вектор среднего по выборке, £ - выборочная оценка матрицы ковариации. Поскольку из (25) величина к2 = Т2 /п определяет в соответствии с (22) размер эллипсоида рассеивания вектора математического ожидания, то получаем доверительную области с уровнем значимости а.
На рисунке 2 изображена зависимость распределения Фишера-Снедекора от объема выборки п для уровня значимости а=0,01. Так, например, для размерности вектора признаков 6 и объема выборки 31 получим числа степеней свободы У1=6 и У2=25, тогда из 1 графика получим р^ 2 5 (0,01) = 3,94 . В соответствии с (26) получим:
В соответствии с (25) величина к2 определяет размер эллипсоида рассеивания вектора математического ожидания - центра эллипсоида. Приводя эллипсоид рассеивания к каноническому виду (путем ортогонального преобразования осей координат), получим вместо (25) выражение:
где £ — X — Мх , а <7? (I = 1 V)- квадраты полуосей эллипсоида рассеивания (диагональные элементы матрицы оценки дисперсий компонент вектора признаков по обучающей выборке).
Таким образом, может быть сформулирован критерий 3-объема обучающей выборки классификатора, уровень значимости а, оценки дисперсий компонент вектора признаков-
1? (; = 1 ■ •• I \ и размерность пространства признаков Ь определяют объем обучающей классификатор выборки - для каждого класса 0)^,] = 1 К в соответствии с выражениями (25), (26).
Как правило, в реальных классификаторах выбирают максимальный объем обучающей выборки для всех классов, т.е. N = 5"1ф{ п^ | 0)^,) = 1
18.00
12.00 10.00 8.00 6.00 4.00 2.00 0.00
От пп *т лп сл сп 1С\
хи ¿и ^и чи Ои /и
п
—•—1 - для размерности вектора признаков У\ б и \'2 п-б,
-2 - для размерности вектора признаков \'\=4 и \ь=п-4 ,
—•—з - для размерности вектора признаков \\=8 и У2=п-8,
Рисунок 3 - Зависимость распределение (а) от объема выборки п
Найдем теперь вероятность попадания вектора признаков X — (х^, Х2,, в многомерный эллипсоид В,, определяемый для класса квадратом расстояния Махаланобиса
0\ -; в соответствии с (22). На основании (5) получим:
Поскольку точность определения центра эллипса определяется доверительной вероятностью £/, /-«,, тогда условная вероятность того, что реализация вектора признаков X принадлежит классу определяется выражением:
Из постановки задачи следует, что совместная вероятность независимых событий определяется произведением их вероятностей. Тогда вероятность распознавания класса
определяется принадлежностью X к эллипсоиду (Р ( А' с )) и непринадлежностью к
другим эллипсоидам (1 с В*^):
Подчеркнем тот факт, что выражение (29) позволяет оценивать максимальную вероятность распознавания объекта на множестве классов П, так как на этапе разработки (при обучении) системы учитываются СКО, обусловленные лишь ошибками квантования (оцифровки) сигнала изображения. В действительности СКО компонент вектора признаков всегда будет больше на реальном сигнале. При увеличении отношения сигнал/шум в соответствии с (11) взаимная информацию между входным и выходным сигналами классификатора снижается. Это эквивалентно расширению эллипсоида рассеивания, то есть росту и соответствующему повышению уровня значимости а (понижения вероятности распознавания для каждого класса).
Выявим некоторые закономерности относительно количества классов -К при фиксированной размерности пространства признаков Ь. Из выражения (29), видно, что увеличение
мощности множества распознаваемых образов (увеличение Ю) приводит к снижению вероятности распознавания, так как:
V™, с*+!) = т ■ (1 - р(х ■= ч+о).
(30)
Поскольку у5 = 1 - р(х С в;) < 1, я = 1 — ЛГ,
то получаем:
^распш, + 1) ^ врасти; 00 " УдГ+1-
(31)
1расп<д^ ч11 1 — рлспб),
На рисунке 3 приведена относительное снижение вероятности распознавания РтШО для случая, когда все уБ = 0,99 :
Рисунок 4 - Зависимость Н,тн от увеличения числа классов - АК
Из рисунка видно, что уже для К=23 классов /30ТН = 0,8 , поэтому целесообразно для систем технического зрения с большим количеством распознаваемых объектов либо разбивать классификаторы на группы, реализующих одновременную обработку входных образов,
либо увеличить вероятности Р(Х с ) для всех классов. Например, увеличение уБ = 0,995 приводит к увеличению классов до К=45 при уровне /30ТН = 0,8. Увеличение Л с 5- ) может быть выполнено, в том числе, за счет повышения информативности вектора признаков, то есть увеличения его размерности -Ь.
Критерий 4-мощности множества классов: увеличение количества распознаваемых объектов классификатором приводит к снижению вероятности распознавания в соответствии с выражением (31).
В заключении сформулируем еще один критерий по выбору размерности набора признаков ЬтЫ, обеспечивающих решение задачи распознавания с соответствующим ему максимальным уровнем вероятности распознавания.
С одной стороны в соответствии с методом величина = ]] определяется макси-
мальным рангом матриц ковариаций = 1 ■■■ К то есть
Заметим, что выражение (31) скорее является верхней границей для выбора размерности пространства признаков. Как правило, назначая уровень значимости признаков удается существенно понизить размерность этого пространства, например, используя упорядоченный набор собственных значений разложения Карунена-Лоева для ковариационной матрицы класса. Именно в этой связи был введен термин "существенная размерность" и на основании (15), (16) получим значение Ь11.
С другой стороны, минимальное возможное число признаков описывается степенями свободы физической системы. Например, движение твердого тела в пространстве описывается 6 фазовыми координатами (3- линейных, 3- угловых). Считая, что вдоль каждой фазовой координаты необходимо иметь хотя бы 1 координату вектора признаков, получим 6 компонент. Если движения объекта можно считать плоским, то получим 5 компонент (одно уравнение связи координат движения объекта, например у=0). Обобщая, приходим к выводу: если на движение объекта наложено т уравнений связи, то получим 6-т компонент вектора признаков. Тогда получим I? = 6 — т степеней свободы системы, значение IР определяет "истинную размерность" системы.
Тогда для размерности пространства признаков можно записать:
1° < (ГДП (33)
В этой связи может быть сформулирован критерий 5-существенной размерности пространства признаков, размерностью пространства признаков классификатора определяется выражением (33).
В заключении сформулируем выводы по работе.
1 Рассмотренные выше критерии качества информационных признаков могут быть положены в основу построения классификаторов на самых общих положениях статистической теории оценивания и теории информации и не используют конкретных методов и схем построения классификаторов.
2 Изложенные в статье критерии составляют основу научно-обоснованной методики селекции информативных признаков классификаторов.
3 Критерии отбора информационных признаков сложных пространственных объектов и сигналов могут быть применены для построения оптимального, в том числе, байесовского классификатора.
СПИСОК ЛИТЕРАТУРЫ
1. Hartley, R.V.L. Transmission of Information. - Bell System Technical Journal, July 1928, pp.535-563.
2. Шеннон К. Работы по теории информации.: Пер. с англ. - М.: ИЛ, 1963. 624 с.
3. Shore J.E. and R.W. Johnson. Axiomatic derivation of the principle of maximum entropy and the principle of minimum cross-entropy: IEEE Transactions on Information Theory, 1980, vol. IT-26, p. 26-37.
4. Jaynes E.T. On the rationale of maximum-entropy methods: Proceedings of the IEEE, 1982, vol. 70, p. 939-952.
5. Фукунага К. Введение в статистическую теорию распознавания образов.: Пер. с англ. -М.: Наука, 1979. - 366 с.
6. Хайкин С. Нейронные сети: полный курс, 2-е издание.: Пер. с англ. - М.: Издательский дом "Вильямc", 2006. -1104 с.
7. Вентцель Е.С. Теория вероятностей. Учебн. для вузов- 5-е изд. стер.-М.: Высш. шк., 1998.- 576 с.
8. Утешев А.Ю., Яшина М.В. Нахождение расстояния от эллипсоида до плоскости и квадрики в Rn.// Доклады АН. 2008. Т.419, №4, c.471-474
9. Гантмахер Ф.Р. Теория матриц. - М.: Наука, 1966. - 576 с.
10. Андерсон Т.В. Введение в многомерный статистический анализ.: Пер. с англ. - М.: Физматгиз, 1963. - 500 с.
electronic scientific and technical periodical
SCIENCE and EDUCATION
_EL № KS 77 -3()56'J..VaU421100025. ISSN 1994-jMOg_
Method of selection of classification characteristics in pattern recognition problems of complex spatial objects
77-30569/316296 # 01, January 2012
Gulevitch S., P., Shevchenko R.A., Pryadkin S.P., Veselov Yu., G.
Bauman Moscow State Technical University Radio Engineering Institute named after Academician AL Mintz VUNTS Air Force "Air Force Academy named after professor NE Zhukovskii and Yu Gagarin"
[email protected] info@rti-mints. ru
The methodology of selecting of classifiers' features was described in this article; these classifiers were used in processing of diffraction image of complex spatial objects. The substantiation of the separation of the object class into subclasses in terms of information theory, as well as reasonable selection of object classes with the usage of ellipsoidal estimation were given. The criteria of qualitative selection of classifier's feature vector, answering questions about the size of teaching selection, the cardinality of the set of classes, the essential dimension of feature vector, were developed. Evidence-based approach to the selection of informative features of classifier of signals, based on the concept of entropy of information theory and ellipsoidal estimation, were proposed.
Publications with keywords: pattern recognition, selection of characteristics, systems of machine vision, information theory, ellipsoidal estimation
Publications with words: pattern recognition, selection of characteristics, systems of machine vision, information theory, ellipsoidal estimation
Reference
1.Hartley, R.V.L., Transmission of Information, Bell System Technical Journal July (1928) 535— 563.
2. Shennon K., Work on information theory, Moscow, IL, 1963, 624 p.
3. Shore J.E. and R.W. Johnson, Axiomatic derivation of the principle of maximum entropy and the principle of minimum cross-entropy, IEEE Transactions on Information Theory IT-26 (1980) 26-37.
4. Jaynes E.T., On the rationale of maximum-entropy methods, Proceedings of the IEEE 70 (9) (1982) 939-952.
5. Fukunaga K., Introduction to the statistical theory of pattern recognition, Moscow, Nauka, 1979, 366 p.
6. Khaikin S., Neural networks: a comprehensive course, Moscow, Izdatel'skii dom "Vil'iamc", 2006, 1104 p.
7. Venttsel' E.S., Probability theory, Moscow, Vyssh. shk., 1998, 576 p.
8. Uteshev A.Iu., Iashina M.V., Finding the distance from the ellipsoid to the plane and quadrics in Rn, Doklady AN 419 (4) (2008) 471-474.
9. Gantmakher F.R., Theory of Matrices, Moscow, Nauka, 1966, 576 p.
10. Anderson T.V., An introduction to multivariate statistical analysis, Moscow, Fizmatgiz, 1963, 500 p.