Научная статья на тему 'Мепараметрические системы распознавания образов для МНО го альтернативно и задачи классификации, основанные на декомпозиции обучающей выборки по ее размерности'

Мепараметрические системы распознавания образов для МНО го альтернативно и задачи классификации, основанные на декомпозиции обучающей выборки по ее размерности Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
128
34
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лапко А. В., Л Апко В. А.

Иредлоэюена методика синтеза многоуровневых непараметрических систем распознавания образов для мно-го альтернативной задачи классификации с позиции принципов декомпозиции обучающей выборки и коллектив-ного оценивания. Их применение обеспечивает высокую вычислительную эффективность обработки информа-ции большой размерности.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

NONPARAMETRIC SYSTEMS OF PATTERN RECOGNITION FOR A MULTIALTERNATIVE P ROBLEM T HE C LASSIFICATIONS, BASED ON DECOMPOSITION OF TRAINING SAMPLE ON ITS DIMENSION

From positions of principles of decomposition of training sample and technology of parallel calculations the technique of synthesis multilevel nonparametric systems of pattern recognition for a multialternative problem of classification is offered. Their application provides effective processing the information of the big dimension.

Текст научной работы на тему «Мепараметрические системы распознавания образов для МНО го альтернативно и задачи классификации, основанные на декомпозиции обучающей выборки по ее размерности»

сложность может быть связана с тем, что программа символьного решения solve может не найти точного решения, особенно тогда, когда его нет. В этом случае придется

искать решение уравнения = 0 ^ и 0(х, р) числен-

ди

но. Вторая сложность заключается в трудности решения краевой задачи программой sbval методом пристрелки. В этой программе происходит минимизация ошибки между требуемым и текущим положением системы в конечный момент времени за счет подбора начальных условий для сопряженных переменных р . Решение такой задачи часто зависит от выбора начальных значений v. Наконец, для нелинейных систем, в отличие от линейных, область решения не всегда принадлежит всему пространству Rn . Так, в системе (8) присутствует натуральный логарифм ln(х), что исключает значения х < 0 .

Современные вычислительные среды позволяют автоматизировать решение многих задач, требующих как численных, так и аналитических вычислений. Среда MathCAD является одной из наиболее приспособленных сред для решения таких задач.

Библиографический список

1. Охорзин, В. А. Прикладная математика в системе MathCAD : учеб. пособие / В. А. Охорзин ; Сиб. гос. аэро-космич. ун-т. Красноярск, 2004.

2. Дьяконов, В. П. MathCAD 8 PRO в математике, физике и Internet / В. П. Дьяконов, И. В. Абраменкова. М. : Нолидж, 1999.

V. A. Okhorzin

NUMERICALLY-ANALYTICAL DECISION OF OPTIMAL CONTROL PROBLEM

The numerically-analytical method of the decision of optimal control problems by the nonlinear systems described by the ordinary differential equations, in computing MathCAD environment is considered.

ХЦК 681.513

А. В. Лапко, В. А. Лапко

НЕПАРАМЕТРИЧЕСКИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ ОБРАЗОВ ДЛЯ МНОГОАЛЬТЕРНАТИВНОЙ ЗАДАЧИ КЛАССИФИКАЦИИ, ОСНОВАННЫЕ НА ДЕКОМПОЗИЦИИ ОБУЧАЮЩЕЙ ВЫБОРКИ ПО ЕЕ РАЗМЕРНОСТИ1

Предложена методика синтеза многоуровневых непараметрических систем распознавания образов для многоальтернативной задачи классификации с позиций принципов декомпозиции обучающей выборки и коллективного оценивания. Их применение обеспечивает высокую вычислительную эффективность обработки информации большой размерности

Введение. Методика синтеза непараметрических систем распознавания образов для двуальтернативной задачи классификации с использованием принципов декомпозиции обучающей выборки по ее размерности впервые была предложена в [ 1; 2].

Этот подход состоит в построении семейства частных решающих функций, соответствующих различным наборам признаков классифицируемых объектов, с их последующей интеграцией в нелинейном решающем правиле с помощью методов непараметрической статистики [3; 4]. При этом формирование обобщенного решения о принадлежности ситуации к тому или иному классу осуществляется в пространстве значений частных решающих функций. Полученные многоуровневые непараметрические алгоритмы обеспечивают эффективное решение двуальтернативных задач распознавания образов в условиях обучающих выборок значительной размерности на

основе использования принципов коллективного оценивания и технологии параллельных вычислений.

В многоальтернативной задаче классификации переход в пространство вторичных признаков (значения частных решающих функций) сопряжен с увеличением размерности задачи распознавания образов, что затрудняет ее решение при ограниченных объемах обучающих выборок. Применение последовательных процедур классификации методом дихотомии в этом случае приводит к снижению вычислительной эффективности непараметрических алгоритмов распознавания образов.

Авторами была разработана методика построения непараметрических классификаторов для многоальтернативной задачи распознавания образов, основанная на декомпозиции обучающей выборки по ее размерности.

Синтез двухуровневой непараметрической системы классификации. Пусть V = (х', о(х'), ' = 1, п- -обуча-

1 Работа выполнена при поддержке Российского фонда фундаментальных исследований (код проекта 07-01-00006).

ющая выборка объема п , составленная из значений признаков х' = (Х , х'2,..., х\) классифицируемых объектов и соответствующих «указаний учителя» а(х' - об^их принадлежности к одному из М классов Оу, у = 1, М .

Будем считать, что признаки х классифицируемых объектов допускают разбиение на группы независимых признаков х() = (ху (), V е I - - = 1, Т , где 11 - множество номеров признаков, составляющих их набор х (). Приведем методику разбиения х .

Условные плотности вероятности распределения значений признаков ху, V = 1, к в области определения классов р. (х), у = 1,М неизвестны. При этом отношение «объем выборки - размерность» (п/к) недостаточно для построения эффективных статистик оценивания

Р. (х), } = 1 М .

В данных условиях для решения многоальтернативной задачи распознавания образов необходимо выполнить следующие действия.

1. Сформировать независимые наборы признаков хX), t = 1, Т и на этой основе осуществить декомпозицию исходной выборки V = (х', а(х'),' = 1, п ) начас-ти VХ) = (х Х(, а(х'),' = 1, п), t = 1, Т.

2. По полученным данным построить решающие правила т1 (х' Х)), соответствующие, например, критерию максимального правдоподобия

т, (х^)): хеОу,

если р. (х Х ))= щах р7(х X)), t = 1, Т. (1)

В качестве оценок условных плотностей вероятности х() = (х„, V е I) в классах О., у = 1, М используют непараметрические статистики типа Розенблатта-Парзена [3; 4]:

Сравним вычислительную эффективность предложенной двухуровневой системы классификации и традиционного непараметрического алгоритма парзеновско-го типа [5]. Будем считать, что время расчета одной ядерной функции составляет Т, размерность наборов при-------------------- к

знаков х (), t = 1, Т одинакова и равна к1 = — .

Тогда оценка максимального времени, необходимого для принятия решения традиционным непараметрическим алгоритмом и предлагаемой системой составляют соответственно значения = птк, г = пк1т Т . Вы-

числим их отношение:

тр

С

Ш

у = 1, М . (2)

Оптимизация частных решающих правил (1) по коэффициентам размытости ядерных функций су, V е 11 осуществляется в режиме «скользящего экзамена» исходя из условия минимума статистической оценки вероятности ошибки распознавания образов:

)=11 () а(х‘ х))),

п 1=1

t = ГТ, (3)

1 (), о(х‘ х )))^

0, если а(х‘) = а(х1 X)),

1, если а(х’ )^а(х‘ х)),

где а(х1 х)) - решение алгоритмом (1) о принадлежности ситуации х1 X) к одному из М классов Оу., у = 1, М.

При формировании решения а(х1 ()) ситуация х1 ()

исключается из процесса обучения в непараметрической статистике (2).

3. Учитывая предположение о независимости наборов признаков х X), t = 1, Т , построить решающее правило т (х): хеО.,

т. е. вычислительная эффективность сравниваемых методов одинакова. Однако при использовании технологии параллельных вычислений время принятия решений в предлагаемой системе меньше в Т раз по сравнению с традиционным непараметрическим алгоритмом.

Формирование слабо зависимых наборов признаков классифицируемых объектов. Представим метод декомпозиции исходного пространства признаков, основанный на принципах обучения и аппарате теории графов.

Методика формирования статистически независимых наборов признаков предполагает выполнение следующих действий.

1. Вычислить оценки ошибок распознавания образов р., у = 1, к в пространстве каждого признака х., у = 1, к .

2. Сформировать сочетание пар признаков х1, ху и вычислить соответствующие им оценки ошибок распознавания образов р. , ', у = 1, к, ' ^ у .

3. Провести анализ полученных результатов. Построить граф, в котором вершины соответствуют исходным признакам классифицируемых объектов. Между двумя вершинами графа х1, ху имеется ребро, если произведение р' ру достоверно с некоторым уровнем доверия в отличается от оценки ошибки распознавания ри .

4. Осуществить декомпозицию графа на компоненты, обладающие свойством сильной связности. В таких подграфах каждая вершина соединена ребрами со всеми остальными вершинами.

Наборы признаков, соответствующие выделенным компонентам, определяют количество и распределение признаков х х), t = 1, Т между уровнями структуры системы классификации.

Синтез трехуровневой непараметрической системы классификации. Рассмотрим методику построения непараметрических систем классификации в многоальтернативной задачах распознавания образов на основе принципов декомпозиции обучающей выборки, технологии параллельных вычислений и метода дихотомии.

Для этого разобьем обучающую выборку V на части Vу = (, а'(),' е 1у), у = 1, М—1,

где

с'() =

если

— 1, если х' е О у,

М

1, если х' еОу = и О,;

t=у+1

1у - множество номеров точек из выборки V, принадле- метрической системы классификации в соответствии с жащих классам Оґ, ґ = у, М . правилом

В соответствии с особенностями условий классифи- \ х еО

кации сформируем наборы признаков х(ґ), ґ = і, Т и на этой основе проведем декомпозицию каждой выбор-

ки Vj, у = 1, М — 1 на части

Vj X) = ( х(, а'('),' е 1у), t = 1/Т .

По полученным выборкам Vj (), t = 1, Т, у = 1, М — 1 построим решающие правила классификации

М

между классом О . и областью У Оу :

•1=у+1

хх)еОу, если /у- (хX))< 0;

т (х):

Xх (ґ )):

если Ру ( (х(ґ)), ґ = 1, Т) > 0 , у=Ц-і и Р] ( (х X)), t = ГГ )< 0,

х (ґ )еОм,

если Рм-і (7м-г,м (хX)) > ґ = 1 Т) > 0 •

Структура предложенной непараметрической системы распознавания образов представлена ниже (см. рисунок).

л{1)

*(г)

л{1)

л<Г)

х (ґ )еО-, если /у- (х (ґ ))> 0:

t = 1, Т, у = 1, М — 1. Непараметрические оценки уравнений разделяющих поверхностей /у у (х х)) между классом О . и областью

М

О у = И О7 имеют вид

-j - у

+1

](х (ґ )) =

п' П<

1с'(0Пф

ху (ґ)-х\ (ґ)

t = 1, Т, у = 1, М — 1, (4)

где п . - количество элементов множества 1у,

у = 1, М—1. _ _'

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Выбор параметров с\, V е Ку, t = 1, Т , у = 1, М — 1 при оптимизации частных решающих правил (4) осуще-

Структура непараметрической системы классификации для многоальтернативной задачи распознавания образов, основанной на ее декомпозиции и методе дихотомии

Следуя введенным ранее условиям, оценим макси-

ствляется в режиме «скользящег° экзамена» исходя из мальное время формирования решений рассматривае-условия минимума статистик типа (3).

Используя непараметрические оценки уравнений разделяющих поверхностей (4), по результатам вычислительных экспериментов сформируем обучающие выборки

( ((ґ( ґ =1 Т, с(i), 1 е 1у )

у = і, М -1 _ _

и построим в пространстве значений /уу (х(ґ)), ґ = і, Т решающие правила:

х еО ,

'(х):

если р (х()), ґ = 1, Т) < 0,

х еО

у

гдеРУ(у (х )) =

если Ру ( (х(ґ)), ґ = 1, Т) > 0 ,

/Л (х())-/п (х (ґ))

мой непараметрической системы классификации при использовании параллельных вычислительных технологий. Нетрудно показать, что преимущество предлагаемой

к

системы достигается при к > 4 и — + Т < к .

Таким образом, выше предложены двух- и трехуровневые непараметрические системы для решения многоальтернативных задач распознавания образов в пространстве значительной размерности. Методическую основу их синтеза составляют принципы декомпозиции обучающей выборки и коллективного оценивания, что позволяет использовать технологию параллельных вычислений. Определены условия, накладываемые на параметры структуры рассматриваемых систем, при которых обеспечивается существенное сокращение времени формирования решений по сравнению с традиционными непараметрическими классификаторами парзеновского типа [5].

1с'( )Пф

Библиографический список

1. Лапко, А. В. Непараметрические системы обработ-

у= 1, М -1. _

Параметры с , ґ = і, Т непараметрических решающих правил ту (х), у = і, М -1 находим по условию ки неоднородной информации / А. В. Лапко, В. А. Лапко. минимума статистической оценки вероятности ошибки Новосибирск : Наука. Сиб. изд. фирма Сиб. отд-ния Рос.

распознавания образов типа (3).

Обобщенное решение о принадлежности объекта с признаками х формируем на третьем уровне непара-

акад. наук, 2007.

2. Лапко, В. А. Синтез и анализ нелинейных непараметрических коллективов решающих правил в задачах

распознавания образов / В. А. Лапко, А. Н. Капустин // Автометрия. 2006. № 6. С. 26-34.

3. Parzen, E. On estimation of a probability density function and mode / E. Parzen // Ann. Math. Statistic. 1962. Vol. 33. P. 1065-1076.

4. Епанечников, В. А. Непараметрическая оценка многомерной плотности вероятности / В. А. Епанечников //

Теория вероятности и ее применения. 1969. Т. 14. Вып. 1. С. 156-161.

5. Живоглядов, В. П. Непараметрические алгоритмы адаптации / В. П. Живоглядов, А. В. Медведев. Фрунзе : Илим, 1974.

A. V. Lapko, V. A. Lapko

NONPARAMETRIC SYSTEMS OF PATTERN RECOGNITION FOR A MULTIALTERNATIVE PROBLEM THE CLASSIFICATIONS, BASED ON DECOMPOSITION OF TRAINING SAMPLE ON ITS DIMENSION

From positions ofprinciples of decomposition of training sample and technology ofparallel calculations the technique of synthesis multilevel nonparametric systems of pattern recognition for a multialternative problem of classification is offered. Their application provides effective processing the information of the big dimension.

УДК 004.0З2.26 (06)

И. В. Ковалев, E. А. Энгель

ИСПОЛЬЗОВАНА HEЧETKИX HEЙPOCETEBЫX AЛГOPИTMOB В ИHTEЛЛEKTУAЛЬHЫX CTCTEMAX OБPAБOTKИ ИHФOPMAЦИИ

Рассмотрены вопросы применения нечетких нейросетевых алгоритмов для обработки информации. Модифицированы алгоритмы Apriori и PredictiveApriori на основе нечетких нейросетей. Описаны нечеткая нейросе-тевая система Data Mining и результаты ее испытаний на реальных задачах.

Введение. Одним из магистральных направлений развития информационных технологий является переход от обработки данных к обработке знаний, что требует наличия эффективных методов и средств выделения знаний. В настоящее время постоянно увеличивающаяся мощность средств вычислительной техники позволяет внедрять методы интеллектуальной обработки данных во все более широкие области. Этому способствует достигнутый в настоящее время уровень разработки теоретической и практической базы систем с искусственным интеллектом [1]. Важным направлением интеллектуализации обработки данных следует считать появление систем класса Data Mining, назначение которых состоит в автоматизации процессов поиска новых знаний при обработке больших баз данных.

Применение интеллектуализации в обработке данных позволяет использовать формальные модели знаний в условиях недостатка квалифицированных исполнителей и существенно повысить уровень обработки данных за счет использования новых моделей представления данных.

В настоящее время большинство программных продуктов, таких как SAS Enterprise Miner, PolyAnalyst, WEKA, в основу которых положены идеи Data Mining, ориентировано на использование в сфере бизнеса, однако средства интеллектуального анализа данных находят применение таких областях, как медицина, биология, физические исследования, телекоммуникационные системы.

Авторами было проведено исследование эффективности применения алгоритмов Data Mining, в частности

нечетких нейросетевых алгоритмов ассоциации, для выделения различных участков телеметрической информации (ТМИ). Исходными данными являются множество телеметрических (ТМ) сигналов, снятых с реальных объектов. Требуется построить нейросетевые классификаторы на основе нечетких ассоциативных правил и оценить ошибку построенных классификаторов.

Особенности задачи анализа ТМИ. Типовой задачей анализа ТМИ является задача обработки быстроменяю-щихся параметров (БМП). Применение систем автоматического приобретения знаний в задаче обработке ТМИ открывает пути к созданию эффективных программных комплексов обработки ТМИ, использование которых возможно при минимальных затратах человеческих ресурсов.

Основные этапы анализа ТМИ с использованием технологии Data Mining представлены ниже (рис. 1). Процесс приобретения знаний основан на построении нечетких продукционных правил, описывающих особенности ТМИ-сигнала. На основе нечетких продукционных правил строятся нейросетевые классификаторы [2]. Примерами классов выделяемых событий могут являться временные участки соответствующие ударным вибрациям, вибрациям на переходных режимах, вибрациям на установившихся стационарных, квазистационарных режимах.

Процесс приобретения знаний состоит из нескольких этапов:

- предварительной обработки сигнала и получения векторного описания сигнала с использованием спект-

i Надоели баннеры? Вы всегда можете отключить рекламу.