Научная статья на тему 'Способы бинаризации разнотипных признаков в задачах классификации'

Способы бинаризации разнотипных признаков в задачах классификации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
569
95
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кузьмич Р. И., Гулакова Т. К., Масич И. С.

Рассматривается бинаризация исходной информации в задачах классификации данных, когда объекты описываются разнотипными признаками: номинальными, порядковыми, количественными.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Способы бинаризации разнотипных признаков в задачах классификации»

Таблица 2

Параметры алгоритма

Параметры PSO Значения

Параметр ограничения скорости Задается равным половине интервала поиска: (Правая граница - Левая граница)/2

Параметр с1 2

Параметр с2 2

Таблица 3

Параметры инерции скорости, соответствующие максимальным надежностям тестируемых

функций для всех размерностей

Функции Размерность

2 3 4

Параметр инерции - max Надежность Параметр инерции - max Надежность Параметр инерции - max Надежность

Розенброка 0,55-0,854 0,4-0,95 0,5-1

Растригина 0,5-0,86 0,5-0,766 0,55-0,846

Гринвака 0,4-0,974 0,55-0,748 0,45-0,708

Вейрштрассе 0,5-0,914 0,25-0,974 0,4-0,986

Экли 0,4-0,962 0,45-0,99 0,45-0,99

Швефеля 0,5-0,992 0,4-1 0,45-1

Сферическая 0,45-1 0,35-1 0,35-1

Сферической, где при значении параметра инерции скорости больше 0,7 надежность резко уменьшается практически до 0. Согласно исследованиям максимальные надежности тестируемых функций получились при следующих значениях параметра инерции скорости (табл. 3).

Согласно таблице 3 максимум эффективности работы алгоритма определен для значений параметра инерции скорости в интервале [0,4; 0,55] - для размерности 2, [0,25; 0,55] - для размерности 3, [0,35; 0,55] - для размерности 4. В результате проведенных исследований было установлено существенное влияние значения параметра инерции скорости на эффективность работы алгоритма Р80. Установлен интервал значений параметра инерции скорости, который обеспечивает высокую эффективность работы алгоритма при оптимизации широкого

класса тестовых функций для размерности от 2 до 4 переменных. Для подтверждения существенного влияния параметра инерции скорости для задач более высокой размерности необходимо проведение дополнительных исследований.

Библиографические ссылки

1. Kennedy J., Eberhart R. Particle Swarm Optimization : Proceedings of IEEE International Conference on Neural Networks (ICNN'95), Vol. IV. Perth, Australia, 1995. Р. 1942-1948.

2. Kennedy J., Eberhart R. Swarm Intelligence. Morgan Kaufmann Publishers, 2001.

© Кузьмич Р. И., Бежитский С. С., 2010

УДК 519.68

Р. И. Кузьмич, Т. К. Гулакова Научный руководитель - И. С. Масич Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

СПОСОБЫ БИНАРИЗАЦИИ РАЗНОТИПНЫХ ПРИЗНАКОВ В ЗАДАЧАХ КЛАССИФИКАЦИИ

Рассматривается бинаризация исходной информации в задачах классификации данных, когда объекты описываются разнотипными признаками: номинальными, порядковыми, количественными.

Типичная задача распознавания может быть сформулирована следующим образом. Имеется выборка данных, которая состоит из двух непересекающихся множеств и «-мерных векторов. Каждый вектор соответствует некоторому наблюдению. Компоненты векторов (называемые признака-

ми, переменными, характеристиками или атрибутами) представляют собой результаты определенных измерений, тестов [1].

Задача состоит в том, чтобы на основании имеющейся выборки данных классифицировать новое наблюдение, которое не содержится в выборке.

Актуальные проблемы авиации и космонавтики. Информационные технологии

В основе предлагаемого подхода к классификации данных лежит метод, происходящий из теории комбинаторной оптимизации и называемый логическим анализом данных [1].

Рассматриваемый метод предназначен для работы с выборками данных, в которых признаки принимают бинарные значения. Так как исходная выборка может состоять из разнотипных признаков, необходимо бинаризировать эти данные.

С данной целью рассматривается процесс построения бинарных функций от исходных признаков. Пусть некоторый предикат, определенный на множестве объектов X. Предикат называют закономерностью, если он выделяет достаточно много объектов какого-то одного класса с, и практически не выделяет объекты других классов [1]. Объекты класса с называют позитивными, а объекты других классов - негативными.

Информативность предиката тем выше, чем больше объектов он выделяет, и чем меньше среди них негативных. Выделение негативного объекта является, по сути дела, ошибкой предиката. Не выделение позитивного объекта также можно считать ошибкой, но менее серьёзной, поскольку от закономерностей не требуется выделять все объекты. Объект, не выделенный одной закономерностью, может быть выделен другой.

Возникает вопрос, в каком множестве предикатов следует искать информативные закономерности? Это множество называют еще пространством поиска.

Наиболее прост тот случай, когда все исходные признаки являются бинарными, тогда пространство поиска образуется самими признаками и всевозможными булевыми функциями, которые из этих признаков можно построить.

Несколько сложнее дело обстоит в тех случаях, когда объекты описываются разнотипными признаками: номинальными, порядковыми, количественными. Тогда пространством поиска становятся всевозможные бинарные функции от исходных признаков. Процесс построения таких функций называют бинаризацией исходной информации.

Произвольный признак /X ^ Б/ порождает семейство предикатов, проверяющих попадание значения /х) в определенные подмножества множества Б/. Перечислим наиболее типичные конструкции такого вида [2]:

Если / - номинальный признак:

Р(х) = [[(х) = а], а е Б/ ;

Р(*)=[/ (х)е Б'], Б' с Б;.

Если / - порядковый или количественный признак:

р(х) = [/(х)< а], а е Б/ ; р(х) = [/ < / (х) < а'], а, а' е б/ , а < а'.

В случае количественных признаков /X ^ Б/ имеет смысл брать только такие значения порогов а,

которые по-разному разделяют выборку X1. Если исключить тривиальные разбиения, обращающие Р(х) в 0 или 1 на всей выборке, то таких значений окажется не более 1-1. Например, можно взять пороги вида:

á = f (i)+ f ( +')

' 2 ' f (i) ф f (i+1)

i = 1,..., l - 1,

(1)

где /1)<...</1) - последовательность значений признака /на объектах выборки/(х1), ...,/х{), упорядоченная по возрастанию (рис. 1).

/(1) /(2) —•-1-—t-

■ I' I

til í'/э

dt-1

Рис. 1. Вариационный ряд значений признака /х) и пороги а1

Если полученные предикаты в дальнейшем они будут использоваться для синтеза конъюнкций, то для сокращения перебора имеет смысл сразу отобрать из них наиболее информативные. В случае порядковых и количественных признаков данная задача решается путем оптимального разбиения диапазона значений признака на зоны [2].

Пусть / Х^Я — числовой признак, а\, ..., аг — возрастающая последовательность порогов. Зонами значений признака / будем называть предикаты вида:

Со(х)=[/(х)< а,];

с,(х)=[а, < /(х)< ] s = 1,...,г -1;

с г (х)=а < / (х)].

Например, жадный алгоритм слияния зон начинает с разбиения на «мелкие зоны». Пороги определяются по формуле (1) и проходят между всеми парами точек х,-1, х, ровно одна из которых принадлежит классу с. Итак, начальное разбиение приведено на рисунке 2 и состоит из чередующихся зон «только с - только не с».

Рис. 2. Начальное разбиение на зоны позитивных (х) и негативных (•) объектов

Далее зоны укрупняются путем слияния троек соседних зон. Именно троек - слияние пар приводит к нарушению чередования «с - не с», в результате некоторые «мелкие зоны» могут так и остаться не-слитыми. Зоны сливаются до тех пор, пока информативность некоторой слитой зоны ^м ^,+1 превышает информативность исходных зон ^м, 0 и О+ъ либо пока не будет получено заданное количество зон г. Каждый раз выбирается та тройка, при

слиянии которой достигается максимальный выигрыш информативности.

Библиографические ссылки

1. Масич И. С. Комбинаторная оптимизация в задаче классификации // Системы управления и информационные технологии. 2009. № 1.2(35). С. 283-288.

2. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. М. : ФАЗИС, 2006.

© Кузьмич Р. И., Гулакова Т. К., Масич И. С., 2010

УДК 621,314,2

И. С. Лыткин Научный руководитель - Е. С. Семенкин Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ОБ ЭВОЛЮЦИОННОМ ФОРМИРОВАНИИ НЕЙРОСЕТЕВЫХ СИСТЕМ

ПОДАВЛЕНИЯ ШУМА

Для проектирования систем подавления шума предлагается использовать нейросетевые модели. При автоматизации проектирования таких систем предлагается использовать алгоритм генетического программирования для генерирования нейросетей произвольной структуры и генетический алгоритм для настройки весовых коэффициентов. Показано, что с помощью такого подхода можно получить более простую нейросетевую систему, обладающую лучшими характеристиками подавления шума, чем полученные «вручную» нейронные сети.

Современные системы распознавания, передачи и обработки сигналов, функционирующие в неблагоприятных условиях, таких как, например, движущийся автомобиль, большое число сторонних источников сигнала и т. д., оперируют с большим числом окружающих шумов, что приводит к существенному понижению эффективности подобного рода систем и требует разработки современных методов подавления помех [1].

Теоретической основой фильтрации шумов служит спектральный анализ, алгоритмической основой которого являются быстрые преобразования Фурье. Применение спектрального анализа и классических фильтров требует аккуратной настройки множества параметров, что делает очень трудным осуществление автоматизации проектирования систем шумоподавления. Все это приводит к необходимости поиска новых подходов. Одним из таких подходов могло бы стать использование интеллектуальных информационных технологий, интенсивно развиваемых последние три десятилетия [2].

Ключевым преимуществом интеллектуальных информационных технологий является их способность автоматически настраиваться на конкретную задачу и адаптироваться к изменяющимся условиям, а также возможность автоматизации их проектирования эволюционными алгоритмами. Это позволяет сделать вывод об актуальности выбранной темы и о перспективности исследуемого в ней подхода.

На сегодняшний момент существует несколько методов подавления шумов. Каждый из этих методов, а также их комбинации, можно применять для эффективного решения задачи подавления шумов. Однако, при этом все они имеют определенные ограничения и некоторые недостатки.

Для смягчения этих ограничений и устранения недостатков необходимо создавать системы подавления шумов, которые:

1. Не требуют изменения внешних параметров приема сигнала.

2. Не требуют априорной информации о сигнале или шуме.

3. Могут проектироваться в автоматизированном режиме.

Для решения поставленной таким образом задачи целесообразно применять интеллектуальные информационные технологии.

Для адаптации интеллектуальной технологии к задаче подавления шумов использовалась программная среда Matlab Neural Network Toolbox.

В результате анализа множества структур нейронных сетей и их настройки выявлено, что наиболее простой и эффективно решающей задачу подавления шума является сеть прямого распространения с обратным распространением ошибки. Полученная сеть имеет следующие характеристики: 1 скрытый слой, 5 нейронов на слое, функция активации - дву-полярная сигмоида, среднее время обучения - 1 с, ошибка обучения - 0,01, среднее отношение сигнал/шум - -9,2 dB до обучения и 16,3 dB после обучения, средняя дисперсия обработанного сигнала -0,0179, количество ложных срабатываний - 55.

Для автоматизации подбора структуры сети и настройки коэффициентов была использована программа, основанная на методе генетического программирования [3]. Многократный прогон алгоритма показал, что при каждом прогоне удается получать эффективную нейронную сеть, успешно решающую задачу подавления шума. Типичная получаемая структура представлена на рис. 1.

i Надоели баннеры? Вы всегда можете отключить рекламу.