Научная статья на тему 'Иcпользование деревьев решений в задачах классификации и идентификации радиосигналов'

Иcпользование деревьев решений в задачах классификации и идентификации радиосигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
132
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Виноградов А. Н., Лебедев А. Н., Терешонок М. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Иcпользование деревьев решений в задачах классификации и идентификации радиосигналов»

^пользование деревьев решений в задачах классификации и идентификации радиосигналов

Виноградов АН., Лебедев А.Н., Терешонок М.В., МТУСИ

В течение последних лет наблюдается значительный рост мощности компьютерной техники и объема сведений, накапливаемых в базах данных радиомониторинга. Данное обстоятельство обуславливает необходимость автоматизированной обработки накопленной информации с использованием систем интеллектуального анализа данных и их отдельного направления — "добычи знаний" ("Data Mining"). Наиболее популярные подходы в рассматриваемом классе аналитических систем реализуют алгоритмы построения деревьев решений и ограниченного перебора. Немаловажной особенностью данных алгоритмов является то, что результаты их работы прозрачны для восприятия человеком и могут быть легко интерпретируемы оператором-аналитиком.

Деревья решений позволяют свести анализируемые данные к набору простых правил, представленных в виде иерархической структуры — дерева. Корень дерева неявно содержит все классифицируемые данные, а листья — определенные классы после выполнения классификации. Промежуточные узлы дерева представляют пункты принятия решения о выборе или выполнения тестирующих процедур с атрибутами элементов данных, которые служат для дальнейшего разделения в этом узле (рис. 1).

Входной информацией для системы построения деревьев решений является обучающая выборка. Обучающая выборка содержит множество примеров (объектов), каждый из которых характеризуется фиксированным набором атрибутов, причем, один из них обязательно должен указывать на принадлежность объекта к определенному классу. Применительно к базам данных можно сказать, что не-

Класс % п

Объект 3 65.81 408

Объект 4 34.19 212

Всего: 100 4=1 620

Частота

Объект 3 46.29 181

Объект 4 53.71 210

Всего: 63.06 391

Уровень

Объект 3 99.13 227

Объект 4 0.87 2

Всего: 36.94 229

> 0.695 <= 0.695

Рис. 1. Структура дерева решений

сколько полей таблицы содержат параметры объекта, а одно поле указывает на принадлежность объекта к классу. Выходом системы является построенное по обучающей выборке дерево решений, отражающее найденные скрытые закономерности, и выявленный в ходе анализа набор признаков, достаточный для проведения классификации новых объектов.

Необходимым условием успешного применения системы является выполнение следующих требований [2]:

— Перечень классов, с которыми в дальнейшем будет оперировать экспертная система, необходимо сформулировать заранее. Алгоритмы не способны формировать перечень классов на основе группировки объектов из обучающей последовательности. Кроме того, классы должны быть четко очерченными, а не "расплывчатыми" — некоторый объект либо принадлежит к данному классу, либо нет. Другими словами, система пытается найти ответы на вопросы: какие наборы атрибутов характерны для каждого из классов, существуют ли закономерности, позволяющие в дальнейшем идентифицировать объекты, принадлежащие данному классу?

— Применяемые в системе методы обучения требуют использовать обучающие выборки большого объема. При малом объеме на полученных в результате правилах будут сказываться индивидуальные особенности объектов, что может привести к неверной классификации незнакомых объектов.

— Данные в обучающей выборке должны быть представлены в формате "атрибут значение", т.е. каждый объект должен быть охарактеризован в терминах фиксированного набора атрибутов и их значений для данного объекта. Существуют методы обработки, которые позволяют справиться и с пропущенными атрибутами. Предполагается, что в таких случаях выход соответствующей тестирующей процедуры будет в вероятностном смысле распределен по закону, определенному на основе параметров только тех объектов, в которых такой атрибут определен.

В области классификации радиоизлучений можно использовать как подход, базирующийся на деревьях решений, так и обычные статистические методы. Выбор первого подхода дает определенные преимущества. Этот подход не требует знания никаких априорных статистических характеристик классифицируемого множества объектов, в частности функций распределения значений отдельных атрибутов (использование статистических методов зачастую основано на предположении об априорной известности закона распределения значений атрибутов [1]). Как показали эксперименты с экспертными системами классификации разных типов [3], те из них, в которых используются деревья решений, выигрывают по сравнению с другими по таким показателям, как точность классификации, устойчивость к возмущениям и скорость вычислений.

На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений — CART, C4.5, NewId, ITrule, CHAID, CN2 и тд Наиболее широко распространенным из них является алгоритм C4.5 [4] — усовершенствованная версия алгоритма ID3 (Iterative Dichotomizer). Алгоритм использует последовательность

тестовых процедур, с помощью которых множество Б разделяется на подмножества, содержащие объекты только одного класса. Ключевой в алгоритме является процедура построения дерева решений, в котором промежуточные узлы соответствуют тестовым процедурам, каждая из которых имеет дело с единственным атрибутом объектов из обучающей выборки.

Пусть Т представляет любую тестовую процедуру, связанную с одним из атрибутов, а (0,,02, ..., Оп} — множество допустимых выходных значений такой процедуры при ее применении к произвольному объекту х. Применение процедуры Т к объекту х будем обозначать, как Т(х). Следовательно, процедура Т(х) разбивает множество Б на составляющие {Б,, Б2,..., Бп}, такие, что

Б,={х|Т(х)=0,}.

Если рекурсивно заменять каждый узел Б1 поддеревом, то в результате будет построено дерево решений для обучающей выборки Б. Как уже отмечалось выше, ключевым фактором в решении этой проблемы является выбор тестовой процедуры — для каждого поддерева нужно найти наиболее подходящий атрибут, по которому можно выполнять дальнейшее разделение объектов.

Используем для этого заимствованное из теории информации понятие энтропии. Энтропия — это число, описывающее объем информации, содержащейся в множестве сообщений М = {т,^, ...,тп}. Вероятность получения определенного сообщения т1 из этого множества определим как р(т,). Объем информации, содержащейся в этом сообщении, будет в таком случае равен

1(т,)=-1од р(т,). (1)

Таким образом, объем информации в сообщении связан с вероятностью получения этого сообщения обратной монотонной зависимостью. Поскольку объем информации измеряется в битах, логарифм в этой формуле берется по основанию 2.

Энтропия множества сообщений 11(М) является взвешенной суммой количества информации в каждом отдельном сообщении, причем в качестве весовых коэффициентов используются вероятности получения соответствующих сообщений:

и(М) = -X, р(т,) 1одр(т,), 1=1, ..., п. (2)

Чем большую неожиданность представляет получение определенного сообщения из числа возможных, тем более оно информативно. Если все сообщения в множестве равновероятны, энтропия множества сообщений достигает максимума.

Способ построения дерева решений базируется на следующих предположениях:

• Корректное дерево решений, сформированное по обучающей выборке Б, будет разделять объекты в той же пропорции, в какой они представлены в этой обучающей выборке.

• Для какого-либо объекта, который нужно классифицировать, тестирующую процедуру можно рассматривать как источник сообщений об этом объекте.

Пусть Ы, — количество объектов в Б, принадлежащих классу С,. Тогда вероятность того, что произвольный объект с, взятый из Б, принадлежит классу С,, можно оценить по формуле

р(с е С,) = Ы/|Б|, (3)

а количество информации, которое несет такое сообщение, равно

1(с е С) = -1од2р(т,)(с е С) бит. (4)

Теперь рассмотрим энтропию множества целевых классов, считая их также множеством сообщений {С^С^...,^}. Энтропия также может быть вычислена как взвешенная сумма количества информации в отдельных сообщениях, причем весовые коэффициенты можно определить, опираясь на весомость классов в обучающей выборке:

и(М) = -Хи,.к р(с е С,) х 1(с е С,) бит. (5)

Энтропия и(М) соответствует среднему количеству информации, которое необходимо для определения принадлежности произвольного объекта (с е Б) какому-то классу до того, как выполнена хотя бы одна тестирующая процедура. После того как соответствующая тестирующая процедура Т выполнит разделение Б на подмножества (Б,,Б2, ..., Бп), энтропия будет определяться соотношением

иТ(М) = - Хи. (|Б|/|Б,|)х и(Б,). (6)

Полученная оценка показывает, сколько информации еще необходимо после того, как выполнено разделение. Оценка формируется как сумма неопределенностей сформированных подмножеств, взвешенная в пропорции размеров этих подмножеств.

Из этих рассуждений, очевидно, следует эвристика выбора очередного атрибута для тестирования, используемая в алгоритме, — надо выбрать тот атрибут, который обещает наибольший прирост информации. Прирост информации GБ(T) после выполнения процедуры тестирования Т по отношению ко множеству Б равен

GБ(T) = и(Б) — иТ(Б). (7)

Такую эвристику иногда называют минимизацией энтропии, поскольку увеличивая прирост информации на каждом последующем тестировании, алгоритм тем самым уменьшает энтропию или меру беспорядка в множестве.

Рассмотрим самый простой случай, когда множество целевых классов включает всего два элемента. Пусть п, — это количество объектов класса С, в множестве обучающей выборки Б, а п2 — количество объектов класса С2 в этом же множестве. Таким образом, произвольный объект принадлежит к классу С, с вероятностью п,/(п,+ п2), а к классу С2 — с вероятностью п2/(п, + п2). Ожидаемое количество информации в множестве сообщений М^С^С^ равно

и(М) = -п,/( п,+ п2) 1од2(п,/( п, + п2))- п2/

( п,+ п2) 1од2(п2/( п,+ п2)). (8)

Отношение (п,, + п2,,)/(п, + п2) соответствует весу каждой ьй ветви дерева. Это отношение показывает, какая часть всех объектов Б принадлежит подмножеству Б,.

Недостатком эвристики, основанной на приросте количества информации, является то, что она отдает предпочтение процедурам с наибольшим количеством выходных значений (О,, О2, ..., 0п). Возьмем, например, случай, когда практически бесполезные тесты будут разделять исходную обучающую выборку на множество классов с единственным представителем в каждом. Это произойдет, если обучающую выборку классифицировать по номеру измерения. Для описанной эвристики именно такой вариант получит преимущество перед прочими, поскольку ит(Б) будет равно нулю и, следовательно, разность GБ(T) = и(Б) — и^Б) достигнет максимального значения.

Для заданной тестирующей процедуры Т на множестве данных

Б, которая характеризуется приростом количества информации GБ(T), возьмем в качестве критерия отбора относительный прирост Нб(Т), который определяется соотношением

НбГО = GБ(T)| У(Б), (9)

где

У(Б) = -X (|Б|/|Б,|) х Ьд2(|Б|/|Б,|). (,0)

Важно понять, в чем состоит отличие величины У(Б) от и(Б). Величина У(Б) определяется множеством сообщений {О,, 02,...,0п} или, что то же самое, множеством подмножеств (Б,, Б2,...,Бп), ассоциированных с выходными значениями тестовой процедуры, а не с множеством классов (С,, С2,...,Ск}. Таким образом, при вычислении величины У(Б) принимается во внимание множество выходных значений теста, а не множество классов.

Новая эвристика состоит в том, что выбирается та тестирующая процедура, которая максимизирует определенную выше величину относительного прироста количества информации. Теперь те пустые тесты, о которых было упомянуто выше и которым прежний алгоритм отдал бы преимущество, окажутся наименее предпочтительны, поскольку для них знаменатель будет равен 1од2(Ы), где N — количест-

во элементов в обучающей выборке.

Описанный алгоритм успешно применялся авторами при обработке достаточно больших обучающих выборок, основанных на информации сигнально-параметрических баз данных, содержащих до сотен тысяч записей. Скорость работы алгоритма практически линейно зависит от произведения количества объектов в обучающей выборке на количество атрибутов, использованное для их представления. Кроме того, система способна работать с зашумленными и неполными данными, что так же немаловажно при решении задачи классификации и идентификации радиоизлучений.

Литература

1. Горелик АЛ., Скрипкин ВА Методы распознавания. — М.: Высшая школа, 1989.

2. Джексон П. Введение в экспертные системы: Пер. с англ. Учебное пособие. — М.: Издательский дом "Вильямс", 2001.

3. Дюк В., Самойленко А. Data mining: учебный курс. — СПб.: Питер, 2001.

4. Quinlan J.R. C4.5: Programs for Machine learning/ San Mateo, CA Morgan Kaufmann, 1993.

i Надоели баннеры? Вы всегда можете отключить рекламу.