Научная статья на тему 'Использование деревьев решений в задачах классификации и идентификации радиосигналов'

Использование деревьев решений в задачах классификации и идентификации радиосигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
169
46
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Виноградов А. Н., Лебедев А. Н., Терешонок М. В.

Деревья решений позволяют свести анализируемые данные к набору простых правил, представленных в виде иерархической структуры дерева. Представлены результаты использования алгоритмов построения деревьев решений для идентификации радиоизлучений, а также приведены полученные практические результаты.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Виноградов А. Н., Лебедев А. Н., Терешонок М. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование деревьев решений в задачах классификации и идентификации радиосигналов»

Использование деревьев решений в задачах классификации и идентификации радиосигналов

ДЕРЕВЬЯ РЕШЕНИЙ ПОЗВОЛЯЮТ СВЕСТИ АНАЛИЗИРУЕМЫЕ ДАННЫЕ К НАБОРУ ПРОСТЫХ ПРАВИЛ, ПРЕДСТАВЛЕННЫХ В ВИДЕ ИЕРАРХИЧЕСКОЙ СТРУКТУРЫ - ДЕРЕВА. ПРЕДСТАВЛЕНЫ РЕЗУЛЬТАТЫ ИСПОЛЬЗОВАНИЯ АЛГОРИТМОВ ПОСТРОЕНИЯ ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ИДЕНТИФИКАЦИИ РАДИОИЗЛУЧЕНИЙ, А ТАКЖЕ ПРИВЕДЕНЫ ПОЛУЧЕННЫЕ ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ.

Виноградов А.Н.,

ведущий инженер-программист МТУСИ,

[email protected]

Лебедев А.Н.,

заведующий лабораторией МТУСИ,

[email protected]

Терешонок М.В.,

аспирант МТУСИ, [email protected]

В течение последних лет наблюдается значительный рост мощности компьютерной техники и объема сведений, накапливаемых в базах данных радиомониторинга. Данное обстоятельство обусловливает необходимость автоматизированной обработки накопленной информации с использованием систем интеллектуального анализа данных и их отдельного направления — "добычи знаний" ("Data Mining"). Наиболее популярные подходы в рассматриваемом классе аналитических систем реализуют алгоритмы построения деревьев решений и ограниченного перебора. Немаловажной особенностью данных алгоритмов является то, что результаты их работы прозрачны для восприятия человеком и могут быть легко интерпретируемы оператором-аналитиком.

Деревья решений позволяют свести анализируемые данные к набору простых правил, представленных в виде иерархической структуры — дерева. Корень дерева неявно содержит все классифицируемые данные, а листья — определенные классы после выполнения классификации. Промежуточные узлы дерева представляют пункты принятия решения о выборе или выполнения тестирующих процедур с атрибутами элементов данных, которые служат для дальнейшего разделения в этом узле (см. рисунок).

Входной информацией для системы по-

строения деревьев решений является обучающая выборка. Обучающая выборка содержит множество примеров (объектов), каждый из которых характеризуется фиксированным набором атрибутов, причем один из них обязательно должен указывать на принадлежность объекта к определенному классу. Применительно к базам данных можно сказать, что несколько полей таблицы содержат параметры объекта, а одно поле указывает на принадлежность объекта к классу. Выходом системы являются построенное по обучающей выборке дерево решений, отражающее найденные скрытые закономерности, и выявленный в ходе анализа набор признаков, достаточный для проведения классификации новых объектов.

Необходимым условием успешного применения системы является выполнение следующих требований [2].

— Перечень классов, с которыми в дальнейшем будет оперировать экспертная система, необходимо сформулировать зара-

нее. Алгоритмы не способны формировать перечень классов на основе группировки объектов из обучающей последовательности. Кроме того, классы должны быть четко очерченными, а не "расплывчатыми" — некоторый объект либо принадлежит к данному классу, либо нет. Другими словами, система пытается найти ответы на вопросы: "какие наборы атрибутов характерны для каждого из классов, существуют ли закономерности, позволяющие в дальнейшем идентифицировать объекты, принадлежащие данному классу?"

— Применяемые в системе методы обучения требуют использования обучающих выборок большого объема. При малом объеме на полученных в результате правилах будут сказываться индивидуальные особенности объектов, что может привести к неверной классификации незнакомых объектов.

— Данные в обучающей выборке должны быть представлены в формате "атрибут значение", т.е. каждый объект должен быть

Класс У л» П

Объект 3 65.81 408

Объект 4 34.19 212

Всего: 100 п 620

Частота

_____J_____

> 1261.717

I

Объект 3 99.13 227

Объект 4 0.87 2

-------1

<=1261.717

Всего: 36.94 229

Объект 3 46.29 181

Объект 4 53.71 210

Всего: 63.06 391

V

Уровень

I > 0.695 ! <= 1 0.695 1

I Объект 3 100 163 Объект 3 7.89 18 I

Объект 4 0 0 Объект 4 92.11 210

Всего: 26.29 163 Всего: 36.77 228

Структура дерева решений

охарактеризован в терминах фиксированного набора атрибутов и их значений для данного объекта. Существуют методы обработки, которые позволяют справиться и с пропущенными атрибутами. Предполагается, что в таких случаях выход соответствующей тестирующей процедуры будет в вероятностном смысле распределен по закону, определенному на основе параметров только тех объектов, в которых такой атрибут определен.

В области классификации радиоизлучений можно использовать как подход, базирующийся на деревьях решений, так и обычные статистические методы. Выбор первого подхода дает определенные преимущества. Этот подход не требует знания никаких априорных статистических характеристик классифицируемого множества объектов, в частности, функций распределения значений отдельных атрибутов (использование статистических методов зачастую основано на предположении об априорной известности закона распределения значений атрибутов [1]). Как показали эксперименты с экспертными системами классификации разных типов [3], те из них, в которых используются деревья решений, выигрывают по сравнению с другими по таким показателям, как точность классификации, устойчивость к возмущениям и скорость вычислений.

На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений — CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Наиболее широко распространенным из них является алгоритм C4.5 [4] — усовершенствованная версия алгоритма ID3 (Iterative Dichotomizer). Алгоритм использует последовательность тестовых процедур, с помощью которых множество S разделяется на подмножества, содержащие объекты только одного класса. Ключевой в алгоритме является процедура построения дерева решений, в котором промежуточные узлы соответствуют тестовым процедурам, каждая из которых имеет дело с единственным атрибутом объектов из обучающей выборки.

Пусть Т представляет любую тестовую процедуру, связанную с одним из атрибутов, а (Q1,Q2, ..., Qn} — множество допустимых выходных значений такой процедуры при ее применении к произвольному объекту х. Применение процедуры Т к объекту х будем обозначать как Т(х). Следовательно, процедура Т(х) разбивает множество S на составляющие {S1, S2,..., Sn}, такие, что

Si ={х|Т(х^}.

Если рекурсивно заменять каждый узел Si поддеревом, то в результате будет построено дерево решений для обучающей выборки S. Как уже отмечалось выше, ключевым фактором в решении этой проблемы является выбор тестовой процедуры — для каждого поддерева нужно найти наиболее подходящий атрибут, по которому можно выполнять дальнейшее разделение объектов.

Используем для этого заимствованное из теории информации понятие энтропии. Энтропия — это число, описывающее объем информации, содержащейся в множестве сообщений М= {т1,т2, ...,тп}. Вероятность получения определенного сообщения тн из этого множества определим как р(тн). Объем информации, содержащейся в этом сообщении, будет в таком случае равен

1Н = -Ьд рЦ). (1)

Таким образом, объем информации в сообщении связан с вероятностью получения этого сообщения обратной монотонной зависимостью. Поскольку объем информации измеряется в битах, логарифм в этой формуле берется по основанию 2.

Энтропия множества сообщений и(М) является взвешенной суммой количества информации в каждом отдельном сообщении, причем в качестве весовых коэффициентов используются вероятности получения соответствующих сообщений:

и(М) = — X i рЦ) ЬдрЦ), i=1, ..., п, (2)

Чем большую неожиданность представляет получение определенного сообщения из числа возможных, тем более оно информативно. Если все сообщения в множестве равновероятны, энтропия множества сообщений достигает максимума.

Способ построения дерева решений базируется на следующих предположениях:

• корректное дерево решений, сформированное по обучающей выборке S, будет разделять объекты в той же пропорции, в какой они представлены в этой обучающей выборке;

• для какого-либо объекта, который нужно классифицировать, тестирующую процедуру можно рассматривать как источник сообщений об этом объекте.

Пусть N — количество объектов в S, принадлежащих классу Сг Тогда вероятность того, что произвольный объект с, взятый из S, принадлежит классу С можно оценить по формуле

р(с е С = N/^1, (3)

а количество информации, которое несет такое сообщение, равно

1(с е С = -Ьд2рЦ)(с е С бит. (4)

Теперь рассмотрим энтропию множества целевых классов, считая их также множеством сообщений {С^С2,...,Ск}. Энтропия также может быть вычислена, как взвешенная сумма количества информации в отдельных сообщениях, причем весовые коэффициенты можно определить, опираясь на весомость классов в обучающей выборке:

и(М) = -X =, к р(се Ц) х 1(с е С бит.

(5)

Энтропия и(М) соответствует среднему количеству информации, которое необходимо для определения принадлежности произвольного объекта (с е S) какому-то классу до того, как выполнена хотя бы одна тестирующая процедура. После того, как соответствующая тестирующая процедура Т выполнит разделение S на подмножества ^,^2, ..., Sn), энтропия будет определяться соотношением

и7(М) = -Х= k (|5|/|5,.|)х U(S)

(6)

Полученная оценка показывает, сколько информации еще необходимо после того, как выполнено разделение. Оценка формируется, как сумма неопределенностей сформированных подмножеств, взвешенная в пропорции размеров этих подмножеств.

Из этих рассуждений, очевидно, следует эвристика выбора очередного атрибута для тестирования, используемая в алгоритме, — нужно выбрать тот атрибут, который обещает наибольший прирост информации. Прирост информации Gs(T) после выполнения процедуры тестирования Т по отношению ко множеству S равен

Gs(^] = U(S) — U1^S). (7)

Такую эвристику иногда называют минимизацией энтропии, поскольку увеличивая прирост информации на каждом последующем тестировании, алгоритм тем самым уменьшает энтропию или меру беспорядка в множестве.

Рассмотрим самый простой случай, когда множество целевых классов включает всего два элемента. Пусть п, — это количество объектов класса С1 в множестве обучающей выборки S, а П2 — количество объектов класса С2 в этом же множестве. Таким образом, произвольный объект принадлежит к классу С, с вероятностью п,/(п, + ^), а к классу C2 с вероятностью ^/(п^ ^). Ожидаемое количество информации в множестве сообщений ^={^^2} равно

U(M) = -п,/( п,+ п2) Ьд2(п,/( п,+ п2))-

-п2/( п, + п2) Ьд2(п2/( п,+ п2)). (8)

Отношение (п, + п2;,)/(п,+ п2) соответствует весу каждой /-й ветви дерева. Это отношение показывает, какая часть всех объектов S принадлежит подмножеству Sj.

Недостатком эвристики, основанной на приросте количества информации, является то, что она отдает предпочтение процедурам с наибольшим количеством выходных значений (О,, 02, ..., Оп). Возьмем, например, случай, когда практически бесполезные тесты будут разделять исходную обучающую выборку на множество классов с единственным представителем в каждом. Это произойдет, если обучающую выборку

классифицировать по номеру измерения. Для описанной эвристики именно такой вариант получит преимущество перед прочими, поскольку Ц^) будет равно нулю, и, следовательно, разность Gs(T) = U(S) — Ц^) достигнет максимального значения.

Для заданной тестирующей процедуры Т на множестве данных S, которая характеризуется приростом количества информации Gs(T), возьмем в качестве критерия отбора относительный прирост Hs(T), который определяется соотношением

НДО = Gs(T^| У(Я (9)

где

из = -Х=, к (Щ/Щ) х к^И^).

(,0)

Важно понять, в чем состоит отличие величины У^) от Ц^). Величина У^) определяется множеством сообщений {О,

О2 Оп} или, что то же самое, множеством

подмножеств S2,...,Sn), ассоциирован-

ных с выходными значениями тестовой процедуры, а не с множеством классов (С1, С2,...,Ск}. Таким образом, при вычислении величины У^) принимается во внимание множество выходных значений теста, а не множество классов.

Новая эвристика состоит в том, что выбирается та тестирующая процедура, которая максимизирует определенную выше величину относительного прироста количества информации. Теперь те пустые тесты, о

которых было упомянуто выше и которым прежний алгоритм отдал бы преимущество, окажутся наименее предпочтительны, поскольку для них знаменатель будет равен log2(N), где N — количество элементов в обучающей выборке.

Описанный алгоритм успешно применялся авторами при обработке достаточно больших обучающих выборок, основанных на информации сигнально-параметрических баз данных, содержащих до сотен тысяч записей. Скорость работы алгоритма практически линейно зависит от произведения количества объектов в обучающей выборке на количество атрибутов, использованное для их представления. Кроме того, система способна работать с зашумленными и неполными данными, что также немаловажно при решении задачи классификации и идентификации радиоизлучений.

Литература

1. Горелик А.Л., Скрипкин ВА Методы распознавания. — М.: Высшая школа, 1989.

2. Джексон П. Введение в экспертные системы. : Пер. с англ. : Уч. пос. — М.: Издательский дом "Вильямс", 2001.

3. Дюк В., Самойленко А. Data mining: учебный курс. — СПб: Питер, 2001.

4. Quinlan J.R. C4.5: Programs for Machine learning/San Mateo, CA: Morgan Kaufmann, 1993.

i Надоели баннеры? Вы всегда можете отключить рекламу.