Использование деревьев решений в задачах классификации и идентификации радиосигналов
ДЕРЕВЬЯ РЕШЕНИЙ ПОЗВОЛЯЮТ СВЕСТИ АНАЛИЗИРУЕМЫЕ ДАННЫЕ К НАБОРУ ПРОСТЫХ ПРАВИЛ, ПРЕДСТАВЛЕННЫХ В ВИДЕ ИЕРАРХИЧЕСКОЙ СТРУКТУРЫ - ДЕРЕВА. ПРЕДСТАВЛЕНЫ РЕЗУЛЬТАТЫ ИСПОЛЬЗОВАНИЯ АЛГОРИТМОВ ПОСТРОЕНИЯ ДЕРЕВЬЕВ РЕШЕНИЙ ДЛЯ ИДЕНТИФИКАЦИИ РАДИОИЗЛУЧЕНИЙ, А ТАКЖЕ ПРИВЕДЕНЫ ПОЛУЧЕННЫЕ ПРАКТИЧЕСКИЕ РЕЗУЛЬТАТЫ.
Виноградов А.Н.,
ведущий инженер-программист МТУСИ,
Лебедев А.Н.,
заведующий лабораторией МТУСИ,
Терешонок М.В.,
аспирант МТУСИ, [email protected]
В течение последних лет наблюдается значительный рост мощности компьютерной техники и объема сведений, накапливаемых в базах данных радиомониторинга. Данное обстоятельство обусловливает необходимость автоматизированной обработки накопленной информации с использованием систем интеллектуального анализа данных и их отдельного направления — "добычи знаний" ("Data Mining"). Наиболее популярные подходы в рассматриваемом классе аналитических систем реализуют алгоритмы построения деревьев решений и ограниченного перебора. Немаловажной особенностью данных алгоритмов является то, что результаты их работы прозрачны для восприятия человеком и могут быть легко интерпретируемы оператором-аналитиком.
Деревья решений позволяют свести анализируемые данные к набору простых правил, представленных в виде иерархической структуры — дерева. Корень дерева неявно содержит все классифицируемые данные, а листья — определенные классы после выполнения классификации. Промежуточные узлы дерева представляют пункты принятия решения о выборе или выполнения тестирующих процедур с атрибутами элементов данных, которые служат для дальнейшего разделения в этом узле (см. рисунок).
Входной информацией для системы по-
строения деревьев решений является обучающая выборка. Обучающая выборка содержит множество примеров (объектов), каждый из которых характеризуется фиксированным набором атрибутов, причем один из них обязательно должен указывать на принадлежность объекта к определенному классу. Применительно к базам данных можно сказать, что несколько полей таблицы содержат параметры объекта, а одно поле указывает на принадлежность объекта к классу. Выходом системы являются построенное по обучающей выборке дерево решений, отражающее найденные скрытые закономерности, и выявленный в ходе анализа набор признаков, достаточный для проведения классификации новых объектов.
Необходимым условием успешного применения системы является выполнение следующих требований [2].
— Перечень классов, с которыми в дальнейшем будет оперировать экспертная система, необходимо сформулировать зара-
нее. Алгоритмы не способны формировать перечень классов на основе группировки объектов из обучающей последовательности. Кроме того, классы должны быть четко очерченными, а не "расплывчатыми" — некоторый объект либо принадлежит к данному классу, либо нет. Другими словами, система пытается найти ответы на вопросы: "какие наборы атрибутов характерны для каждого из классов, существуют ли закономерности, позволяющие в дальнейшем идентифицировать объекты, принадлежащие данному классу?"
— Применяемые в системе методы обучения требуют использования обучающих выборок большого объема. При малом объеме на полученных в результате правилах будут сказываться индивидуальные особенности объектов, что может привести к неверной классификации незнакомых объектов.
— Данные в обучающей выборке должны быть представлены в формате "атрибут значение", т.е. каждый объект должен быть
Класс У л» П
Объект 3 65.81 408
Объект 4 34.19 212
Всего: 100 п 620
Частота
_____J_____
> 1261.717
I
Объект 3 99.13 227
Объект 4 0.87 2
-------1
<=1261.717
Всего: 36.94 229
Объект 3 46.29 181
Объект 4 53.71 210
Всего: 63.06 391
V
Уровень
I > 0.695 ! <= 1 0.695 1
I Объект 3 100 163 Объект 3 7.89 18 I
Объект 4 0 0 Объект 4 92.11 210
Всего: 26.29 163 Всего: 36.77 228
Структура дерева решений
охарактеризован в терминах фиксированного набора атрибутов и их значений для данного объекта. Существуют методы обработки, которые позволяют справиться и с пропущенными атрибутами. Предполагается, что в таких случаях выход соответствующей тестирующей процедуры будет в вероятностном смысле распределен по закону, определенному на основе параметров только тех объектов, в которых такой атрибут определен.
В области классификации радиоизлучений можно использовать как подход, базирующийся на деревьях решений, так и обычные статистические методы. Выбор первого подхода дает определенные преимущества. Этот подход не требует знания никаких априорных статистических характеристик классифицируемого множества объектов, в частности, функций распределения значений отдельных атрибутов (использование статистических методов зачастую основано на предположении об априорной известности закона распределения значений атрибутов [1]). Как показали эксперименты с экспертными системами классификации разных типов [3], те из них, в которых используются деревья решений, выигрывают по сравнению с другими по таким показателям, как точность классификации, устойчивость к возмущениям и скорость вычислений.
На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений — CART, C4.5, NewId, ITrule, CHAID, CN2 и т.д. Наиболее широко распространенным из них является алгоритм C4.5 [4] — усовершенствованная версия алгоритма ID3 (Iterative Dichotomizer). Алгоритм использует последовательность тестовых процедур, с помощью которых множество S разделяется на подмножества, содержащие объекты только одного класса. Ключевой в алгоритме является процедура построения дерева решений, в котором промежуточные узлы соответствуют тестовым процедурам, каждая из которых имеет дело с единственным атрибутом объектов из обучающей выборки.
Пусть Т представляет любую тестовую процедуру, связанную с одним из атрибутов, а (Q1,Q2, ..., Qn} — множество допустимых выходных значений такой процедуры при ее применении к произвольному объекту х. Применение процедуры Т к объекту х будем обозначать как Т(х). Следовательно, процедура Т(х) разбивает множество S на составляющие {S1, S2,..., Sn}, такие, что
Si ={х|Т(х^}.
Если рекурсивно заменять каждый узел Si поддеревом, то в результате будет построено дерево решений для обучающей выборки S. Как уже отмечалось выше, ключевым фактором в решении этой проблемы является выбор тестовой процедуры — для каждого поддерева нужно найти наиболее подходящий атрибут, по которому можно выполнять дальнейшее разделение объектов.
Используем для этого заимствованное из теории информации понятие энтропии. Энтропия — это число, описывающее объем информации, содержащейся в множестве сообщений М= {т1,т2, ...,тп}. Вероятность получения определенного сообщения тн из этого множества определим как р(тн). Объем информации, содержащейся в этом сообщении, будет в таком случае равен
1Н = -Ьд рЦ). (1)
Таким образом, объем информации в сообщении связан с вероятностью получения этого сообщения обратной монотонной зависимостью. Поскольку объем информации измеряется в битах, логарифм в этой формуле берется по основанию 2.
Энтропия множества сообщений и(М) является взвешенной суммой количества информации в каждом отдельном сообщении, причем в качестве весовых коэффициентов используются вероятности получения соответствующих сообщений:
и(М) = — X i рЦ) ЬдрЦ), i=1, ..., п, (2)
Чем большую неожиданность представляет получение определенного сообщения из числа возможных, тем более оно информативно. Если все сообщения в множестве равновероятны, энтропия множества сообщений достигает максимума.
Способ построения дерева решений базируется на следующих предположениях:
• корректное дерево решений, сформированное по обучающей выборке S, будет разделять объекты в той же пропорции, в какой они представлены в этой обучающей выборке;
• для какого-либо объекта, который нужно классифицировать, тестирующую процедуру можно рассматривать как источник сообщений об этом объекте.
Пусть N — количество объектов в S, принадлежащих классу Сг Тогда вероятность того, что произвольный объект с, взятый из S, принадлежит классу С можно оценить по формуле
р(с е С = N/^1, (3)
а количество информации, которое несет такое сообщение, равно
1(с е С = -Ьд2рЦ)(с е С бит. (4)
Теперь рассмотрим энтропию множества целевых классов, считая их также множеством сообщений {С^С2,...,Ск}. Энтропия также может быть вычислена, как взвешенная сумма количества информации в отдельных сообщениях, причем весовые коэффициенты можно определить, опираясь на весомость классов в обучающей выборке:
и(М) = -X =, к р(се Ц) х 1(с е С бит.
(5)
Энтропия и(М) соответствует среднему количеству информации, которое необходимо для определения принадлежности произвольного объекта (с е S) какому-то классу до того, как выполнена хотя бы одна тестирующая процедура. После того, как соответствующая тестирующая процедура Т выполнит разделение S на подмножества ^,^2, ..., Sn), энтропия будет определяться соотношением
и7(М) = -Х= k (|5|/|5,.|)х U(S)
(6)
Полученная оценка показывает, сколько информации еще необходимо после того, как выполнено разделение. Оценка формируется, как сумма неопределенностей сформированных подмножеств, взвешенная в пропорции размеров этих подмножеств.
Из этих рассуждений, очевидно, следует эвристика выбора очередного атрибута для тестирования, используемая в алгоритме, — нужно выбрать тот атрибут, который обещает наибольший прирост информации. Прирост информации Gs(T) после выполнения процедуры тестирования Т по отношению ко множеству S равен
Gs(^] = U(S) — U1^S). (7)
Такую эвристику иногда называют минимизацией энтропии, поскольку увеличивая прирост информации на каждом последующем тестировании, алгоритм тем самым уменьшает энтропию или меру беспорядка в множестве.
Рассмотрим самый простой случай, когда множество целевых классов включает всего два элемента. Пусть п, — это количество объектов класса С1 в множестве обучающей выборки S, а П2 — количество объектов класса С2 в этом же множестве. Таким образом, произвольный объект принадлежит к классу С, с вероятностью п,/(п, + ^), а к классу C2 с вероятностью ^/(п^ ^). Ожидаемое количество информации в множестве сообщений ^={^^2} равно
U(M) = -п,/( п,+ п2) Ьд2(п,/( п,+ п2))-
-п2/( п, + п2) Ьд2(п2/( п,+ п2)). (8)
Отношение (п, + п2;,)/(п,+ п2) соответствует весу каждой /-й ветви дерева. Это отношение показывает, какая часть всех объектов S принадлежит подмножеству Sj.
Недостатком эвристики, основанной на приросте количества информации, является то, что она отдает предпочтение процедурам с наибольшим количеством выходных значений (О,, 02, ..., Оп). Возьмем, например, случай, когда практически бесполезные тесты будут разделять исходную обучающую выборку на множество классов с единственным представителем в каждом. Это произойдет, если обучающую выборку
классифицировать по номеру измерения. Для описанной эвристики именно такой вариант получит преимущество перед прочими, поскольку Ц^) будет равно нулю, и, следовательно, разность Gs(T) = U(S) — Ц^) достигнет максимального значения.
Для заданной тестирующей процедуры Т на множестве данных S, которая характеризуется приростом количества информации Gs(T), возьмем в качестве критерия отбора относительный прирост Hs(T), который определяется соотношением
НДО = Gs(T^| У(Я (9)
где
из = -Х=, к (Щ/Щ) х к^И^).
(,0)
Важно понять, в чем состоит отличие величины У^) от Ц^). Величина У^) определяется множеством сообщений {О,
О2 Оп} или, что то же самое, множеством
подмножеств S2,...,Sn), ассоциирован-
ных с выходными значениями тестовой процедуры, а не с множеством классов (С1, С2,...,Ск}. Таким образом, при вычислении величины У^) принимается во внимание множество выходных значений теста, а не множество классов.
Новая эвристика состоит в том, что выбирается та тестирующая процедура, которая максимизирует определенную выше величину относительного прироста количества информации. Теперь те пустые тесты, о
которых было упомянуто выше и которым прежний алгоритм отдал бы преимущество, окажутся наименее предпочтительны, поскольку для них знаменатель будет равен log2(N), где N — количество элементов в обучающей выборке.
Описанный алгоритм успешно применялся авторами при обработке достаточно больших обучающих выборок, основанных на информации сигнально-параметрических баз данных, содержащих до сотен тысяч записей. Скорость работы алгоритма практически линейно зависит от произведения количества объектов в обучающей выборке на количество атрибутов, использованное для их представления. Кроме того, система способна работать с зашумленными и неполными данными, что также немаловажно при решении задачи классификации и идентификации радиоизлучений.
Литература
1. Горелик А.Л., Скрипкин ВА Методы распознавания. — М.: Высшая школа, 1989.
2. Джексон П. Введение в экспертные системы. : Пер. с англ. : Уч. пос. — М.: Издательский дом "Вильямс", 2001.
3. Дюк В., Самойленко А. Data mining: учебный курс. — СПб: Питер, 2001.
4. Quinlan J.R. C4.5: Programs for Machine learning/San Mateo, CA: Morgan Kaufmann, 1993.