КОМПЬЮТЕРНЫЕ
НАУКИ A 1 А ■ W * V
УДК004.6
КЛАСТЕРИЗАЦИЯ
СЛАБОСТРУКТУРИРОВАННЫХ
ТЕКСТОВЫХ ДОКУМЕНТОВ
ГВОЗДИНСКИЙ А.Н., ГУБИН В.А., ЮРДИГА Л. А.
Предлагается метод, позволяющий осуществить кластеризацию слабоструктурированных текстовых документов. Кластеризация основана на учете вхождения в документы текстовых строк, классифицированных как атрибуты данных. В качестве критерия оптимальности используется функционал, достижение которым максимального значения означает завершение процесса кластеризации. Обосновывается выбор метода и параметров кластеризации.
1. Введение
Постановка задачи. В данной работе решается задача кластеризации слабоструктурированных текстовых документов. В статье [1] представлены их основные признаки и свойства и приведены примеры такого рода документов. К ним можно отнести анкеты, страховые формы, налоговые декларации, счета, транспортные накладные, контракты, технические параметры изделия, прайс-листы, типовые договора, карточки учета, результаты спортивных матчей.
Предлагаемый здесь метод кластеризации ставит своей основной задачей разбить исходное множество документов на подмножества, каждое из которых представляет подобные документы. При этом предполагается не семантическое подобие на уровне тематики документов, а типовое подобие документов, при котором тип документа определяют входящие в него текстовые фрагменты, являющиеся атрибутами данных.
Таким образом, особенностью рассматриваемого процесса кластеризации является то, что предлагаемый метод учитывает вхождение (или отсутствие такового) в документ не слов (термов), а обособленных текстовых фрагментов документа, являющихся атрибутами данных, которые и определяют принадлежность документа к тому или иному типу. Другими словами, автор исходит из того, что каждый тип документов характеризуется множеством используемых в документах этого типа атрибутов.
Анализ последних достижений и публикаций. Одной из проблем, возникающих в процессе кластеризации текстовых документов, является большая размерность их векторной модели. Частично острота проблемы
снимается применением тех или иных методов предв а-рительной фильтрации, используемых при написании документов слов. Методы, решающие эту проблему более фундаментально, основаны на учете специфики содержимого текстовых документов и решаемых на множестве текстовых документов задач.
Так, в работах [2,3] были предложены и исследованы подходы, основанные на замене термов документа концептами. Отмечается, что добавление концептов в векторные представления документов имеет два преимущества: первое - устранение синонимов, второе -возможность, используя онтологии, выводить более общие концепты. Таким образом, для сокращения размерности предлагается преобразовывать вектор термов документа в вектор концептов документа.
В работе [4] представлены два подхода, повышающих эффективность процесса кластеризации: кластеризация на основе часто повторяемых последовательностей слов и кластеризация на основе часто повторяемых последовательностей значений слов. Отмечается, что ключевой особенностью этих алгоритмов является то, что они относятся к тексту документа как к последовательности слов (значений слов), а не как к набору слов.
В данной работе предлагается подход, при котором документы, подвергаемые кластерному анализу, представляются в виде набора объектов, каждый из которых представляет текстовый фрагмент, являющийся атрибутом данных.
Цели и задачи исследования. Процесс кластеризации, рассматриваемый в данной работе, трактуется как дискретная оптимизация, при которой необходимо каждому документу поставить в соответствие номер кластера так, чтобы достиг своего экстремального значения некоторый критерий оптимальности.
Соответственно, целью данной работы является формулирование и формальное выражение критерия оптимальности иуточнение параметров кластеризации, при которых, по мере объединения документов в кластеры, будет улучшаться значение данного критерия.
Уточнения и обоснования также требует выбор метода кластеризации, выбор меры расстояния (меры подобия) между документами и между кластерами, выбор метода объединения.
2. Построение критерия оптимальности процесса кластеризации
Пусть имеется некоторое множество слабоструктурированных текстовых документов
Q = {Di,D2,...,Dn} . Предположим, что получено некоторое разбиение множества Q на кластеры KjJ = 1,Nk , где Nk - количество кластеров. Исходим из того, что каждый документ входит только в один из кластеров. В этом случае множество документов Q можно представить следующим образом: Q = K = {Ki,K2,...,KNk}.
44
РИ, 2011, № 1
Пусть V - текстовая строка документа, являющаяся атрибутом данных. Будем говорить, что некоторый атрибут V принадлежит некоторому кластеру К. : ¥ е Kj , если данный атрибут принадлежит хотя бы одному документу из кластера Kj . Обозначим через P¥,k. частоту встречаемости атрибута V в документах кластера K j при условии, что ¥ е Kj , т. е.
P
¥.K:
Di, ¥ е DivDjKjl
livDiKjl
При этом знаменатель равен общему количеству документов в кластере Kj, а числитель - количеству документов в кластере K j , содержащих атрибут V .
Обозначим через P¥K/k. частоту встречаемости атрибута V в документах вне кластера K j при условии, что ¥ е К. , т. е.
P
¥,K/K
|Di, ¥ е D„D,K/Kj|
IDikTkI і
(1)
При этом знаменатель равен общему количеству документов вне кластера K. , а числитель - количеству документов вне кластера K. , содержащих атрибут
V.
И, наконец, обозначим через P¥ k/k. частоту не встречаемости атрибута V в документах вне кластера K j при условии, что ¥ е Kj , т. е.
P
A¥,K/Kj
Заметим, что
|d,, ¥ g Dj.DjK/Kjl
|di,dik/kj |
(2)
P = 1 - P
A¥,K/Kj 1 A ¥,K/Kj ,
(3)
так как частоты (1) и (2) соответствуют оценкам вероятностей противоположных событий.
Ожидается, что в каждое множество Ki входят документы, относящиеся к одному типу. Поскольку тип документа во многом определяют входящие в него атрибуты данных, логично предположить, что в документы из одного и того же кластера входят преимущественно одни и те же атрибуты. И так же логично предположить, что если документы не принадлежат одному и тому же кластеру, в них входят преимущественно различные атрибуты. Можно сказать и по-другому: если некоторый атрибут данных принадлежит некоторому документу, то из этого следует, что вероятность того, что этот же атрибут содержится и в других документах этого же кластера должна быть существенно больше вероятности того, что этот же
атрибут встречается в документах, не принадлежащих данному кластеру.
Другими словами, для большинства пар (¥k , К.), где ¥k е K j , при качественном разбиении множества документов Q на кластеры мы должны иметь следующее:
P >> P
A¥.Kj А ¥,K/Kj .
В идеальном варианте, когда в документах из одного кластера содержатся одни и те же наборы атрибутов и при этом их нет в документах из других кластеров, будем иметь следующее:
P =1P =0
A¥.Kj 1’±¥.K/Kj .
Таким образом, хорошим будет такое разбиение на кластеры, которое для всех пар (¥k , К. ), ¥k е Kj максимизирует сумму частот P :
¥k,Kj
Fi(K)= Z
(¥k,Kj),¥keKj
|К.| P ——pkP v ^ max (4)
| К Г k ¥k,Kj ^ '
и одновременно минимизирует сумму частот
P¥k,K/Kj :
F2(K)= Z
(¥k,Kj),¥keKj
|K/K,|
_____L p P
Kl pkP¥k.K/K,
^ min.
(5)
|Kj| |K/Kj|
Коэффициенты -jK| в (4) и —к— в (5) призваны
сделать сопоставимыми масштабы выражений (4) и (5), а pk - весовой коэффициент, равен вероятности того, что V является атрибутом данных.
C учетом (3) (5) можно переписать следующим
образом:
F2(K) =
= Z
(¥k,Kj),¥keKj
К/К.
К |
Pk(1 - P
¥k>
k/k.
) ^ max
(6)
Свернув критерии (5) и (6) в один, получим, что хорошим будет такое разбиение K множества слабоструктурированных текстовых документов на кластеры, при котором достигает своего максимума значение следующего функционала:
F(K) = X1F1 + X 2F2 ^ max , (7)
где Х1з X2 - коэффициенты пропорциональности, устанавливающие баланс взаимного влияния сумм частот (4) и (6), входящих в (7); X1, X2 могут принимать
любые неотрицательные значения. При этом важно значение их отношения.
РИ, 2011, № 1
45
3. Выбор метода и параметров кластеризации
В качестве основы целесообразно выбрать иерархический метод кластерного анализа, так как, в общем случае, предварительно не известно количество типов документов, к которым можно отнести документы из
множества Q , и, таким образом, нет возможности на начальном этапе выдвинуть гипотезу о количестве кластеров.
Для осуществления процесса кластеризации необходимо определиться с мерой расстояния между документами и между кластерами.
Чем больше будет атрибутов, общих для пары документов, объединяемых в кластер, тем большее приращение получит значение функционала (7). Таким образом, в качестве меры расстояния riJ(D1,DJ) между документами D1 и DJ , необходимо выбрать следующее выражение:
D.n ч
iD. иD.| , (8)
I 1 J 1у
где |d. n D. | - количество атрибутов, содержащихся в пересечении документов D. и DJ , а |d. и DJ |^ -количество атрибутов, содержащихся в объединении документов D. и DJ .
Наиболее популярными методами объединения кластеров являются следующие: метод ближнего соседа или одиночная связь, метод наиболее удаленных соседей или полная связь, метод попарного среднего.
Далее будет дана трактовка и выражение расстояния R1J(K.,KJ) между кластерами K. и KJ для каждого метода объединения кластеров.
1. Метод ближнего соседа или одиночная связь. Здесь расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими документами (ближайшими соседями) в различных кластерах. В этом случае расстояние между кластерами можно выразить следующим образом:
r,,(D,,D,)
lJ 1 j
2. Метод наиболее удаленных соседей или полная связь. Здесь расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. “наиболее удаленными соседями”). В этом случае расстояние между кластерами можно выразить следующим образом:
iv(D1,Dj) = 1 -
ro(D,,D,).
1J 1 j
3. Метод попарного среднего. Здесь в качестве расстояния между двумя кластерами берется среднее расстояние между всеми парами объектов в них. В этом случае расстояние между кластерами можно выразить следующим образом:
R„(K1,K,)= 1 '
I r.fCD^D,.)
»>.£,)iJ 1 j
l(D„D.)|
1 J
,DK',DKJ.
j' J'
где l (D.. ,D .) | - количество всевозможных пар,
i j
образованных документами D. є K. и D. є K ■ .
1 j J
Необходимо заметить, что если в каждом из кластеров K.,KJ по одному документу D.,DJ , то независимо от выбранного метода объединения
R4(Ki,Kj) = r4(Di,Dj).
Возникает вопрос, какой из этих методов объединения выбрать? Известно, что при выборе метода одиночной связи могут получиться цепочечные кластеры. В нашем случае это может привести к тому, что в один кластер могут быть объединены документы родственных, но разных типов, если при этом эти типы содержат общие атрибуты данных.
При выборе метода полной связи есть риск попадания в разные кластеры документов, объективно принадлежащих к одному типу. Это возможно в тех случаях, когда некоторый тип документов допускает заметные отклонения от документа к документу с точки зрения используемых в них наборов атрибутов данных.
В свете изложенного некоторым компромиссом выглядит метод попарного среднего. Поэтому его наиболее целесообразно использовать при разбиении на кластеры множества слабоструктурированных документов. При этом, варьируя значения параметров Х1з X2 , можно сделать этот процесс более либеральным, как это происходит при методе одиночной связи, либо более избирательным, как это происходит при методе полной связи.
4. Описание процесса кластеризации
Процесс кластеризации протекает следующим образом. На начальном этапе строится матрица
R =|| riJ ||NN расстояний между парами документов,
N - количество анализируемых документов. Для общности изложения будем считать, что на начальном этапе каждый документ образует отдельный кластер. Далее:
1. Предпринимается попытка нахождения наиболее близких кластеров для последующего их объединения, т. е. объединяются в один те кластеры, для которых Rij(K.,Kj) достигает своего минимального значения.
2. Проверяется значение функционала (7).
3. Если это значение не уменьшилось, то данное объединение засчитывается, матрица R пересчитывается и осуществляется переход к пункту 1.
4. Если же значение функционала (7) уменьшилось, то данное объединение отменяется и предпринимается попытка объединения другой пары наиболее близких
46
РИ, 2011, № 1
между собой кластеров. Осуществляется переход к пункту 2.
5. Если такая пара кластеров отсутствует, то процесс кластеризации завершается.
5. Выводы
Сформулирован и формально выражен критерий оптимальности и уточнены параметры кластеризации. Обоснован выбор метода кластеризации, выбор меры расстояния (меры подобия) между документами и между кластерами, выбор метода объединения.
Научная новизна: получили дальнейшее развитие иерархические агломеративные методы кластерного анализа текстовых документов. Предложен метод кластерного анализа, основанный научете вхождения в документы текстовых фрагментов, являющихся атрибутами данных, что дает возможность разбивать исходное множество документов на подмножества, каждое из которых представляет документы одного типа.
Практическая значимость: использование разработанного метода кластерного анализа позволяет осуществлять кластеризацию текстовых документов, в основе которой лежит типовое сходство документов.
Направления дальнейших исследований: создаются предпосылки автоматизации построения обучающих выборок документов при организации извлечения из документов данных конкретных типов.
Литература: 1. Губин В.А. Слабоструктурированные текстовые документы как источники данных // Бионика интеллекта. X.:ХНУРЕ, 2010.№3(74). С. 109-111.2. Andreas Hotho, Steffen Staab, Gerd Stumme. Ontologies Improve Text Document Clustering // Proc. of the 2003 IEEE International Conference on Data Mining, Poster. Melbourne, Florida, IEEE Computer Society, November 19-22, 2003. P. 541 -544. 3. Shady Shehata, Fakhri Karray, MohamedKamel. Enhancing Text Clustering Using Concept-based Mining Model // Proceedings of the Sixth International Conference on Data Mining, IEEE Computer Society Washington, DC, USA, 2006. P. 1043-1048. 4. YanjunLi, SoonM. Chung. Text Document Clustering Based on Frequent Word Sequences // Proceedings of the 14th ACM international conference on Information and knowledge management. New York, USA, ACM Press, 2005. P. 293-294.
Поступила в редколлегию 02.03.2011
Рецензент: д-р техн. наук, проф. Куземин А.Я.
Гвоздинский Анатолий Николаевич, канд. техн. наук, профессор кафедры искусственного интеллекта ХНУРЭ. Адрес: Украина, 61166, Харьков, пр. Ленина, 14,тел. 70-21-337.
Губин Вадим Александрович, ст. преподаватель кафедры искусственного интеллекта ХНУРЭ. Адрес: Украина, 61166,Харьков, пр..Ленина, 14,тел. 70-21-337.
Юрдига Любовь Антоновна, студентка гр. КН-07-5 ХНУРЭ. Адрес: Украина, 61166, Харьков, пр. Ленина, 14, тел.70-21-337.