УДК 519.765:519.767:004.93
Б.М. ПАВЛИШЕНКО
СИНГУЛЯРНА ДЕКОМПОЗИЦІЯ МАТРИЦІ СЕМАНТИЧНИХ ОЗНАК В АЛГОРИТМІ ІЄРАРХІЧНОЇ КЛАСТЕРИЗАЦІЇ ТЕКСТОВИХ МАСИВІВ__________________________________
Анотація. Досліджується ієрархічна кластеризація текстових документів у просторі семантичних концептів, утвореному внаслідок сингулярного розкладу матриці текстових частотних характеристик семантичних полів. Показано, що кластерна структура в такому просторі може відображати класифікації документів за різними ознаками, зокрема, за авторством текстів. Ключові слова: інтелектуальний аналіз текстів, кластерний аналіз, семантичні поля, сингулярна декомпозиція матриці, латентний семантичний аналіз.
Аннотация. Исследуется иерархическая кластеризация текстовых документов в пространстве семантических концептов, образованном вследствие сингулярного разложения матрицы текстовых частотных характеристик семантических полей. Показано, что кластерная структура в таком пространстве может отображать классификации документов по разным признакам, в частности, по авторству текстов.
Ключевые слова: интеллектуальний анализ текстов, кластерный анализ, семантические поля, сингулярная декомпозиция матрицы, латентный семантический анализ.
Abstract. The hierarchical clusterization of the text documents in the field of semantic concepts formed as a result of singular value matrix decomposition of the text frequencies characteristics of semantic fields has been investigated. It is shown that the cluster structure can represent documents classification by different characteristics particularly text authorship.
Keywords: intellectual text analysis, cluster analysis, semantic fields, singular value matrix decomposition of the text, latent semantic analysis.
1. Вступ
Алгоритми кластеризації широко використовуються в інтелектуальному аналізі даних [13], зокрема, при вивченні структури текстових масивів [3]. Для представлення текстових документів часто використовують модель векторного простору [3, 4]. У цій моделі кожний документ відображається як вектор у багатовимірному просторі, кожний вимір якого відповідає квантитативній характеристиці лексеми із словників текстових масивів. Текстовий масив можна представити у вигляді матриці ознак слів (термів) та документів. Такими ознаками можуть бути текстові частоти лексем. У матриці ознак колонки визначають документи, а рядки - частоти лексем у цих документах. Кожна колонка матриці ознак є вектором частот лексем для певного документа. Мірою відстані між двома документами може бути кут між векторами цих документів в утвореному векторному просторі. Такий підхід має також ряд проблем, зокрема, розмірність аналізованого простору є великою, оскільки зумовлена розміром словника. Одним із шляхів вирішення цієї проблеми є використання латентного семантичного аналізу [4-6]. Суть такого аналізу полягає в сингулярному розкладі матриці ознак типу “терми-документи” і аналізі текстових масивів у новому векторному просторі меншої розмірності. Базис цього простору побудований на лінійних комбінаціях квантитативних характеристик лексем словника. Такий новий векторний простір часто називають простором концептів (в деяких статтях - простором гіпотез). Розмірність нового простору визначається кількістю найбільших сингулярних чисел - елементів діагональної матриці сингулярного розкладу. Документи також можуть бути квантитативно близькими не тільки за частотами окремих лексем, а також за характеристиками заданих лексемних об’єднань, зокрема, семантичних полів [7, 8]. Розмірність матриці ознак «сема-нтичні_поля-документи» є суттєво меншою у порівнянні із матрицею ознак для лексем словника текстових масивів. Семантичні поля формуються на основі експертного аналізу,
© Павлишенко Б.М., 2012
ISSN 1028-9763. Математичні машини і системи, 2012, № 1
одні і ті ж лексеми можуть одночасно належати до різних семантичних полів. Сингулярна декомпозиція матриці семантичних ознак дасть можливість аналізувати текстові масиви в ще меншому векторному просторі. Визначити ефективність такої декомпозиції можна, аналізуючи утворення кластерної структури в новому семантичному просторі концептів для класифікованих за певною ознакою текстових документів. Такою ознакою може бути, наприклад, спільний стиль або автор. Сингулярна декомпозиція матриці семантичних ознак буде ефективною у випадку відображення класифікаційної структури в кластерній структурі, утвореній у новому векторному просторі семантичних концептів.
2. Постановка задачі
Для аналізу ефективності сингулярної декомпозиції матриці семантичних ознак розглянемо утворення матриці «частоти_семантичних_полів-документи» та проаналізуємо сингулярний розклад цієї матриці. На прикладі тестової вибірки текстових документів проаналізуємо утворення ієрархічної кластерної структури у векторних просторах семантичних концептів різної розмірності. Далі співставимо класифікаційний розподіл текстових документів за авторами та утворену кластерну структуру в новому просторі семантичних концептів.
3. Утворення матриці ознак «частоти_семантичних_полів-документи»
Розглянемо модель, яка описує сукупність текстових документів, лексемний склад та семантичні поля. Нехай існує деякий словник лексем, які зустрічаються в текстових масивах. Опишемо цей словник як впорядковану множину
К ={ ^ І і = 1,2..., }. (1)
Сукупність текстових документів опишемо такою множиною:
Б = { й-І- = 1,2..., Мл }. (2)
Введемо множину семантичних полів:
5 = 1,2..., М,}. (3)
Під семантичним полем розуміють таку множину лексем, які об’єднані деяким спільним поняттям [7, 8]. Прикладом семантичних полів може бути поле руху, поле комунікації, поле сприйняття та ін. Документ й- з множини текстових документів Б можна
представити як упорядковану множину слів, порядок елементів якої відповідає порядку слів у цьому документі:
Тй ={ І1} 1і = 1,2...М-}. (4)
Впорядкований за алфавітом словник текстового документа й- розглянемо як муль-тимножину ^ над множиною словника К:
К/ ={ < (^. )І є й-, і = 1,2..., МК }, (5)
де п™л - кількість входжень лексеми зі словника К у множину лексем текстового документа й -, яку можна визначити як
пТ = Е , ^ х (6)
і=1
Г1, Ч} = Щ
де /щ, (іч ’ Щ) = |0 , , • (7)
[О’ щ ф щ
Введемо відображення лексемного складу словника Щ на множину семантичних полів Б за допомогою деякого оператора иж :
иш : щ ^ 5,’ і = 1’2...’ Мщ;к = 1,2...’ ^. (8)
Оператор иж задамо таблицею, яка визначається експертним лексикографічним аналізом [7, 8]. Лексемний склад семантичного поля як визначимо як
Г ит )
Ж,5 = І Щ.ІЩ. ^ ,, ’ і = 1’2...’ Мщ | . (9)
Введемо мультимножину образів відображення иш, семантичних полів для окремого документа й.:
б; ={ п. (,, )Ік = 1,2..., М,}, (10)
де п. - кількість лексем семантичного поля я, в лексемному складі документа й..
п. = Е /,(ги, х (11)
11, Ьі є щ
де . = |о,, .
Введемо матрицю семантичних ознак типу «частоти_семантичних_полів-документи»
\м. ,м,
м,„={рк! К:,- (12)
де р. - частота семантичного поля я, в лексемному складі документа й., яку обрахуємо за формулою
й п,і
рі : Мт • (13)
Вектор
V, ={Р?І , РҐ, ,..., Р'щ, ) (14)
відображає документ в М, -мірному семантичному просторі текстових документів.
Запропонована модель дає можливість визначити матрицю частотних семантичних ознак типу «частоти_семантичних_полів-документи» і ввести новий базис для текстових характеристик. У семантичному базисі можуть спостерігатися якісно нові групування текстових документів. Розгляд таких групувань може бути ефективним в алгоритмах комплексного аналізу текстів.
4. Сингулярний розклад матриці частот семантичних полів
Розглянемо сингулярний розклад матриці частот семантичних полів. Нехай існує матриця типу «частоти_семантичних_полів-документи» Мд , яка описується формулою (12). Вектор V'- (14) відображає документ д- в ^ -мірному просторі текстових документів. Добуток двох векторів
V ^ (15)
визначає кількісну міру близькості цих векторів у ^ -мірному семантичному просторі текстових документів. Відповідно добуток матриць
М )М (16)
містить скалярні добутки векторів (у*)TVq всіх документів і відображає їхні кореляції у просторі семантичних векторів. Нехай існує сингулярна декомпозиція матриці Мд :
Мд = ид ^ Ys/ . (17)
Тоді добуток матриць (Мд )т Мд можна розглянути у вигляді
М )М =и,ЛЛ,/ ї(и.Л,Л,/ )=У.Л,/£,Л/ ■ (18)
У відповідності з теорією сингулярного розкладу матриць [5, 6] діагональна матриця £д містить сингулярні числа у порядку їх спадання. Якщо взяти К найбільших сингулярних чисел матриці і, відповідно, К сингулярних векторів матриць ид і Уїд, то отримаємо К -рангову апроксимацію матриці Мд :
М)К = (^)К (£д)К (^)КТ . (19)
Матриця (Уїд)К відображає зв’язок між векторами документів V- у новому комбінованому К -мірному семантичному просторі, який будемо називати простором семантичних концептів. Зв’язок між вектором V- документа у початковому семантичному просторі
та вектором V/ у просторі семантичних концептів можна описати так:
V : (и, )к (£, )КУ, ,
1Т (20)
V]: (^) Ж, )Ку; .
Отже, ранг апроксимації матриці М, який визначається числом К, також визначає розмірність простору семантичних концептів. Очевидно, що число К може бути суттєво меншим за розмірність М, початкового семантичного простору. Це зменшує розмірність задачі аналізу подібності текстових документів у семантичному векторному просторі.
5. Ієрархічна кластеризація текстових документів у семантичному просторі
Розглянемо групування документів за семантичними ознаками за допомогою алгоритму ієрархічної кластеризації. Нехай є множина текстових документів Б, яка описується виразом (2), та множина кластерів
С :{ сш І т : 0,1,2..., Мс }. (21)
Необхідно побудувати відображення множини документів на множину кластерів:
ивс : Б ^ С . (22)
Відображення иБС задає модель даних, яка є розв’язком задачі кластеризації [1-3]. Кожний елемент ст множини кластерів С складається з підмножини текстових документів, які подібні між собою відповідно до деякої кількісної міри подібності г :
де Є - визначає деякий поріг для включення документів у кластер. Величина г(1і, 1-) є відстанню між елементами та 1-. Якщо виконується умова
то елементи вибірки вважають подібними і відносять до спільного кластера. В іншому випадку елементи знаходяться у різних кластерах. У наших дослідженнях будемо використовувати евклідову відстань:
Розглянемо послідовність агломеративної кластеризації. На першому кроці вся множина текстових документів розглядається як множина кластерів:
На наступному кроці два близьких один до одного документи (наприклад, 1р і ) об’ єднуються в один спільний кластер, нова множина на цьому кроці вже складається із Мд -1 кластерів і має вигляд
Повторюючи кроки, на яких будуть об’єднуватися кластери, отримаємо множину із N. кластерів. Процес об’єднання кластерів завершується на тому кроці алгоритму, коли жодна пара кластерів не відповідає порогу об’єднання для міри близькості елементів. Враховуючи те, що кластери можуть складатися з декількох об’ єктів, існують різні методи формування й об’єднання кластерів на основі відстаней між об’єктами в середині кластера. У наших дослідженнях ми використовували метод Варда. У цьому методі обраховують квадрати евклідових відстаней від окремих документів до центра кожного кластера. Далі ці відстані сумують. У новий кластер об’єднуються ті кластери, при об’єднанні яких виходить найменший приріст суми квадратів відстаней. Графічним зображенням результату ієрархічної кластеризації є дендрограма, на якій відображається процес агломеративного об’ єднання кластерів. По осі абсцис відкладають номери кластерів, а по осі ординат-відстані між кластерами. При певних значеннях відстаней починається об’єднання кластерів. З ростом порогової міжкластерної відстані кластери об’єднуються аж до повного злиття кластерів в один кластер. Для отримання інформативної кластерної структури вибирається деякий поріг міжкластерної відстані, при якому утворюється оптимальна, з точки зору аналізу текстових масивів, кластерна структура. Наприклад, при дослідженні можливості кластеризації текстових документів за авторами доцільно взяти таке порогове значення міжкластерної відстані, при якому утворюється кількість кластерів, рівна кількості аналізованих авторів.
(23)
г(ді,) < Є,
(24)
(25)
С1 _ { й1 }, С1 _ { й1 },... CNd = { йШ } .
(26)
С1 ={ ^ С2 ={ 12 },...ср ={ йр , }... .N1 -1 ={ йШ-1} .
(27)
6. Експериментальна частина
Для аналізу ефективності розглянутих алгоритмів кластеризації взято текстову вибірку 155 художніх творів англомовної класики 4 відомих авторів (Ч. Діккенс, Д. Лондон, В. Скотт, М. Твен). Для утворення семантичного простору сформовано 15 семантичних полів, в які входить близько 5000 неозначених форм дієслова. Деталізація літературних та лексикографічних характеристик вхідних даних не є суттєвою для аналізу можливості кластерного структурування даних, тому для подальшого аналізу будемо розглядати лише статистичні характеристики текстових документів. Для кожного документа були розраховані частотні словники, на основі яких розраховані частотні спектри семантичних полів документів. Отже, кожний документ розглядається як вектор в 15-мірному початковому семантичному просторі. Далі проведено сингулярний розклад матриці семантичних ознак. На рис. 1 наведено графічне зображення перших сингулярних чисел семантичних ознак типу
«частоти_семантичних_полів-документи» у порядку спадання.
Слід відмітити різке спадання значень сингулярних чисел, що дає можливість для апроксимації матриці семантичних ознак взяти суттєво менше значення рангу апроксимації К у порівнянні із початковою розмірністю семантичного простору. На наступному етапі була проведена агломеративна ієрархічна кластеризація документів у просторах семантичних концептів різної розмірності. Для оцінки міжкластерних відстаней використовувалась евклідова відстань (25), а кластеризацію було проведено методом Варда. На рис.
2 наведено дендрограму ієрархічної кластеризації при розмірності простору семантичних концептів К = 10, а на рис. 3 - при К = 5 . По осі абсцис відкладено номери кластерів, а по осі ординат - міжкластерні відстані.
Рис. 2. Дендрограма кластеризації масиву текстових документів при К = 10
Рис. 3. Дендрограма кластеризації масиву текстових документів при К = 5
Наведені дендрограми обмежені рівнем із 20-ма кластерами. Як випливає з наведених рисунків, вибраний ранг апроксимації матриці семантичних ознак впливає на формування кластерної структури. Для подальших досліджень розглядається розмірність простору семантичних концептів К = 5 як найбільш оптимальна з точки зору утворення ієрархічної кластерної структури, яка відображає класифікаційну структуру розглянутого текстового масиву. Проаналізуємо класифікацію текстових документів за авторами. Виберемо таку порогову міжкластерну відстань, при якій утворюється кількість кластерів рівна кількості авторів текстів у досліджуваній вибірці. В аналізованому випадку це чотири кла-
стери. На рис. 4 наведено розподіл кількості текстових документів за чотирма кластерами, утвореними методом Варда.
На рис. 5 наведено розподіл текстів за авторами (1-Ч. Діккенс, 2-Дж. Лондон, 3-В. Скотт, 4-М. Твен) у кожному із чотирьох кластерів. Як випливає із наведених даних, тексти автора № 3 відсутні у кластерах № 1, 3, 4 і максимально сконцентровані у кластері № 2. Тексти автора №1 відсутні в кластері №1 і домінують у кластері №4. Домінуючим кластером для автора № 2 є кластер №
3 і т.д. Такий нерівномірний розподіл текстів за авторами в кластерах свідчить про те, що кластерна структура документів у просторі семантичних концептів відображає класифікаційну структуру документів за авторами.
1 2 3 4 с
Рис. 4. Розподіл кількості текстових документів за кластерами (К = 5)
1 2 3 4 А 1234Д
Кластер 3 Кластер 4
Рис. 5. Розподіл кількості текстових документів за авторами в досліджуваних
кластерах (К = 5)
У випадку кластеризації документів у просторі семантичних концептів більшої розмірності (К > 5) розподіл документів одного і того ж автора за кластерами може якісно відрізнятися, однак спостерігаються домінантні кластери для документів певних авторів. При низькій розмірності К є {1,2,3} кластери текстів з домінуючими авторами зникають і розподіл за авторами по кластерах стає більш рівномірним.
7. Висновки
Формування простору семантичних полів дає можливість отримувати новий структурний поділ документів за семантичними ознаками. Сингулярний розклад матриці семантичних ознак типу «частоти_семантичних_полів-документи» дає можливість аналізувати текстові документи у новому просторі семантичних концептів. Ієрархічна кластеризація документів у такому просторі відображає класифікаційну структуру документів за різними ознаками, зокрема, за авторством текстів. Розмірність простору семантичних концептів визначається рангом апроксимації матриці семантичних ознак при сингулярному розкладі і може бути суттєво меншою за розмірність простору семантичних полів. У випадку дослідження авторства текстів вибір розмірності простору семантичних концептів зумовлений рівнем відображення класифікаційного поділу документів за авторами в кластерной структурі, що визначається наявністю домінуючих кластерів для документів окремих авторів.
СПИСОК ЛІТЕРАТУРИ
1. Ким Д.О. Факторный, дискриминантный и кластерный анализ / Ким Д.О., Мьюллер Ч.У., Клекка У.Р. - М.: Финансы и статистика, 1989. - 215 с.
2. Жамбю М. Иерархический кластер-анализ и соответствия / Жамбю М.; пер. с фр. - М.: Финансы и статистика, 1988. - 342 с.
3. Анализ данных и процессов: учеб. пособие / А.А. Брасегян, М.С. Куприянов, И.И. Холод [и др.]. - СПб.: БХВ-Петербург, 2009. - 512 с.
4. Pantel P. From Frequency to Meaning: Vector Space Models of Semantics [Електронний ресурс] / P. Pantel, P.D. Turney. - Режим доступу: http://arxiv.org/abs/1003.1141.
5. Indexing by Latent Semantic Analysis / S. Deerwester, S.T. Dumais, G.W. Furnas [et al.] // Journal of the American Society for Information Science. - 1990. - Vol. 41, Issue 6. - P. 391 - 407.
6. Mirzal A. Clustering and Latent Semantic Indexing Aspects of the Singular Value Decomposition [Електронний ресурс] / A. Mirzal. - Режим доступу: http://arxiv.org/abs/1011.4104v2.
7. Вердиева З.Н. Семантические поля в современном английском языке / Вердиева З.Н. - М.: Высшая школа, 1986. - 120 с.
8. Левицкий В.В. Экспериментальные методы в семасиологии / В.В. Левицкий, И.А. Стернин. -Воронеж: Изд-во ВГУ, 1989. - 192 с.
Стаття надійшла до редакції 10.06.2011