УДК 004.912+002.513.5
С. А. Краснов, А. Д. Хомоненко, Я. В. Яковлев
ОЦЕНКА ЭФФЕКТИВНОСТИ ПРИМЕНЕНИЯ АЛГОРИТМА ВЫчИСЛЕНИЯ КОЭФФИЦИЕНТА РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА В МЕТОДЕ ЛАТЕНТНОсемантического анализа при автоматической
РУБРИКАЦИИ ДОКУМЕНТОВ
Рассматривается применение метода латентно-семантического анализа для автоматической рубрикации документов по множеству заданных тематических рубрик в системах электронного документооборота с целью тематического разграничения доступа к ним. Проводится сравнительный анализ между методом латентно-семантического анализа и пространственно-векторной модели описания документов. Демонстрируются существенные преимущества алгоритма вычисления коэффициента ранговой корреляции Спирмена по отношению к вычислению косинусоидальной меры близости между документами.
Делается вывод о том, что последовательная совокупность правильно выполненных методов и алгоритмов дает возможность улучшить автоматическую рубрикацию документов по заданным тематическим рубрикам и тем самым положительно повлиять на защищенность конфиденциальной информации.
тематическая рубрика, автоматическая рубрикация документов, система электронного документооборота, метод латентно-семантического анализа, косинусоидальная мера близости, коэффициент ранговой корреляции Спирмена.
Введение
Целью работы является продолжение исследований по разработке подхода к решению задачи тематического разграничения доступа (ТРД) в системах электронного документооборота (СЭД) на основе автоматической рубрикации документов (АРД) по заданным тематическим рубрикам [1]. Для этого предлагается использовать метод латентно-семантического анализа (ЛСА) [2], [3]. В работе производится выбор алгоритма вычисления меры близости для повышения точности разделения различных групп документов по заданным тематическим рубрикам.
153
В качестве показателя эффективности рассматриваемых алгоритмов выберем меру близости между документами, т. к. она достаточно точно позволяет оценить степень схожести различных групп документов для дальнейшего разделения их по заданным тематическим рубрикам. Кроме того, проводится сравнительный анализ алгоритмов вычисления коэффициента ранговой корреляции Спирмена (КРКС) и алгоритма вычисления косинусоидальной меры близости (КМБ) для пространственно-векторной модели и метода ЛСА.
Большинство методов АРД основываются на использовании пространственно-векторной модели описания документов (Vector Space Model) - классической модели классификации документов. В ней документ описывается вектором, в котором каждому используемому слову (терму) сопоставляется его значимость (вес) внутри документа. Вес терма основывается на статистическом подсчете встречаемости термов в рамках этого и, возможно, других документов. Описания тематических рубрик представляются векторами. Для оценки соответствия документа тематической рубрике используется скалярное произведение векторов описания тематики и вектора документа:
В задачах АРД все больше внимания привлекают подходы, обеспечивающие лучшее качество разделения документов по тематическим рубрикам [4], [5]. Одним из перспективных направлений АРД является применение метода ЛСА [5] для выявления структуры семантических взаимосвязей между словами (термами, терминами, словосочетаниями) на основе статистического анализа большой группы документов. При этом возможно автоматически отличать различные смысловые взаимосвязи одного и того же слова в зависимости от контекста.
1 Постановка задачи
Допустим, в вузе используется СЭД, в которой циркулируют потоки документов с разнообразной текстовой информацией, в том числе конфиденциальной. В связи с этим встает необходимость четко её структурировать согласно ранее определенным тематическим рубрикам для дальнейшего ТРД. Это позволяет конечным пользователям получить доступ к информации при её поиске в рамках их полномочий. Текстовая информация может
м
Ё xj ) х
(i K(i)
d(Xj , X) = cos(X x )
i=1
(1)
154
содержать термы, несущие разную смысловую нагрузку, синонимы, омонимы и т. д. В связи с этим встает необходимость применения оптимальных методов и алгоритмов отнесения вновь поступившей информации к заранее определенным тематическим рубрикам. Это позволяет уменьшить степень ошибочного отнесения документов в несоответствующие ТР. Отнесение документов с конфиденциальной информацией в несоответствующие ТР может приводить к получению информации пользователем, не имеющим права на ознакомление с ней.
Так как пространственно-векторная модель и метод ЛСА основаны на работе с матрицами, а алгоритмы вычисления КРКС и КМБ являются удобными и простыми алгоритмами для расчёта степени схожести векторов, то их можно применить для подсчёта корреляции столбцов матрицы.
При этом требуется провести сравнительный анализ пространственновекторной модели и метода ЛСА. Для расчета степени схожести между векторами матриц, кроме того, требуется сравнить алгоритмы вычисления КРКС и КМБ для этих моделей.
Рассмотрим множество D документов, разделенных на две группы документов da1-da5 и db1-db4(табл. 1). В группе da-da5 речь идет об указах Председателя Правительства Российской Федерации, в группе db1-db4 - о федеральных законах. Слова, выделенные жирным, являются ключевыми (табл. 1).
ТАБЛИЦА 1. Группы документов
_______________________________Группа il-ila.____________________________
1. Указ Председателя Правительства Российской Федерации от 26 августа 2010 г.
№ 1110 г. Москва «Об установлении ежемесячной надбавки за важность выполняемых задач специалистам физической подготовки»
2. Указ Председателя Правительства Российской Федерации от 30 сентября 2010 г. № 1280 г. Москва «О предоставлении госслужащим жилых помещений по договору социального найма и служебных помещений»
3. Указ Председателя Правительства от 26 августа 2010 г. № 1115 г. Москва
«Об изменении ежемесячной надбавки госслужащим, проходящим военную службу по контракту, за квалификационный уровень физической подготовленности, выполнение (изменение) разрядов по военно-прикладным видам спорта и наличие званий по любому виду». Согласно нормативным актам
4. Указ Председателя Правительства Российской Федерации от 24 апреля 2010 г.
№ 100 г. Москва «Об утверждении Инструкции об условиях и порядке приема
в учреждения высшего профессионального образования»
5. Указ Председателя Правительства Российской Федерации от 29 марта 2010 г.
№ 299 г. Москва «О порядке проведения в Правительстве Российской Федерации под руководством Председателя антикоррупционной экспертизы нормативных правовых актов»
155
Окончение табл. 1
______________________________ГРУппа dbi~dM_____________________________
1. В Государственной Думе разработан Федеральный закон «О подготовке внесения изменений в Федеральный закон «О внесении в Федеральный бюджет на 2010 год и на плановый период обеспечения госслужащих»
2. Разработан Федеральный конституционный закон «О подготовке внесения изменений в Федеральный конституционный закон «О Конституционном Суде Российской Федерации по вопросам госслужащих». В соответствии с нормативноправовыми актами
3. В Государственной Думе разработан Федеральный закон «О подготовке внесения положений в статьи 14 и 15 Федерального закона «О политических партиях госслужащих и их правах в Конституционном Суде»
4. В Государственной Думе разработан Федеральный закон «О проведении Международного общественного форума “Роль народной дипломатии в развитии международного гуманитарного физического сотрудничества и права госслужащих”»
Необходимо автоматически разделить группы документов (табл. 1) с максимальной точностью по заданным тематическим рубрикам.
Построим матрицу «термы на документы», которая показывает соответствие термов документам (табл. 2). В ячейках матрицы указывается, сколько раз данный терм встречается в документах при условии, что терм должен повториться минимум в двух документах.
ТАБЛИЦА 2. Матрица соответствия «термы на документы»
№ Термы D
п/п d . a1 d 2 a2 d 3 d 4 4 d 5 a5 drn dB3 dB4
1 Указ 1 1 1 1 1
2 Председатель 1 1 1 1 2
3 Правительство 1 1 1 1 2
4 Российская 1 1 1 2 1
5 Федерация 1 1 1 2 1
6 Москва 1 1 1 1 1
7 Ежемесячная 1 1
8 Надбавка 1 1
9 Физическая 1 1 1
10 Подготовка 1 1 1 1 1
11 Госслужащий 1 1 1 1 1 1
12 Права 1 1 1
156
Окончение табл. 2
№ Термы D
п/п d 1 а\ d 2 а2 d 3 d 4 d 5 а5 dB2 dB3 dhA Ь4
13 Акт 1 1
14 Нормативный 1 1
15 Государственная 1 1 1
16 Дума 1 1 1
17 Разработан 1 1 1 1
18 Федеральный 3 2 2 1
19 Закон 2 2 2 1
20 Внесение 1 1 1
21 Изменения 2 1
22 Конституция 3 1
23 Суд 1 1 1
В пустых ячейках подразумевается 0. Полученная матрица представляет собой пространственно-векторную модель отображения текстовой информации и одновременно задает входные данные для метода ЛСА.
2 Метод латентно-семантического анализа
Для проведения эксперимента по АРД воспользуемся методом ЛСА, который основан на сингулярном разложении матрицы с понижением ранга [2].
Проведём сингулярное разложение исходной матрицы А «термы на документы» (воспользуемся встроенными функциями среды MathCAD). В результате получаем три матрицы U, S и V, где U и V - ортогональные матрицы, а S - диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы X. Результат разложения запишем в виде произведения:
А = USV.
Далее требуется понизить ранг к исходной матрицы. Это позволяет сократить число столбцов и строк в составляющих матрицах U, S и V. В результате получаем сокращённые матрицы Uk, Sk и Vk.
Результат понижения ранга запишем в виде произведения:
х = UkSkVk.
157
При понижении ранга встает вопрос, какое оптимальное значение к выбрать для получения более точных результатов. Подробное описание экспериментов по АРД и полученные результаты по оптимальному подбору ранга представлены в последующих работах авторов. Наилучшие значения по разделению двух различных групп документов получены при ранге к = 2. Мера близости между документами рассчитывалась с помощью алгоритма вычисления КМБ. При этом ни один документ не вышел за рамки определенных групп. Но разброс полученных значений, определяющих схожесть документов внутри каждой из групп, велик, что приводит к ухудшению точности АРД при большом количестве тематических рубрик.
В связи с этим необходимо уменьшить разброс между значениями, определяющими схожесть документов. Это связано с необходимостью уменьшения ошибки отнесения документов одной тематической рубрики в другую и, соответственно, увеличения точности АРД, что в целом положительно влияет на защищенность документов, содержащих конфиденциальную информацию.
Поэтому необходимо найти алгоритм вычисления меры близости, который более точно показывает схожесть между документами различных групп по отношению к алгоритму вычисления КМБ. Для решения этой задачи предложено использовать алгоритм вычисления КРКС.
3 Алгоритм вычисления КРКС
Для расчета КРКС необходимо выполнить следующие шаги.
1. Определить, какие два столбца матрицы «термы на документы» (т. е. два вектора) будут участвовать в сопоставлении в качестве переменных С и D.
2. Проранжировать значения переменной С, начисляя ранг 1 наименьшему значению. Занести ранги в первый столбец таблицы по порядку номеров элементов в векторе.
3. Проранжировать значения переменной D в соответствии с правилами п. 2. Занести ранги во второй столбец таблицы по порядку номеров элементов в векторе.
4. Подсчитать разности е между рангами С и D по каждой строке таблицы и занести в третий столбец таблицы.
5. Возвести каждую разность в квадрат. Эти значения (е2) занести в четвертый столбец таблицы.
6. Подсчитать сумму е2 по всем строкам четвертого столбца таблицы.
7. При наличии одинаковых рангов рассчитать поправки:
Т =1 (с3 - с)/12;
158
T = Е (D3 - d)/12,
где с - объем каждой группы одинаковых рангов в ранговом ряду С; d - объем каждой группы одинаковых рангов в ранговом ряду D.
8. Рассчитать коэффициент ранговой корреляции r по формулам: при отсутствии одинаковых рангов
г, = 1 - 6(
Е
е
N (N 2 -1)
);
при наличии одинаковых рангов
1 - б(
г =
5
(Ее2 - Тс - Тр) N (N2 -1)
)
(1 -
12
N (N2 -1)
Тс )(1-
12
N (N2 -1)
Тр)
где sum(e2) - сумма квадратов разностей между рангами; Тс и Тр - поправки на одинаковые ранги; N - количество признаков, участвующих в ранжировании.
После вычисления меры близости с помощью алгоритма вычисления КМБ и алгоритма вычисления КРКС в среде моделирования MathCAD получены результаты в виде трехмерных гистограмм, которые приведены на рисунке 1. На рисунке 1, а, б отображено распределение двух групп документов при вычислении КМБ и КРКС соответственно.
а)
Мера близости документов группы
Мера близости документов группы
D
Мера
близости документов противоположных групп
db1 db4
б)
Рис. 1. Сравнение алгоритмов вычисления КМБ и КРКС для ЛСА
159
На рисунке 1, а для наглядности выделены меры близости различных групп документов (прямоугольное выделение), а также показаны меры близости документов противоположных групп (овальное выделение). Все остальные гистограммы, приведенные в статье, соответствуют указанным выделениям.
На рисунке 1, б мы видим, что документы различных групп распределись правильно и в каждой группе степень схожести возросла. Это заметно по тому, как столбцы в гистограмме приняли примерно одинаковую высоту и приблизились к значению 1. Столбцы гистограммы, которые приняли отрицательные значения и приблизились к значению минус 1, показывают, насколько документы различных групп не похожи друг на друга. Полученные результаты позволяют утверждать, что алгоритм вычисления КРКС, используемый в методе ЛСА с правильным подбором ранга к, позволяет повысить точность выявления схожих документов по отношению к вычислению КМБ между документами и повысить эффективность метода ЛСА в целом. Теперь покажем, как группы документов распределяются при вычислении меры близости с помощью алгоритмов КМБ и КРКС для пространственновекторной модели.
На рисунке 2 представлены: гистограммы, полученные для пространственно-векторной модели с вычислением КМБ между документами (рис. 2, а) и меры близости, найденной с помощью алгоритма вычисления КРКС (рис. 2, б).
Проанализировав рисунок 2, видим, что различные группы документов распределились недостаточно точно и полученные результаты намного хуже результатов, полученных для метода ЛСА.
Далее покажем, как теряется эффективность метода ЛСА при неправильном подборе ранга к для нахождения меры близости с помощью алгоритма вычисления КРКС (рис. 3). Вычисления проводились при ранге к = 4.
а)
б)
Рис. 2. Сравнение алгоритмов вычисления КМБ и КРКС для ПВМ
160
Рис. 3. Значения мер близости (алгоритм КРКС при К = 4)
На рисунке 3 видно явное ухудшение точности разделения различных групп документов. Только последовательная совокупность выполненных методов и алгоритмов дает нам возможность более точно разделить документы по заданным тематическим рубрикам, что подтверждается столбчатыми гистограммами, представленными на рисунках 1, 2, 3.
Проведя сравнительный анализ между рассматриваемыми методами и алгоритмами, мы можем с уверенностью сказать, что нахождение меры близости между документами с помощью алгоритма вычисления КРКС в методе ЛСА с правильным подбором ранга К намного превосходит возможности пространственно-векторной модели, а также возможности метода ЛСА при вычислении меры близости с помощью КМБ между документами.
Использование предложенной комбинации методов и алгоритмов позволяет повысить точность АРД, уменьшая вероятность получения доступа к документам лицами, не имеющими права на ее использование.
Заключение
Полученные результаты показывают эффективность нахождения меры близости между документами с использованием алгоритма вычисления КРКС в методе ЛСА с правильным подбором ранга К и показывают его превосходство по отношению к КМБ. Это свидетельствует о возможности применения метода ЛСА для решения задачи ТРД в СЭД государственных учебных учреждений.
Анализируя результаты, можно сделать выводы о необходимости более детальной проработки как предварительного анализа документов, так и самих используемых алгоритмов. В перспективе предусматривается использование в качестве координат векторов целых многословных понятий вместо отдельных термов.
161
Библиографический список
1. Автоматическая рубрикация текстов: методы и проблемы / М. С. Агеев, Б. В. Добров, Н. В. Лукашевич // Учебные записки Казанского государственного университета. Физико-математические науки. - Т. 150, кн. 4. - 2008. - С. 25-40.
2. An introduction to Latent Semantic Analysys / T. Landauer, P. Foltz and D. La-ham // Discourse Processes. - V 25. - 1998. - P. 259-284.
3. Применение метода латентно-семантического анализа для автоматической рубрикации текстов в системах электронного документооборота / А. Д. Хомоненко, С. А. Краснов // Сб. материалов I Международной научно-практич. конференции. - СПб. : ПГУПС, 2011. - С. 291-294.
4. An Introduction to Information Retrieval Draft. Online edition / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schutze. - Cambridge University Press, 2009. - 544 p.
5. Автоматическая классификация документов на основе латентно-семантического анализа / И. Е. Кураленок, И. С. Некрестьянов // Труды I Всероссийской научно-методической конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции». - СПб., 1999. - C. 89-96.
© Краснов С. А., Хомоненко А. Д., Яковлев Я. В., 2012
162