Научная статья на тему 'Применение кластерного анализа для обработки документов в информационно-поисковой системе'

Применение кластерного анализа для обработки документов в информационно-поисковой системе Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
908
164
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННО-ПОИСКОВАЯ СИСТЕМА / ТОЧНОСТЬ ПОИСКА / КАЧЕСТВО ПОИСКА / КЛАСТЕРНЫЙ АНАЛИЗ / ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / INFORMATION RETRIEVAL SYSTEM / ACCURACY OF SEARCH / SEARCH QUALITY / CLUSTER ANALYSIS / GENETIC ALGORITHM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Щербатов Иван Анатольевич, Беляев Игорь Олегович

Роль информационно-поисковых систем с каждым годом становится все более актуальной. Количество информации в электронном виде удваивается каждые 7-9 лет, поэтому решение задачи получения релевантной информации из большого объема данных становится ключевой при разработке любой информационно-поисковой системы. Описаны основные этапы построения информационно-поисковой системы. В качестве контента использовались новости с портала ria.ru за 2011 г. Описаны проблемы, возникающие при обработке большого объема данных, предложены механизмы по их решению. Качество поиска оценивается двумя ключевыми параметрами: точность и полнота. Немаловажным фактором информационно-поисковой системы является время отклика. Предложен механизм уменьшения времени отклика без потери качества поиска. Данный механизм основан на синтезе кластерного анализа и генетического алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Щербатов Иван Анатольевич, Беляев Игорь Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USE OF CLUSTER ANALYSIS FOR DOCUMENTS PROCESSING IN RETRIEVAL SYSTEM

The role of information retrieval systems becomes every year more and more actual. The e-information doubles each 7-9 years, therefore, the solution of the problem of obtaining relevant information from large volume of data is very important. The main stages of creation of the information retrieval system are described. The news from a portal ria.ru for 2011 is used as practical material. The problems arising in processing a large amount of data are described; the mechanisms of their solution are proposed. Search quality is evaluated by two key parameters: the accuracy and completeness. The most important factor is response time. The mechanism of reduction of the response time without loss of search quality is offered. This mechanism is based on the synthesis of cluster analysis and genetic algorithm.

Текст научной работы на тему «Применение кластерного анализа для обработки документов в информационно-поисковой системе»

УДК [002.6:004.65] :519.237.8 ББК [73.72:32.988-5]:22.172.6

И. А. Щербатов, И. О. Беляев

ПРИМЕНЕНИЕ КЛАСТЕРНОГО АНАЛИЗА ДЛЯ ОБРАБОТКИ ДОКУМЕНТОВ В ИНФОРМАЦИОННО-ПОИСКОВОЙ СИСТЕМЕ

I. А. Shcherbatov, I. О. Belyaev

USE OF CLUSTER ANALYSIS FOR DOCUMENTS PROCESSING IN RETRIEVAL SYSTEM

Роль информационно-поисковых систем с каждым годом становится все более актуальной. Количество информации в электронном виде удваивается каждые 7-9 лет, поэтому решение задачи получения релевантной информации из большого объема данных становится ключевой при разработке любой информационно-поисковой системы. Описаны основные этапы построения информационно-поисковой системы. В качестве контента использовались новости с портала ria.ru за 2011 г. Описаны проблемы, возникающие при обработке большого объема данных, предложены механизмы по их решению. Качество поиска оценивается двумя ключевыми параметрами: точность и полнота. Немаловажным фактором информационно-поисковой системы является время отклика. Предложен механизм уменьшения времени отклика без потери качества поиска. Данный механизм основан на синтезе кластерного анализа и генетического алгоритма.

Ключевые слова: информационно-поисковая система, точность поиска, качество поиска, кластерный анализ, генетический алгоритм.

The role of information retrieval systems becomes every year more and more actual.

The e-information doubles each 7-9 years, therefore, the solution of the problem of obtaining relevant information from large volume of data is very important. The main stages of creation of the information retrieval system are described. The news from a portal ria.ru for 2011 is used as practical material.

The problems arising in processing a large amount of data are described; the mechanisms of their solution are proposed. Search quality is evaluated by two key parameters: the accuracy and completeness.

The most important factor is response time. The mechanism of reduction of the response time without loss of search quality is offered. This mechanism is based on the synthesis of cluster analysis and genetic algorithm.

Key words: information retrieval system, accuracy of search, search quality, cluster analysis, genetic algorithm.

Введение

При разработке информационно-поисковой системы важной составляющей является ранжирование документов согласно релевантности введенному поисковому запросу и определение качества поиска. При разработке информационно-поисковых систем, обрабатывающих большое количество документов, с ростом количества обрабатываемых документов растет время отклика системы, в связи с чем возникает актуальная задача: уменьшение времени отклика информационно-поисковой системы на запрос пользователя без потери качества поиска.

В общем случае имеется коллекция документов D = [doc0, docx, ..., docn-1} . Информационно-поисковая система обрабатывает запрос пользователя R и генерирует размещение без повторений Plac = {Р0, fi, ..., Pk-1} , где k - количество релевантных документов по отношению к запросу R. При этом pt - индекс документа docj в первоначальной коллекции D. Необходимо

минимизировать время генерации размещения Plac за счет применения синтеза кластерного анализа и генетического алгоритма.

Далее опишем ключевые понятия и основные моменты разработки информационнопоисковой системы для архива новостной ленты, касающиеся поставленной задачи. В качестве архива новостей будем использовать Интернет-архив РИА «Новости», доступный по ссылке http://ria.ru/. Ограничимся всеми текстовыми новостями за 2011 г. Их количество составляет 165 766, размер - 279 МБ.

Разработку данной системы начнем с построения прямых и обратных индексов.

Оценка релевантности и смежные понятия

Прямой индекс для документа doc - это набор пар {lec, cnt}, где lex - это нормированная лексема, которая входит в состав документа doc, а cnt - количество вхождений нормированной лексемы lex в документ doc .

Обратный индекс для нормированной лексемы lex - это список документов, в которые он входит.

Нормированная лексема - это лексема без окончания и суффиксов. В качестве алгоритма нормирования лексем будем использовать алгоритм стемминга Портера для русского языка [1], который прошел тест самого Портера для определения корректности.

Рассмотрим функцию sjm(docj, docj), определяющую степень сходства двух документов:

doct и docj . Ее можно определить в векторном пространстве как косинусную близость двух векторов Vj и Vj, которые соответствуют документам docj и docj . Для определения ранга векторов необходимо получить набор уникальных нормированных лексем lexemsi, j , которые встречаются в обоих документах.

ранг( Vj) = ранг( Vj) = \lexemsj j |.

Каждой лексеме lexk из набора lexemSj j ставится в соответствие одно из измерений векторов Vj и Vj :

Vj = {w0, w1, ..., wlr} и Vj = {w0, w{,..., wj} ,

где w'k и Wjj - вес лексемы lexk в документах docj и docj соответственно; r - ранг( Vj)

и ранг( Vj).

Для определения значений w‘k и w]k будем использовать tf-idf-модель [2].

Wk =tfk • jdfk,

где tfk - (termin frequency) - количество вхождений лексемы lexk в документ docj; jdfk - (invert document frequency) - обратная документальная частота для лексемы lexk;

N

jdfk = log10(--); N - количество документов в коллекции; dfk - (document frequency) - количе-

dfk

ство документов, содержащих лексему lexk .

Тf-idf-модель дает следующий эффект [3]:

1. Если лексема lexk встречается большое количество раз в небольшом количестве документов, то вес лексемы будет достигать максимального значения.

2. Если лексема lexk встречается в небольшом количестве документов небольшое количество раз либо же встречается во многих документах небольшое количество раз, то ее вес уменьшается по сравнению с первым случаем.

3. Если лексема lexk встречается практически во всех документах, то ее вес достигает минимального значения.

Зная координаты векторов Vj и Vj, можно найти угол 0 между ними, используя скалярное произведение векторов. Чем ближе документы docj и docj друг к другу по смыслу, тем меньше угол между соответствующими векторами, а значит, тем больше косинус этого угла.

V -V,

sjm(docj, docj) = cos 0 = , . . .

Для определения релевантности документа ^с1 по отношению к введенному запросу Q можно воспользоваться функцией $Ш(йос1, Q), если представить запрос Q в виде документа, состоящего из лексем запроса Q .

Если информационно-поисковая система оперирует большим количеством документов, то вычисление функции 8гш(йос1, Q) для всех документов может занять неприемлемо много времени. Обычно от информационно-поисковой системы не требуется определение релевантности всех документов коллекции. Необходимо выбрать К (К << N) документов, наиболее близко соответствующих запросу Q .

Критерии оценки информационного поиска

Оценить работу информационно-поисковой системы можно с помощью двух параметров: точность (Р) и полнота (Я).

Точность (Р) - доля релевантных документов среди найденных.

Р = -^.

>Р+/Р

Полнота (Я) - доля найденных релевантных документов среди найденных.

я,

1р + /п

1р - количество найденных релевантных документов; /р - количество найденных нерелевантных документов; /п - количество ненайденных релевантных документов.

Описание метода

Для решения поставленной задачи предлагается синтезировать методы кластерного анализа с генетическим алгоритмом.

Разобьем N документов коллекции на -^/N групп (кластеров). При этом необходимо выбрать л/N опорных документов, которые будут являться ядром своих кластеров. С помощью

косинусной меры близости можно соотнести каждый из оставшихся N — документов к од-

ному из кластеров. В [4] предлагается в качестве опорных документов выбирать случайные документы. При этом запрос Q теперь нужно сопоставлять не со всей выборкой документов, а только с тем кластером, к которому он ближе, т. е. общее количество вызовов функции $Ш(йос1, Q) уменьшается до 2^ÍN.

Использование кластерного анализа позволит уменьшить время отклика информационнопоисковой системы, но, в свою очередь, это снизит точность и полноту поиска. Но как показывают исследования [5], для пользователей важна не столько полнота поиска, сколько наличие релевантных документов среди первых 5-10 найденных документов.

Если документы меняются редко и незначительно, то есть смысл выбрать опорные документы более осмысленно. Для этого предлагается использовать генетический алгоритм.

Использование генетического алгоритма

Пронумеруем все документы, начиная с 0. Под геном будем понимать порядковый номер документа.

Хромосома представляет собой набор из »31 генов. Условно будем считать, что хромосомы упорядочены в порядке возрастания.

При равномерной кластеризации документов в каждый кластер должно попадать примерно документов. В ходе работы генетический алгоритм будет стремиться получить равномерную кластеризацию, а в качестве оценочной функции будет считать разницу между размером максимального и минимального кластера.

Будем использовать правило элитизма, в соответствии с которым из предыдущего в следующее поколение всегда будут переходить 2 лучшие хромосомы.

Определенное количество пар - 25 % хромосом - будут скрещиваться, в результате будут получаться 3 потомка; 33 % хромосом будут подвержены мутациям, в ходе которых будет меняться ровно один ген.

Пример

Применим данный метод для решения поставленной задачи на тестовой выборке из 1 000 новостных документов, которые публиковались в первую неделю 2011 г.

Был проведен эксперимент на рабочей станции с процессором Щ:е1 Соге2Био Т5250 1,5 ГГц, ЯЛЫ до 2 ГБ на платформе Windows 7, в котором с помощью описанного генетического алгоритма была получена наиболее равномерная кластеризация документов. Результаты эксперимента отображены на рис. 1.

Рис. 1. Результаты эксперимента: ось ОУ - изменение оценочной функции в ходе работы генетического алгоритма; ось ОХ - номер поколения

Значение оценочной функции на лучшей хромосоме достигало 23. Подробная информация о лучшей хромосоме представлена в табл. 1.

Таблица 1

Информация о лучшей хромосоме

Ядро кластера Размер кластера URL документа

25 33 ria.ru/world/20110101/316454664.html

28 37 ria.ru/sport/20110101/316661119.html

48 37 ria.ru/society/20110101/316362584.html

73 33 ria.ru/inquest/20110101/316308598.html

123 33 ria.ru/sport/20110101/316202254.html

226 37 ria.ru/world/20110102/316823293 .html

243 34 ria.ru/moscow/20110102/316684047.html

259 21 ria.ru/society/20110102/316741078.html

267 33 ria.ru/incidents/20110102/316627221 .html

279 42 ria.ru/sport/20110102/316652314.html

302 37 ria.ru/incidents/20110102/316600829.html

369 34 ria.ru/society/20110103/317120719.html

403 20 ria.ru/world/20110103/317079292.html

522 40 ria.ru/sport/20110104/317513241 .html

543 31 ria.ru/sport/20110104/317553830.html

581 38 ria.ru/sport/20110104/317410567.html

603 34 ria.ru/world/20110104/317350790.html

620 29 ria.ru/society/20110104/317393413.html

677 30 ria.ru/world/20110105/317995690.html

692 42 ria.ru/sport/20110105/317901895.html

699 33 ria.ru/incidents/20110105/317914175.html

733 20 ria.ru/moscow/20110105/317878630.html

750 32 ria.ru/inquest/20110105/317821462.html

765 37 ria.ru/sport/20110105/317837262.html

810 21 ria.ru/defense safety/20110105/317740578.html

829 20 ria.ru/economy/20110105/317668490.html

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

918 35 ria.ru/politics/20110106/318191304.html

920 34 ria.ru/incidents/20110106/318194777.html

956 28 ria.ru/world/20110106/318176129.html

985 22 ria.ru/incidents/20110106/318136024.html

989 43 ria.ru/incidents/20110106/318147990.html

Как видно из табл. 1, лучшая хромосома содержит кластеры обо всех основных областях, освещаемых в прессе: политика, экономика, мировые события, новости спорта и др.

Для анализа новостной ленты за долгий период (например, за 10 лет) целесообразно разбить все новости на категории, как это сделано на ria.ru, и уже в рамках одной категории применить кластерный анализ.

Оценка качества информационного поиска

Оценим качество поиска после проведенной кластеризации. В качестве критериев оценки будем использовать понятие точности и полноты, описанное выше.

Случайным образом выделим -/Й документов, сгенерируем для них до S= 3) релевантных запросов, которые в совокупности будем называть тестовой выборкой запросов.

Получение S релевантных запросов для документа будет выполняться по следующему алгоритму:

1. Выделим S наиболее релевантных лексем для документа.

2. Для каждой релевантной лексемы рассмотрим ее окрестность в радиусе 2-3 слова и составим все возможные словосочетания из 2-3 слов этой окрестности.

3. В тестовую выборку запросов добавляется одно релевантное словосочетание из п. 2, не содержащее стоп-слова (предлоги и низкорелевантные лексемы).

4. Для каждого поискового запроса из тестовой выборки определяется набор релевантных документов из всей коллекции.

После выполнения данного алгоритма каждому поисковому запросу Ц- ставится в соответствие размещение Р1ас1, состоящее из номеров документов общей коллекции.

В ходе работы был проведен эксперимент, в котором была подсчитана точность и полнота для каждого поискового запроса из тестовой выборки запросов. Результаты данного эксперимента представлены на рис. 2. Сами поисковые запросы представлены в табл. 2.

Рис. 2. Оценка качества информационного поиска: по оси Ох представлены порядковые номера запросов из тестовой выборки; по оси Оу задаются точность и полнота в процентах

Таблица 2

Точность и полнота поисковых запросов из тестовой выборки, характеризующие качество информационного поиска после кластеризации

№ Запрос Р, % Я, % № Запрос Р, % Я, %

1 Самолет-разведчик 74,67 44,00 17 Начало митинга 81,06 50,42

2 Нарушение законодательства 82,24 13,58 18 Давление в двигателях 77,48 51,05

3 Доставлен в больницу 75,64 45,45 19 Серия терактов 83,29 35,50

4 Командующий армией 74,27 26,91 20 Ожоги и отравления 79,01 13,48

5 Порывистый ветер 88,42 22,36 21 Муниципальная собственность 82,23 19,54

6 Выплатить компенсацию 84,04 42,53 22 Победная шайба 89,40 26,76

7 Многоцелевые истребители 85,82 16,16 23 Средства на ремонт 84,08 34,39

8 Приводит Минздрав 91,95 12,26 24 Премьер-министр 79,23 12,38

9 Религиозные лидеры 84,38 34,12 25 Регулярный чемпионат 91,82 34,41

10 Экологическая безопасность 80,99 35,94 26 Остались без электричества 86,15 14,58

11 Научные исследования 76,11 12,33 27 Христианский Юг 77,30 37,06

12 Бюджет города 86,64 31,11 28 Количество терактов 86,86 36,45

13 Несанкционированная акция 86,68 42,44 29 Сильный снегопад 77,72 25,29

14 Информационный центр 75,57 22,59 30 Командир корабля 90,73 22,12

15 Недоверие кабинету 76,41 44,78 31 Чрезвычайное происшествие 79,90 36,36

16 Результат взрыва 89,35 15,42 32 Заявление миротворцев 88,67 40,74

Как видно из рис. 2 и табл. 2, минимальное значение точности поиска равно 74,27 %, а значение полноты поиска варьируется в интервале 12,26-51,05 %. Полученные показатели дают право утверждать, что описанный кластерный анализ документов на основе генетического алгоритма является эффективным. В итоге решена задача, поставленная в начале исследования: уменьшить время отклика поисковой системы без потери качества поиска.

СПИСОК ЛИТЕРАТУРЫ

1. http://snowball. tartarus.org/algorithms/russian/stemmer.html.

2. Маннинг К., Рагхаван П., Шютце Х. Введение и информационный поиск. - М.: Вильямс, 2011. - 528 с.

3. Седова Я. А., Квятковская И. Ю. Интеллектуальный анализ корпуса документов научной информации // Вестн. Астрахан. гос. техн. ун-та. Сер.: Управление, вычислительная техника и информатика. -2011. - № 1. - С. 128-136.

4. Finding near neighbors through cluster pruning / F. Chierichetti, A. Panconesi, P. Raghavan et al. // Computer Science. - 2007. - P. 103-112.

5. Singitham Pavan Kumar C., Mahathi S. Mahabhashyam, Prabhakar Raghavan. Efficiency-quality tradeoffs for vector score aggregation // VLDB, 2004. - P. 624-635.

Статья поступила в редакцию 28.06.2012

ИНФОРМАЦИЯ ОБ АВТОРАХ

Щербатов Иван Анатольевич - Астраханский государственный технический университет; канд. техн. наук, доцент; докторант кафедры «Вычислительная техника и электроника»; [email protected].

Shcherbatov ¡van Anatolievich - Astrakhan State Technical University; Candidate of Technical Sciences, Assistant Professor; Doctoral Candidate of the Department "Computer Engineering and Electronics"; [email protected].

Беляев Игорь Олегович - Астраханский государственный технический университет; аспирант кафедры «Системный анализ, управление и обработка информации»; [email protected].

Belyaev ¡gor Olegovich — Astrakhan State Technical University; Postgraduate Student of the Department "System Analysis, Management and Data Processing"; [email protected].

i Надоели баннеры? Вы всегда можете отключить рекламу.