Научная статья на тему 'Модели поиска и классификация текстовых документов'

Модели поиска и классификация текстовых документов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
549
77
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Модели поиска и классификация текстовых документов»

• в сети отсутствуют изолированные и имеющие 1-2 точки сочленения компоненты;

• сеть является сильносвязанным графом с ограниченным числом циклов;

• отношение числа связей R(t )| к числу вершин |A(t)| практически постоянно;

• для строго иерархических структур справедливо:

R(t)| = \A(t)\ - с,

где с - количество компонент связанности, т.е. R(t )|/| A(t)| > 1 - 0;

• для полносвязных структур справедливо:

R(t)|/|A(t)| >(A(t)|-1)/2;

• отношение общего числа вершин-документов к числу терминов-понятий практически постоянно:

i <\A(t)\ / p < i +1,

где p - число документов, выделенных экспертом в качестве понятий. Семантическая сеть может быть описана матрицей весов связей:

W = [wp ],

где wij - степень ассоциативности, отражающая вероятность появления понятия j в смысловой связи с понятием i.

Для решения задачи автоматической классификации документов в качестве модели можно предложить модель ассоциативной семантической сети:

PN = [p(j I i)],i = 1,...,N, j = 1,...,N,

где p(j | i) ~ Wj - условная вероятность появления понятия j в смысловой связи

с понятием i;

N - количество элементов сети.

Таким образом, метод решения задач, связанных с анализом документов, может быть найден в представлении текста в форме семантической сети, в которой для каждого понятия, наиболее часто встречающегося в тексте, и, следовательно, несущего смысловую нагрузку, формируется набор ассоциативных связей с другими понятиями, с которыми оно встречалось в текстовом материале.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Luhn H.P. A statistical approach to mechanised encoding and searching of library information / IBM Journal of Research and Development, 1, P. 309-317.

2. Мальковский М.Г., Соловьев С.Ю. Универсальное терминологическое пространство / Материалы международной конференции «Диалог-2002».

Э.М. Котов, Ю.А. Целых МОДЕЛИ ПОИСКА И КЛАССИФИКАЦИЯ ТЕКСТОВЫХ ДОКУМЕНТОВ

В качестве основного понятия, связанного с рассмотрением документа, как множества ключевых слов, и определяющего, по какому принципу определяется

І47

релевантность документа, является модель информационного поиска, которую формально возможно представить в виде следующих компонентов [1]:

D - множество используемых типов представления документов;

Q - множество используемых типов представления поисковых запросов;

£ - структура представления документов, запросов и связей между ними;

R - вид критерия релевантности информационного ресурса;

- функция, присваивающая весовой коэффициент результату выполнения запроса для дальнейшего ранжирования документов.

Реализованные в современных поисковых системах модели можно выделить в следующие группы [2]:

1. Булева модель.

В данной модели документы и запросы представляются в виде множества термов, семантика которых позволяет описать основное содержание документа. Если документ, рассматриваемый как логическое множество, пересекается с запросом, то он ему релевантен. В булевой модели возможно формулировать запрос в виде булева выражения с использованием операторов И, ИЛИ, НЕТ, в связи с чем критерием релевантности можно считать истинность булева высказывания (в общем случае) или условие вхождения терма в текст документа.

Реализация данной модели достаточно проста и эффективна, но при этом ей присущ ряд недостатков:

• сложность для пользователя составления запроса в виде булева выражения;

• отсутствие учета значимости слов в документе не позволяет осуществлять ранжирование найденных документов;

• неправильное употребление терма в запросе приводит к классификации релевантного документа как нерелевантного.

2. Векторная модель.

В данной модели документы и запрос преобразуются в векторы, в которых в роли компонента вектора выступает вес терма и каждый документ или запрос может быть представлен в виде

= К’ ^2, ^).

Для вычисления веса терма наиболее распространенным является отношение:

где /- мера того, насколько часто терм встречается в конкретном документе;

ій/- мера того, насколько часто терм встречается во всей коллекции документов.

В качестве веса wij в векторной модели могут использоваться как сами термины, так и п-граммы - последовательность букв или слов, что можно представить в виде матрицы, у которой столбцы представляют собой термины, а строки - документы:

" " *іі *1і *ік

ж = ; ж = ^1

Ук . *ті *тк _

где К - число терминов;

N - число документов;

- вес термина I в документеу, причем 1=1, ...,К и=1, ...,Ж

Если через обозначить частоту встречаемости терма г в документе у, то формулу запишем в виде

*.■ = /, 1°§2( ~),

где N1 - число документов, в которых присутствует г-й термин.

Одним из возможных вариантов решения проблемы поиска релевантной информации в информационных массивах может являться классификация текстовых документов.

В теории классификации можно выделить два основных класса:

1. Многомерные статистические методы. К этому классу можно отнести:

• кластерный анализ;

• дискриминатный анализ;

• факторный анализ;

• компонентный анализ;

• эвристические методы;

• процедуры разделения смеси.

2. Методы систем искусственного интеллекта. В данном классе рассматриваются:

• нейронные сети;

• деревья решений;

• генетические алгоритмы;

• нечеткие системы;

• экспертные системы.

Задача классификации текстовых документов сводится к разбиению на группы по критерию максимальной близости между документами одной группы и максимального различия между группами разных смысловых тематик.

Рассмотрим различные модели представления текстовых документов.

1. Неструктурированная модель - каждый термин является независимой случайной величиной, и его вес определяется частотой встречаемости в тексте.

2. Частично структурированная модель в отличие от неструктурированной модели учитывает информацию о положении слов и применяет различные подходы для выделения словосочетаний, например, вес словосочетания определяется как:

м ,

где - - частота встречаемости терминов к и у одновременно;

мк - частота встречаемости терминов к; м- - частота встречаемости терминов у.

3. Структурированная модель - использует базу знаний ключевых терминов, словосочетаний и иерархические связи предметной области. При разработке структурированных моделей может быть предложено несколько подходов:

• семантический анализ текста;

• лингвистический анализ;

• онтологии;

• ассоциативные семантические сети.

До недавнего времени частота появления слова и близость слов в документе были практически единственными критериями оценки соответствия запросу, но с приходом поисковых систем в Интернет в области информационного поиска открылись новые перспективы, связанные, в первую очередь, с наличием гипертекстовой структуры и с большим количеством документов.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Ricardo Baeza-Yates and Berthier Riberio-Neto. Modem Information Retrieval.- ACM Press, 1999.

2. Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Дисс. к.т.н.: 05.13.11.- СПб, 2000.

А.Э. Саак

ИНДЕКСНЫЕ АЛГЕБРЫ И МОДЕЛИРОВАНИЕ МНОГОПРОЦЕССОРНЫХ СИСТЕМ В ПОТОКЕ ПОЛЬЗОВАТЕЛЕЙ

Новая эпоха как информатическая цивилизация, сменившая цивилизацию индустриальную, повышает роль экономической среды при анализе функционирования многопроцессорной системы в потоке пользователей, превращая дуальность «экономическая среда - вычислительный сервис» в приоритетный фактор моделирования по отношению к внутренним алгоритмам эксплуатационного характера. Не уменьшая роли последних, мы хотим подчеркнуть экономические приоритеты, побуждающие к сложному комбинаторному моделированию в рамках индексных алгебр и вариантных массивов многогранников.

В основе моделирования многопроцессорной системы находится градуированная форма комбинаторного эксперимента как пересечения множества требований пользователей и некоторого подмножества совокупности вариантов предлагаемых ресурсов. Последнее возникает при рассмотрении всего диапазона суммарных требований вычислительного ресурса от минимального до максимально допустимого при элементарно-аддитивной суперпозиции заявок на процессоры без пропусков и наложений. Инвариантность изложенной процедуры размещения заявок относительно выбора начального элемента на линейке процессоров индуцирует множество базисных допустимых граничных частей множества вариантов предложенных ресурсов. Дополнительное центральное подмножество индексного массива мы интерпретируем как совокупность неблагоприятных, недопустимых вариантов спроса-предложе-ния относительно правил, условий функционирования многопроцессорной системы.

В мультииндексных числовых массивах аг. . * , а е С в качестве базис-

ной операции берётся транспонирование, определение которого мы начнём с одноин-дексного случая а(г1), г1 = 1,2, ..., к. Инверсия переменной /1 к — ^, к = к +1 индуцирует транспонирование индексного массива а11 (гх) = а(к +1 — \) относительно централи г = к +1 — г . При нечётном к = 2т +1 последняя содержит одну точ-

ку i = m+1, при чётном к=2ш - пару точек id =

к +1 к +1

_ 2 _ _ 2 _

+1 = m; m +1-

Для двухиндексных массивов используется классическое транспонирование матриц

i Надоели баннеры? Вы всегда можете отключить рекламу.