Средства информационного поиска и навигации в массивах неструктурированной информации

Краснощеков Е.Е.

Секция прикладной информатики

УДК 681.324.330.1

Е.Е. Краснощеков

СРЕДСТВА ИНФОРМАЦИОННОГО ПОИСКА И НАВИГАЦИИ В МАССИВАХ НЕСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ

Введение

Рост массивов полнотекстовых документов, публикуемых в сети Интернет, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта.

Основной проблемой, возникающей при работе в сети Интернете, является поиск документов по их содержанию. Ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные привычными поисковыми машинами, зачастую не обеспечивают адекватного выбора информации по запросу пользователя.

Одна из причин заключается в сложности точной формулировки запроса -подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом факторов, как то: недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов, и даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.

Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов.

Указанные проблемы стимулировали развитие средств, которые можно назвать тематическими навигаторами. Они дают возможность передвижения по связанным тематическим рубрикам, к каждой из которых может относиться большое число документов, близких по содержанию. Лучшие из таких навигаторов позволяют найти целый ряд связанных тем, к которым относятся интересующие документы, а затем осуществить передвижение по темам.

Все навигаторы делятся на две категории. Первые имеют жестко заданную структуру с априорно установленными темами и связями. Здесь используется предопределенный рубрикатор с иерархией категорий, который отражает общепринятую систему устоявшихся отраслей знаний. Нижние ветви рубрикатора могут включать в себя классы слов языка, относящихся к соответствующим темам.

Другая категория навигаторов для своего создания требует участия экспертов, которые формируют структуру тем на основании анализа содержания коллекции документов. В этом случае гипертекстовая структура обычно представляет семантическую сеть, связи которой отражают актуальное семантическое строение текстов. Ввиду высоких затрат на разработку, связанных с привлечением "ручного" труда, такие навигаторы создаются для небольших коллекций документов, обычно в узкой предметной области.

Технология автоматического анализа текста на основе ассоциативно-статистической модели

Традиционно в задачах классификации и полнотекстового поиска при сравнении документов используются упрощенные векторные модели, представляющие текст набором составляющих.

Рассмотрим кратко теоретические предпосылки описываемого подхода.

Ассоциативная семантическая сеть - аналог правополушарной модели мира.

Высшие психические функции человека опираются на ассоциативную семан-тико-статистическую модель мира, формирующуюся в правом полушарии мозга на основе зрительных пространственно-предметных представлений.

Семантические связи между словами текста можно условно разбить на две группы. Первые (глубинно-семантические) представляют отражение связей семантической модели, задействованных на момент порождения высказывания. Связи второго вида (семантико-синтаксические) формируются в ходе оформления высказываний в языковых конструкциях [1].

Учитывая коррелированность появления слов в рамках высказанных предположений, можно представить процесс порождения текста как марковский процесс первого порядка, состояния которого соответствуют предложениям, а вероятности переходов между состояниями обуславливаются связями элементов семантической модели, соответствующих словам [2].

В качестве описания правополушарной модели предлагается использовать ассоциативную семантическую сеть.

Семантическая сеть есть набор элементов, представляющих понятия предметной области (слова и словосочетания), которые связаны между собой ассоциативными связями, и может быть описана матрицей весов связей:

w = ил, (1)

где wij может интерпретироваться как сила ассоциированности и отражать вероятность появления понятия j в смысловой связи с понятием i в рамках предметной области, описываемой сетью.

Модель процесса порождения текста на основе ассоциативной семантической сети. Автоматическая классификация документов

Пусть имеется модель ассоциативной семантической сети (1), представленная в виде

рк = №)], 1=1..^, ]=1...к, (2)

где р()Ю ~ wij - условная вероятность появления j-го понятия в смысловой связи с ьм, а N - количество элементов сети.

Оценим вероятность того, что произвольный текст был порожден на основе заданной модели.

Обозначим набор понятий как вектор О = (на), где на = 1, если ье понятие семантической сети присутствует в наборе, и (Ш=0 - в противном случае.

Т огда | О | = на (^ есть количество понятий в наборе. Пустой набор будем обозначать ОО.

Представим предложение как набор входящих в него понятий О (1) = (о>)(1;)), где t=1..T - порядковый номер предложения в тексте.

Будем считать, что каждое предложение имеет одно порождающее понятие -тему, которое обуславливает появление всех остальных понятий, связанных с ним, но попарно независимых [4].

Тогда вероятность порождения предложения О (1) от понятия-темы можно определить как

Р(О 0)|т) = П1 р(1|т) ю ^), 1=1..К", (3)

где т - порождающее понятие.

Учитывая то, что порождающее понятие-тема достоверно неизвестно, и полагая его появление обусловленным понятиям предшествующего предложения, с привлечением формулы полной вероятности, представим вероятность порождения предложения как условную:

Р(О (1)|О(1;-1)) = 2тю т(1) Р(О(^|т) р(т|О(1;-1), т=1..К, (4)

Полагая равновероятным, что любое из понятий предложения W(t-1) могло обусловить тему предложения О(1), имеем

р(т|О(Ы) ^ю^Ы) р(тЦ) / 2 юj(t-1), ]=1..К (5)

Тогда, с учетом (3) и (5) из (4) окончательно получаем оценку вероятности порождения предложения в виде

Р(О(1;)| О(Ы)) = 2тю т(1) Р1 р(1|т) ю^^ю^И) р(тЦ) / 2))ш)(1-1) (6)

Уравнение (6) описывает процесс порождения текста как марковский процесс первого порядка.

Для формальной корректности модели следует положить, что

О(О) = ОО;

Р(ОО) = Р(ОО|Е(0 ) = 1/2К (7)

р(т| ОО) = 1/2ш)(1).

Таким образом, порождающее предложение текста считается пустым, а в предложении, порожденным пустым, все понятия полагаются равновероятными в качестве тем.

Полная вероятность порождения наблюдаемого текста моделью есть вероятность соответствующей реализации марковского процесса (6), вычисляемая с учетом (7) как

Р* = п Р(Оф |О (1+1)), 1=О.. .Т. (8)

Описанная модель процесса порождения может быть использована для решения задачи автоматической классификации документов.

Оценка параметров ассоциативной семантической сети

Оценка параметров модели семантической сети в форме (2) требует определения понятий, а также условных вероятностей р(]Ю появления пары понятий в смысловой связи.

Покажем, как провести оценку весов связей.

По определению условной вероятности

р(]|1) = р(Ш / р(1), (9)

где р(1)) - вероятность появления пары понятий в смысловой связи, а р^) - собственная вероятность появления ьго понятия в тексте.

В качестве критерия возможной связности понятий используем факт их появления в одном предложении текста. Считая, что каждое из понятий равновероятно связано с любым из других, имеем

p(ij|ß(t)) = ffli(t) fflj(t) / [jj(t)-1] для i Ф j, (10)

p(ii| ß (t)) = 1

Полная вероятность связи понятий определяется по всему тексту как

p(ij) = Et p(ij | ß (t)) P(ß (t)) = Et p(ij | E (t)) / T, t = 1.. .T. (11)

Собственная вероятность появления понятия

p(i) = Et p(i| ß (t)) P(ß (t)) = Et roi(t) / T, t = 1.T. (12)

Окончательно, с учетом (11), (12) и (10) получаем из (9) искомую оценку p(j |i) = Et p(ij | ß (t)) / Et roi(t) = Et [roi(t) roj(t)/[ Ejroj(t)-1] ] / Etoi(t) (13)

Для уточнения модели можно учесть, что некоторые связи не наблюдаются явно в предложениях текста. Их скрытое влияние выражается в том, что вместо p(j|i) правильнее было бы использовать вероятность p(j|q)p(q|i), где p - ненаблюдаемое понятие. C учетом этого взамен p(j|i) можно использовать уточненную оценку p~(j |i), учитывающую связь через третьи понятия:

p~(j|i) = maxq{ p(j |q)p(q|i) }, q = L. .N. (14)

На практике при использовании модели из предложений текста следует исключить стоп-слова (предлоги, союзы и т.п.), появление которых обуславливается не учтенными здесь факторами, в частности, грамматикой языка.

Заключение

В статье был представлен комплекс методов, предназначенных для создания интеллектуальных информационно-поисковых систем в сети Интернет. Многолетний интерес к достижениям в области искусственных нейронных сетей, нейропсихологии и лингвистики послужил фундаментом для развития технологий обработки текста на естественном языке [3].

Методы, предназначенные для автоматического анализа текстовых массивов и выделения семантических признаков - атрибутов, позволяющих повысить качество поиска и представления документов.

Возможность нечеткого поиска информации по лексикографическому подобию позволяет решить другой класс проблем, связанный с ошибками в документах и поисковых запросах.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. ЛурияА.Р. Основы нейропсихологии. - М.: МГУ, 1973. - 374 с.

2. Ахутина Т.В. Порождение речи. Нейролингвистический анализ синтаксиса. - М.: МГУ, 1989. - 215с.

3. Харламов А.А., Ермаков А.Е., Кузнецов ДМ. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. 1998. № 2. С. 26-32.

4. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. № 12.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Краснощеков Е. Е.

Текст научной работы на тему «Средства информационного поиска и навигации в массивах неструктурированной информации»