Секция прикладной информатики
УДК 681.324.330.1
Е.Е. Краснощеков
СРЕДСТВА ИНФОРМАЦИОННОГО ПОИСКА И НАВИГАЦИИ В МАССИВАХ НЕСТРУКТУРИРОВАННОЙ ИНФОРМАЦИИ
Введение
Рост массивов полнотекстовых документов, публикуемых в сети Интернет, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта.
Основной проблемой, возникающей при работе в сети Интернете, является поиск документов по их содержанию. Ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные привычными поисковыми машинами, зачастую не обеспечивают адекватного выбора информации по запросу пользователя.
Одна из причин заключается в сложности точной формулировки запроса -подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом факторов, как то: недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов, и даже орфографическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе.
Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов.
Указанные проблемы стимулировали развитие средств, которые можно назвать тематическими навигаторами. Они дают возможность передвижения по связанным тематическим рубрикам, к каждой из которых может относиться большое число документов, близких по содержанию. Лучшие из таких навигаторов позволяют найти целый ряд связанных тем, к которым относятся интересующие документы, а затем осуществить передвижение по темам.
Все навигаторы делятся на две категории. Первые имеют жестко заданную структуру с априорно установленными темами и связями. Здесь используется предопределенный рубрикатор с иерархией категорий, который отражает общепринятую систему устоявшихся отраслей знаний. Нижние ветви рубрикатора могут включать в себя классы слов языка, относящихся к соответствующим темам.
Другая категория навигаторов для своего создания требует участия экспертов, которые формируют структуру тем на основании анализа содержания коллекции документов. В этом случае гипертекстовая структура обычно представляет семантическую сеть, связи которой отражают актуальное семантическое строение текстов. Ввиду высоких затрат на разработку, связанных с привлечением "ручного" труда, такие навигаторы создаются для небольших коллекций документов, обычно в узкой предметной области.
Технология автоматического анализа текста на основе ассоциативно-статистической модели
Традиционно в задачах классификации и полнотекстового поиска при сравнении документов используются упрощенные векторные модели, представляющие текст набором составляющих.
Рассмотрим кратко теоретические предпосылки описываемого подхода.
Ассоциативная семантическая сеть - аналог правополушарной модели мира.
Высшие психические функции человека опираются на ассоциативную семан-тико-статистическую модель мира, формирующуюся в правом полушарии мозга на основе зрительных пространственно-предметных представлений.
Семантические связи между словами текста можно условно разбить на две группы. Первые (глубинно-семантические) представляют отражение связей семантической модели, задействованных на момент порождения высказывания. Связи второго вида (семантико-синтаксические) формируются в ходе оформления высказываний в языковых конструкциях [1].
Учитывая коррелированность появления слов в рамках высказанных предположений, можно представить процесс порождения текста как марковский процесс первого порядка, состояния которого соответствуют предложениям, а вероятности переходов между состояниями обуславливаются связями элементов семантической модели, соответствующих словам [2].
В качестве описания правополушарной модели предлагается использовать ассоциативную семантическую сеть.
Семантическая сеть есть набор элементов, представляющих понятия предметной области (слова и словосочетания), которые связаны между собой ассоциативными связями, и может быть описана матрицей весов связей:
w = ил, (1)
где wij может интерпретироваться как сила ассоциированности и отражать вероятность появления понятия j в смысловой связи с понятием i в рамках предметной области, описываемой сетью.
Модель процесса порождения текста на основе ассоциативной семантической сети. Автоматическая классификация документов
Пусть имеется модель ассоциативной семантической сети (1), представленная в виде
рк = №)], 1=1..^, ]=1...к, (2)
где р()Ю ~ wij - условная вероятность появления j-го понятия в смысловой связи с ьм, а N - количество элементов сети.
Оценим вероятность того, что произвольный текст был порожден на основе заданной модели.
Обозначим набор понятий как вектор О = (на), где на = 1, если ье понятие семантической сети присутствует в наборе, и (Ш=0 - в противном случае.
Т огда | О | = на (^ есть количество понятий в наборе. Пустой набор будем обозначать ОО.
Представим предложение как набор входящих в него понятий О (1) = (о>)(1;)), где t=1..T - порядковый номер предложения в тексте.
Будем считать, что каждое предложение имеет одно порождающее понятие -тему, которое обуславливает появление всех остальных понятий, связанных с ним, но попарно независимых [4].
Тогда вероятность порождения предложения О (1) от понятия-темы можно определить как
Р(О 0)|т) = П1 р(1|т) ю ^), 1=1..К", (3)
где т - порождающее понятие.
Учитывая то, что порождающее понятие-тема достоверно неизвестно, и полагая его появление обусловленным понятиям предшествующего предложения, с привлечением формулы полной вероятности, представим вероятность порождения предложения как условную:
Р(О (1)|О(1;-1)) = 2тю т(1) Р(О(^|т) р(т|О(1;-1), т=1..К, (4)
Полагая равновероятным, что любое из понятий предложения W(t-1) могло обусловить тему предложения О(1), имеем
р(т|О(Ы) ^ю^Ы) р(тЦ) / 2 юj(t-1), ]=1..К (5)
Тогда, с учетом (3) и (5) из (4) окончательно получаем оценку вероятности порождения предложения в виде
Р(О(1;)| О(Ы)) = 2тю т(1) Р1 р(1|т) ю^^ю^И) р(тЦ) / 2))ш)(1-1) (6)
Уравнение (6) описывает процесс порождения текста как марковский процесс первого порядка.
Для формальной корректности модели следует положить, что
О(О) = ОО;
Р(ОО) = Р(ОО|Е(0 ) = 1/2К (7)
р(т| ОО) = 1/2ш)(1).
Таким образом, порождающее предложение текста считается пустым, а в предложении, порожденным пустым, все понятия полагаются равновероятными в качестве тем.
Полная вероятность порождения наблюдаемого текста моделью есть вероятность соответствующей реализации марковского процесса (6), вычисляемая с учетом (7) как
Р* = п Р(Оф |О (1+1)), 1=О.. .Т. (8)
Описанная модель процесса порождения может быть использована для решения задачи автоматической классификации документов.
Оценка параметров ассоциативной семантической сети
Оценка параметров модели семантической сети в форме (2) требует определения понятий, а также условных вероятностей р(]Ю появления пары понятий в смысловой связи.
Покажем, как провести оценку весов связей.
По определению условной вероятности
р(]|1) = р(Ш / р(1), (9)
где р(1)) - вероятность появления пары понятий в смысловой связи, а р^) - собственная вероятность появления ьго понятия в тексте.
В качестве критерия возможной связности понятий используем факт их появления в одном предложении текста. Считая, что каждое из понятий равновероятно связано с любым из других, имеем
p(ij|ß(t)) = ffli(t) fflj(t) / [jj(t)-1] для i Ф j, (10)
p(ii| ß (t)) = 1
Полная вероятность связи понятий определяется по всему тексту как
p(ij) = Et p(ij | ß (t)) P(ß (t)) = Et p(ij | E (t)) / T, t = 1.. .T. (11)
Собственная вероятность появления понятия
p(i) = Et p(i| ß (t)) P(ß (t)) = Et roi(t) / T, t = 1.T. (12)
Окончательно, с учетом (11), (12) и (10) получаем из (9) искомую оценку p(j |i) = Et p(ij | ß (t)) / Et roi(t) = Et [roi(t) roj(t)/[ Ejroj(t)-1] ] / Etoi(t) (13)
Для уточнения модели можно учесть, что некоторые связи не наблюдаются явно в предложениях текста. Их скрытое влияние выражается в том, что вместо p(j|i) правильнее было бы использовать вероятность p(j|q)p(q|i), где p - ненаблюдаемое понятие. C учетом этого взамен p(j|i) можно использовать уточненную оценку p~(j |i), учитывающую связь через третьи понятия:
p~(j|i) = maxq{ p(j |q)p(q|i) }, q = L. .N. (14)
На практике при использовании модели из предложений текста следует исключить стоп-слова (предлоги, союзы и т.п.), появление которых обуславливается не учтенными здесь факторами, в частности, грамматикой языка.
Заключение
В статье был представлен комплекс методов, предназначенных для создания интеллектуальных информационно-поисковых систем в сети Интернет. Многолетний интерес к достижениям в области искусственных нейронных сетей, нейропсихологии и лингвистики послужил фундаментом для развития технологий обработки текста на естественном языке [3].
Методы, предназначенные для автоматического анализа текстовых массивов и выделения семантических признаков - атрибутов, позволяющих повысить качество поиска и представления документов.
Возможность нечеткого поиска информации по лексикографическому подобию позволяет решить другой класс проблем, связанный с ошибками в документах и поисковых запросах.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. ЛурияА.Р. Основы нейропсихологии. - М.: МГУ, 1973. - 374 с.
2. Ахутина Т.В. Порождение речи. Нейролингвистический анализ синтаксиса. - М.: МГУ, 1989. - 215с.
3. Харламов А.А., Ермаков А.Е., Кузнецов ДМ. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. 1998. № 2. С. 26-32.
4. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации // Информационные технологии. 2000. № 12.