Научная статья на тему 'Поддержка решения задачи идентификации сущности методами информационного поиска'

Поддержка решения задачи идентификации сущности методами информационного поиска Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
86
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Поддержка решения задачи идентификации сущности методами информационного поиска»

Они применимы не только в рамках корпоративных серверов, но и позволяют расширить поиск за счет доступа в глобальные сети, например Internet.

Рассмотрим модель ранжирования информации сразу по нескольким языкам. После проведения поисковых операций в корпоративной сети и, возможно, за ее пределами необходимо вычислить вес ссылки на документ для более удобного и грамотного отображения результатов поиска пользователю. Таким образом, результат каждого запроса может быть представлен в виде r-мерного ранжированного вектора, который формируется на основе количества опрашиваемых сайтов; множества ссылок, выданных всеми опрошенными базами поисковых сервисов или внутренних ресурсов компании без дублей.

Ранг информационного ресурса по каждой предметной области определятся в процессе опроса каждого сайта с учетом количества релевантных документов, выданных опрошенным информационным ресурсом, количества нерелевантных документов и общим количеством документов.

Предлагаемая модель ранжирования позволяет проводить поиск и в пределах одного языкового множества. Вводя дополнительный индекс, отвечающий за предметную область, мы расширяем полученную модель, которая в этом случае будет производить поиск и ранжирование документов сразу по нескольким предметным областям. Отметим, что сумма всех неповторяющихся ссылок всех опрашиваемых предметных областей будет меньше или равна общей сумме ссылок без повторений, что связано с пересечением предметных областей или наличием так называемых смежных предметных областей. В предлагаемой модели все ранги должны быть не меньше чем единица.

Не менее важным агентом при специализированном поиске информации является агент определения релевантности.

Модель определения релевантности

Основой данной модели являются частотные мультилингвистические словари по предметным

областям. В рамках модели каждому терму (словоформе) в документе и запросе сопоставляется некоторый неотрицательный вес (для запроса на один поисковый сервис). Таким образом, каждый документ и запрос могут быть представлены в виде k-мерного вектора. Согласно векторной модели, близость документа к запросу оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.

Веса термов можно вычислять различными способами. Один из возможных подходов - использовать в качестве веса терма в документе нормализованную частоту его использования в рамках данного документа.

При определении релевантности с использованием мультилингвистических частотных словарей для вычисления веса терма целесообразно использовать частотную характеристику терма из словаря.

Предложенный алгоритм эффективно работает как на этапе формирования мультилингвисти-ческого частотного словаря (который в дальнейшем будет базисом модели), так и после того как он был составлен, и возникает необходимость в его актуализации или обновлении.

Рассмотренный в статье подход определения релевантности и ранжирования документов в ИУС в первую очередь опирается на семантическое содержание информационных ресурсов.

В настоящее время многие исследователи ведут работы по модификации алгоритмов и методов ранжирования информации, не учитывая, что ранг документа должен зависеть не только от положения документа в сети Internet, но и от его качества и тематического содержания.

Использование тематических частотных словарей позволяет решить эту проблему, снизив участие человека при определении релевантности документов и распределении документов по тематическим разделам в рамках информационных коллекций.

ПОДДЕРЖКА РЕШЕНИЯ ЗАДАЧИ ИДЕНТИФИКАЦИИ СУЩНОСТИ МЕТОДАМИ ИНФОРМАЦИОННОГО ПОИСКА

В.Л. Бердник, А.В. Заболеева-Зотова

В данной статье рассматривается применение методов информационного поиска для задачи идентификации сущности. Необходимость решения задачи идентификации сущности встречается в маркетинговых исследованиях, когда требуется сопоставить между собой большие группы товаров конкурентов, единственной информацией о

которых является строка с определенными лингвистическими особенностями.

Под высказыванием идентификации сущности (далее - высказывание) будем понимать символьную строку конечной длины. Высказывание идентифицирует сущность либо группу семантически близких сущностей, воспринимаемых со-

гласно предметной области как единое явление.

Под термином «Издатель», будем понимать субъект общества, в котором группа людей пополняет БД высказываний идентификаций сущностей. Под термином «Потребитель» будем понимать компьютерную систему анализа и сопоставления высказываний различных Издателей.

Введем следующие обозначения:

• U - универсум высказываний, в данном случае - специальный корпус текстов;

• S - универсум идентифицируемых сущностей;

• U+ - множество высказываний U+cU, для которого известно Потребителю соответствие f:U+^S;

• Ts+ - множество известных Потребителю синонимов идентификации заданной сущности s, так что VTs+ c U+ & f:Ts+^s;

• D - коллекция документов D={d}, где d -конкатенация строк всех высказываний множества Ts+. Документ d идентифицирует заданную сущность s. Коллекция документов D соответствует множеству S+cS и является неполной. Дополнение множества S = S \ S+ невозможно задать в D из-за неопределенности (потенциальности) S.

Задача идентификации сущности - это поиск биективного соответствия между коллекцией документов D={d} и произвольным множеством высказываний {V| Ve U & Vg U+}. Для каждого высказывания V необходимо выбрать один из альтернативных вариантов сущностей S+, представленный документом из коллекции D.

Высказывание V может недостаточно точно идентифицировать сущность. В этом случае ЛПР привлекает дополнительную информацию о сущности, например, из иллюстрированного каталога. Компьютерная система поддержки решения задачи идентификации сущности должна предложить оператору системы краткий список наиболее релевантных высказыванию V документов коллекции D.

Существует три способа задания сущности.

Экстенсиональное задание - высказывание содержит кодовое обозначение (модель изделия, уникальное название (например книги), код по классификатору (например ISBN) и тому подобное), однозначно идентифицирующее сущность. В этом случае задача сводится к детерминированному извлечению из высказывания и сопоставлению с образцом кодового обозначения. Допускаются высказывания, состоящие только из кодовых обозначений.

Например, высказывание «МФУ HP LJ 3380 (Q2660A) лазерный + копир + сканер» имеет кодовое обозначение Q2660A, полностью идентифицирующее изделие.

Интенсиональное задание - высказывание содержит задание предикатов сущностей семанти-

чески самостоятельными единицами. В этом случае возможны различные явления естественного языка: лексическая полисемия, синонимия, вне-лингвистическая пресуппозиция и т.д. Рассмотрим пример синонимии идентификации изделия «Устройство для подключения принтеров с разъемом LPT к порту USB компьютера с кабелем»: контроллер USB-LPT 2.0m; адаптер USB-LPT 2.0m; кабель USB-LPT 2.0m.

В примере для идентификации «устройства с кабелем» используются термы: «контроллер» -сложное электронное устройство; «адаптер» - коробка с проводом; «кабель» - средство подключения принтера к компьютеру.

Слова «контроллер», «адаптер», «кабель» не являются лексическими синонимами, каждому слову соответствует свое семантическое значение. В указанном примере между термами и предикатом сущности существуют нечеткие отношения, а именно используются элементы из группировки объектов с некоторым общим свойством (предикатом) сущности.

Смешанное задание - высказывание содержит кодовое обозначение, которое неоднозначно идентифицирует сущность. Кодовое обозначение должно сочетаться с указанием дополнительных предикатов.

Рассмотрим следующие модели информационного поиска: простейшую, булеву, а также векторные и вероятностные модели поиска.

В простейших моделях поиска документ представляется в виде набора ассоциированных с ним внешних атрибутов. В простейших системах дескрипторного поиска представление документа описывается совокупностью слов или словосочетаний лексики предметной области, которые характеризуют содержание документа. Эти слова и словосочетания называются дескрипторами.

Предположим, что имеется дескриптор, обладающий свойствами:

(3wy 3d+ Vd*d+[(wye d+Wwys d)]), (1)

где wy - дескриптор, описывающий документ d+e D; d - произвольный документ коллекции D.

При истинном выражении (1) условие релевантности высказывания V документу d+ можно экстраполировать как

(VV wye V)^(Vd*d+[(Ve d+MVg d)]). (2) Так как выражение (2) может оказаться ложным, при добавлении (например прочими методами) высказывания V в коллекцию D нарушается истинность выражения (1) и теряется актуальность дескриптора wy.

Простейшие модели наиболее эффективны в случае экстенсионального задания сущности.

Булева модель поиска является классической и широко используемой моделью представления информации, базирующейся на теории множеств, и, следовательно, моделью информационного поиска, базирующейся на математической логике.

В булевой модели запрос пользователя представляет собой логическое выражение, в котором ключевые слова связываются операторами из теории множеств и соответствующими им логическими операторами AND, OR и NOT.

Рассмотрим два примера.

1. Мат. плата Sock775 ASUS P5B <P965> DDR2-800+, FSB1066, PCI-E, Sound, USB 2.0.

2. Мат. плата Sock775 ASUS P5B Deluxe/WiFi-AP <P965> DDR2-800+, FSB1066, PCI-E, Sound, USB 2.0.

Первое высказывание содержит условное кодовое обозначение «P5B», что указывает на определенное изделие из совокупности материнских плат производства ASUStek. Во втором примере содержится кодовое обозначение «P5B De-luxe/WiFi-AP», что указывает на модификацию исходного изделия.

Определим состав и структуру предполагаемых запросов для представленных в примере высказываний. Изделию из примера № 2 соответствует булево выражение:

"Мат. плата" & ("ASUS" v "ASUStek") & "P5B Deluxe/WiFi-AP".

Базовое изделие из примера номер 1 должно содержать отрицание всех модификаций базового изделия:

NOT("P5B Deluxe/WiFi-AP")& "Мат. плата" & ("ASUS" v "ASUStek") & "P5B"

Если во время эксплуатации программной системы происходит разработка новых модификаций изделий, создать адекватное для идентификации сущности булево выражение невозможно.

Булева модель обладает высоким быстродействием и позволяет эффективно отсекать нерелевантные документы коллекции D на основе анализа высказывания V. Возможно автоматическое построение булева выражения на основе анализа (встречаемости определенного терма) высказывания V и задание человеком-оператором булева выражения для каждого документа коллекции D.

Векторно-пространственная модель является классической алгебраической моделью. В рамках этой модели документ описывается вектором в некотором евклидовом пространстве, в котором каждому используемому в документе терму ставится в соответствие его вес (значимость). Вес определяется на основе статистической информации об его встречаемости в отдельном документе или в коллекции документов. Таким образом, каждый документ и запрос могут быть представлены в ви-

- def

де k-мерного вектора: dj = (w1j,w2j,...,wkj), где

k - общее количество различных термов во всех документах.

Если высказывание состоит из нескольких предложений, то для задания локального веса терма можно воспользоваться какой-либо из распространенных мер взвешивания локальных тер-

мов по частоте £ например:

= —.—. (3)

тах(1.)

Для высказываний идентификации сущности, состоящих из одного предложения, характерна однократная встречаемость терма, поэтому локальная частота терма в документе равна или меньше числа высказываний и характеризует типичность терма для идентификации сущности (меру включения подмножества высказываний с термом к множеству всех высказываний документа):

f = ^, 'J N

(4)

где nij - число высказываний документа содержащего терм 11; N. - общее количество высказываний в документе

Глобальные веса термов усиливают различие по степени важности между термами, основываясь на их распределении между всеми документами. Если терм встречается во всех документах коллекции Б, он не несет никакой информации о различии сущностей, следовательно, его релевантность равна нулю. Терм, встречающийся только в одном документе, имеет наибольшую релевантность и, как правило, идентифицирует сущность. Вес терма в наиболее распространенной модели ТГхГОГ рассчитывается по формуле:

w,.

tfj^idfj

N.

j у

'log

D

ч mi у

(5)

где IDI - количество документов в коллекции D; mj - число документов коллекции D, содержащий терм tj.

Существует множество различных моделей взвешивания по локальной и глобальной частоте терма (TFxIDF, TFC, ITC, OKAPI и т.д.), которые в той или иной степени описывают (психологические) закономерности построения текста естественного языка.

Вероятностная модель поиска базируется на теоретических подходах байесовских условных вероятностей. В канонической вероятностной модели используется упрощение, заключающееся в предположении независимости вхождения в документ любой пары термов. Будем обозначать:

• Wi - событие, состоящее в том, что документ d релевантен высказыванию V;

• W2 - событие, состоящее в том, что документ d не релевантен высказыванию V;

• P(WjId) - вероятность того, что для документа d наступает событие Wj.

Зная эту вероятность, можно использовать следующее правило: если P(W1Id)>P(W2Id), то документ d релевантен высказыванию V.

Существуют различные способы получения этих оценок, а также дополнительные предполо-

n

жения и гипотезы на основе априорных сведений относительно документов коллекции, которые и определяют конкретную реализацию вероятностной модели поиска. Например, эта оценка может быть вычислена в соответствии с теоремой Байеса по некоторой функции вероятностей вхождения термов данного документа в релевантные и нерелевантные документы.

Векторные и вероятностные модели, основанные на статистической информации о встречаемости терма в отдельном документе или в коллекции документов, не обеспечивают необходимой точности для идентификации сущности.

Пусть согласно какому-либо методу высказывание VN получило оценку релевантности выше, чем высказывание VY (случай ошибки). Введем обозначения:

^ - множество термов документа б, идентифицирующего сущность s1;

^ - множество термов высказывания VY, идентифицирующего сущность s1;

^ - множество термов высказывания VN, идентифицирующего сущность s2;

^ п^п^ - участвующие в поиске термы, характерные для сущностей s1 и s2;

TdnTY\(TdnTYnTN) - участвующие в поиске термы, указывающие на верное соответствие между высказыванием VY и сущностью s1;

TdnTN\(TdnTYnTN) - участвующие в поиске термы, вносящие ошибку в оценку релевантности.

Основные причины ошибок заключаются в следующем.

1. Между термами высказывания присутствуют функциональные зависимости, идентифицирующие сущность. Например, высказывания «принтер НР 01200 с картриджем С7115А» и «картридж С7115А для принтера НР 01200» имеют идентичные наборы термов. Предлоги «для» и «с» задают функциональные отношения

между группами термов, но заведомо имеют малые значения глобального и локального веса терма.

2. Высказывание VY задано более кратко (например, использовано смешанное задание сущности), чем высказывание VN с большим количеством термов, имеющих высокую оценку.

Экспериментальные данные подтверждают утверждения о причинах недостаточной точности векторных и вероятностных моделей для задачи идентификации сущности. При проведении экспериментов в коллекции D мощностью порядка 104 документов, при 279 случаях ошибок множество TdnTY\(TdnTYnTN) было всегда пусто.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Кроме того, был исследован режим обратной связи по релевантности, когда итеративным путем уточняется вес термов. Для каждого высказывания исходного множества (далее - обучающая выборка) было задано соответствие в коллекции D. В случае ошибки, вес термов множества TdnTY\(TdnTYnTN) увеличиваем, а вес термов TdnTN\(TdnTYnTN) уменьшаем.

До и после уточнения весов термов проводился прогон программной системы на обучающей и тестовой выборке высказываний. В полученном ответе системы подсчитывалось число правильно найденных пар высказывание-документ.

Таблица

Номер Число случаев Число коррекций

итерации ошибок весов термов

1 279 3692

2 90 173

3 74 9

4 73 0

После уточнения весов термов эффективность метода на «обучающей» выборке увеличилась (см. табл.). Увеличения эффективности на тестовой выборке зафиксировано не было.

АВТОМАТИЗАЦИЯ УПРАВЛЕНИЯ ИНФОРМАЦИОННОЙ ИНФРАСТРУКТУРОЙ КОМПЛЕКСНОЙ САПР

В.Н. Ачкасов, A.B. Стариков, A.B. Кузьмин

Программный инструментарий, поддерживающий иерархическую структуру проекта, сетевое планирование и оценку получаемых результатов с использованием динамической модели процесса проектирования, представлен в мониторной и информационной системах САПР. Данные системы инвариантны по отношению к другим (проектирующим) подсистемам и обеспечивают своего рода платформу для построения комплексных САПР различного назначения.

Разработка информационной модели процесса проектирования проходит в три этапа. На первом

этапе осуществляется выбор одного из множества технологических маршрутов проектирования, обеспечиваемых комплексной САПР, то есть задается (и прорабатывается) так называемый вектор обработки. При этом определяются идентификаторы проектирующих подсистем, реализующих необходимые проектные процедуры. Перечень идентификаторов устанавливается и утверждается руководителем САПР по согласованию с администратором информационной системы. В дальнейшем это множество идентификаторов, включенное в базу данных информационной системы, исполь-

i Надоели баннеры? Вы всегда можете отключить рекламу.