Научная статья на тему 'Средства поиска в текстовых базах данных'

Средства поиска в текстовых базах данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
235
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Средства поиска в текстовых базах данных»

Компьютерные технологии в инженерной и управленческой деятельности

уровне драйвера операционной системы. Драйвер должен обеспечивать необходимую трансляцию виртуальной блочной структуры файла в конкретные физические адреса запоминающего устройства. Прикладная программа может просто производить чтение и запись в запоминающее устройство, будто бы она работает с обыкновенным жестким диском.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. M-Systems, DiskOnKey, DiskOnChip technical description, http://www.m-sys.com.

2. ASUS, Ai-Flash technical description, http://www.asus.com/.

3. "USB Standard Specifications", USB Consortium Press, 2000.

4. Чмора А.Л. Современная прикладная криптография. - М.: Гелиос АРВ, 2001.

5. Goldreich O. Towards a theory of software protection, Proc. 19thAnn. ACM Symp. on Theory of

Computing 1987. p. 182-194.

А.В. Аграновский, Р.Э. Арутюнян, Р.А. Хади СРЕДСТВА ПОИСКА В ТЕКСТОВЫХ БАЗАХ ДАННЫХ

Проблема поиска в базах данных, состоящих из текстовых документов, является одной из наиболее востребованных в современном мире. Поиск обычно осуществляется по запросу пользователя, который либо является предложением на естественном языке, либо набором ключевых слов.

Классическими методами поиска являются булев, векторный и вероятностный поиски. Булева модель основана на построении инвертированного индекса, в котором для каждого ключевого слова указываются документы, содержащие его. Поиск в этом случае сводится к получению множеств документов, содержащих все слова запроса. Векторная модель основана на построении для каждого документа вектора, элементами которого являются веса ключевых слов в этом документе. Для выборки документов при поиске аналогичный вектор составляется для запроса, после чего вычисляются косинусы углов между этим вектором и вектором каждого документа. Вероятностная модель основана на максимизации апостериорной вероятности релевантности каждого документа запросу, вычисляемой с точностью до постоянного множителя а по формуле

P = аР(докумеш^релевантен)Р(запросР| докумеш^релевантен).

В реальных задачах указанные модели могут объединяться и дополняться для достижения лучших результатов.

Важными являются вопросы кластеризации текстовых документов. Одним из алгоритмов, применяемых для решения этой проблемы, является алгоритм k средних, в котором представителями документов являются векторы, аналогичные рассмотренным в векторной модели поиска. Кластеризация может быть полезной для подготовки множества документов к поиску. Также кластеризованное множество документов может быть и результатом поиска, если прямой поиск не привел к успеху.

Одной из важных проблем при поиске является предоставление пользователю именно тех документов, которые его интересуют. При этом встает вопрос о том, что некоторые из найденных поисковой системой документы могут быть уже известны пользователю. Для отслеживания этой ситуации и соответствующей пересортировки результатов поиска, вводятся вероятности того, что каждый из документов уже известен пользователю. Эти вероятности зависят от информации о конкретном пользователе и документе.

В некоторых случаях пользователю необходимо осуществить поиск по некоторой фразе целиком. В этом случае необходимо применение специальных методов поиска. Идея одного из них состоит в замене инвертированного индекса, используемого при булевом поиске, деревом суффиксов, группирующим слова по признаку совпадения в них некоторого количества начальных букв. При этом каждый лист дерева содержит информацию о том, в каком месте какого текста встретилось соответствующее слово и для каждого из этих мест хранит указатель на следующее слово текста. Рассмотренный метод также позволяет находить неточные совпадения искомой строки со строками документов и оценивать меру их близости.

Еще одним расширением стандартных методов поиска является поиск по ключевым фактам. Эта модель поиска аналогична векторной, за исключением того, что вместо ключевых слов в ней используются ключевые факты, представляющие собой пары (объект, свойство). Алгоритм выделения из документа ключевых фактов включает в себя определение части речи каждого слова и последующее извлечение из таблицы шаблонов списка ключевых фактов, соответствующих каждому предложению.

В качестве одного из методов уточнения результатов поиска может быть рассмотрен алгоритм объединения нескольких поисковых систем. Каждая из них по одному и тому же запросу генерирует список документов, после чего необходимо объединить эти списки и отсортировать документы в них. В качестве нового значения релевантности предлагается использовать для каждого документа линейную комбинацию его релевантностей, полученных в разных поисковых системах. Коэффициенты этой линейной комбинации вычисляются динамически, в зависимости от конкретного запроса и документа.

У текстового поиска имеется большое количество приложений. Одним из таких приложений является система идентификации текстовых объектов, позволяющая находить в постоянно пополняющемся множестве документов те из них, которые максимально приближены к запросу либо к аналогичному множеству, построенному по другому временному промежутку. Также возможно построение комплексных систем мониторинга, позволяющих обрабатывать подаваемую на вход текстовую информацию, выделять из нее смысловые данные в виде понятий предметной области и сохранять их в базе данных для дальнейшего анализа. Еще одним применением текстового поиска является автоматизированная справочная система, позволяющая по запросу пользователя находить текст, описывающий решение проблемы, заданной в запросе. Самым распространенным приложением алгоритмов текстового поиска является создание поисковых систем Интернет.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Salton G. Mathematics and information retrieval, Cornell University, 1978.

2. Захарченко А.Н. Обработка информации в комплексных системах мониторинга. М. 2001. 147 c.

3. Ковалев М.В., Виргунов И.В., Наймушин И.А., Четверов В.В. Устройство обработки информации для информационного поиска, RU2096825, 20 ноября 1997 г., Российское агентство по патентам и товарным знакам.

4. Jacobson Guy, Krishnamurthy Balachander, Srivastava Dives Method of clustering electronic documents in response to a search query, US6167397, December 26, 2000, US Patent & Trademark Office.

5. Risvik Knut Magne. Search system and method for retrieval of data, and the use thereof in a search engine, US6377945, April 23, 2002, US Patent & Trademark Office.

i Надоели баннеры? Вы всегда можете отключить рекламу.