Научная статья на тему 'Использование мер близости для поиска релевантных документов'

Использование мер близости для поиска релевантных документов Текст научной статьи по специальности «Математика»

CC BY
235
118
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование мер близости для поиска релевантных документов»

the Second International B Conference, Montpellier, France, April 1998. Didier Bert (Ed). Lecture Notes in Computer Science Vol. 1393. Springer (1998).

10. The International B Conference Steering Comitte Web Site: http://www.sciences.univ-nantes .fr/asso/APCB/

11. The B Formal Method Users Group Web Site: http://estasl.inrets.fr:8001/

ESTAS/BUG/WWW/BUGhome/BUGhome.html

12. The Z User Group Web Site: http://www.comlab.ox.ac.Uk/archive/z/zug.html

13. Facon, P.: Mapping object diagrams into B specifications. In Methods Integration Workshop (1996).

14. Rumbaugh, J., Blaha, M., Premerlani, W., Eddy, F., Lorensen W.: Object-Oriented Modeling and Design. Prentice-Hall International (1991).

15. Seidewitz, E., Stark., M.: Reliable Object-Oriented Software. SIGS Books (1995).

16. Meyer, B.: Object-oriented Software Construction. Prentice-Hall International (1988).

17. Jacobson, I., Booch, G., Rumbaugh, J.: The Unified Modeling Language Reference Manual. Adison-Wesley (1999).

18. Jacobson, I., Christerson, M., Jonsson, P., Overgaard, G.: Object-Oriented Software Engineering. A Use Case Driven Approach. Adison-Wesley (1992).

19. Booch, G.: Object-oriented Analysis and Design with Applications. 2nd edition. Benjamin Cummings, Redwood City (1993).

20. Diller, A., Docherty, R.: CAVIAR in AMN. Technical Report CSR-93-3, University of Birmingham, School of Computer Science (1992).

УДК 681.3.06

Э.М. Котов, АЛ. Целых

ИСПОЛЬЗОВАНИЕ МЕР БЛИЗОСТИ ДЛЯ ПОИСКА РЕЛЕВАНТНЫХ

ДОКУМЕНТОВ

До появления сети Интернет, когда размеры документальных баз данных , , и близость слов в документе были практически единственными критериями оценки соответствия запросу, или по другому релевантности. С приходом поисковых систем в Интернет в области информационного поиска открылись новые перспек-, , , большим количеством документов.

Когда пришло понимание того факта, что булевский поиск не отвечает потребностям рядовых пользователей, был разработан механизм нечеткого поиска. В его основе лежит отыскание документов, содержащих хотя бы одно ключевое слово запроса (его грамматическую форму, однокоренное слово либо синоним) и ранжирование найденных документов. К критериям оценки релевантности документа запросу добавляется еще один - количество слов запроса (точнее суммарный ), .

" ", , -

тависта и Лайкос.

, ,

, " " . -зователь просматривает только первые несколько страниц, он редко попадает на страницы с нечеткими несоответствиями запросу, особенно если выборка объемная. Современные поисковые машины, например Яндекс, учитывают эту особенность и используют нечеткий поиск далеко не всегда, в основном, ограничиваясь

. , -

ном этапе вообще отказались от такой стратегии и создали систему, которая ищет , .

Большинство разработанных методов основывается на наблюдении, что если исходная и модифицированная строки не слишком отличаются, то у них есть . -множества строк исходного текста и/или словаря. При этом поиск по сходству сводится к точному поиску. Несмотря на то, что поиск на точное равенство происходит очень быстро, методы, использующие хранение подстрок, являются сложно , . достигается только при применении специальных методов сжатия, что, соответст-

, .

Поиск на точное соответствие не позволяет найти слово, если в документе оно встречается в другой грамматической форме, поэтому большинство поисковых систем осуществляет поиск с учетом изменяемости слова.

Поиск по словоформе и поиск с учетом изменяемости слова являются одним из вариантов поиска по сходству, учитывающим только определенный тип .

В электронных документах бывают орфографические ошибки да и сам пользователь не всегда набирает термины запроса правильно, поэтому ИПС должна "уметь" находить достаточно "похожие" слова. Ключевым моментом поиска по сходству является выбор меры степени "похожести". Возможно использовать мет-

( ) , -тирования. Расстояние Левенштайна между словами u и v равно минимальному количеству операций редактирования, необходимых для преобразования u в v.

Выбор в качестве меры близости метрики Левенштайна обусловлен двумя факторами. Во-первых, расстояние Левенштайна формализует интуитивное понятие об "ошибке", а, во-вторых, существует множество алгоритмов эффективного . , -ния между строками u и v, сколько знание превышает ли L(u,v) некоторое наперед заданное пороговое значение.

Строка x длины 1x1 = m записывается как x1x2 ... xm, где xi представляет /-й символ х.

Подстрока хх+1... х/ строки х, где /<=}<=т, будет обозначаться х(/,}). В случае, когда />/, обращенная подстрока обозначается так хк(/,}).

Обычно х будет обозначать искомый образец, а у - текстовую строку; |х| = т, |у| = п и, конечно, т<=п.

Обобщенная задача сопоставления строк, включающая в себя нахождение подстрок строки текста, близких к заданному образцу строки, называется также задачей нечеткого сопоставления строк.

Задачу нечеткого сопоставления строк можно сформулировать следующим образом:

Пусть даны образец х, |х| = т, и текст у, |у| = п, т, п > 0 и т < п.

Пусть даны также целое к > 0 и функция расстояния й.

Требуется найти все подстроки ж текста у такие, что й(х, ж) < к.

, , -, , к.

й является расстоянием Хемминга (расстояние Хемминга между двумя строками одинаковой длины определяется как число позиций, в которых символы не совпадают. Это эквивалентно минимальной цене преобразования первой строки во вто-

рую в случае, когда разрешена только операция замены с единичным весом), задача называется сопоставлением строк с к несовпадениями, если же d - расстояние Левенштейна, задача называется сопоставлением строк с к разли чиями.

Однако, как и для задачи сопоставления строк, для задач k несовпадений и k различий были изобретены более эффективные подходы:

1) А-несовпадений Ландау-Вишкин;

2) А-р^личий Ландау-Вишкин.

В алгоритме А-несовпадений Ландау-Вишкина строка текста анализируется с помощью 2-мерной таблицы несовпадений образца (pattern mismatch) pm[1...m-1,1...2А+1], генерируемой на стадии предварительной обработки образца.

При анализе текста используется двумерный массив tm[0...n-m, 1...А+1], содержащий информацию о несовпадениях текста с образцом. По завершении анализа в его i-й строке содержатся позиции в х первых А+1 несовпадений между строками х(1, m) и y(i+1, i+m). Таким образом, если tm[i, v] = s, то yi+s =/=xs, и это v-e несовпадение между х(1, m) и y(i+1, i+m), считая слева направо. Если число с несовпадений х с подстрокой y(i+1, i+m) меньше А+1, то, начиная с c+1, элементы i-й строки равны значению по умолчанию m+1, то есть:

tm[i, c+1] = tm[i, c+2] = ... = tm[i, А+1] = m+1

А- - , -

ду динамического программирования для вычисления расстояния между строками, который предложил Укконен.

Представляется возможным предложить использование модели принятия решений, основанные на определении сходства ситуаций. Эти модели относятся к классу моделей вычисления оценок и основаны на установлении степени близости текущей ситуации с каждой из эталонных.

Рассмотрим некоторые примеры мер близости объектов в признаковом про.

Имеется совокупность объектов

Q =К-} j = 1,к,

каждый из которых задан значениями своих признаков: xj ={xj }, i = 1, n,T.e.^j ^ xj =\xj , x2 ,..., xnj }

1. Функция корреляции. Относится к простейшим мерам сходства:

Рс(,тг)= £( -x‘r).

i=1

2. Евклидово расстояние. Применяется в качестве меры близости, если признаки взаимно независимы, однородны и одинаково важны:

Ре Хр ,юг ) =

3. Взвешенное Евкл идово расстояние. Применяется в качестве меры близости, если для каждого признака удается установить его значимость и "вес" ht, i = 1, n:

РBE p , ® r ) = ^hi ix n — xr ) .

4. Расстояние Махаланобиса. Применяется для установления сходства объектов, если признаки объектов являются статистически зависимыми, а значимость их определяется "весовыми" коэффициентами:

где 2 - ковариационная матрица генеральной совокупности признаков;

Л - симметричная неотрицательно определенная матрица "весовых" коэф-.

5. Хэммингово расстояние. Применяется для сравнения любых упорядо-, -

.

Проведенный анализ позволяет сделать вывод: рассмотренные меры сход, , , -иском релевантной информации, распознаванием и классификацией в современных ИПС Интернет. На практике использование модели принятия решений, основанных на определении сходства ситуаций приведет к ограничению размера поискового образа документа. При этом в словарь попадают только термины поиско-.

оставаться в рамках линейной модели индексирования и поиска.

1. Берштейн Л.С., Карелин В.П, Целых А.Н. Модели и методы прииятия решений в интегрированных интеллектуальных системах. Монография. - Ростов-на-Дону: Изд-во РГУ,

2. Бойцов Л.М. Использование хеширования по сигнатуре для поиска по сходству. Прикладная математика и информатика. - М.: Изд-во факультета ВМиК МГУ, 2000, № 7.

УДК 681.324

. . , . .

ИНСТРУМЕНТАЛЬНАЯ ПОДСИСТЕМА МНОГОЯЗЫКОВОЙ

ТРАНСЛЯЦИИ ВИРТУАЛЬНЫХ МОДЕЛИРУЮЩИХ СИСТЕМ

Развитие существующих виртуальных моделирующих систем (ВМС) приводит к необходимости расширения их функциональных возможностей и повышения эффективности моделирования. Решение этих задач тесно связано не только с совершенствованием процесса моделирования, но и с реализацией междисципли-, , -ем интегрированных средств создания и описания моделей. В частности, для поддержки междисциплинарных связей и импорта внешних моделей, представленных на языках сторонних сред моделирования, разработана среда многоязыковой трансляции, названная Мультитранслятором [1].

В целом, Мультитранслятор (МТ) является одной из основных подсистем ,

,

1=1

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1999.

i Надоели баннеры? Вы всегда можете отключить рекламу.