the Second International B Conference, Montpellier, France, April 1998. Didier Bert (Ed). Lecture Notes in Computer Science Vol. 1393. Springer (1998).
10. The International B Conference Steering Comitte Web Site: http://www.sciences.univ-nantes .fr/asso/APCB/
11. The B Formal Method Users Group Web Site: http://estasl.inrets.fr:8001/
ESTAS/BUG/WWW/BUGhome/BUGhome.html
12. The Z User Group Web Site: http://www.comlab.ox.ac.Uk/archive/z/zug.html
13. Facon, P.: Mapping object diagrams into B specifications. In Methods Integration Workshop (1996).
14. Rumbaugh, J., Blaha, M., Premerlani, W., Eddy, F., Lorensen W.: Object-Oriented Modeling and Design. Prentice-Hall International (1991).
15. Seidewitz, E., Stark., M.: Reliable Object-Oriented Software. SIGS Books (1995).
16. Meyer, B.: Object-oriented Software Construction. Prentice-Hall International (1988).
17. Jacobson, I., Booch, G., Rumbaugh, J.: The Unified Modeling Language Reference Manual. Adison-Wesley (1999).
18. Jacobson, I., Christerson, M., Jonsson, P., Overgaard, G.: Object-Oriented Software Engineering. A Use Case Driven Approach. Adison-Wesley (1992).
19. Booch, G.: Object-oriented Analysis and Design with Applications. 2nd edition. Benjamin Cummings, Redwood City (1993).
20. Diller, A., Docherty, R.: CAVIAR in AMN. Technical Report CSR-93-3, University of Birmingham, School of Computer Science (1992).
УДК 681.3.06
Э.М. Котов, АЛ. Целых
ИСПОЛЬЗОВАНИЕ МЕР БЛИЗОСТИ ДЛЯ ПОИСКА РЕЛЕВАНТНЫХ
ДОКУМЕНТОВ
До появления сети Интернет, когда размеры документальных баз данных , , и близость слов в документе были практически единственными критериями оценки соответствия запросу, или по другому релевантности. С приходом поисковых систем в Интернет в области информационного поиска открылись новые перспек-, , , большим количеством документов.
Когда пришло понимание того факта, что булевский поиск не отвечает потребностям рядовых пользователей, был разработан механизм нечеткого поиска. В его основе лежит отыскание документов, содержащих хотя бы одно ключевое слово запроса (его грамматическую форму, однокоренное слово либо синоним) и ранжирование найденных документов. К критериям оценки релевантности документа запросу добавляется еще один - количество слов запроса (точнее суммарный ), .
" ", , -
тависта и Лайкос.
, ,
, " " . -зователь просматривает только первые несколько страниц, он редко попадает на страницы с нечеткими несоответствиями запросу, особенно если выборка объемная. Современные поисковые машины, например Яндекс, учитывают эту особенность и используют нечеткий поиск далеко не всегда, в основном, ограничиваясь
. , -
ном этапе вообще отказались от такой стратегии и создали систему, которая ищет , .
Большинство разработанных методов основывается на наблюдении, что если исходная и модифицированная строки не слишком отличаются, то у них есть . -множества строк исходного текста и/или словаря. При этом поиск по сходству сводится к точному поиску. Несмотря на то, что поиск на точное равенство происходит очень быстро, методы, использующие хранение подстрок, являются сложно , . достигается только при применении специальных методов сжатия, что, соответст-
, .
Поиск на точное соответствие не позволяет найти слово, если в документе оно встречается в другой грамматической форме, поэтому большинство поисковых систем осуществляет поиск с учетом изменяемости слова.
Поиск по словоформе и поиск с учетом изменяемости слова являются одним из вариантов поиска по сходству, учитывающим только определенный тип .
В электронных документах бывают орфографические ошибки да и сам пользователь не всегда набирает термины запроса правильно, поэтому ИПС должна "уметь" находить достаточно "похожие" слова. Ключевым моментом поиска по сходству является выбор меры степени "похожести". Возможно использовать мет-
( ) , -тирования. Расстояние Левенштайна между словами u и v равно минимальному количеству операций редактирования, необходимых для преобразования u в v.
Выбор в качестве меры близости метрики Левенштайна обусловлен двумя факторами. Во-первых, расстояние Левенштайна формализует интуитивное понятие об "ошибке", а, во-вторых, существует множество алгоритмов эффективного . , -ния между строками u и v, сколько знание превышает ли L(u,v) некоторое наперед заданное пороговое значение.
Строка x длины 1x1 = m записывается как x1x2 ... xm, где xi представляет /-й символ х.
Подстрока хх+1... х/ строки х, где /<=}<=т, будет обозначаться х(/,}). В случае, когда />/, обращенная подстрока обозначается так хк(/,}).
Обычно х будет обозначать искомый образец, а у - текстовую строку; |х| = т, |у| = п и, конечно, т<=п.
Обобщенная задача сопоставления строк, включающая в себя нахождение подстрок строки текста, близких к заданному образцу строки, называется также задачей нечеткого сопоставления строк.
Задачу нечеткого сопоставления строк можно сформулировать следующим образом:
Пусть даны образец х, |х| = т, и текст у, |у| = п, т, п > 0 и т < п.
Пусть даны также целое к > 0 и функция расстояния й.
Требуется найти все подстроки ж текста у такие, что й(х, ж) < к.
, , -, , к.
й является расстоянием Хемминга (расстояние Хемминга между двумя строками одинаковой длины определяется как число позиций, в которых символы не совпадают. Это эквивалентно минимальной цене преобразования первой строки во вто-
рую в случае, когда разрешена только операция замены с единичным весом), задача называется сопоставлением строк с к несовпадениями, если же d - расстояние Левенштейна, задача называется сопоставлением строк с к разли чиями.
Однако, как и для задачи сопоставления строк, для задач k несовпадений и k различий были изобретены более эффективные подходы:
1) А-несовпадений Ландау-Вишкин;
2) А-р^личий Ландау-Вишкин.
В алгоритме А-несовпадений Ландау-Вишкина строка текста анализируется с помощью 2-мерной таблицы несовпадений образца (pattern mismatch) pm[1...m-1,1...2А+1], генерируемой на стадии предварительной обработки образца.
При анализе текста используется двумерный массив tm[0...n-m, 1...А+1], содержащий информацию о несовпадениях текста с образцом. По завершении анализа в его i-й строке содержатся позиции в х первых А+1 несовпадений между строками х(1, m) и y(i+1, i+m). Таким образом, если tm[i, v] = s, то yi+s =/=xs, и это v-e несовпадение между х(1, m) и y(i+1, i+m), считая слева направо. Если число с несовпадений х с подстрокой y(i+1, i+m) меньше А+1, то, начиная с c+1, элементы i-й строки равны значению по умолчанию m+1, то есть:
tm[i, c+1] = tm[i, c+2] = ... = tm[i, А+1] = m+1
А- - , -
ду динамического программирования для вычисления расстояния между строками, который предложил Укконен.
Представляется возможным предложить использование модели принятия решений, основанные на определении сходства ситуаций. Эти модели относятся к классу моделей вычисления оценок и основаны на установлении степени близости текущей ситуации с каждой из эталонных.
Рассмотрим некоторые примеры мер близости объектов в признаковом про.
Имеется совокупность объектов
Q =К-} j = 1,к,
каждый из которых задан значениями своих признаков: xj ={xj }, i = 1, n,T.e.^j ^ xj =\xj , x2 ,..., xnj }
1. Функция корреляции. Относится к простейшим мерам сходства:
Рс(,тг)= £( -x‘r).
i=1
2. Евклидово расстояние. Применяется в качестве меры близости, если признаки взаимно независимы, однородны и одинаково важны:
Ре Хр ,юг ) =
3. Взвешенное Евкл идово расстояние. Применяется в качестве меры близости, если для каждого признака удается установить его значимость и "вес" ht, i = 1, n:
РBE p , ® r ) = ^hi ix n — xr ) .
4. Расстояние Махаланобиса. Применяется для установления сходства объектов, если признаки объектов являются статистически зависимыми, а значимость их определяется "весовыми" коэффициентами:
где 2 - ковариационная матрица генеральной совокупности признаков;
Л - симметричная неотрицательно определенная матрица "весовых" коэф-.
5. Хэммингово расстояние. Применяется для сравнения любых упорядо-, -
.
Проведенный анализ позволяет сделать вывод: рассмотренные меры сход, , , -иском релевантной информации, распознаванием и классификацией в современных ИПС Интернет. На практике использование модели принятия решений, основанных на определении сходства ситуаций приведет к ограничению размера поискового образа документа. При этом в словарь попадают только термины поиско-.
оставаться в рамках линейной модели индексирования и поиска.
1. Берштейн Л.С., Карелин В.П, Целых А.Н. Модели и методы прииятия решений в интегрированных интеллектуальных системах. Монография. - Ростов-на-Дону: Изд-во РГУ,
2. Бойцов Л.М. Использование хеширования по сигнатуре для поиска по сходству. Прикладная математика и информатика. - М.: Изд-во факультета ВМиК МГУ, 2000, № 7.
УДК 681.324
. . , . .
ИНСТРУМЕНТАЛЬНАЯ ПОДСИСТЕМА МНОГОЯЗЫКОВОЙ
ТРАНСЛЯЦИИ ВИРТУАЛЬНЫХ МОДЕЛИРУЮЩИХ СИСТЕМ
Развитие существующих виртуальных моделирующих систем (ВМС) приводит к необходимости расширения их функциональных возможностей и повышения эффективности моделирования. Решение этих задач тесно связано не только с совершенствованием процесса моделирования, но и с реализацией междисципли-, , -ем интегрированных средств создания и описания моделей. В частности, для поддержки междисциплинарных связей и импорта внешних моделей, представленных на языках сторонних сред моделирования, разработана среда многоязыковой трансляции, названная Мультитранслятором [1].
В целом, Мультитранслятор (МТ) является одной из основных подсистем ,
,
1=1
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1999.