УДК 811.93 Савотченко Сергей Евгеньевич
доктор физико-математических наук, доцент кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института искусств и культуры [email protected]
Логинова Елена Александровна
аспирант кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института искусств и культуры [email protected]
МАТЕМАТИЧЕСКИЙ МЕТОД СРАВНИТЕЛЬНОГО АНАЛИЗА СЕМАНТИЧЕСКИХ ОСОБЕННОСТЕЙ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ [1]
Savotchenko Sergey Evgenyevich
D.Sc. in Physics and Mathematics, Assistant Professor of the Informatics and Information Analysis Resources Department, Belgorod State Institute of Culture and Arts [email protected]
Loginova Elena Alexandrovna
PhD student of the Informatics and Information Analysis Resources Department, Belgorod State Institute of Culture and Arts [email protected]
MATHEMATICAL METHOD OF THE COMPARATIVE ANALYSIS OF INFORMATION RETRIEVAL SYSTEMS' SEMANTIC FEATURES [1]
Аннотация:
В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.
Ключевые слова:
информационный поиск, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, ассоциация.
Summary:
The authors present a method of the comparative analysis of information retrieval systems for implementation of linguistic semantic peculiarities in them. The timeliness of the article is conditioned by a problem of information retrieval systems optimization. The research novelty of the work is that it determines some indicators qualifying paradigmatic relations.
Keywords:
information retrieval, lingware, information retrieval language, paradigmatic relations, synonymy, homonymy, sort-kind, part-whole, association.
Современные информационно-поисковые системы (ИПС) предназначены для быстрого поиска документов, удовлетворяющих запросам пользователей. Необходимая предпосылка качества информационного поиска - качество лингвистического обеспечения ИПС. Лингвистическое обеспечение, как правило, включает в себя информационно-поисковые языки (ИПЯ), методов индексирования, средства разработки и ведения информационно-поисковых языков.
Качество ИПС можно определить по трем критериям: глубине (или полноте), точности и нормализованному языку понятий, то есть унифицированному, приведенному к стандартной форме. Мы рассмотрим последний критерий, а именно семантические особенности ИПЯ. Они выражаются установлением смысловых связей между понятиями или, другими словами, парадигматическими отношениями.
Парадигматические отношения - это отношения между словами, не зависящие от контекста, в котором они используются, и обусловленные наличием не языковых, а логических связей между предметами [2, с. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:
1. Сильные:
а) отношения тождества (использование синонимов);
б) отношения иерархии (род-вид, часть-целое).
2. Слабые (ассоциативные):
а) отношения пересечения понятий;
б) отношения ассоциации;
в) отношения причины - следствия;
г) отношения смежности;
д) отношения контраста;
е) отношения кратности.
Наглядным примером эксплицитного (явного) представления парадигматических отношений являются дескрипторные ИПЯ и, в частности, информационно-поисковые тезаурусы. Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.
Информационно-поисковый тезаурус (ИПТ) - это, прежде всего, словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].
Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.
Анализ учета парадигматических отношений ИПЯ в современных ИПС можно проводить, используя специальным образам сформулированные последовательности запросов. Формулировка последовательности таких запросов должна учитывать следующие смысловые связи:
1) отношения иерархии (вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть);
2) отношения тождества (учет синонимов);
3) отношения ассоциации.
Для привлечения к анализу математического аппарата целесообразно ввести ряд показателей. Каждый из показателей является функцией вида Р = Р(О, 5, М), где О - вид запроса, 5 - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных ИПС, а для глобальных ИПС, работающих в Интернете, считается условно бесконечной. Поэтому для глобальных ИПС учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида Р = Р(О, 5).
Пусть / - уровень запроса в последовательности. Определим последовательность запросов по следующему принципу:
/ = 0 - базовый уровень, в котором вводится основное слово (словосочетание),
/ = 1 - первый уровень (с), в котором вводится синоним к запросу базового уровня,
/ = 2 - второй уровень (вр), в котором вводится вышестоящее родовое понятие к запросу базового уровня,
/ = 3 - третий уровень (вц), в котором вводится вышестоящее целое понятие к запросу базового уровня,
/ = 4 - четвертый уровень (нч), в котором вводится нижестоящее частичное понятие к запросу базового уровня,
/ = 5 - пятый уровень, в котором вводится нижестоящее видовое понятие к запросу базового уровня (нв),
/ = 6 - шестой уровень (а), в котором вводится ассоциация к запросу базового уровня.
Введем следующие группы показателей.
1. Абсолютные показатели.
Объем /-ого уровня запроса - количество результатов поиска, то есть документов, выдаваемых на /-ый запрос вида О ИПС 5: А, = А,(О, 5).
Абсолютная вариация - разность между объемами /-ого иу-ого уровней:
Д;>. = Д - Д. (1)
2. Относительные показатели.
Коэффициент /-ого уровня запроса - отношение объема /-ого уровня к объему базы поиска:
А
К = Д . (2)
1 N
Индекс /-ого и у-ого уровней - отношение объема /-ого уровня к объему у-ого уровня:
Л = А . (3)
Ау
Относительная вариация - отношение соответствующей абсолютной вариации к объему базы поиска:
А..
*'= *■ (4)
Индексная вариация - разность между индексами различных уровней:
V = 3 - 3 . (5)
у;пт у пт ' '
Следует отметить, что индексы (3) и их вариации (5) не зависят от объема базы поиска N. Поэтому их следует использовать для сравнительного анализа глобальных ИПС.
Методика сравнительного анализа выбранной пары ИПС 5! и 52 предлагается следующая. В каждой ИПС 5! и 52 вводится одна и та же фиксированная последовательность запросов О. В результате для каждого уровня получаются соответствующие объемы А, (О, 5!) А, (О, 52), , = 0, 1, ..., 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида (среди выше определенных) Р,(О, 51) и Р,(О, 52).
Ясно, что для одинаковых механизмов поиска, реализованных в ИПС 51 и 52, эти показатели на фиксированном уровне мало различаются, то есть разности = Р,(О, 51) - Р,(О, 52) должны быть близки к нулю. В рассматриваем случае для оценки значимости отличия от нуля такой разности целесообразно использовать парный критерий Стьюдента [5, с. 321].
Экспериментальное значение этого критерия вычисляется по формуле:
1 п
т = -^ . (6)
пст 7=1
где п - количество показателей в ряду,
ст - среднеквадратическая ошибка, вычисляемая по формуле:
(п -1)
Согласно методам статистического анализа, экспериментальное значение критерия (6) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента 4(/), где а - уровень значимости (обычно выбирается пятипроцентный уровень значимости а=0,05), / = п - 1 - число степеней свободы.
Правила принятия решения:
1) если |Т| < /а(/) , то сравниваемые экспериментальные данные различаются незначимо, то есть различие между ними носит случайный характер;
2) если |Т| > /а(/), то сравниваемые экспериментальные данные различаются значимо,
то есть различие между ними носит закономерный характер.
Рассмотрим пример использования описанной методики. Выберем две глобальных поисковых системы 51 = {nigma.ru} и 52 = {ngs.ru}. Последовательность запроса О формируется с помощью тезауруса: О0 = {линейная алгебра}, О1 = {алгебра Банаха}, О2 = {математическая наука}, О3 = {высшая алгебра}, О4 = {линейное уравнение}, О5 = {матричная алгебра}, О6 = {определитель}. В результате проведения запросов в этих ИПС по формуле (3) вычисляются некоторые индексы, которые играют роль величин Р, (см.: таблицу 1).
Таблица 1 - Значения индексов
Индексы ИПС
Й1 Э2
^10 0,011 0,010
^20 20,526 20,500
Лзо 2,158 2,000
Jло 1,684 1,500
J50 0,632 0,500
Jво 1,737 1,500
^23 9,512 10,250
^45 2,667 3,000
Для этих данных экспериментальное значение критерия вычисляется по формуле (6): T = 0,355. Количество наблюдений n = 8, тогда число степеней свободБ f = 7. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: /0.05(7) = 2,365. Видно, что выполняется неравенство: |г| = 0,355 < 2,365 = ta(f). Согласно правилам приятия решения это означает, что результаты наблюдений для ИПС S-i и S2 различаются незначимо. Другими словами, это показывает, что в ИПС S-i и S2 реализован одинаковый механизм поиска, учитывающий семантические особенности.
Из этого примера видно, что предложенный метод может использоваться для сравнительного анализа ИПС на предмет реализации в них семантических особенностей языка. Набор параметров может быть расширен, что уменьшает вероятность совершения ошибки в ходе статистического анализа. Можно убедиться, что для рассмотренных в примере ИПС, другие аналогичные последовательности запросов, формируемые на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведут к такому же выводу о характере их поисковых механизмов.
Ссылки и примечания:
1. Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.
2. Монастырский И.М. Информационно-поисковые системы. М., 1983.
3. Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.
4. Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.
5. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.
References (transliterated) and notes:
1. The paper was performed with partial financial support from the grant ВКГ-1212-а.
2. Monastyrskiy I.M. Informatsionno-poiskovye sistemy. M., 1983.
3. Sukiasyan E.R. Shkola indeksirovaniya: prakt. posobie. M., 2005.
4. Sbitnev S.A. Avtomatizirovannye informatsionno-poiskovye sistemy: ucheb. posobie dlya studentov bibliotechnogo fakul'teta. Kemerovo, 1981.
5. Gmurman V.E. Teoriya veroyatnostey i matematicheskaya statistika. M., 2003.