Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем [1]

Савотченко Сергей Евгеньевич; Логинова Елена Александровна

УДК 811.93 Савотченко Сергей Евгеньевич

доктор физико-математических наук, доцент кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института искусств и культуры [email protected]

Логинова Елена Александровна

аспирант кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института искусств и культуры [email protected]

МАТЕМАТИЧЕСКИЙ МЕТОД СРАВНИТЕЛЬНОГО АНАЛИЗА СЕМАНТИЧЕСКИХ ОСОБЕННОСТЕЙ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ [1]

Savotchenko Sergey Evgenyevich

D.Sc. in Physics and Mathematics, Assistant Professor of the Informatics and Information Analysis Resources Department, Belgorod State Institute of Culture and Arts [email protected]

Loginova Elena Alexandrovna

PhD student of the Informatics and Information Analysis Resources Department, Belgorod State Institute of Culture and Arts [email protected]

MATHEMATICAL METHOD OF THE COMPARATIVE ANALYSIS OF INFORMATION RETRIEVAL SYSTEMS' SEMANTIC FEATURES [1]

Аннотация:

В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.

Ключевые слова:

информационный поиск, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, ассоциация.

Summary:

The authors present a method of the comparative analysis of information retrieval systems for implementation of linguistic semantic peculiarities in them. The timeliness of the article is conditioned by a problem of information retrieval systems optimization. The research novelty of the work is that it determines some indicators qualifying paradigmatic relations.

Keywords:

information retrieval, lingware, information retrieval language, paradigmatic relations, synonymy, homonymy, sort-kind, part-whole, association.

Современные информационно-поисковые системы (ИПС) предназначены для быстрого поиска документов, удовлетворяющих запросам пользователей. Необходимая предпосылка качества информационного поиска - качество лингвистического обеспечения ИПС. Лингвистическое обеспечение, как правило, включает в себя информационно-поисковые языки (ИПЯ), методов индексирования, средства разработки и ведения информационно-поисковых языков.

Качество ИПС можно определить по трем критериям: глубине (или полноте), точности и нормализованному языку понятий, то есть унифицированному, приведенному к стандартной форме. Мы рассмотрим последний критерий, а именно семантические особенности ИПЯ. Они выражаются установлением смысловых связей между понятиями или, другими словами, парадигматическими отношениями.

Парадигматические отношения - это отношения между словами, не зависящие от контекста, в котором они используются, и обусловленные наличием не языковых, а логических связей между предметами [2, с. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:

1. Сильные:

а) отношения тождества (использование синонимов);

б) отношения иерархии (род-вид, часть-целое).

2. Слабые (ассоциативные):

а) отношения пересечения понятий;

б) отношения ассоциации;

в) отношения причины - следствия;

г) отношения смежности;

д) отношения контраста;

е) отношения кратности.

Наглядным примером эксплицитного (явного) представления парадигматических отношений являются дескрипторные ИПЯ и, в частности, информационно-поисковые тезаурусы. Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.

Информационно-поисковый тезаурус (ИПТ) - это, прежде всего, словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].

Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.

Анализ учета парадигматических отношений ИПЯ в современных ИПС можно проводить, используя специальным образам сформулированные последовательности запросов. Формулировка последовательности таких запросов должна учитывать следующие смысловые связи:

1) отношения иерархии (вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть);

2) отношения тождества (учет синонимов);

3) отношения ассоциации.

Для привлечения к анализу математического аппарата целесообразно ввести ряд показателей. Каждый из показателей является функцией вида Р = Р(О, 5, М), где О - вид запроса, 5 - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных ИПС, а для глобальных ИПС, работающих в Интернете, считается условно бесконечной. Поэтому для глобальных ИПС учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида Р = Р(О, 5).

Пусть / - уровень запроса в последовательности. Определим последовательность запросов по следующему принципу:

/ = 0 - базовый уровень, в котором вводится основное слово (словосочетание),

/ = 1 - первый уровень (с), в котором вводится синоним к запросу базового уровня,

/ = 2 - второй уровень (вр), в котором вводится вышестоящее родовое понятие к запросу базового уровня,

/ = 3 - третий уровень (вц), в котором вводится вышестоящее целое понятие к запросу базового уровня,

/ = 4 - четвертый уровень (нч), в котором вводится нижестоящее частичное понятие к запросу базового уровня,

/ = 5 - пятый уровень, в котором вводится нижестоящее видовое понятие к запросу базового уровня (нв),

/ = 6 - шестой уровень (а), в котором вводится ассоциация к запросу базового уровня.

Введем следующие группы показателей.

1. Абсолютные показатели.

Объем /-ого уровня запроса - количество результатов поиска, то есть документов, выдаваемых на /-ый запрос вида О ИПС 5: А, = А,(О, 5).

Абсолютная вариация - разность между объемами /-ого иу-ого уровней:

Д;>. = Д - Д. (1)

2. Относительные показатели.

Коэффициент /-ого уровня запроса - отношение объема /-ого уровня к объему базы поиска:

А

К = Д . (2)

1 N

Индекс /-ого и у-ого уровней - отношение объема /-ого уровня к объему у-ого уровня:

Л = А . (3)

Ау

Относительная вариация - отношение соответствующей абсолютной вариации к объему базы поиска:

А..

*'= *■ (4)

Индексная вариация - разность между индексами различных уровней:

V = 3 - 3 . (5)

у;пт у пт ' '

Следует отметить, что индексы (3) и их вариации (5) не зависят от объема базы поиска N. Поэтому их следует использовать для сравнительного анализа глобальных ИПС.

Методика сравнительного анализа выбранной пары ИПС 5! и 52 предлагается следующая. В каждой ИПС 5! и 52 вводится одна и та же фиксированная последовательность запросов О. В результате для каждого уровня получаются соответствующие объемы А, (О, 5!) А, (О, 52), , = 0, 1, ..., 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида (среди выше определенных) Р,(О, 51) и Р,(О, 52).

Ясно, что для одинаковых механизмов поиска, реализованных в ИПС 51 и 52, эти показатели на фиксированном уровне мало различаются, то есть разности = Р,(О, 51) - Р,(О, 52) должны быть близки к нулю. В рассматриваем случае для оценки значимости отличия от нуля такой разности целесообразно использовать парный критерий Стьюдента [5, с. 321].

Экспериментальное значение этого критерия вычисляется по формуле:

1 п

т = -^ . (6)

пст 7=1

где п - количество показателей в ряду,

ст - среднеквадратическая ошибка, вычисляемая по формуле:

(п -1)

Согласно методам статистического анализа, экспериментальное значение критерия (6) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента 4(/), где а - уровень значимости (обычно выбирается пятипроцентный уровень значимости а=0,05), / = п - 1 - число степеней свободы.

Правила принятия решения:

1) если |Т| < /а(/) , то сравниваемые экспериментальные данные различаются незначимо, то есть различие между ними носит случайный характер;

2) если |Т| > /а(/), то сравниваемые экспериментальные данные различаются значимо,

то есть различие между ними носит закономерный характер.

Рассмотрим пример использования описанной методики. Выберем две глобальных поисковых системы 51 = {nigma.ru} и 52 = {ngs.ru}. Последовательность запроса О формируется с помощью тезауруса: О0 = {линейная алгебра}, О1 = {алгебра Банаха}, О2 = {математическая наука}, О3 = {высшая алгебра}, О4 = {линейное уравнение}, О5 = {матричная алгебра}, О6 = {определитель}. В результате проведения запросов в этих ИПС по формуле (3) вычисляются некоторые индексы, которые играют роль величин Р, (см.: таблицу 1).

Таблица 1 - Значения индексов

Индексы ИПС

Й1 Э2

^10 0,011 0,010

^20 20,526 20,500

Лзо 2,158 2,000

Jло 1,684 1,500

J50 0,632 0,500

Jво 1,737 1,500

^23 9,512 10,250

^45 2,667 3,000

Для этих данных экспериментальное значение критерия вычисляется по формуле (6): T = 0,355. Количество наблюдений n = 8, тогда число степеней свободБ f = 7. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: /0.05(7) = 2,365. Видно, что выполняется неравенство: |г| = 0,355 < 2,365 = ta(f). Согласно правилам приятия решения это означает, что результаты наблюдений для ИПС S-i и S2 различаются незначимо. Другими словами, это показывает, что в ИПС S-i и S2 реализован одинаковый механизм поиска, учитывающий семантические особенности.

Из этого примера видно, что предложенный метод может использоваться для сравнительного анализа ИПС на предмет реализации в них семантических особенностей языка. Набор параметров может быть расширен, что уменьшает вероятность совершения ошибки в ходе статистического анализа. Можно убедиться, что для рассмотренных в примере ИПС, другие аналогичные последовательности запросов, формируемые на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведут к такому же выводу о характере их поисковых механизмов.

Ссылки и примечания:

1. Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.

2. Монастырский И.М. Информационно-поисковые системы. М., 1983.

3. Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.

4. Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.

5. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

References (transliterated) and notes:

1. The paper was performed with partial financial support from the grant ВКГ-1212-а.

2. Monastyrskiy I.M. Informatsionno-poiskovye sistemy. M., 1983.

3. Sukiasyan E.R. Shkola indeksirovaniya: prakt. posobie. M., 2005.

4. Sbitnev S.A. Avtomatizirovannye informatsionno-poiskovye sistemy: ucheb. posobie dlya studentov bibliotechnogo fakul'teta. Kemerovo, 1981.

5. Gmurman V.E. Teoriya veroyatnostey i matematicheskaya statistika. M., 2003.

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Савотченко Сергей Евгеньевич, Логинова Елена Александровна

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Савотченко Сергей Евгеньевич, Логинова Елена Александровна

MATHEMATICAL METHOD OF THE COMPARATIVE ANALYSIS OF INFORMATION RETRIEVAL SYSTEMS' SEMANTIC FEATURES [1]

Текст научной работы на тему «Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем [1]»