Научная статья на тему 'Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем [1]'

Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем [1] Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
261
46
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ / ИНФОРМАЦИОННО-ПОИСКОВЫЙ ЯЗЫК / ПАРАДИГМАТИЧЕСКИЕ ОТНОШЕНИЯ / СИНОНИМИЯ / ОМОНИМИЯ / РОД ВИД / ЧАСТЬ ЦЕЛОЕ / АССОЦИАЦИЯ / INFORMATION RETRIEVAL / LINGWARE / INFORMATION RETRIEVAL LANGUAGE / PARADIGMATIC RELATIONS / SYNONYMY / HOMONYMY / SORT-KIND / PART-WHOLE / ASSOCIATION

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Савотченко Сергей Евгеньевич, Логинова Елена Александровна

В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по СМИ (медиа) и массовым коммуникациям , автор научной работы — Савотченко Сергей Евгеньевич, Логинова Елена Александровна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MATHEMATICAL METHOD OF THE COMPARATIVE ANALYSIS OF INFORMATION RETRIEVAL SYSTEMS' SEMANTIC FEATURES [1]

The authors present a method of the comparative analysis of information retrieval systems for implementation of linguistic semantic peculiarities in them. The timeliness of the article is conditioned by a problem of information retrieval systems optimization. The research novelty of the work is that it determines some indicators qualifying paradigmatic relations.

Текст научной работы на тему «Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем [1]»

УДК 811.93 Савотченко Сергей Евгеньевич

доктор физико-математических наук, доцент кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института искусств и культуры [email protected]

Логинова Елена Александровна

аспирант кафедры информатики и информационно-аналитических ресурсов Белгородского государственного института искусств и культуры [email protected]

МАТЕМАТИЧЕСКИЙ МЕТОД СРАВНИТЕЛЬНОГО АНАЛИЗА СЕМАНТИЧЕСКИХ ОСОБЕННОСТЕЙ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ [1]

Savotchenko Sergey Evgenyevich

D.Sc. in Physics and Mathematics, Assistant Professor of the Informatics and Information Analysis Resources Department, Belgorod State Institute of Culture and Arts [email protected]

Loginova Elena Alexandrovna

PhD student of the Informatics and Information Analysis Resources Department, Belgorod State Institute of Culture and Arts [email protected]

MATHEMATICAL METHOD OF THE COMPARATIVE ANALYSIS OF INFORMATION RETRIEVAL SYSTEMS' SEMANTIC FEATURES [1]

Аннотация:

В статье предложен метод сравнительного анализа информационно-поисковых систем на предмет реализации в них семантических особенностей языка. Актуальность статьи связана с проблемой оптимизации работы информационно-поисковых систем. Новизна работы заключается в определении ряда показателей, характеризующих учет парадигматических отношений.

Ключевые слова:

информационный поиск, лингвистическое обеспечение, информационно-поисковый язык, парадигматические отношения, синонимия, омонимия, род - вид, часть - целое, ассоциация.

Summary:

The authors present a method of the comparative analysis of information retrieval systems for implementation of linguistic semantic peculiarities in them. The timeliness of the article is conditioned by a problem of information retrieval systems optimization. The research novelty of the work is that it determines some indicators qualifying paradigmatic relations.

Keywords:

information retrieval, lingware, information retrieval language, paradigmatic relations, synonymy, homonymy, sort-kind, part-whole, association.

Современные информационно-поисковые системы (ИПС) предназначены для быстрого поиска документов, удовлетворяющих запросам пользователей. Необходимая предпосылка качества информационного поиска - качество лингвистического обеспечения ИПС. Лингвистическое обеспечение, как правило, включает в себя информационно-поисковые языки (ИПЯ), методов индексирования, средства разработки и ведения информационно-поисковых языков.

Качество ИПС можно определить по трем критериям: глубине (или полноте), точности и нормализованному языку понятий, то есть унифицированному, приведенному к стандартной форме. Мы рассмотрим последний критерий, а именно семантические особенности ИПЯ. Они выражаются установлением смысловых связей между понятиями или, другими словами, парадигматическими отношениями.

Парадигматические отношения - это отношения между словами, не зависящие от контекста, в котором они используются, и обусловленные наличием не языковых, а логических связей между предметами [2, с. 147]. В теории информационного поиска выделяют следующие основные виды парадигматических отношений:

1. Сильные:

а) отношения тождества (использование синонимов);

б) отношения иерархии (род-вид, часть-целое).

2. Слабые (ассоциативные):

а) отношения пересечения понятий;

б) отношения ассоциации;

в) отношения причины - следствия;

г) отношения смежности;

д) отношения контраста;

е) отношения кратности.

Наглядным примером эксплицитного (явного) представления парадигматических отношений являются дескрипторные ИПЯ и, в частности, информационно-поисковые тезаурусы. Языки дескрипторного типа поддерживают процесс индексирования, который заключается в формировании описания документа как совокупности дескрипторов, выбираемых из заранее созданных словарей понятий, либо из текстов документов. Дескриптор - лексическая единица, выраженная информативным словом (вербально) или кодом и являющаяся именем класса синонимичных или близких по смыслу ключевых слов [3, с. 68]. В АБИС в качестве дескрипторных ИПЯ широкое распространение получили информационно-поисковые тезаурусы.

Информационно-поисковый тезаурус (ИПТ) - это, прежде всего, словарь-справочник, в котором перечислены все лексические единицы дескрипторного информационно-поискового языка с синонимичными им словами или словосочетаниями естественного языка, где эксплицитно выражены парадигматические, синтагматические, ассоциативные отношениями между дескрипторами [4, с. 48].

Для обеспечения полноты отражения содержания документов и запросов с помощью ИПЯ с целью повышения эффективности информационного поиска в дескрипторном словаре для каждого дескриптора указываются его синонимы, а также родовые, видовые и ассоциативные отношения.

Анализ учета парадигматических отношений ИПЯ в современных ИПС можно проводить, используя специальным образам сформулированные последовательности запросов. Формулировка последовательности таких запросов должна учитывать следующие смысловые связи:

1) отношения иерархии (вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть);

2) отношения тождества (учет синонимов);

3) отношения ассоциации.

Для привлечения к анализу математического аппарата целесообразно ввести ряд показателей. Каждый из показателей является функцией вида Р = Р(О, 5, М), где О - вид запроса, 5 - информационно-поисковая система, N - объем базы поиска (общее количество документов, среди которых производится поиск). Последняя величина N имеет конечное значение для локальных ИПС, а для глобальных ИПС, работающих в Интернете, считается условно бесконечной. Поэтому для глобальных ИПС учитывать N не имеет смысла, а соответствующие показатели становятся функциями вида Р = Р(О, 5).

Пусть / - уровень запроса в последовательности. Определим последовательность запросов по следующему принципу:

/ = 0 - базовый уровень, в котором вводится основное слово (словосочетание),

/ = 1 - первый уровень (с), в котором вводится синоним к запросу базового уровня,

/ = 2 - второй уровень (вр), в котором вводится вышестоящее родовое понятие к запросу базового уровня,

/ = 3 - третий уровень (вц), в котором вводится вышестоящее целое понятие к запросу базового уровня,

/ = 4 - четвертый уровень (нч), в котором вводится нижестоящее частичное понятие к запросу базового уровня,

/ = 5 - пятый уровень, в котором вводится нижестоящее видовое понятие к запросу базового уровня (нв),

/ = 6 - шестой уровень (а), в котором вводится ассоциация к запросу базового уровня.

Введем следующие группы показателей.

1. Абсолютные показатели.

Объем /-ого уровня запроса - количество результатов поиска, то есть документов, выдаваемых на /-ый запрос вида О ИПС 5: А, = А,(О, 5).

Абсолютная вариация - разность между объемами /-ого иу-ого уровней:

Д;>. = Д - Д. (1)

2. Относительные показатели.

Коэффициент /-ого уровня запроса - отношение объема /-ого уровня к объему базы поиска:

А

К = Д . (2)

1 N

Индекс /-ого и у-ого уровней - отношение объема /-ого уровня к объему у-ого уровня:

Л = А . (3)

Ау

Относительная вариация - отношение соответствующей абсолютной вариации к объему базы поиска:

А..

*'= *■ (4)

Индексная вариация - разность между индексами различных уровней:

V = 3 - 3 . (5)

у;пт у пт ' '

Следует отметить, что индексы (3) и их вариации (5) не зависят от объема базы поиска N. Поэтому их следует использовать для сравнительного анализа глобальных ИПС.

Методика сравнительного анализа выбранной пары ИПС 5! и 52 предлагается следующая. В каждой ИПС 5! и 52 вводится одна и та же фиксированная последовательность запросов О. В результате для каждого уровня получаются соответствующие объемы А, (О, 5!) А, (О, 52), , = 0, 1, ..., 6. По этим данным для каждого уровня вычисляются наборы показателей выбранного вида (среди выше определенных) Р,(О, 51) и Р,(О, 52).

Ясно, что для одинаковых механизмов поиска, реализованных в ИПС 51 и 52, эти показатели на фиксированном уровне мало различаются, то есть разности = Р,(О, 51) - Р,(О, 52) должны быть близки к нулю. В рассматриваем случае для оценки значимости отличия от нуля такой разности целесообразно использовать парный критерий Стьюдента [5, с. 321].

Экспериментальное значение этого критерия вычисляется по формуле:

1 п

т = -^ . (6)

пст 7=1

где п - количество показателей в ряду,

ст - среднеквадратическая ошибка, вычисляемая по формуле:

(п -1)

Согласно методам статистического анализа, экспериментальное значение критерия (6) сравнивается с критической точкой (правой границей двусторонней критической области) распределения Стьюдента 4(/), где а - уровень значимости (обычно выбирается пятипроцентный уровень значимости а=0,05), / = п - 1 - число степеней свободы.

Правила принятия решения:

1) если |Т| < /а(/) , то сравниваемые экспериментальные данные различаются незначимо, то есть различие между ними носит случайный характер;

2) если |Т| > /а(/), то сравниваемые экспериментальные данные различаются значимо,

то есть различие между ними носит закономерный характер.

Рассмотрим пример использования описанной методики. Выберем две глобальных поисковых системы 51 = {nigma.ru} и 52 = {ngs.ru}. Последовательность запроса О формируется с помощью тезауруса: О0 = {линейная алгебра}, О1 = {алгебра Банаха}, О2 = {математическая наука}, О3 = {высшая алгебра}, О4 = {линейное уравнение}, О5 = {матричная алгебра}, О6 = {определитель}. В результате проведения запросов в этих ИПС по формуле (3) вычисляются некоторые индексы, которые играют роль величин Р, (см.: таблицу 1).

Таблица 1 - Значения индексов

Индексы ИПС

Й1 Э2

^10 0,011 0,010

^20 20,526 20,500

Лзо 2,158 2,000

Jло 1,684 1,500

J50 0,632 0,500

Jво 1,737 1,500

^23 9,512 10,250

^45 2,667 3,000

Для этих данных экспериментальное значение критерия вычисляется по формуле (6): T = 0,355. Количество наблюдений n = 8, тогда число степеней свободБ f = 7. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: /0.05(7) = 2,365. Видно, что выполняется неравенство: |г| = 0,355 < 2,365 = ta(f). Согласно правилам приятия решения это означает, что результаты наблюдений для ИПС S-i и S2 различаются незначимо. Другими словами, это показывает, что в ИПС S-i и S2 реализован одинаковый механизм поиска, учитывающий семантические особенности.

Из этого примера видно, что предложенный метод может использоваться для сравнительного анализа ИПС на предмет реализации в них семантических особенностей языка. Набор параметров может быть расширен, что уменьшает вероятность совершения ошибки в ходе статистического анализа. Можно убедиться, что для рассмотренных в примере ИПС, другие аналогичные последовательности запросов, формируемые на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведут к такому же выводу о характере их поисковых механизмов.

Ссылки и примечания:

1. Работа выполнена при частичной финансовой поддержке гранта ВКГ-1212-а.

2. Монастырский И.М. Информационно-поисковые системы. М., 1983.

3. Сукиасян Э.Р. Школа индексирования: практ. пособие. М., 2005.

4. Сбитнев С.А. Автоматизированные информационно-поисковые системы: учеб. пособие для студентов библиотечного факультета. Кемерово, 1981.

5. Гмурман В.Е. Теория вероятностей и математическая статистика. М., 2003.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

References (transliterated) and notes:

1. The paper was performed with partial financial support from the grant ВКГ-1212-а.

2. Monastyrskiy I.M. Informatsionno-poiskovye sistemy. M., 1983.

3. Sukiasyan E.R. Shkola indeksirovaniya: prakt. posobie. M., 2005.

4. Sbitnev S.A. Avtomatizirovannye informatsionno-poiskovye sistemy: ucheb. posobie dlya studentov bibliotechnogo fakul'teta. Kemerovo, 1981.

5. Gmurman V.E. Teoriya veroyatnostey i matematicheskaya statistika. M., 2003.

i Надоели баннеры? Вы всегда можете отключить рекламу.