УДК 004.031.4; 025.4.036
ПОКАЗАТЕЛИ СЕМАНТИЧЕСКИХ СВЯЗЕЙ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ
С.Е. САВ0ТЧЕНК01 ЕЛ. ПРОСКУРИНА2
Белгородский институт повышения квалификации и профессиональной переподготовки специалистов
Белгородский государственный институт искусств и культуры
e-mail:
Статья посвящена вопросам развития лингвистического обеспечения информационно-поисковых систем. В работе даны определения основных показателей семантических связей. Приведены результаты исследований корреляции и динамической устойчивости таких показателей на примере наиболее популярных поисковых систем.
Ключевые слова: информационный поиск, информационно-
поисковые системы, информационно-поисковые языки, лингвистическое обеспечение информационно-поисковых систем, парадигматические отношения.
Введение
Интернет располагает огромным количеством баз данных (БД) по различным отраслям науки и техники, которые помогают получать человеку необходимые знания. Поиск в таких БД осуществляется при помощи информационно-поисковых систем (ИПС), в структуру которых входит лингвистическое, программно-техническое и информационное обеспечение. Особое внимание следует уделять исследованиям, касающимся лингвистического обеспечения ИПС, потому что именно его средства позволяют находить более полную и достоверную информацию, отвечающую требованиям пользователей [1,2].
Перед пользователями в ходе работы с ИПС, как правило, возникают проблемы полноты и точности информационного поиска. Одним из средств «борьбы» за точность и пертинентность информационного поиска является систематизация публикаций. Кроме того, повышению полноты и точности поиска способствует технология построения запросов, основанная на соответствующей систематизации предметных областей. Установление парадигматических отношений между лексическими единицами (ЛЕ) как раз позволяет систематизировать понятия.
В связи с этим возникает необходимость количественного анализа качества информационного поиска, осуществляемого по реализуемым в ИПС поисковым алгоритмам и методам, а также построения математических моделей для оценки эффективности информационного поиска. В первую очередь для этого следует определить количественные показатели, характеризующие качество поиска с различных сторон.
1. Отражение семантических связей в поисковых запросах и характеризующие их количественные показатели
Для сравнительного анализа механизмов информационно-поисковых языков (ИПЯ) в различных ИПС целесообразно использовать количественные показатели, характеризующие результаты выполнения запросов, отражающих основные смысловые связи, такие как: отношения иерархии - вышестоящее родовое, вышестоящее целое, нижестоящее видовое, нижестоящее часть; отношения тождества - учет синонимов; отношения ассоциации. В качестве запросов тогда предлагается составить специальными образом последовательность лексических единиц, все члены которой будут связаны четкими парадигматическими отношениями: С?тм, где 1=о=(д), г=1=(с), 1=2=(вр), 1=з=(вц), 1=4=(нч), 1=5=(нв), 1=6=(а), (д) - заглавный дескриптор, называемый запросом базового уровня, (с) - ЛЕ, которая является синонимом к (д), (вр) - ЛЕ, которая является вышестоящим родовым к (д), (вц) - ЛЕ, которая является вышестоящим целым к (д), (нч) -ЛЕ, которая является нижестоящим частичным к (д), (нв) - ЛЕ, которая является нижестоящим видовым к (д), (а) - ЛЕ, которая является ассоциацией к (д) [3].
Каждому подмножеству запросов (}т{Г) ставится в соответствие подмножество документов Рт(1 )№), выдаваемое в конкретной ИПС 5/. Мощность ЛГ(Р,„(,')(5;)) подмножества Рти(5/) является случайной величиной, реализация которой представляет собой количе-
ство релевантных документов А,- (От, 5/), выдаваемых на 1-ую ЛЕ последовательности запросов @т в ИПС 5/.
Характеристики семантических связей в ИПС представляют собой показатели, определяемые выражениями Jij{Qm,SI) = Ы(Рт(Гр81)IЫ(Рт(Гр81), которые являются случайными величинами. Реализации таких показателей семантических связей вычисляются по формулам ./. (дт Д) = Д (<2т, 81) / Д. (<2т ,8,).
При моделировании информационно-поисковый механизм можно трактовать как отображение ф, которое ставит в соответствие подмножеству фтн подмножество Ртю: Ф : О-тц-) Рта) • Согласно рассматриваемой нами концепции учета семантических связей в простой форме поиска алгоритм поиска должен быть оптимизирован так, чтобы отображение ф удовлетворяло следующим свойствам: Мф((?тоо)<Мф((?т(вр));
-ЭДф(фт(д))<ЛГ(ф(фт(вц)); Мф(С>т(д))>ЛГ(ф(С)т(пч)); Л^(ф(фт(д))>Л^(ф((2т(нв)); А^(ф((5т(д))~Л^(ф((2т(с)); -ЭДф(фт(д))~-^(ф(Фт(а)).
Если члены последовательности 0т рассматривать с точки зрения теории нечетких множеств [4, 5], то вполне очевидными являются следующие отношения (знаки включения могут быть нестрогими, знаком «~» здесь будем обозначать семантическую эквивалентность нечетких множеств): С?т(д)С(2т(вц); С?т(д)С(2т(вр); С?т(д)=>(2т(нч); С?т(д)=>С?т(нв);
С?т(д)~С?т(с); (?т(д)~(?т(а). Основным выдвигаемым в данной работе предположением является то, что из определенных таким образом отношений между членами последовательности 0т должны вытекать следующие соотношения для реализаций: Ао(0т, 8[)<А2(0т, 5/);
Ао(0т, 5/)<Л:)(()т, <!?/); Лц(0т, 8/)>А^(0т, 81)', Лц(0т, 8/)>А-)(0т, 81)', Лц(0т, в^—А^От, 81)',
Ао(0т, 80~Аб(От, 5/) (для числовых величин знак «~» здесь обозначает близость их значений). Отсюда очевидным образом следуют свойства реализаций основных показателей семантических связей: «/2о>1; </30>1; «/40<1; «/50<1; «Ло-1; «/бо~1; «Лб~1.
Для практического применения указанных свойств можно сформулировать следующее правило: если хотя бы одно из указанных неравенств для реализаций показателей семантических связей «Тд не выполняется, то нет оснований предполагать, что в обследованных ИПС реализованы алгоритмы, автоматически учитывающие парадигматические отношения между лексическими единицами (терминами) запросов в полном объеме при простой форме поиска. Однако обратное утверждение нельзя сформулировать в категорической форме. Можно лишь утверждать, что если все указанные неравенства для реализаций «Тд выполняются, то это не означает наличия в подсистеме поиска ИС алгоритмов, автоматически учитывающих семантические связи в полном объеме при простом поиске.
2. Корреляции показателей семантических связей на примере исследования открытых информационно-поисковых систем
Для проведения исследований была выделена следующая группа показателей {110, «/20, о5 ^о, </50, «/бо, «/23, </45}- Использованные последовательности запросов 0т, члены которой составлены на основе информационно-поискового тезауруса (ГОСТ 7.25-2001), приведены в табл. 1.
Таблица 1
Последовательности запросов
Вид О! а <2з <?4 (?5
Д музей линейная алгебра языкознание библиотека обучение
С галерея алгебра Банаха лингвистика книгохранилище воспитание
вр учреждение культуры математическая наука гуманитарные науки учреждение культуры педагогический процесс
ВЦ музейное дело высшая алгебра филология центральная библиотечная система образование
нч экспонат линейное уравнение семантика школьная библиотека заочное обучение
нв музей- заповедник матричная алгебра психолингви- стика книжный фонд лекционное занятие
а искусство определитель алфавит библиотекарь ученик
Были выбраны десять наиболее популярных русскоязычных ИПС, для которых обозначения и адреса приведены в табл. 2, а также даты обращений к ним.
Таблица 2
Сайты информационно-поисковых систем
Обозначение ИПС Адрес ИПС Дата ввода запроса
5! nigma.ru 15-03.12
& qip.ru 15-03.12
53 mail.ru 15-03-12
bing.com 15-03-12
5г, ngs.ru 15-03-12
56 yandex.ru 27.03.12
57 google.ru 27.03.12
58 rambler.ru 27.03.12
aport.ru 27.03.12
510 ru.yahoo.com 27.03.12
Методика проведения исследований следующая. В строке поиска ИПС З1! (по адресу из табл. 2) вводится первая ЛЕ последовательности @1 (вид отношения - (д) из табл. 1). Количество выданных по этому запросу документов есть величина А(С?1(д), <51). Затем в этой же ИПС вводится второй член последовательности ф (вид отношения -(с) из табл. 1). Количество выданных по этому запросу документов есть величина А?((21(с), <51). И так далее для всех членов последовательностей всех запросов по табл. 1 во всех ИПС из табл. 2, в результате чего получается необходимый набор реализаций А(С?т, Затем с помощью этих величин вычисляются реализации показатели семантических связей. Для иллюстрации ниже в табл. з приведены реализации ,7,у для последовательности запросов из табл. 1.
Таблица 3
(?т Лц & Я2 Яз Я4 я5 Яб Я8 Я8 я9
Лю 0,011 0,011 0,149 0,012 0,010 0,008 0,040 0,011 0,010 0,022
(/20 20,526 20,00 14,92 7,547 20,50 19,50 13,092 19,00 20,00 7,721
0* ,/3о 2,158 2,500 1Д79 2,161 2,000 2,000 3,211 2,500 2,000 2,403
(/40 1,684 2,000 0,463 1,904 1,500 1,500 0,287 2,000 1,500 1,890
0,632 1,000 о,313 0,087 0,500 0,500 2,513 1,000 0,500 0,084
(/бо 1,737 2,000 44,77 1,331 1,500 1,500 26,447 2,000 1,500 1,244
</23 9,512 8,000 12,65 3,492 10,25 9,750 4,078 7,600 10,000 3,213
<^45 2,667 2,000 1,476 21,85 3,000 3,ооо 0,114 2,000 3,000 22,47
Для количественного анализа связей между механизмами ИПЯ рассматриваемых ИПС были определены наиболее схожие показатели. Результаты предварительного анализа показали, что для дальнейшего исследования идентичности следует отобрать группу ИПС: SWnigma.ru}, SWqip.ru}, 55={^8.ги}, 5б={уапс1ех.ги}, 58={гашЫег.ш}, 59={арог1:.ш}.
Согласно методу корреляционного анализа связей семантических особенностей поисковых механизмов автоматизированных информационных, были рассчитаны коэффициенты парных корреляции г(()т,81,8]). Из вычисленных таким образом коэффициентов корреляции были составлены корреляционные матрицы [5]. Для примера ниже приведена корреляционная матрица для последовательности запросов ф2 в выделенном подмножестве шести ИПС -К, Б2,Б5, Бв, Бв, Бд}, рассчитанная по данным табл. 3:
( 1 ^
0,99639 1
0,99898 0,99159 1
0,99896 0,99155 0,99997
0,99612 0,99997 0,99118
0,99898 0,99157 0,99999
і
і
Видно, что коэффициенты парных корреляций очень близки к единице. Аналогичным образом выглядят остальные корреляционные матрицы, в которых коэффициенты парных корреляций все примерно равны 0,99, что свидетельствует об очень высокой степени корреляции, то есть тесноты связи между механизмами ИПЯ выбранных пар ИПС. Для таких очень близких к единице значений (0,99) нет необходимости анализировать статистическую значимость всех коэффициентов корреляции.
Для сравнения пар ИПС можно использовать парный критерий Стьюдента [6]. В качестве примера приведем результаты сравнения по этому критерию ИПС З1! и Б5 для последовательности запросов Для этих ИПС экспериментальных данных из таблицы 3 наблюдаемое значение парного критерия Стьюдента Т(02, ^1, 55)=о,355. Критическая точка двусторонней области распределения Стьюдента для пятипроцентного уровня значимости: £0> 05(73=2,365. Видно, что выполняется неравенство
ТТ(?2, 53)=0,355<2,Зб5=^о ,05(7)- Это означает, что результаты наблюдений для ИПС З1! и
Б5 различаются незначимо. Аналогичным образом была проверена значимость различия остальных всевозможных пар ИПС выбранной группы.
Наличие тесной связи, то есть гипотезу об аналогичности механизмов ИПЯ выбранной группы ИПС, можно подтвердить методом однофакторного дисперсионного анализа [5]. В качестве факторных групп выступают наборы значений восьми индексов {«/ю, «/20, ']?,<>, </50, Ло, >Лз, ь/45} дая каждого запроса в выделенном подмножестве шести
ИПС {^1, 52, 55, 5б, Ба, &,}. Поэтому количество групп р=6, а число уровней фактора д=8, тогда числа степеней свободы распределения Фишера-Снедекора &1=р-1=5, к2=р{д-1)=42.
Для показателей соответствующих столбцов -й, в2, 55, ва, &,} были вычислены групповые средние <J(Qm,Sl)> по каждой ИПС для каждой последовательности запросов,
общие средние <Joб (Qm)> для каждой фиксированной последовательности запросов из
табл. 1, факторные и остаточные дисперсии; наблюдаемые значения критерия Фишера-Снедекора. Результаты вычисления групповых и общих средних приведены в табл. 3.
Таблица 3
Групповые < > И общие средние <./ (О,) >
<-ДО,А)> 5! & 56 58 59 < ЛбщШ >
& 0,9562 0,9163 0,9085 0,9153 0,8920 0,8987 0,9102
а 4,8658 4,6889 4,9075 4,4196 4,5138 4,8138 4,7516
Оз 2,6802 2,7300 2,7534 2,7534 2,7300 2,7296 2,7211
<?4 2,8997 2,7128 3,1482 3,2136 2,6155 2,6696 2,8765
(?5 1,4871 1Д398 1,8167 1,8256 1,1424 1,7912 1,5334
Результаты вычисления факторных и остаточных сумм и дисперсий, а также наблюдаемых значений критерия Фишера-Снедекора приведены в табл. 4.
Таблица 4
___________ Результаты однофакторного дисперсионного анализа ___________________
01 а 0:, (?4 Он
факт 0,001048 0,164326 0,016912 0,521108 0,867311
ост 0,634645 45,72453 6,761433 30,41392 11,81401
^набл 0,001651 0,003594 0,002501 0,017134 0,073414
Для указанных значений степеней свободы и уровня значимости а=0,05 критическая точка распределения Фишера-Снедекора ^0,05(5; 42)=2,43769. Из последней строки табл. 4 видно, что для всех запросов выполняется неравенство -Рнабл<Ра(к1; к2), поэтому различие между механизмами ИПЯ выбранной группы ИПС признается незначимым, то есть случайным на заданном пятипроцентном уровне значимости.
На основании полученных результатов можно сделать вывод о том, что все механизмы ИПЯ рассматриваемой группы ИПС -й, в2, Я5, вб, 5в, £9} являются идентичными.
3. Устойчивость показателей семантических связей
В связи с быстрым накоплением информации, появлением новых знаний, следует произвести анализ результатов поиска в ИПС в течение времени. Для анализа устойчивости с течением времени результатов информационного поиска целесообразно использовать количественные показатели, характеризующие выполнение последовательности запросов. В проведенных компьютерных экспериментах была использована последовательность запроса Q3 (табл. l), а в качестве ИПС S был выбран наиболее полярный поисковик Google.
Поскольку в различные моменты времени результаты информационного поиска по одному и тому же запросу могут отличаться, а результат выполнения запроса заранее предсказать нельзя, то величины A-A{f) и Jy=Jy(t) следует рассматривать как случайные процессы. В результате проведения одного и того же запроса в различные моменты времени можно получить реализацию соответствующего случайного процесса. Для анализа будем использовать группу показателей {Ji0, «Лю, J30, J40, -/-,0, «Лю, J23, J45, «Лг>}.
Методика проведения исследований следующая. В строке поиска ИПС S={Google} вводится первая ЛЕ последовательности @(д). Количество выданных по этому запросу документов есть величина Ai(ti)- Затем в этой же ИПС вводится второй член последовательности Q(c). Количество выданных по этому запросу документов есть величина A2(t1). И так далее для всех членов последовательности Q, в результате чего получается необходимый набор объемов Затем с помощью этих величин вычисляются реализации Jy=Jy(f1).
в
ip
Рис. 1. Графики реализаций показателей семантических связей
Далее вся процедура повторяется через определенные интервалы времени. Измерения проводились с частотой два раза в неделю в период с 28.05.12 по 08.10.12. В результате получен целый набор значений для различных моментов времени «ЛД^О,
«7у(£п), которые представляют собой реализации соответствующих случайных процессов. На рис. 1 представлены графики полученных реализаций некоторых процессов «/(,•(£).
Хорошо видно, что результаты информационного поиска испытывают флюктуа-ционные колебания, а величины каждого показателя группируются около определенных
п
средних значений: = '^Jjj(tk)/n, где п — количество моментов наблюдений £*. Было
к=\
проведено п=39 наблюдений в указанный период времени.
Результаты вычисления средних значений, исправленных дисперсий и доверительных интервалов для средних приведены в табл. 5 (после сглаживания).
Таблица 5
'/ю (/20 </30 (/40 </50 </бо </23 <^45 <Лб
Л 1,562 0,916 1,312 0,389 0,532 1,263 0,650 0,932 1,745
Исправленная дисперсия 1,501 0,600 0,286 0,054 0,101 0,766 0,081 0,088 1,777
Доверит. интервал (1,141; 1,983) (0.65Н: 1,175) (1,122; 1,502) (0,312; 0,466) (0,423; 0,642) (0,962; 1,563) (0,551; 0,749) (0,829; 1,036) (1,256; 2,234)
Серия История. Политология. Экономика. Информатика. 2013. №1 (144). Выпуск 25/1
Таким образом, по результатам исследований динамики показателей информационного поиска, приведенных в данном пункте, можно сформулировать следующие выводы.
1) Результаты информационного поиска с течением длительного времени испытывают колебания, которые носят стохастический характер в силу флюктуаций работы в глобальной сети.
2) С течением времени реализации каждого показателя полноты семантических связей группируются около соответствующих средних значений.
3) Проведенные исследования демонстрируют наличие устойчивости результатов поисковых запросов в глобальной сети в течение времени.
Заключение.
Гипотеза об идентичности особенностей ИПЯ при простой форме поиска для таких популярных поисковиков, как nigma.ru, qip.ru, ngs.ru, yandex.ru, rambler.ru, aport.ru, подтверждена экспериментальными данными методами корреляционного анализа, однофакторного дисперсионного анализа, а также с помощью анализа значимости различия по парному критерию Стьюдента.
Проведенное исследование динамики реализаций показателей семантических связей показало наличие устойчивости их поведения во времени. В частности, установлено, что реализации показателей семантических связей группируются около соответствующих средних значений.
Следует отметить, что для полученных данных при исследовании Интернет-поисковых систем сформулированные в п.1 неравенства выполняются не для всех запросов и не для всех показателей. Более того, исследование устойчивости в Google также демонстрирует, что указанные неравенства выполняются не для всех выделенных реализаций показателей семантических связей Jy. Поэтому нет оснований предполагать, что в обследованных ИПС реализованы алгоритмы, автоматически учитывающие парадигматические отношения между лексическими единицами (терминами) запросов в полном объеме при простой форме поиска.
1. Антопольский, А. Б. Лингвистическое обеспечение электронных библиотек [Электронный ресурс] // Российский научно-электронный журнал «Электронные библиотеки». - 2002. — № 2. — Режим доступа: http://www.elbib.ru. - Загл. с экрана.
2. Гендина, Н. И. Лингвистические средства автоматизации документального поиска. -СПб., 1992.
3. Zadeh, L. A. Fuzzy Sets as a Basis for a Theory of Possibility // Fuzzy Sets and Systems. - 1978. -Vol. 1. - No. 1. - pp.3-28.
4. Савотченко, C.E. Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем / С.Е. Савотченко, А.Е. Логинова // Теория и практика общественного развития. - 2012. - № 6. - С. 101-104.
5. Рыжов, А.П. Модели поиска информации средствами теории нечетких множеств. - М.: МГУ им. М.В. Ломоносова, 2004. - 96 с.
6. Математическая статистика: учеб. для вузов / В.Б. Горяйнов, И.В. Павлов, Г.М. Цветкова и др.; под ред. B.C. Зарубина, А.П. Крищенко. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2001. - 424 с.
Список литературы
SEMANTIC RELATION INDICATORS OF INFORMATION SEARCH SYSTEMS
Belgorod Institute of Postgraduate Education and Professional Retraining of Specialists
S.E.SAV0TCHENK01 ЕЛ. PROSKURINA2
The article is devoted to the development of linguistic support of information search systems. The definitions of main indicators of semantic relations are given in this work. The research results on correlation and dynamic stability of these indicators by the example of the most popular search systems are summarized.
Belgorod State Institute of Arts and Culture
Keywords: information search, computer science, information search systems, information search languages, linguistic support of information search systems.
e-mail: