УДК 025.4 © С.Е. Савотченко, Е.А. Проскурина
С.Е. Савотченко, Е.А. Проскурина
ИССЛЕДОВАНИЕ ДИНАМИКИ ПОКАЗАТЕЛЕЙ ПОЛНОТЫ СЕМАНТИЧЕСКИХ СВЯЗЕЙ ГЛОБАЛЬНЫХ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ
В статье представлены результаты исследования поведения показателей качества результатов информационного поиска интернет-поисковых систем с течением времени. В работе использована авторская методика исследования на основе последовательности условно нормализованных запросов.
Ключевые слова: информационный поиск, семантические связи, парадигматические отношения, информационно-поисковые системы.
Интернет располагает огромным количеством информации по всем отраслям науки и техники. Современные информационно-поисковые системы (ИПС) интернета располагают мощным лингвистическим аппаратом, позволяющим пользователю находить в беспорядочном информационном пространстве релевантные документы [3]. Но, несмотря на многочисленные исследования в области семантической обработки документов ИПС, перед учеными стоит проблема организации пертинентного поиска.
Для осуществления пертинентного поиска документов лингвистические средства современных ИПС должны учитывать семантические связи между терминами. Известно, что учет семантических связей при тематическом поиске, позволяет устранить многозначность слов, тем самым повысить точность поиска [2]. В связи с этим, актуальными становятся исследования показателей качества результатов поиска в различных ИПС в течение времени.
Для анализа устойчивости с течением времени результатов информационного поиска использованы количественные показатели, характеризующие выполнение последовательности условно нормализованных запросов [4-9]. В качестве условно нормализованной последовательности запросов здесь понимается составление определенной последовательности лексических единиц (ЛЕ), все члены которой связаны четкими парадигматическими отношениями: Qm = {д, с, вр, вц, нч, нв, а}, где (д) - заглавный дескриптор - ведущее слово, называемое запросом базового уровня, (с) -синоним к ведущему слову, (вр) - вышестоящее родовое к ведущему, (вц) - вышестоящее целым к ведущему, (нч) - нижестоящее частное
к ведущему, (нв) - нижестоящее видовое к ведущему, (а) - ассоциация с ведущим [7].
В исследовании использованы три различных таких последовательности запросов Q1, 2, 3, сформированные с помощью тезауруса:
1. Q1:
(д)={библиотека}, (с)={книгохранилище}, (вр)={учреждение культуры}, (вц)={ЦБС}, (нч)={школьная библиотека}, (нв)={книжный фонд}, (а)={библиотекарь}.
2. Q2:
(д)={обучение}, (с)={воспитание}, (вр)={педагогический процесс}, (вц)={образование}, (нч)={заочное обучение}, (нв)={лекционное занятие}, (а)={ученик}.
3. Q3:
(д)={языкознание}, (с)={лингвистика}, (вр)={гуманитарные науки}, (вц)={филология}, (нч)={семантика}, (нв)={психолингвистика}, (а)={семиотика}
Данные последовательности запросов составлены на основе информационно-поискового тезауруса, требования к которому аргументированы ГОСТом 7.25-2001. Главную роль в тезаурусе играют отношения между терминами. Именно они, определяя место каждого термина в системе понятий тезауруса, задают его смысл [2].
Для определения количественной характеристики качества результатов информационного поиска использованы величины [7]:
1) Объем ього уровня запроса - количество результатов поиска, то есть документов, выдаваемых на ьую ЛЕ последовательности запросов Q в ИПС S: Аi = Аi S).
2) Относительный показатель полноты семантических связей - отношение объема ього уровня к объему j-ого уровня:
= A
(1)
Поскольку в различные моменты времени результаты информационного поиска по одному и тому же запросу могут отличаться, а результат выполнения запроса заранее предсказать нельзя, то величины Ai = Ai(t) и Jij = Jij(t) и представляют собой случайные процессы [8,9]. В результат проведения одного и того же запроса в различные моменты времени можно получить реализацию соответствующего случайного процесса.
Для анализа была выделена следующая группа индексов Jk={J10, J20, J30, J40, J50, J60, J23, J45, J16}. В качестве объектов исследования были выбраны следующие ИПС: yandex, rambler, nigma, qip, mail.
Методика проведения исследований следующая. В строке поиска ИПС вводится первая ЛЕ последовательности Q1(a). Количество выданных по этому запросу документов есть величина А1. Затем в этой же ИПС вводится второй член последовательности . Количество выданных по этому запросу документов есть величина А2. И так далее для всех членов последовательностей всех запросов последовательности Q1, в результате чего получается необходимый набор объемов Ai(Q1). Затем с помощью этих величин вычисляются величины (1). Далее вся процедура повторяется через определенные интервалы времени для трех различных последовательностей запросов Q1, 2, 3.
В результате получается целый набор данных показателей для различных моментов времени, которые представляют собой реализации соответствующих случайных процессов. В качестве иллюстрации на рис. 1 и рис. 2. представлены графики полученных реализаций процессов
yandex —raiiibla шаш Jt qip
0,000
для запроса Q1 и для запроса
Q2 пяти различных ИПС в период времени с 15.10.12 по 18.02.13. Измерения проводились с частотой два раза в неделю.
Видно, что результаты информационного поиска испытывают колебания, а величины каждого показателя группируются около определенных средних значений:
— 1 "
Л = - X Л & )
п к=1 , (2) где п - количество моментов наблюдений tk. В рассматриваемых исследованиях было проведено п = 35 наблюдений в указанный период времени.
Для оценки статистической погрешности результатов сначала необходимо вычислить исправленные дисперсии [1]:
1
s,-
ТI (J (h) - J
(3)
Затем следует вычислить абсолютную погрешность для каждого среднего:
tу (n)
(4)
где ^(п) - значение, определяемое из специальных статистических таблиц для заданного количества наблюдений п и доверительной вероятности V = 0,95 [9]: ^95(35) = 2,032. Оценка статистической погрешности производится при помощи доверительного интервала: ^у - бу ; Jij + бу ).
Результаты вычисления средних значений (2), их исправленных дисперсий (3), погрешностей (4) пяти различных ИПС для запроса Q1 приведены в таблице 1.
Рис. 1. Графики реализаций показателя J10 для последовательности Q1.
Рис. 2. Графики реализаций показателя J10 для последовательности Q2.
Средние значения, дисперсии и абсолютные погрешности величин Л] для различных ИПС для последовательности Q1.
Таблица 1
увлЛех
J.a J A: jii] JS; JEi Jüi Jli
0,00240 9 0,50014 4 0,05694 1 0;21076 9 ■104975 4 0,01596 2 10,2641 7 4,56735 7 0,06930 г
5,55Е-06 0,06421 3 0,00030 6 0,017 79 С 0,00185 5 0,00144 19,6265 3 5,25601 7 0,00012
0,00077 9 0,03595 4 0:00940 8 0:04415 5 0.01427 0.0126 1.46769 5 0:T5952 6 o.oo565
геенЬ I er
Jla J Jit Jt* jEa Ал jEJ Л = Jli
0,00179 3 0.25422 0,03634 2 0,20540 9 0,04186 1 0,02321 5 5,771474 4,79632 5 0.06431 5
4.39E-03 0.002775 0,00075 1 0,01105 6 4.31E-05 2,32E-05 11.25605 4.30699 3 3,19E-05
S, 7,525 7E -Q5 0.017446 4 0,00 395 4 0,05450 3 0,00229 3 0,00L» 7 1.111492 0,72655 3 0,00299 7
Л& J Jm A: JEc Jti Jli
0.00513 9 0,55350 9 0,11669 0 0,25139 9 0,06241 ^ 0.04702 6 9,77541 2 4,67200 8 0,0654075 7
j.OOJE- 05 0,20603 9 0,12522 5 0,0:443 9 0,00764 4 0,00547 0 19,0240 4 5,10379 7 1.655E-05
0,00181 5 0,15059 3 0,11629 6 0,07755 4 0,02396 6 0,02494 3 1.44499 2 0.~4322 7 0.00134
л» J5ij A: Jbt jEi Jti Jli
Л 0,00255 3 0,29937 5 0.05595 0 0.21232 5 0,05012 9 0.05696 0 10,52970 4 4,55596 3 0,065536 7
5.67E-06 0,06429 l 0,00075 ; 0.01327 8 0.00135 2 0,00143 5 13.32273 5,17055 1 0.000243
6, 0.00073 9 0.03400 2 0,00910 0.04479 0.01425 9 0.01254 5 1.457523 0. "5552 5 0.005217
Fünil
Jla Jb Ju Jli J=v Jtt jti A= Jli
Л 0.00149 4 0.05659 6 0,00657 г 0,11736 9 0,01081 1 0,15437 5 5.325746 11.09763 4 0,00993 ;
< 1.412E-07 0,00100 0 1,319E-06 0.00071 1 5,173E-06 о,оош l 26,95530 1 4.709039 1,05 3E-05
5, 0,00013 4 0.01047 7 0.00053 0.00334 0.00075 4 0.01019 5 1.719935 0. "13925 0,(0106 7
По результатам исследования можно сделать вывод о том, что данные, полученные за длительный период времени испытывают колебания, которые носят случайный характер. Полученные выводы согласуются с результатами исследований, проведенном ранее на примере ИПС Google [9]. Также показано, что с течением времени величины каждого показателя полноты семантических связей группируются
около соответствующих средних значений. Из этого вытекает, что данные выводы должны быть справедливыми для любых глобальных интернет-поисковых систем. Следовательно, установленные в работе свойства показателей полноты семантических связей не зависят от вида конкретных ИПС, и поэтому, могут считаться характеристическими свойствами.
Библиографический список
1. Гмурман, В.Е. Теория вероятностей и математическая статистика [Текст] / В.Е. Гмурман. -М.: Высшая школа, 2003. - 480 с.
2. Загорулько, Ю.А. Построение многоязычных тезаурусов средствами семантической технологии [Текст] / Ю.А. Загорулько, О.И. Боровикова, Г.Б. Загорулько // Открытые семантические технологии проектирования интеллектуальных систем OSTIS-2012:материалы II международной научно-технической конференции. - Минск: БГУИР, 2012. - С. 181-189.
3. Маннинг, К. Введение в информационный поиск: пер. с англ [Текст] / К. Манинг, П. Рагхван, Х Штюце. - М.: Вильямс, 2011. - 528 с.
4. Савотченко, С.Е. К вопросу повышения качества информационного поиска в электронных библиотеках в сетевом открытом доступе [Текст] / С.Е. Савотченко, Е.А. Проскурина // Современное образование: инновационные методы, формы, технологии обучения и воспитания: материалы III всероссийской заочной научно-практической конференции с международным участием. / Отв. ред. С.П. Тимофеев. - Белгород: Политерра, 2012. - С. 259-263.
5. Савотченко, С.Е. Корреляции результатов условно нормализованных запросов в открытых информационно-поисковых системах [Текст] / С.Е. Савотченко, Е.А. Проскурина // Социокультурное пространство России: проблемы и перспективы развития: материалы IV всероссийской (с международным участием) научно-практической конференции. - Белгород: Иридис, 2012. - Т. 1. - С. 272-277.
6. Савотченко, С.Е. Корреляционный и дисперсионный анализ лингвистических особенностей поиска в интернете [Текст] / С.Е. Савотченко, Е.А. Проскурина // Среднее профессиональное образование. - 2012. - № 12. - С. 38-40.
7. Савотченко, С.Е. Математический метод сравнительного анализа семантических особенностей информационно-поисковых систем [Текст] / С.Е. Савотченко, Е.А. Логинова // Теория и практика общественного развития. - 2012. - № 6. - С. 101-104.
8. Савотченко, С.Е. Показатели семантических связей информационно-поисковых систем [Текст] / С.Е. Савотченко, Е.А. Проскурина // Научные ведомости «БелГУ». Сер. История. Политология. Информатика. - 2013. - Вып. 25/1, № 1(144). - С. 145-151.
9. Савотченко, С.Е. Устойчивость во времени результатов информационного поиска в глобальной сети [Текст] / С.Е. Савотченко, Е.А. Проскурина // Проблемы современной дидактики: теория и практика: материалы II Всероссийской научно-практической конференции с международным участием (Белгород, 23 октября 2013 г.). - Белгород: ООО ГиК, 2013. - Ч. II. - С. 211-215.
INVESTIGATION OF SEMANTIC LINKS COMPLETENESS DYNAMICS OF GLOBAL INFORMATION RETRIEVAL SYSTEMS
Sergey Е. Savotchenko,
professor, Belgorod Institute of Education Development
Elena А. Proskurina, postgraduate, Belgorod State Institute of Art and Culture
Abstract. The article presents the results of investigation of the behavior of quality results of information retrieval internet search sytems over time. We used the author's research methodology based on the sequence of normalized conditional queries in this paper.
Keywords: information search, semantic links, paradigmatic relations, information retrieval systems.
Сведения об авторах:
Савотченко Сергей Евгеньевич - доктор физико-математических наук, доцент, профессор кафедры информационных технологий Белгородский институт развития образования (г. Белгород, Российская Федерация), e-mail: [email protected].
Проскурина Елена Александровна - ассистент кафедры информатики и информационно-аналитических ресурсов, аспирант Белгородского государственного института искусств и культуры (г. Белгород, Российская Федерация), e-mail: [email protected].
Статья поступила в редакцию