УДК 004.5
В.В. Диковицкий
Институт информатики и математического моделирования технологических процессов Кольского НЦ РАН
СЕМАНТИЧЕСКОЕ ПРОФИЛИРОВАНИЕ ПОЛЬЗОВАТЕЛЕЙ В ЗАДАЧЕ ИНФОРМАЦИОННОГО ПОИСКА
Аннотация
В статье рассмотрено применение пользовательского опыта в задаче информационного поиска. Одним из возможных путей получения и учета пользовательских предпочтений является построение модели пользовательских интересов в виде формализованной ментальной модели. Представлен подход, позволяющий повысить релевантность за счет автоматизированного ранжирования результатов на основе формализованной ментальной модели.
Ключевые слова:
Информационный поиск, формализованная ментальная модель.
V.V. Dikovitsky
SEMANTIC PROFILING OF USERS IN TASK OF INFORMATION RETRIEVAL
Abstract
The paper deals the application of the user experience in the task of information retrieval. One of the possible ways to obtain and accounting of user preferences is the construction model of user interests in the form of a formalized mental model. Presented an approach which allows increase the relevance by automated ranking of results.
Keywords:
information retrieval, formalized mental model.
Несмотря на интенсивное развитие методов информационного поиска, малоизученным направлением является участие пользователя в процессе поиска. Роль индивидуальности пользователя относительно, как оценки результатов, так и механизма поиска информации отмечается в работах [3, 7, 8], в [3] отмечается предпочтение пользователей в доступе к информации путем информационнопоисковых систем (ИПС), нежели прямой навигации. В [5] отмечается зависимость удовлетворения информационной потребности от эффективности ИПС, опыта и характеристик пользователя. В работах [6,7] рассмотрено вовлечение пользователя в процесс поиска, предложена концепция «human-computer information retrieval» (HCIR), включающая различные аспекты информационного поиска и человеко-машинного взаимодействия. Исследование [8] показывает, что учет неявной обратной связи в виде поведение пользователя при ранжировании результатов позволяет увеличить эффективность поиска на 21%.
Одним из возможных путей получения и учета пользовательских предпочтений является построение модели пользовательских интересов. В [9] предложено использовать модель пользователя, полученную на основе опроса пользователя для оптимизации информационного поиска мультимедиа-файлов.
54
В [11] предложено использовать ассоциативную лексическая сеть отношений между словами для моделирования когнитивных процессов пользователя поисковой системы и оптимизации запроса. В [13] предложен способ автоматического получения предпочтений пользователя в виде ментальной модели на основе учета статистики взаимодействия пользователя с информационной системой.
Применительно к задаче поиска ментальная модель позволит уточнить контекст запроса и ограничить область поиска за счет использования субтрактивных отношений. Формализованная ментальная модель (ФММ) представляет собой ассоциативную семантическую сеть, множество вершин которой составляют понятия предметной области, которыми оперирует пользователь, множество ребер - множество взвешенных двухместных отношений над понятиями. ФММ формируется в автоматическом режиме на основе обработки запросов пользователя и статистики его работы с информационной системой. Взаимодействие пользователя с информационной системой может быть представлено следующим алгоритмом:
Рис. 1. Алгоритм взаимодействия пользователя и ИС
55
Взаимодействие заключается в итеративном расширении запросов пользователя на основе ФММ, обеспечении возможности коррекции запроса, а также учета пользовательских предпочтений путем коррекции весовых коэффициентов между понятиями ФММ. При совместном употреблении в запросе пар понятий, входящих в состав ФММ, увеличиваются весовые коэффициенты отношений между данными понятиями. Превалирование одного понятия из модели над другим задается весовыми коэффициентами дуг формализованной ментальной модели. Особенностью такого взаимодействия является возможность задания отрицательных весовых коэффициентов (субтрактивных отношений), обозначающих отсутствие значимости данного контекста понятия для пользователя.
Процесс поиска документов по предварительно проиндексированной коллекции с учетом весовых коэффициентов отношений в ментальной модели пользователя состоит из следующих этапов:
1. Формирование запроса в терминах семантической модели предметной области[13] (СМПО):
1.1. Формирование расширенного запроса, содержащего отношения и соответствующие запросу Q = {ci} концепты СМПО:
EQ = fq (Q, KB) = {CQ, LQ | (Eq(cQ, cfB) > 1 -s)},
(1)
cQ c C, LQ c L i = 1, Nq , j = 1, Nkb ,
где KB - семантическая модель предметной области, CQ - множество концептов СМПО, содержащихся в запросе, LQ - множество отношений над концептами Cq, fq () - функция, ставящая соответствие запросу фрагмент СМПО,
Eq() - функция оценки сходства имен концептов, S - погрешность оценки сходства концептов.
1.2. Расширение запроса с учетом весовых коэффициентов отношений и субтрактивных отношений, ограничивающих контекст запроса:
EQ = {CQ, Lq } U {C, L' 11: ct е CQ
, cj е C
w.
> x} ,
(2)
C c C, L c L, l е L, l
=< ct, c j, tp, w >, ci, cj е C, tp е Tp,,
где C - множество концептов СМПО, связанных с концептами множества C Q отношениями вида l из множества L', Tp - множество типов отношений (синонимии, гипонимии, ассоциации, субтрактивных отношений), w - вектор весовых коэффициентов, компоненты которого задают значимость отношения для различных категорий пользователей, k - количество категорий пользователей. wK - k-ая компонента вектора весовых коэффициентов отношения l, x - коэффициент включения отношения в расширенный запрос.
2. Получение множества документов, соответствующих расширенному запросу:
D = {dt | Cdi П CQ ^0} , i = 1, n, (3)
где C di - множество концептов СМПО, присутствующих в документе d , CQ - множество концептов СМПО, присутствующих в запросе EQ.
56
3. Ранжирование множества документов с учетом весовых коэффициентов отношений:
L'
к
R(dk)=Z (f (wk,r)-Ц (f (wk,r) (4)
Ldi Ldt
Ldk = , tj e dk ) л (p e (synonymOf,HyponymOf,associateWith})}.
(ld | (t,,tj e dk)л(tp e (subStract})}, i, j = Г7П,k = 1m,tp eTp,
где f (wk, r) - функция получения компоненты вектора весовых
коэффициентов отношений из множества L между концептами c и c ,
dk 1 J
присутствующими в документе dk, для категории пользователей r, Tp - множество типов отношений.
Документы, в которых присутствуют субтрактивные отношения, будут иметь меньший приоритет после ранжирования. Результатом ранжирования является упорядоченное по убыванию оценки R() множество документов, представляющих результаты поиска.
Таким образом, применение формализованной ментальной модели пользователей в информационном поиске позволяет учесть предпочтения пользователей, формализованные в виде весовых коэффициентов отношений, а также проводить автоматическое ранжирование результатов, путем учета субтрактивных отношений.
57
Литература
1. Baeza-Yates, R. Modem Information Retrieval / R. Baeza-Yates, B. Ribeiro-Neto // Addison-Wesley, 1999. -520p. - ISBN 0-201-39829-X.
2. Manning, C. Introduction to Information Retrieval / C. Manning, P. Raghavan, H. Schutze // Cambridge University Press, 2008. -506 p. - ISBN 0-521-86571-9.
3. Liawa, S. Information retrieval from the World Wide Web: a user-focused approach based on individual experience with search engines / S. Liawa, Computers in Human Behavior 22, 2006. -Р.501-517.
4. Kuropka, D. Modelle zur Reprasentation naturlichsprachlicher Dokumente D. Kuropka / Ontologie-basiertes Information-Filtering und Retrieval mit relationalen Datenbanken, 2004. - 242 p. -ISBN 3-8325-0514-8.
5. Azzah Al-Maskari, Mark Sanderson / A review of factors influencing user satisfaction in information retrieval // Journal of the American Society for Information Science and Technology. -Vol. 61. - Issue 5, 2010. -Р.859-868.
6. Kelly, D. Methods for Evaluating Interactive Information Retrieval Systems with Users / D.Kelly // Foundations and Trends in Information Retrieval: Vol.3: No.1-2. - 224 p. -Режим доступа: http://dx.doi.org/10.1561/1500000012
7. Marchionini, G. Toward Human-Computer Information Retrieval Bulletin, in June/July 2006 Bulletin of the American Society for Information Science. -Режим доступа: http://www.asis.org/Bulletin/Jun-06/marchionini.html
8. Eugene Agichtein, Eric Brill, and Susan Dumais / Improving web search ranking by incorporating user behavior information. In SIGIR ’06: Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, New York, NY, USA, 2006. -Р.19-26.
9. Chai, W. and Vercoe, B / Using User Models in Music Information Retrieval Systems. In Proceedings of ISMIR // Chai W. and B. Vercoe , 2000. - Режим доступа: http://ciir.cs.umass.edu/music2000/posters/chai.pdf
10. Zhang, Y. / Undergraduate students' mental models of the Web as an information retrieval system. Journal of the American Society for Information Science and Technology, 59(13), 2008. -Р.2087-2098.
11. Manfred Wettler, Angelika Glockner-Rist. Cognitive processes in information retrieval: production rules and lexical nets. Mental Models and Human-Computer Interaction, 1991. -С.243-255.
12. Guha, R.V., McCool, R., and Miller, E.: Semantic search. In Proc. of the 12th International World Wide Web Conference (WWW 2003), Budapest, Hungary, 2003. -Р.700-709.
13. Диковицкий, В.В., Шишаев, М.Г. Технология формирования адаптивных пользовательских интерфейсов для мультипредметных информационных систем промышленных предприятий / В.В. Диковицкий, М.Г. Шишаев //Информационные ресурсы России. -2014. -№ 1. - С.3-26.
Сведения об авторе
Диковицкий Владимир Витальевич - младший научный сотрудник,
е-mail: dikovitsky @iimm. ru
Vladimir V. Dikovitsky - junior researcher
58