Модификация модели векторного пространства для ранжирования документов С.П. Воробьев, М.Б. Хорошко, ЮРГТУ (НПИ), Новочеркасск
В модели векторного пространства документ й и запрос ц представляются в виде векторов и релевантность рассчитывается по следующей формуле [1]:
зсоге(Ч, Ю = (^ №)
II ш || • || ?(Ю II ’
Где, V(ц) - векторное представление запроса, V(й) - векторное представление документа. В качестве векторов в эксперименте использовалась оценка веса запроса wt,ч и нормированный вес термина в документе - wt д.
Щ А = Щ,
Где ґ/ частота термина в запросе, ій/ обратная документная частота, вычисляемая по формуле:
= 1д^,
где N - размер базы документов, Б/ - количество документов с данным термином.
у\ термин \ Г1 2-‘і=1
В данном примере вес термина в документе учитывал только частоту термина, но возможны и другие варианты [2] взвешивания документа. Ручной подбор схемы взвешивания для коллекции документов займет большое время, проведем эксперимент для подбора схемы взвешивания используя одну из трех /^/, или tf — ¿й/с помощью генетического алгоритма, который получает на вход количество коэффициентов (п) используемых в модели и возвращает подобранные коэффициенты. Общий алгоритм выглядит следующим образом:
1. Создается начальная популяция. Случайным образом из диапазона коэффициентов от Ст{п до Стах (диапазон устанавливается для каждого алгоритма), подбираем кп наборов коэффициентов и переводим их в двоичный вид.
2. Вычисляем приспособленность хромосом. Оцениваем ошибку, для каждого набора коэффициентов.
3. Выбираем двух родителей с наименьшей ошибкой для операции скрещивания.
4. Выбор хромосом для операции мутации.
5. Оценка приспособленности нового набора коэффициентов.
6. Если ошибка п - набора больше заданной ошибки £епШ, то переходим к пункту 3, иначе пункт 7.
7. Полученный набор коэффициентов, который минимизирует ошибку, возвращается в модель поиска.
Рассмотрены более детально основные аспекты:
• Все коэффициенты генерируются изначально случайным образом по равномерному закону при ограничении сверху и снизу. Затем переводятся в двоичный вид, чтобы можно было применять операции скрещивания и мутации.
• Ошибка оценивается по следующей формуле:
i=0
Где, r(di, qt)- средняя оценка документа di экспертами, по запросу . scored, qt) -полученная релевантность документа dг-, по запросу qi.
Эксперимент.Для проверки эффективности применения генетического алгоритма (ГА), сравним полученные метрики оценки для двух систем по 30 запросам.
Полнота (recall) вычисляется как отношение найденных релевантных документов к общему количеству релевантных документов:
Полнота характеризует способность системы находить нужные пользователю документы, но не учитывает количество нерелевантных документов, выдаваемых пользователю. Полнота показана на рисунке 1.
Рис.1. Полнота
В большинстве случаев ГА показывает лучшую полноту. Среднее значение полноты: ГА= 0,245; ВМ=0,153.
Точность (precision) вычисляется как отношение найденных релевантных документов к общему количеству найденных документов.
Точность характеризует способность системы выдавать в списке результатов только релевантные документы. Точность алгоритмов показана на рисунке 2.
Рис.2. Точность
Среднее значение точности: ГА=0,207; ВМ=0,144.
■ ГА
■ вм
Аккуратность (accuracy) вычисляется как отношение правильно принятых системой
Рис.3. Аккуратность
Среднее значение аккуратности: ГА=0,87; ВМ=0,83.
Ошибка (error) вычисляется как отношение неправильно принятых системой решений к общему числу решений. Ошибка алгоритмов полказана на рисунке 4.
Рис.4. Ошибка
Среднее значение ошибки: ГА=0,153; ВМ=0,16.
Е-мера (Р) часто используется как единая метрика, объединяющая метрики полноты и точности в одну метрику. Б-мера для данного запроса вычисляется по формуле:
2
F =-------------
Г 11
precision recall
Отметим основные свойства:
• 0 <F< 1
• если recall = 0 или precision = 0, то F = 0
• если recall = precision, то F = recall = precision
• mini'(ireacaZZ, precision) < F <
F-мера алгоритмов полказана на рисунке 5.
■ ГА
■ ВМ
Рис.5. F-мера
Среднее значение ^меры: ГА=0,20; ВМ=0,14.
Таким образом, можно сделать вывод,Модификация с генетическим алгоритмом обладает лучшими значениями метрик, по сравнению с базовым алгоритмом. Но при этом не оправдана сама эффективность использования векторной модели для ранжирования, т.к. вычисление косинусной меры сходства между вектором запроса и каждым вектором документа коллекции, сортировка по релевантности и выбор К лучших документов является довольно затратным процессом и требует выполнения десятков тысяч арифметических операций.
Литература:
1. Маннинг, Кристофер Д. Введение в информационный поиск. М. : Вильямс, 2011.
2. Дубинский А.Г. Некоторые вопросы применения векторной модели представления документов в информационном поиске // Управляющие системы и машины. 2001. № 4.