Модификация схемы BM25 с помощью генетического алгоритма.
С.П. Воробьев, М.Б. Хорошко, ЮРГТУ (НПИ), Новочеркасск
Быстро растущие информационное пространство объединенных вычислительных сетей порождает новые потребности в обработке, представлении и особенно в поиске данных. На первое место выходит критерий релевантности, который позволяет при его корректном использовании повысить эффективность информационного поиска. Существует достаточно большое количество схем и моделей для решения задачи поиска, одной из которых является BM25.
Схема взвешивания Okapi BM25, была разработана как способ построения вероятностной модели, чувствительной к частоте термина и длине документа, но не использующей большого количества дополнительных параметров. В соответствии с ней каждый документ^ получает оценку по запросу q, определяемой следующей формулой:
Переменная к-!— это положительный параметр настройки, с помощью которого производится калибровка частоты термина. Переменная Ъ— еще один параметр настройки (0 < Ъ < 1), определяющий нормировку по длине документа. Рекомендуемые значения к1 и Ь - параметры, равны 1.2 и 0.75 соответственно; Wd и ША - длина документа и средняя длина документа.
Для подбора параметров надстройки будем использовать следующий генетический алгоритм, который получает на вход количество коэффициентов(п)используемых в модели и возвращает подобранные коэффициенты. Общий алгоритм выглядит следующим образом:
1) Создается начальная популяция. Случайным образом из диапазона коэффициентов от Стыдо Стах (диапазон устанавливается для каждого алгоритма), подбираем кп наборов коэффициентов и переводим их в двоичный вид.
2) Вычисляем приспособленность хромосом. Оцениваем ошибку, для каждого набора коэффициентов.
3) Выбираем двух родителей с наименьшей ошибкой для операции скрещивания.
4) Выбор хромосом для операции мутации.
5) Оценка приспособленности нового набора коэффициентов.
6) Если ошибка п1 - набора больше заданной ошибки ЕеЫег, то переходим к пункту 3, иначе пункт 7.
7) Полученный набор коэффициентов, который минимизирует ошибку, возвращается в модель поиска.
Рассмотрены более детально основные аспекты:
где
(.ki + l)fd,t
• Все коэффициенты генерируются изначально случайным образом по равномерному закону при ограничении сверху и снизу. Затем переводятся в двоичный вид, чтобы можно было применять операции скрещивания и мутации.
• Ошибка оценивается по следующей формуле:
І = 0
Где, г(йі, Ці)- средняя оценка документа ^ экспертами, по запросу Ці . зсоге^йі, Ці) -полученная релевантность документа ^, по запросу Ці .
В ходе экспериментов получены оптимальные операции скрещивания и мутации.
Операция отбора.После проведения ряда экспериментов, было выявлено, что для более быстрого получения максимума целевой функции отбор хромосом должен осуществляться по следующему принципу. Для операции скрещивания берется два самых лучших хромосома, и случайным образом Ыкг хромосом.
Для операции мутации берется два хромосома с самой низкой приспособленностью и ^тиі хромосом.
Операция скрещивания. Для выбора оптимальной операции скрещивания, был проведен ряд экспериментов с различными методами. В результате определилось два оптимальных метода показанные на рисунке 1. Для проверки эффективности случайным образом делалась выборка запросов от одного до ста. В качестве параметра определяющего оптимальность, бралась средняя оценка релевантности выдачи по данным запросам. Во время эксперимента отключались другие операции. Таким образом функция достигает максимума при сращивании методом «расчески» и очень близко при скрещивании «пополам» (рисунок 2). Решено оставить оба варианта в алгоритме и эксперименты доказали эффективность выбранного способа (рисунок 1). По различным запросам метод расчески достигает максимальной точки по одному набору запросов, метод пополам по двум, а использование двух методов по четырем.
41
<ч
Ф
О.
♦ Метод расчески И Метод пополам —йг- Оба метода
и
0 20 40 60 80 100 120
Количество запросов
Рис. 1. Операции скрещивания
I I
Рис. 2. Методы скрещивания. При скрещивании «расческой» биты с двух коэффициентов меняются через один. При скрещивании методом пополам, берется половину бит с первого коэффициента и вторую половину со второго коэффициента.
Операция мутации. Дляопределения оптимальной мутации, был проведен эксперимент, где оценивалась средняя релевантность документов выданных системой при отключенных других механизмах. В результате эксперимента выяснилось, что мутация достигает максимума при вероятности мутирования бита равной 40%. График зависимости результатов поиска от вероятности мутирования показан на рисунке 3.
и 0 20 40 60 80 100
Вероятность мутации бита, %
Рис. 3. Зависимость результатов поиска от вероятности мутирования бита
Для проведения эксперимента, было создано две базы запросов - документов. Первая база используется для обучения алгоритма, вторая для оценки. Тестовые коллекции были предоставлены организацией РОМИП, брались две коллекции:
• псевдослучайная выборка сайтов из домена narod.ru объемом 728 000 документов.
• набор, содержащий новостные сообщения из 25 источников и охватывающий 3 временных интервала (около 31 500 документов).
Были сформированы запросы трех типов:
• информационные запросы,
• навигационные запросы,
• транзакционные запросы.
Всего сформировано около 5 000 запросов в равных соотношениях.
Эксперимент. Реализуем модельОкар1БМ25 и ее модификацию, где в качестве параметров надстройки будут выступать подобранные значения с помощью генетического алгоритма. Сравниваются полученные метрики оценки для двух систем по 30 запросам.
Полнота (recall) вычисляется как отношение найденных релевантных документов к общему количеству релевантных документов:
Полнота характеризует способность системы находить нужные пользователю документы, но не учитывает количество нерелевантных документов, выдаваемых пользователю. Полнота показана на рисунке 4.
Рис.4. Полнота
Среднее значение полноты: ВМ=0,173, ГА =0,241. ГА показывает лучшую полноту, в среднем на 40%, т.е. пользователь получит на 40% больше релевантных документов.
Точность (precision) вычисляется как отношение найденных релевантных документов к общему количеству найденных документов.
Точность характеризует способность системы выдавать в списке результатов только )елевантные документы. Точность алгоритмов показана на рисунке 5.
Рис.5. Точность
Среднее значение точности: ВМ=0,167, ГА=0,217. ГА показывает точность, выше на 30%, т.е. больше вероятность, что пользователь получит только релевантные документы на свой запрос.
Аккуратность (accuracy) вычисляется как отношение правильно принятых системой решений к общему числу решений. Аккуратность алгоритмов показана на рисунке 6.
1,2
1
0,8
0,6
0,4
0,2
0
т
т
т
т
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
ВМ
ГА
Рис.6. Аккуратность
Среднее значение аккуратности: ВМ=0,832, ГА=0,873. ГА обладает более лучшей аккуратностью на 5%, т.е. система принимает больше правильных решений.
Ошибка (error) вычисляется как отношение неправильно принятых системой решений к общему числу решений. Ошибка алгоритмов полказана на рисунке 7.
ВМ
ГА
1 2 3 4 5 б 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Рис.7. Ошибка
Среднее значение ошибки: ВМ=0,167, ГА=0,150. ГА обладает меньшей ошибкой на 10%, т.е. системой на 10% меньше принято неправильных решений.
Г-мера (Р) часто используется как единая метрика, объединяющая метрики полноты и точности в одну метрику. Б-мера для данного запроса вычисляется по формуле:
2
precision recall
Отметим основные свойства:
• 0 <F< 1
• если recall = 0 или precision = 0, то F = 0
• если recall = precision, то F = recall = precision
Y+'D
• min(reacall,precision) < F <—^~
F-мера алгоритмов полказана на рисунке 8.
Рис.8. F-мера
Среднее значение f-мера: ВМ=0,17, ГА=0,24. ГА на 40% позволяет улучшить данную метрика, т.е. в среднем ГА выдает лучше результаты на 40%.
Таким образом, модификация с генетическим алгоритмом позволяет улучшить базовую модель в среднем на 40%, т.е. пользователь получит на свой ответ больше релевантных документов на 40%, вероятность того что на запрос будут только релевантные ответы на 30%, на 5% системой принято больше правильных решений, на 10% меньше не правильных.
Литература
1. Sparck Jones, Karen, S. Walker.A probalistic model of information retrieval. б. м. : IP&M, 2000.
2. Маннинг, Кристофер Д. Введение в информационный поиск. М. : Вильямс, 2011.