ШБН 2079-3316 ПРОГРАММНЫЕ СИСТЕМЫ: ТЕОРИЯ И ПРИЛОЖЕНИЯ № 4(8), 2011, с. 95-99 УДК 004.78
Д. М. Понизовкин, С. А. Амелькин
Математическая модель коллаборативных процессов принятия решений
Аннотация. В статье рассматривается математическая модель предпочтений пользователей коллаборативной рекомендательной системы. Вводится критерий оптимальности работы системы. Предложен алгоритм определения эффективности работы системы.
Ключевые слова и фразы: рекомендательные системы, коллаборативная фильтрация.
Введение
Увеличение ассортимента и переход к сверхнасыщенному рынку товаров [1], привели к необходимости организации навигации, позволяющей пользователю найти необходимый товар, наиболее полно удовлетворяющий потребностям пользователя. Особенно важна разработка систем навигации для товаров и услуг символического обмена [2]. Особенностью таких товаров является неопределенность априорной оценки их пользователем, поэтому системы навигации, формируемые продавцами товара, нацелены на формирование стандартных предпочтений (вкусов) [3], обеспечивающих выбор одних и тех же товаров, не обязательно низкого качества. Стандартные предпочтения («мейнстрим») позволяют продавцу снизить издержки за счет снижения ассортимента и увеличения оборачиваемости фондов. Распространение товаров символического обмена через интернет-магазины, особенно в виде электронного контента, дают возможность, наоборот, формировать разнообразие вкусов, не совпадающих с «мейнстримом». Такая политика торгующей организации приводит к расширению целевой аудитории магазина за пределы высококонкурентной области «мейнстрима». Задачи системы навигации в этом случае состоят в идентификации пользователя по принадлежности к той или
Работа проводилась при финансовой поддержке Министерства образования и науки Российской Федерации и при поддержке РФФИ.
© Д. М. Понизовкин, С. А. Амелькин, 2011 © Программные системы: теория и приложения, 2011
иной вкусовой группе и предложению специфического для этой группы товара. Может также быть поставлена задача управления вкусом, если это соответствует целям магазина или общественному интересу, поддерживаемому магазином.
Для решения этих задач необходимо разработать математическую модель предпочтений пользователей, учитывающую возможность кластеризации пользователей в соответствии с вкусовыми группами.
1. Пространство предпочтений
Рассмотрим пользователя, который высказал свое мнение о п товарах путем их парного сравнения. Пусть для любых двух товаров Ъ(г = 3, г = 1,... ,п, j = 1,... ,п) определены результаты парного сравнения аь. Например, € А = {<, >, =}, в этом случае к = 1, 2, 3. Тогда результаты парных сравнений для пользователя формируют матрицу Д элементов , принимающих значения в соответствии с результатами парных сравнений из множества {1, 2,... ,к,...}. Никаких ограничений на транзитивность парных сравнений или на антисимметричность матрицы Д не накладывается, так как эти свойства могут выполняться или нет в зависимости от метода опроса пользователя.
Значение матрицы Д представляет собой точку в пространстве Апхп. Это пространство метрическое, на нем можно ввести расстояние между точками в соответствии с метрикой Хэмминга. Для этого для любых двух значений аь,а1 € А определяются значения р(к,1), характеризующие степень несовпадения результатов парного сравнения: р(к, I) € [0,1], р(к, I) = 0 к = I.
Величина расстояния между вкусами двух пользователей определяется как
П П
Д = |ДЬД2| = ^ ^ р{г\ц ).
г=1 • -|
3 = 1
3 = г
В случае, когда не все товары оценены пользователем, матрица Д может содержать элементы гц = 0, соответствующие отношению «не сравнивались». При введении расстояния в такой ситуации следует
учесть, что большое количество нулей в матрицах К\,К2 не означает близости этих двух пользователей. Поэтому, вводя зависимость р(к, I), надо для значений = 0 вводить дополнительный штраф є.
2. Формирование кластеров
Рассматривая распределение реализаций парного сравнения на множестве Апхп по данным реальной активности пользователей, легко отметить, что это распределение существенно отлично от равномерного. Причины неравномерности следующие:
• Значительная часть товаров не оценена; 90-95% матрицы К содержит нулевые значения.
• При формировании матрицы парных сравнений на основе выставленных оценок множество соответствующих страт не велико, поэтому значительное число элементов rij = 0, что соответствует результатам парных сравнений =, даже если можно выявить предпочтения внутри страты.
Эти причины неравномерности, однако, не описывают отклонения от постоянной плотности распределения точек . Введем значения расстояний Д12 = |Дх, Й2| такие, что:
• если Д12 <= 6°, то пользователи признаются идентичными;
• если Д12 <= £*, то пользователи признаются принадлежащими к одному и тому же кластеру (вкусовой группе).
Центром кластера назовем такую точку К*, для которой
где N — число пользователей в кластере.
Наличие вкусовых групп, среди которых лидирующей является группа «мейнстрим», является также причиной неравномерности распределения матриц сравнения в пространстве Апхп.
Таким образом, кластер представляет собой шар радиуса £* в пространстве Апхп, который с точностью 3° накрывает область повышенной плотности распределения точек .
3. Расчет рекомендаций
Работа рекомендательной системы заключается в выделении таких объектов, которые не были оценены пользователем и ожидаемая оценка (результаты парных сравнений) для которых достаточно высока. Для этого выбирается строка матрицы Д, состоящая из нулей, и рассчитываются значения ожидаемых результатов парных сравнений для объектов, оцененных пользователем. Рекомендация производится с учетом значений матриц парных оценок других пользователей, формирующих данную вкусовую группу. Стандартные алгоритмы коллаборативной фильтрации [4, 5] предлагают наличие множества пользователей, чьи предпочтения усредняются для восстановления значений матрицы Д. При таком подходе не гарантируется сохранение положения пользователя в заданном кластере, а, наоборот, в ряде случаев рекомендации способствуют переходу пользователя в кластер «мейнстрим».
Поэтому предлагается разработка рекомендаций с учетом интересов навигатора (интернет-магазина) в виде решения задачи
|Е*, Д| ^ тт,
где управлениями являются значения в заданной пользователем *-ой строке. В случае произвольного выбора товара, следует выбрать такой *-ый товар, который обеспечит наибольшее приближение к центру кластера, соответствующего заданной вкусовой группе. Таким решением, очевидно, будет соответствующая строка значений матрицы Д*.
Эффективность работы рекомендательных систем оценивается по контрольным выборкам. Ожидается, что рекомендации, генерируемые системой, должны совпадать с реальными (но неизвестными системе) оценками пользователей. Среднее квадратическое и среднее абсолютное отклонения между рекомендациями и оценками из контрольных групп являются показателями эффективности. Такие показатели, однако, не учитывают знак ошибки рекомендации по направлениям к центру вкусовой группы пользователя и к центру «мейнстрима». Можно выделить ряд процессов, влияние которых не учитывается такими контрольными показателями эффективности. Прежде всего, это — влияние рекомендательной системы на формирование вкусов потребителя. Определение и учет влияния таких процессов — задача пока не решенная.
Алгоритмы, направленные на выделение кластеров пользователей, позволяют не только осуществлять рекомендательный прогноз, но и выделять целевые группы пользователей для товаров. Локализация кластеров с учетом влияния рекомендаций на вкусы пользователя в конечном счете повышает эффективность работы системы за счет уменьшения радиуса ё*.
Список литературы
[1] Сысоева С. В., Бузукова Е. А. Категорийный менеджмент. Курс управления
ассортиментом в рознице. СПб : Питер, 2009.— 336 с. ^[]
[2] Долгин А. Б. Экономика символического обмена. М. : Инфра-М, 2006. —
632 с. t[]
[3] Макаров А. Ю. Системные программы обучения // Деловое обозрение,
2004, № 4, с. 15-28 t[]
[4] Manning C. D., Raghavan P., Schuetze H. Introduction to Information Retrieval.
Cambridge : CUP, 2008.— 134 p. f3
[5] Bishop C.M. Pattern Recognition and Mashine Learning. New York : Springer,
2007.— 256 p. t3
D. M. Ponizovkin, S. A. Amelkin. A Mathematical Model of Collaborative Decision-Making Processes.
Abstract. Mathematical model of consumer’s preferences for a collaborative recommendation service. A problem on optimal regime of the recommendation service is formulated. An algorithm of efficiency estimation is suggested.
Key Words and Phrases: recommendation service, collaborative filtering.
Образец ссылки на статью:
Д. М. Понизовкин, С. А. Амелькин. Математическая модель коллаборативных процессов принятия решений // Программные системы: теория и приложения : электрон. научн. журн. 2011. № 4(8), с. 95-99. URL: http://psta.psiras.ru/read/psta2011_4_95-99.pdf