Научная статья на тему 'Исследование групп пользователей Интернет-ресурсами методами анализа формальных понятий и разработки данных (Data Mining)'

Исследование групп пользователей Интернет-ресурсами методами анализа формальных понятий и разработки данных (Data Mining) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY-NC-ND
682
144
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Кедров С. А., Кузнецов С. О.

Предложена математическая модель построения таксономии групп пользователей Интернет-ресурсом и средства для изучения связей между интересами пользователей, основанные на методах анализа формальных понятий и разработки данных. Рассмотрены результаты исследований групп пользователей трех Интернет-ресурсов, предложены дальнейшие пути развития математических моделей построения таксономий и моделей представления информации о поведении пользователей.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Кедров С. А., Кузнецов С. О.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование групп пользователей Интернет-ресурсами методами анализа формальных понятий и разработки данных (Data Mining)»

ИССЛЕДОВАНИЕ ГРУПП ПОЛЬЗОВАТЕЛЕЙ ИНТЕРНЕТ-РЕСУРСАМИ МЕТОДАМИ АНАЛИЗА

ФОРМАЛЬНЫХ ПОНЯТИЙ И РАЗРАБОТКИ ДАННЫХ (DATA MINING)

С.А. Кедров,

руководитель исследовательского отдела SpyLog С.О. Кузнецов,

д.ф.-м.н., профессор, заведующий отделением прикладной математики ГУ-ВШЭ

Предложена математическая модель построения таксономии групп пользователей Интернет-ресурсом и средства для изучения связей между интересами пользователей, основанные на методах анализа формальных понятий и разработки данных. Рассмотрены результаты исследований групп пользователей трех Интернет-ресурсов, предложены дальнейшие пути развития математических моделей построения таксономий и моделей представления информации о поведении пользователей.

*

1. Мотивация и постановка задач

а ля производителя, нацеленного на долгосрочное развитие бизнеса, изучение взаимоотношений с потребителями — пользователями 1ета имеет первостепенное значение. Роль Интернета в этом случае растёт по мере увеличения доли времени в сутках, проводимого потребителями в Сети: на работе, дома, в дороге, на отдыхе, на учебе и т.д. Вне Интернета производитель «относительно легко» и известными способами может получить непосредственный контакт с потребителями: посредством рекламы, провести опрос, наблюдать за процессом потребления. «Относительно легко», так как точность контакта низка, а стоимость высока. На практике, стоимость оказывается тем выше (а точность ниже), чем к более узкой группе потребителей требуется обратиться. Выделить узкую группу потребителей путём массового обращения практически невозможно, а путём персонального — дорого, особенно с учетом географии нашей страны. Казалось бы, Интернет способен помочь в устранении этих проблем, так как не имеет географических ограничений, но возникают трудности иного рода. Фундаментальная основа Сети — сохранение анонимности

пользователей [1]. В результате для производителя весьма актуальной оказывается проблема выделения Интернет-пользователей, обладающих определенными наборами характеристик: социально-демографическими, социо-культурными, потребительскими, поведенческими. Возникает сложность в формировании выборки аудитории, оценке её объема, осуществлении нацеленной рекламы и проведении репрезентативных опросов. Точность контакта с рекламой в Сети оказывается менее 0,3% — т.е. из 1000 увидевших рекламное сообщение только трое заинтересовались и перешли на сайт производителя. Среди перешедших — менее 3% посетителей совершат покупку или контакт с производителем. Остальные 97% останутся непонятыми для производителя, хотя на их привлечение затрачены средства. В Интернете объём потребителей по определению ограничен — сейчас в Рунете это 23 млн. человек [2], а в будущем объём сверху ограничен населением страны. Количество же предложений производителей в расчете на одного потребителя растет — только количество производителей, использующих рекламные сервисы, превышает 30 тыс. и многие имеют номенклатуру из тысяч позиций. Поэтому каждый привлечённый, но не удержанный потребитель, оказывается вычтен для производителя из объёма максимально доступной

аудитории. Производитель не имеет методики и инструмента понимания и выстраивания взаимоотношений со «своей» аудиторией.

Особую остроту данные проблемы приобретают для малого и среднего бизнеса, где часто не хватает средств, на штат высоко квалифицированных маркетологов, в особенности в области интернет-маркетинга. Выявить аудиторию, интересующуюся узкоспециализированными услугами в целом Интернете в определенном регионе; обратиться к ней с адекватным рекламным сообщением; убедить потенциальных потребителей в качестве услуги; обеспечить взаимодействие с аудиторией; идентифицировать особенности поведения потребителей и сохранить контакт с аудиторией после визита на сайт — данные задачи оказываются даже сложнее тех, которые приходится решать крупному бизнесу. Очевидно, что бизнесу требуются стандартные методики и инструменты для понимания «своей» аудитории и выстраивания отношения с ней. Для этого необходимо получить ответы на следующие вопросы:

^ из каких групп состоит «своя» аудитория; ^ как эти группы соотносятся друг с другом

(вкладываются, (не) пересекаются и т.п.); ^ как соотносятся интересы аудитории (насколько проявление интереса типа А связано с проявлением интереса типа Б); ^ кто «близок» по интересам к «своей» аудитории и что его отличает от её представителей.

Получению ответов на перечисленные выше вопросы посвящена исследовательская работа сотрудников и студентов кафедры анализа данных и искусственного интеллекта ГУ-ВШЭ на основе информации, предоставленной исследовательской компанией SpyLOG.

2. Выбор метода и модели данных

Для решения задач, поставленных выше в общих чертах, необходимы математические методы, позволяющие выделять группы сходных пользователей и устанавливать связи между множествами признаков этих групп.

Традиционные методы кластеризации, основанные на отношении или мерах близости между объектами (или расстоянии между объектами), приводят к построению групп сходных объектов — кластеров. В них объекты попарно сходны друг с другом, но «существо» сходства может отличаться у разных пар из кластера. Для преодоления этого эффекта можно использовать методы би-кластеризации

(объектно-признаковой кластеризации), в которых сходство объединяемых в один кластер объектов выражается через общие структурные признаки (элементы описания) всех объектов из данного кластера.

К таким методам относятся методы анализа данных, основанные на формальных понятиях и решётках формальных понятий [3].

Введём некоторые самые необходимые определения из [3].

Контекстом в АФП называют тройку К = М, I), где G — множество объектов; М — множество признаков, а отношение I с G х М говорит о том, какие объекты какими признаками обладают. Для произвольных А с G и В х М определены операторы Галуа:

А' = {те М | V % е А (% I т)};

В' = {% е G | V т е В (% I т)}.

Оператор '' (композиция двух применений оператора ') является оператором замыкания: он идемпо-тентен (А'''' = А''), монотонен (А с В влечет А'' с В'') и экстенсивен (А с А'').

Множество объектов А с G, такое, что А'' = А, называется замкнутым.

Аналогично для замкнутых множеств признаков — подмножеств множества М.

Пара множеств (А, В), таких, что А с G, В с М, А' = В и В' = А, называется (формальным) понятием контекста К.

Множества А и В замкнуты и называются объёмом и содержанием формального понятия (А, В) соответственно.

Понятия (А1, В1) и (А2, В2) связаны отношением частичного порядка (А1, В1) < (А2, В2), если А1 с А2 (что эквивалентно В2 с В1). В этом случае, (А1, В1) называют менее общим понятием, чем понятие (А2, В2), а (А2, В2) — обобщением понятия (А1, В1).

Частично упорядоченное по вложению объёмов множество формальных понятий контекста К обозначается L (К) и называется решёткой понятий контекста К.

Естественной визуализацией решёток понятий, как и каждого частично-упорядоченного множества, являются диаграммы (называемые иногда диаграммами Хассе), в которых два соседних по отношению порядка понятия (т.е. такие, между которыми нет других понятий) связаны ребром, причём более общее понятие в диаграмме всегда лежит выше менее общего. Примеры (частей) диаграмм приведены в разделе, посвящённом приложениям.

Применительно к задаче анализа поведения пользователей Интернет-ресурсами, объектами выступают посетители, признаками — конкретные Интернет-страницы или их группы, объединенные по некоторым содержательным признакам; множество пар, образующих отношение контекста, соответствует паре (посетитель, посещённая посетителем страница).

С точки зрения наших прикладных интересов, диаграмма возникающей решетки понятий представляет наглядный образ таксономии групп (замкнутых множеств) пользователей.

Для произвольного B с M величина |B'| = |{g с G | V m е B (g I m)}| называется поддержкой (support) B и обозначается sup(B).

Множество B замкнуто тогда и только тогда, когда для любого D з B имеет место sup(D) < sup(B). Именно это свойство используется для определения замкнутости в методах Data Mining. Множество B с M называется k-частым если |B'| > k (т.е. множество признаков B встречается в более чем k объектах), где k — параметр. Вычисление частых замкнутых множеств признаков (содержаний) приобрело важность в Data Mining благодаря тому, что по этим множествам эффективно вычисляются множества всех ассоциативных правил [4]. Выражение A ^ B называется ассоциативным правилом с поддержкой sup и уверенностью conf, если sup = sup(A и B)/A'| = = |(A и В)' и conf = sup(A и B) / |IG| = |(A и B)'/|G|. Для нашей прикладной задачи ассоциативные правила представляют математическую модель соотношения интересов групп пользователей.

Теоретически размер множества всех замкнутых множеств признаков (содержаний) может быть экспоненциальным относительно числа признаков, но на практике, таблицы данных сильно «разреженны» (т.е. среднее число признаков на один объект весьма мало) и число замкнутых множеств невелико. Для таких случаев существуют эффективные алгоритмы построения всех наиболее частых замкнутых множеств признаков (см. наш обзор по алгоритмам построения всех замкнутых множеств [5]).

И все же зачастую большое число всех порождаемых понятий (в нашем приложении — групп пользователей, снабженных описанием общности интересов в группе) может препятствовать охвату ситуации аналитиком. В таком случае аналитик может прибегнуть к (полу)автоматическим средствам выделения «наиважнейших» групп пользователей. Для определения таких групп нами использовалась идея устойчивости понятия как независимость содержания

понятия (т.е. «смысла» понятия, или общности интересов в группе для наших приложений) и ее воплощение в индексах устойчивости [6,7].

Пусть К = М, I) — формальный контекст и (А, В) — формальное понятие контекста К. Тогда индекс устойчивости о для (А, В) определяется в виде:

Считая, что наиболее интересные группы пользователей соответствуют понятиям с большой устойчивостью, и выбирая пороговое значение устойчивости, мы оставляли лишь те группы пользователей, устойчивость которых как понятий выше выбранного порога. Отношение общности на понятиях с устойчивостью выше порога ничем не отличается от определения в общем случае и упорядоченное множество устойчивых групп может быть также визуально представлено диаграммой.

3. Опыт анализа данных поведения пользователей некоторых Интернет-ресурсов.

Модели порождения решеток понятий и ассоциативных правил применялись нами для анализа нескольких сайтов — сайта крупного банка, сайта автодилера и сайта салона красоты (указанные компании не называются по условиям конфиденциальности). В качестве программного средства использовалась программа Concept Explorer [8] дополненная внешними утилитами для вычисления устойчивости, преобразования данных и т.д.

3.1. Анализ поведения пользователей сайта

крупного банка

Банковские услуги нацелены на широчайший круг потребителей: ипотека, вклады, кредиты, пенсионные программы, ценные бумаги, сейфовые ячейки, специализированные программы и др. — для частных лиц и для бизнеса, для существующих и потенциальных клиентов. Услуги высоко стандартизованы, что усложняет процесс выбора для потребителей. Многообразие услуг порождает многообразие групп потребителей, проявляющих интерес к услугам. Различные группы потребителей предъявляют разные требования к содержанию и представлению услуг. Для банка это порождает задачи выявления разных групп потребителей, различной работы с ними и предъявления разных критериев оценки удовлетворенности потребителей

качеством взаимодействия. Важность задач обусловлена и тем, что в силу широты охвата потребителей, совокупный объём аудитории сайтов банков может быть сопоставим или превышать аудиторию многих СМИ, поэтому задачи улучшения и удержания контакта с уже имеющейся аудиторией позволяют взаимодействовать с ней как с клиентской базой.

Приведём несколько интересных групп и интересных взаимоотношений между ними, полученных в ходе исследования:

^ порядка 30% посетителей сайта, интересующихся специальными предложениями для держателей платёжных карт, интересуются расположением банкоматов. Вероятно, это клиенты банка, желающие получить или оплатить потребительский кредит. Выделив данную группу, банк уже знает, какие ещё предложения могут заинтересовать клиентов;

^ небольшое количество посетителей, по отношению к общей выборке, но значимое по отношению к посетителям раздела «банкоматы», интересуются одновременно «банкоматами» и «операционными кассами и филиалами» в Москве. Вполне вероятно, что это держатели зарплатных карт, интересующиеся ближайшим пунктом, где можно снять средства. Банк может предложить удобный сервис просмотра расположения банкоматов, информирования о состоянии счета, льготах для клиентов в получении других продуктов банка; ^ 50% посетителей, просматривающих страницы для корпоративных клиентов, интересуются услугами и для физических лиц. Появление данной группы неожиданно. Поэтому важно выявить причины такого поведения и адекватным образом представить услуги данной группе посетителей портала банка.

3.2. Анализ поведения пользователей сайта автодилера

Рынок услуг автодилеров в настоящее время один из наиболее конкурентных и востребованных потребителями. В то же время предложения разных продавцов сходны, что затрудняет выбор и принятие решений потребителями. Процесс выбора растянут во времени, что объясняется риском принятия неверного решения. На решение могут влиять предпочтения марки автомобиля, сопутствующие услуги, ожидаемое качество послепродажного сервиса. Значительную часть аудитории сайтов автоди-

леров составляют люди, не имеющие в близкой перспективе намерений приобретения автомобилей, но интересующихся темой и способных влиять на мнения вероятных потребителей. Выявление различных аудиторий позволит автодилеру адекватным образов выстроить взаимодействие и учесть потребности разных по типу клиентов.

Рассмотрим часть диаграммы решетки понятий контекста посетителей сайта автодилера. Кругами на ней программа Concept Explorer изображает формальные понятия, стоящие под ними числа обозначают объем понятия, а стоящие у некоторых кругов (соответствующих так называемым супремум-неразложимым понятиям [3]) сверху слова соответствуют признакам, т.е. определенным страницам сайта автодилера (см. диаграмму 1).

На диаграмме только около 10% (496) посетителей разделов с описанием моделей автомобилей интересовались условиями получения кредита. Также около 10% (513) интересовались описанием моделей и расположением автоцентров. Около 3% (127) интересовались и расположением, и условиями кредитных программ. Один из результатов (представлен на невидимой части диаграммы) — кредитными программами интересуются в большей степени покупатели недорогих автомобилей. Зная это, автодилер может ярче выделить кредитные программы на страницах описаний недорогих моделей, сделать акцент на других услугах или удобствах для покупателей дорогих моделей. Выделив аудиторию, проявившую интерес только к описанию моделей, но не изучившую дополнительные услуги, автодилер может специальным образом обратиться к людям, не имеющим намерений покупки в ближайшее время.

3.3. Анализ поведения пользователей сайта

салона красоты

Салон красоты — типичный представитель малого бизнеса. Услуги салона красоты достаточно широки и типичны по перечню, но мало стандартизованы в части описания. Аудитория салона ограничена ближайшим районом проживания и относительно узким кругом потенциальных клиентов. Чтобы привлечь клиентов, проживающих на значительном удалении, требуется убедить их в качестве, комфорте, удовлетворении, преимуществе услуги, гарантировать положительные эмоции. И это без личного общения. Выбрать удачные формы взаимодействия с аудиторией можно, предлагая разные доводы в пользу услуги и отслеживая реакцию аудитории. Разные формы убеждения могут воздействовать на разные типы потребителей.

Диаграмма 1

На диаграмме 2, отражающей таксономию групп пользователей, только 35% аудитории попадает на сайт через главную страницу. Значительная доля посетителей именно главной страницы интересуется информацией о мастерах салона, адресом, виртуальным туром по салону. 65% аудитории, привлекаемой на сайт, оказываются «потерянными» для салона. Почти 10% аудитории главной страницы интересуются виртуальным туром, мастерами и адресом, но эти разделы незаметно представлены на главной странице. Результаты исследования позволяют рекомендовать салону сконцентрироваться на аудитории главной страницы. Возможно, такая форма представления услуг, как виртуальный тур по салону, оказавшись более заметной, вызовет больший интерес аудитории.

4. Направление дальнейшей работы

4.1. Развитие математического аппарата

Предлагая эффективные средства для построения иерархий групп, методы построения решеток понятий имеют определенные недостатки, порой затрудняющие его использование при анализе данных большого объёма. Эти недостатки обусловлены большим числом порождаемых понятий и коренятся в жесткой структуре формальных понятий, не допускающей исключений в множестве

общих признаков объектов из одного объёма (который представляет «группу сходных объектов» или «кластер»): все объекты из объёма формального понятия должны обладать всеми признаками, выражающими их сходство (всеми признаками из «содержания формального понятия» в терминах [3]).

В моделях би-кластеризации, например, в [9—11] допускается отклонение от этого жесткого требования, т.е. возможно, чтобы некоторые объекты из кластера не обладали некоторыми признаками, характеризующими сходство объектов из кластера.

Если в ранних моделях би-кластеризации би-кластерам не разрешалось пересекаться (по множеству объектов, а в некоторых моделях и по множеству признаков), то в современных моделях [9—11] это требование снято. Однако, за исключением работ по АФП, не исследуются свойства таксономий порождаемых кластеров, позволяющие, как в случае формальных понятий, использовать удобные средства визуализации классов с помощью диаграмм, а также не исследована связь между множеством общих признаков объектов из би-кластера с ассоциативными правилами на множествах признаков.

4.2. Развитие модели данных и новые постановки

задач

Анализ поведения аудитории требует адекватного представления структуры и семантического

0/0%

Диаграмма 2

содержания сайтов, а также создание моделей процесса выбора и принятия решений потребителями. В ходе экспериментов выделены свойства поведения посетителей Интернет-ресурсов, требующие учёта при анализе их поведения:

^ один посетитель может одновременно проявлять интерес к нескольким несвязанным предложениям/услугам;

^ один посетитель может в течение времени проявлять повторный/регулярный интерес к предложениям/услугам:

♦ несвязанный с предыдущими интересами;

♦ являющийся следствием предыдущих интересов на сайте;

♦ являющийся следствием предыдущих интересов в Интернете;

^ процесс обследования посетителем предложений/услуг динамичен. Посетитель может

знакомиться с сайтом на протяжении нескольких визитов, проявляя разные наборы признаков, с разной интенсивностью - являющимися частями одной модели принятия решения посетителя. В ходе одной сессии или короткого отрезка времени обследование может быть проявлено частично.

Причины визита посетителя на сайт:: ^ собственная поисковая активность; ^ вовлеченность рекламой; ^ знание компании; ^ предыдущая история визитов.

Причины можно идентифицированы на основе источника перехода посетителя на сайт. Посетители, имеющие разные причины посещения сайта, могут различно обследовать сайт.

Обследование сайта посетителем может содержать разрывы во времени, заполняемые:

^ посещением информационных сайтов сектора; ^ посещением сайтов других производителей сектора;

^ отсутствие посещений каких-либо сайтов сектора.

Представленный выше набор темпоральных и каузальных свойств поведения пользователей указывает на необходимость разработки моделей («он-тологий») пользовательской активности поведения, существенно учитывающих временные характеристики. ■

1

ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ - ВЫСШАЯ ШКОЛАЭКОНОМИКИ

представляет свои периодические издания

ВОПРОСЫ ГОСУДАРСТВЕННОГО И МУНИЦИПАЛЬНОГО УПРАВЛЕНИЯ

ЕЖЕКВАРТАЛЬНЫЙ НАУЧНО-ИНФОРМАЦИОННЫЙ ЖУРНАЛ

Издается с 2007 г.

Главный редактор

Лев Ильич Якобсон

Целью издания является сбор, анализ, экспертная оценка данных и публикация комплексной информации об исследованиях в области теоретических и практических проблем государственного и муниципального управления (Public Administration). Авторы - ведущие отечественные и зарубежные специалисты. В каждом номере - теоретические статьи, анализ практического опыта (как российского, так и зарубежного), данные мониторинга проводимых реформ, обсуждение актуальных проблем, обзоры публикаций и законодательства в области государственного и муниципального управления.

Каталог Агентства «Роспечать» - индекс 81224

Координаты редакции:

101990 Москва, ул. Мясницкая, 20 E-mail: [email protected] Тел.: (495) 624-0639

Благодарности

Авторы благодарят студентов факультета бизнес-информатики ГУ-ВШЭ Александра Бобровникова, Анастасию Горбунову, Андрея Капулина, проводивших анализ данных о сайтах, а также сотрудников кафедры анализа данных и искусственного интеллекта

Дмитрия Игнатова и Сергея Объедкова за поддержку работы по проектам и участие в плодотворных обсуждениях.

Литература

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. W.Hanson, Principles of Internet Marketing, South-Western College Pub, 1999.

2. TNS Web Index: полгода после старта. eTarget-2007 http://www.etarget.ru/ppt/07/01-01_tagiev.ppt

3. B. Ganter, R. Wille, Formal Concept Analysis. Mathematical Foundations, Springer, 1999.

4. N. Pasquier, Y. Bastide, R. Taouil, L. Lakhal, Efficient Mining of Association Rules Using Closed Itemset Lattices, Information Systems, 24(1), 25-46, 1999.

5. S.O. Kuznetsov and S.A. Obiedkov, Comparing Performance of Algorithms for Generating Concept Lattices, Journal of Experimental and Theoretical Artificial Intelligence, vol. 14 (2002), pp. 189-216.

6. С.О. Кузнецов, Устойчивость как оценка обоснованности гипотез, получаемых на основе операционального сходства, Научно-техническая информация (НТИ), Сер.2, 1990, N12, С. 21-29.

7. S.O. Kuznetsov, S. Obiedkov, C. Roth, Reducing Representation Complexity of Lattice-based Taxonomies, Proc. 15th International Conference on Conceptual Structures (ICCS'07), Lecture Notes in Artificial Intelligence, vol. 4604, Springer, 2007.

8. С.А. Евтушенко, Система анализа данных "Concept Explorer", Труды 7-й Национальной конференции по искусственному интеллекту, КИИ-2000, С. 127-134, 2000, http://concexp.sourceforge.net.

9. B. Mirkin, P. Arabie, L.J. Hubert, Additive Two-mode Clustering: The Error-Variance Approach Revisited, 1995, Journal of Classification.

10. J.K. Seppanen and H. Mannila, Dense itemsets, in ACM SIGKDD'04, pp. 683-688, 2004.

11. J. Bessou, C. Robardet, J.-F. Boulicaut, Mining a New Fault-Tolerant Pattern Type as an Alternative to Formal Concept Discovery, Proc.

ICCS'06, Lecture Notes in Artificial Intelligence, 4068, pp. 144-157, 2006.

i Надоели баннеры? Вы всегда можете отключить рекламу.