Никитин Александр Павлович
Анализ транзакционных данных и определение количественных критериев лояльности клиентов
Исследование обстоятельств возникновения распределения Парето в динамических системах остается актуальной научной проблемой как в теоретическом, так и в прикладном смысле. В качестве предметной области исследуется поведение экономических агентов, а именно динамика клиентских покупок в розничной сети. Обсуждается вопрос о том, какие прагматически ценные выводы могут быть сделаны из установления того факта, что наблюдаемые экономические показатели обнаруживают степенное поведение, а также из получения достоверных оценок параметров таких распределений. Рассмотрены примеры, когда подобный анализ позволяет формализовать применяемые экспертами термины и понятия, в частности, введя количественные меры лояльности клиентов.
Степенные распределения, транзакционные данные, лояльность клиентов
Введение
В ряде предыдущих публикаций [1, 2] нами исследовался вопрос о том, при каких условиях в динамических системах возникают степенные распределения (распределения Парето). Для аналитического исследования и компьютерного моделирования было выбрано несколько вариантов, описываемых двухъямными потенциалами специального вида. В качестве иллюстрации обсуждаемых теоретических положений и их сопоставления с численными результатами в процитированных работах были приведены практические примеры из прикладных областей (микроэкономика, микробиология), когда те или иные показатели действительно демонстрировали «поведение», аналогичное тому, что следовало из развиваемых нами моделей.
В настоящей работе будет показано, как ряд характеристик наблюдаемых степенных распределений может быть использован для определения количественных значений важных экономических показателей и формализации экспертных знаний, что в итоге позволит обеспечить информационную базу для генерации прагматически значимых управленческих выводов.
Работа структурирована следующим образом. В первой части будет представлен краткий обзор экономической проблематики, связанной с анализом больших массивов накапливаемых транзакционных данных. Во второй части мы кратко повторим общетеоретическую постановку задачи, изложим основы количественного анализа выборочных степенных распределений, перечислим достигнутые ранее результаты, формирующие базис текущего исследования. В третьей части на конкретных примерах будет продемонстрировано, как анализ распределений в транзакционных данных позволяет получить количественные оценки ряда актуальных с маркетинговой точки зрения понятий.
1. Анализ транзакционных данных
Компании, специализирующиеся в секторах розничной и оптово-розничной торговли, стараются с помощью компьютеризированных систем учета собирать максимально полную и подробную информацию о каждой отдельной покупке и о каждом клиенте, в частности, выпуская для этой цели фирменные дисконтные карты.
Анализ собранной информации может выполняться в различных программных средствах и на различных уровнях управленческой иерархии. Менеджер магазина оперирует терминами
Ы О К О
г
к
м
>
и >
£=1 О
К
¡=1
•по
>■
ьа о
о pq
Plh
К К
U-i О
н
^¡ч
К S о и о и
£Т5
выручка, количество чеков, средний чек, процент выполнения плана. На уровне регионального филиала производится сводный анализ информации из магазинов. На уровне департамента стратегического планирования обобщаются данные по всей фирме, рассчитываются ключевые производные показатели, строятся прогнозы.
Одной из первоочередных задач для аналитических подразделений компаний является содержательный анализ всего комплекса взаимоотношений с клиентами. Ключевым с точки зрения методологии является переход от сосредоточенности на одиночных покупках к понятию lifetime value [3] - суммарной прибыли от потребителя за весь период его активности.
Для любого бизнеса актуальна задача обеспечения притока новых клиентов, в том числе и ранее приобретавших продукцию/услуги у компаний-конкурентов. Поэтому вторым важным показателем становится стоимость привлечения нового клиента (CAC - cost of attracting a new customer). Вместе с тем удержание имеющихся клиентов во многих ситуациях оказывается экономически более оправданным, чем привлечение новых. В плане анализа структуры базы важно, что отследить привлечение новых клиентов гораздо проще, чем доказать эффективность мер, направленных на удержание имеющихся.
С позиции интенсивности взаимодействия потребителя и компании Филип Котлер [4] выделяет 7 категорий покупателей (новый покупатель, повторный покупатель, клиент, адвокат, участник, партнер, сособственник), среди которых наибольший интерес представляет третья -постоянный лояльный клиент. От предшествующих категорий сегмент клиентов отличается наличием подробной персональной информации, которая накапливается за период его взаимодействия с компанией.
Применительно к розничной торговле (возможно, за вычетом торговли элитными, эксклюзивными товарами) особое выделение оставшихся 4 категорий не представляется насущно необходимым. В каждый последующий сегмент будет попадать убывающее количество контрагентов компании, будет уменьшаться и приходящаяся на сегмент доля выручки. С другой стороны, следует особо выделить сегмент случайных покупателей, которые совершают покупки без заведения и без предъявления дисконтных карт.
Таким образом, базовый уровень анализа транзакционных клиентских баз данных подразумевает выделение сегментов случайных, новых, повторных покупателей, а также постоянных лояльных клиентов. Результатом такого анализа должен быть профиль лояльного клиента, базируясь на котором, маркетолог разрабатывает и предлагает решения для удовлетворения его потребностей и, следовательно, повышения доходности бизнеса. При построении профиля используются все имеющиеся сведения о клиенте, но наиболее информативна статистика его покупок.
Выявленные профили клиентов, заинтересованных в товарах или услугах, которые предлагает фирма, дают шанс разработать эффективные маркетинговые программы. Создание прогнозирующих моделей позволяет ответить вопрос «Кто из потребителей готов тратить больше за товары и услуги и насколько?». Полученную информацию можно использовать для изменения стратегии взаимоотношений с клиентами. Подобные модели также способны предсказать отдачу от рекламных кампаний, специальных предложений и кампаний, эффект от распродаж и адресных скидок и т.д.
Подчеркнем, что понятие клиент не следует однозначно ассоциировать с конкретным физическим лицом. Предъявляя дисконтную клиентскую карту, ее владелец может делать покупки для себя, для членов своей семьи, для родственников и друзей. В такой ситуации размывается сущность персональной информации, она уже только частично отражает характеристики человека или домовладения. Естественно, компании включают в правила пользования дисконтными картами запрет на передачу ее другим лицам, однако в целом такая политика не позволяет исключить указанную проблему.
В целом детальное знание структуры существующей клиентской базы служит обязательным фундаментом бизнес-стратегии, нацеленной на привлечение прибыльных клиентов, их удержание и развитие долгосрочных взаимоотношений с ними. Исследования временных шаблонов поведения покупателей помогают торговым компаниям создавать необходимые товарные запасы, вести индивидуальную работу с покупателями, например, часто посещающими распродажи или теми, кто приобретает остромодные дизайнерские марки одежды, иные
редкие и дорогие товары.
Популярным методическим подходом к сегментированию клиентских баз данных является RFM-модель (сокращение от Recency, Frequency, Monetary), которая оперирует показателями, отражающими время, прошедшее от последней покупки клиента, частоту покупок и суммарную стоимость покупок [5]. Сегментация клиентской базы также может производиться по прибыльности, стереотипным действиям, демографическим, социальным и иным характеристикам [6]. Дополнительно рассматривается структура покупок клиента по товарным группам, ценовым группам, оценивается приверженность клиента конкретным торговым точкам или конкретным маркам товаров.
Стандартная, описываемая в литературе схема использования RFM-модели подразумевает разбиение всего массива контрагентов на 5 квинтилей (по 20%) по каждому показателю. Отметим, что при этом порождается 125 сегментов, что ведет к избыточной детализации, даже учитывая тот факт, что не все эти сегменты оказываются в равной степени «населенными».
Прогностическая аналитика по конкретному сегменту помогает повысить удовлетворенность клиентов от результатов сотрудничества с компанией и тем самым увеличить текущую выручку. В то же время, другие сегменты могут иметь потенциал роста в долгосрочной перспективе или быть более интересными с точки зрения экономии затрат на привлечение клиентов.
Прогнозирование в терминах характеристик сегментов клиентской базы помогает компаниям:
- увеличить получаемый доход от обслуживания клиентов;
- привлекать новых выгодных клиентов;
- совершенствовать взаимоотношения с клиентами;
- максимально долго сохранять клиентов, приносящих прибыль.
Важной стороной аналитической работы является способность предупреждать о потере клиентом лояльности и его возможном уходе (churn prediction). Поэтому специальный анализ проводится для клиентов, переставших делать покупки (или не делающих покупки сравнительно долго).
Попутно отметим, что понятие лояльности клиента в практике розничных компаний рассматривается на нескольких уровнях: это лояльность ко всей торговой сети, лояльность к конкретным торговым маркам (брендам), лояльность к конкретному магазину и т.д. Однако следует признать, что менеджеры и маркетологи, как правило, располагают лишь общими представлениями о том, где «проходят границы» сегмента лояльных клиентов. Обычно они оперируют либо самыми простыми, неверифицированными критериями («более двух покупок в год»), либо автоматически включают в списки лояльных клиентов заранее предопределенное число покупателей или фиксированную долю от общего размера клиентской базы.
Обработка фактов о розничных продажах помимо общих проблем, характерных для экономических баз данных, усложняется целым рядом специфических факторов, среди которых:
- влияние ситуаций временного отсутствия или дефицита конкретного товара, в особенности из-за несвоевременных закупок у поставщиков или задержки доставки;
- влияние маркетинговых кампаний или специальных предложений по группам товаров или группам клиентов;
- влияние действий конкурентов.
Результаты анализа оцениваются с точки зрения полезности найденных шаблонов для решения маркетинговых задач и точности предсказания будущего поведения клиентов. Подобная оценка позволяет, в том числе, скорректировать и уточнить схему проводимого анализа данных. Такой итерационный процесс продолжается до тех пор, пока его результаты не будут признаны удовлетворительными.
Итак, одной из важных в практическом смысле проблем является формализация критериев, служащих для выделения целевых сегментов клиентской базы, в частности, сегмента лояльных клиентов. В настоящей работе мы продемонстрируем применимость анализа степенных распределений для решения сформулированной подобным образом задачи.
2. Степенные распределения
2.1. Свойства распределения Парето.
О
pq о
К >
и >
£=1 О
К
¡=1
•па
>■
bd О
о pq
Plh
К К
U-i О
н
^¡ч
К S о и о и
£Т5
Интенсивное научное исследование проблематики обнаружения зависимостей степенного вида в выборочных данных различной природы традиционно ведет отсчет от работ социолога Вильфредо Парето. Именно ему принадлежит наблюдение, что распределение людей по доходам и/или накоплениям подчиняется степенному закону: доля тех, чьи доходы выше порога х, описывается зависимостью N(x) = (m/x)apar, где apar - показатель Парето. Схожие закономерности были найдены лингвистом Джорджем Ципфом при изучении частоты встречаемости слов естественного языка. Подобные же степенные зависимости, часто именуемые «распределениями с тяжелыми хвостами», проявляются в целом ряде физических, биологических, социально-экономических систем.
В общем случае распределение исследуемой переменной x будет иметь степенной характер, если ее плотность вероятности:
Р(x)~ р0x-a, где a = a par +1. (1)
Ниже по тексту показатель a будет интерпретироваться как характеристика изучаемых степенных распределений.
К настоящему времени распределению Парето посвящена обширная литература, прежде всего, социально-экономического направления. Предлагаются динамические и статистические модели (см., например, [7-8]), объясняющие появление подобных распределений. Обсуждается распределение Леви [9], которое в частных случаях переходит в распределение Парето.
Распределения с тяжелыми хвостами в реальных ситуациях играют весьма существенную роль при анализе экономических показателей различного рода [10], при оценке вероятности катастроф и иных экстраординарных событий [11]. Можно легко показать, что для больших x формула (1) дает результаты, на много порядков отличающиеся от аналогичной оценки, полученной из предположения о том, что x подчиняется нормальному, гауссовому распределению.
Перечислим важнейшие свойства степенных распределений. При малых x и любых а выражение (1) неограниченно возрастает. Поэтому под «распределением Парето» обычно понимается распределение, для которого отсутствуют значения x меньше некоторого порога xmin. При этом условии выражения для плотности вероятности р(х) и функции распределения F(x) будут иметь вид:
р( x) =
(a- Ife1
x > x„
0, x < xm
F (x) = P( X < x) = 1 -
a-1
(2)
(3)
На практике логично следовать соображению, что при х < х™ имеет место какое-либо другое распределение, а при х = х™ оно без разрыва переходит в распределение Парето.
Уместно задаться вопросом, не будет ли более конструктивно подобрать такой класс распределений, которые пригодны для аппроксимации выборочных характеристик транзакцион-ных данных во всем диапазоне возможных значений. Очевидно, что подобного рода эмпирические распределения могут аппроксимироваться, например, гамма-распределением. С помощью метода максимального правдоподобия рассчитываются коэффициент формы и коэффициент масштаба, удовлетворяющие наилучшему приближению выборочного распределения теоретическим. Не отрицая такой возможности, подчеркнем, что Парето-распределение зависит от одного параметра а. Величина а может быть сравнительно просто и с достаточной достоверностью оценена из имеющихся в распоряжении исследователя массивов данных, причем и массивов весьма скромной размерности.
Очевидно, что попытка оценить сразу несколько параметров при недостатке данных может привести к тому, что корректно рассчитанные доверительные интервалы для оценок будут крайне широки. Например, в работе [12] для распределений по частоте повторных покупок предлагается статистическая модель из 6 параметров, которые оцениваются по методикам максимального правдоподобия. Однако дальнейший анализ показывает, что удовлетворительную прогностическую точность дают модели, включающие лишь 2-3 параметра.
(X
x
x
x
В целом, следует признать рациональным подход, когда дополнительные параметры привлекаются, если исследуемый эффект не получает адекватного описания в рамках исходной модели. Как будет показано ниже, для решаемых задач модель распределения Парето позволяет получить актуальную информацию и сделать на ее основе выводы, важные с практической точки зрения.
Вернемся к свойствам распределения Парето, которые существенно зависят от показателя а. Так, интегралы от моментов Мт = хтр(х) расходятся на бесконечности при т > а - 1. Очевидно, что выражение (2) должно быть ограничено и в области больших х.
Действительно, в реальных процессах неизбежно возникают факторы, лимитирующие х некоторым предельным хтш. так, что при х > хтж величина р(х) резко падает и значение интеграла
да
|р(х)сХ становится пренебрежимо мало. По сути, величина хтах также является параметром
наблюдаемого степенного распределения, однако ее определение, как правило, не вызывает трудностей и может базироваться на анализе визуализированных выборочных данных.
Подчеркнем еще раз, что при таком рассмотрении распределение Парето не является общим законом, а приближенно, хотя и с хорошей точностью выполняется в достаточно широком диапазоне значений х. Иногда выдвигаются дополнительные условия, требующие, чтобы этот диапазон простирался в пределах не менее чем нескольких порядков по х (хтах / х™ 102^104). Однако на практике представляют интерес и случаи, когда степенное распределение проявляется в более коротких интервалах изучаемых величин.
2.2. Методики анализа степенных распределений.
На рис. 1 в качестве иллюстрации показан экономический пример: зависимость в двойном логарифмическом масштабе размера подгрупп покупателей, формируемых по признаку одинакового количества купленных ими товаров. Конкретная постановка задачи и критерии выделения этих подгрупп описаны в следующем разделе статьи. Пока же обратим внимание на саму форму визуализации, а также на то, что область степенного распределения простирается приблизительно от !дх™ = 0.6 до !дхтах = 2.1.
^ Н = -1,819 + 3,520 К2 = 0,992
3,0 2,5 2,0 1,5 1,0 0,5 0,0 -0,5 0 -1,0 -1,5 --2,0
Рис. 1. Зависимость 1^;Н(1£;л:) количества покупателей в подгруппах, отобранных по равному числу купленных товаров х (сеть А, регион С, все клиенты, сделавшие первую покупку в 2005 г. - подробное описание см. в разделе 3)
Итак, базовая методика анализа степенных распределений подразумевает их визуализацию посредством графического представления в двойном логарифмическом масштабе. Рассчитывается выборочная гистограмма плотности Н(э]), для чего диапазон возможных значений хI разбивается на осмысленное, выбираемое экспертом число Я интервалов - «бинов» ] одинаковой ширины ДЯ=(хтах-х,™п)/Я. Затем подсчитывается и (необязательно) нормируется количество элементов Н, попадающих в г (э - середина ]-го бина). В интересующем диапазоне по х ожидается Н ~ х- а. Строится график (в логарифмической шкале как по Н, так и по х), на котором выделяется область линейной зависимости:
!д(Н) = -к !д(х) + с (4)
Коэффициент с определяется объемом выборки и потому несущественен. Для определения значения коэффициента наклона к (как аппроксимации показателя а) используются сред-
О ¡X О
г
к
>
>
£=1 О
К
¡=1
•па
>■
ьа о
X
тах
о
РЭ
Си К
К ич О
ч н
^¡ч
к
г
о и
о
и
ства регрессионного анализа. Элементарная проверка качества модели проводится по близости коэффициента детерминированности Я2 к 1. Например, адекватные результаты (при достаточном объеме выборочных данных) позволяет получить условие:
Я2 > 0,99 (5)
Главный недостаток методики, связанной с построением гистограммы выборки, состоит в том, что она хорошо работает лишь при достаточно обширном массиве имеющихся данных. В противном случае приходится расширять интервал ДЯ, что ведет к огрублению картины распределения.
Однако во многих практических задачах накопленных данных недостаточно для построения сколько-нибудь информативной гистограммы выборки. Тогда исследуют ранговые распределения, для чего объекты упорядочиваются в порядке убывания и перенумеровываются, начиная с ранга 1, который получает объект с максимальным х.
Далее привлекается выражение для выборочной функции распределения: для объекта хг,
г — 1
обладающего рангом г, она равна ^ (хг) = 1--. Для степенных же распределений соглас-
—(«—1)
N
и х-
1
(а—1)
но (3): 1 — ^(х)~ х (а 1), откуда г ~ х
наблюдаемую зависимость значения х от ранга объекта г: х ■
1 , а = - +1
В этом контексте эмпирически
Р
можно объяснить присут-
ствием степенного распределения с показателем
Р
Понятно, что такое подтверждение существования степенной зависимости гораздо более слабое, чем аргументация, базирующаяся на форме гистограмм плотности распределения объектов. Вместе с тем в рассматриваемых нами задачах не требуется доказывать, что наблюдаемое в некотором диапазоне по х распределение является степенным и никаким иным. Достаточно выполнения существенно более слабого условия: что оно «похоже» на распределение Парето, может быть аппроксимировано им с удовлетворительной точностью.
2.3. Аналитическая модель возникновения степенных распределений.
В работах [1,2] был рассмотрен класс динамических систем, которые, будучи помещены в шумовое поле, в широком диапазоне х порождают распределение Парето. Отклик динамической системы на внешний шум представляет собой нерегулярный хаотический процесс, при этом существенно отличающийся от внешнего шума и характеризующийся иным распределением по величинам флуктуаций. Было показано, что основные характеристики отклика определяются свойствами самой динамической системы.
Для исследования подобных систем используется уравнение Ланжевена:
(6)
Ях
— = / (х) + 0(/), Я/
где х - наблюдаемая величина,
/(х) - функция, описывающая нелинейную динамику системы, ОД = я(/) • £(/) - случайная величина.
Отметим, что модели такого типа широко исследуются с теоретических позиций и применяются для описания социально-экономических процессов, например, динамики курсов акций, доходности финансовых инструментов и др.
Для решения (6) используется уравнение Фоккера-Планка (см. подробнее [1, 2]), позволяющее получить вид плотности р(х, /) для стационарного случая:
2и ( х )
Р( х ) = Р о е
ое
где и (х) = —| / (х'Ух' - «потенциал поля» /(х),
о
д - амплитуда шума.
(7)
я
Из (7) следует, что распределение Парето имеет место, если потенциал и(х) и функция 118
Щ асимптотически ведут себя как:
и(х)~1п х; /(х)~ -1/х В [2] было рассмотрено несколько моделей, самая простая из которых:
Были проведены вычислительные эксперименты по моделированию в зависимости от параметров а, Ь, дисперсии D и типа распределения случайного дельта-коррелированного шума
Нижняя граница распределения Парето хт„ в модели (9) определяется нелинейной частью, а именно потенциалом и(х) = а 1п(х + Ь). Стационарное распределение имеет вид:
Форма (10) соответствует степенной при x >> b. так что можно получить выражения для коэффициента Парето: а = 2а.
После построения эмпирической гистограммы lg(H(s/-, a)) для определения неизвестного пока значения параметра а следует исключить из рассмотрения элементы c Sj < x™, когда характер кривой lg(H) заметно отклоняется от линейности по lg(s/).
Аналогично требуется определить и xmax - верхнюю границу распределения Парето. В вычислительном эксперименте она определялась не моделью, а числом объектов в рассматриваемой выборке. Отклонения от Парето наступают, когда число объектов в бине гистограммы H(j) оказывается малым.
2.4. Экономическая интепретация.
Обсудим, какова может быть экономическая интерпретация U(x) и f(x) в выражениях (8). Интересно рассмотреть ситуацию (вернемся к рис. 1), когда x - количество единиц товара, приобретенных контрагентом фирмы. В таком случае логарифмический вид потенциала U(x) позволяет соотнести его с видом кривой общей полезности (total utility). Соответственно f(x) можно интерпретировать как показатель, отражающий убывающую с ростом x предельную полезность (margin utility). Случайную компоненту Щ можно связать с отклонениями покупательского поведения от рациональности, когда принятие (или отклонение) решения о покупке производится не исходя из соображений об объективной полезности данного товара.
Возвращаясь к исходной задаче о шаблонах покупательского поведения, следует отметить, что в такой модели не учитывается уход покупателей, их перетекание к фирмам-конкурентам, предлагающим товары аналогичного назначения. Феномен ухода становится незначительным для сегмента лояльных постоянных клиентов. При малых x доля ушедших клиентов, переориентировавшихся на другие предложения, заведомо значительна, что явно сказывается на форме наблюдаемых выборочных зависимостей.
Таким образом, можно использовать «левую» границу степенного распределения xm„ для количественного определения феномена лояльности. Покупателя следует отнести к сегменту постоянных клиентов, если приобретенное им количество товаров попадает в зону «линейности» lg(H) от lg(x).
3. Практический анализ транзакционных данных
3.1. Предварительная подготовка и разведочный анализ.
Для экспериментальной проверки теоретических положений нами были проанализированы транзакционные данные 4 торгово-розничных сетей в двух регионах Российской Федерации. По соображениям сохранения коммерческой тайны конкретные названия сетей, их географическое расположение, детальные характеристики их деятельности остаются нераскрытыми. Мы будем использовать условные наименования сетей в виде латинских букв А, B, D, E, а для обозначения регионов - литеры Р и С. Каждая сеть характеризуется своей ассортиментной матрицей, ценовым распределением предлагаемых товаров.
Клиентские базы указанных сетей в контексте нашего исследования можно считать полно-
О
pq о
К >
и >
£=1 О
К
¡=1
•по
>■
W О
стью непересекающимися. Основная мотивация такого положения заключается в том, что различными можно считать как товарные группы, так и ценовые ниши, в которые попадают
Тем не менее проведена фильтрация выборок клиентов по 4 критериям:
3) исключены покупки, совершенные без предъявления клиентской карты;
4) исключены клиенты, делавшие покупки и в регионе Р, и в регионе C. Общая доля исключенных записей (не учитывая критерий №3) не выходит за пределы 5%. Временной диапазон транзакционных данных не совпадает: более продолжительная «история» имеется для сетей А и В, более короткая - для сетей D и E. Поэтому основные выводы будут сделаны по первым двум сетям, затем они будут экстраполироваться на оставшиеся две сети с проверкой по имеющимся выборочным данным.
Перед графическим выводом исследуемые экономические показатели нормируются. Так как основной аналитический инструментарий сводится к изучению участков линейности кривых в двойном логарифмическом масштабе, то за исключением оговоренных случаев сокрытие фактических значений отображаемых величин (выручка, количество клиентов и т.п.) не
Ведущим индикатором различия целевых аудиторий торговых сетей может служить соотношение средних цен (с учетом скидок) на предлагаемые товарные единицы, составляющее приблизительно 10 (A) - 5 (B) - 1 (D) - 3 (E). Зная это соотношение, можно высказать гипотезу, что в целом клиенты более «дорогих» сетей должны демонстрировать более «высокие» показатели лояльности.
Как уже говорилось, основным показателем, связанным с кривой полезности, будем считать количество купленных клиентом товаров. Поэтому нами будут изучаться зависимости количества купленных товаров x от продолжительности периода взаимодействия с компанией T. Для обеспечения максимальной сопоставимости результатов целесообразно выделить подгруппы клиентов по критерию продолжительности периода взаимодействия с компанией. Для определенности скомпонуем эти выборки по календарному году, когда была совершена первая покупка в данной сети. В англоязычной литературе для результата такого отбора применяется термин cohort (когорта). Таким образом для каждого фиксированного T будет строиться зависимость количества покупателей от количества купленных ими товарных единиц.
Еще одним критерием при формировании когорт можно взять признак «активности» клиента: потребовать, чтобы клиент совершал хотя бы одну покупку в торговой сети за последний год. Соответственно при альтернативном варианте анализа такое условие не выдвигается и отбираются все покупатели, первая транзакция которых зафиксирована в определенном календарном году без учета, продолжается ли их взаимодействие с компанией в настоящее время.
3.2. Эмпирические оценки коэффициента Парето.
Определив оценки k коэффициента Парето а для каждой когорты клиентов, вполне естественно построить зависимость а от продолжительности взаимодействия T с торговой сетью (см. рис. 2). На рис. 2 также показаны интервалы «ошибок», соответствующие включению в линейный участок анализируемой гистограммы соседних «бинов».
2,5
1,5
а = -0,2377 + 2,741 R2 = 0,968
10
12
2
1
0
8
Рис. 2. Зависимость коэффициента Парето а от интервала лет Т, прошедших с момента первой покупки (активные клиенты сети А в регионе С)
Рисунок 2 позволяет заметить, что коэффициент Парето а действительно зависит от Т, причем эта зависимость удовлетворительно описывается линейным трендом а = ао + v Т=2,741 - 0,237 Т.
Таким образом, фигурирующий в выражении для потенциала Щх) = а\п(с+Ь) коэффициент a аналогичным образом зависит от времени a = a0 + w Т. Исходя из a = а/2 и оценки а0 = 2,741±0,085 (р = 0,9) можно получить «мгновенное значение» aо (Т = 0) =1,37+0,04.
Располагая оценкой параметра а для сети А в регионе С, проверим, наблюдается ли подобная зависимость и в регионе Р. Так как предлагаемый товарный ассортимент идентичен, то различия в шаблонах поведения покупателей, если таковые будут найдены, можно объяснить региональными (географическими) особенностями.
Действуя по той же процедуре, получаем а = 2,616 - 0,216 Т, что дает в оценку для aо = 1,32+0,05. Так как доверительные интервалы оценок aо для двух исследованных регионов пересекаются, то можно говорить об отсутствии значимых различий между сегментами клиентов в регионе С и в регионе Р с позиции сравнения кривых полезности.
3.3. Определение формы критерия лояльности клиентов.
Использованный алгоритм позволяет проследить (хотя бы качественно и со всеми необходимыми оговорками) зависимость левой границы распределения Парето х™ от Т. Оказывается, что на выборке активных клиентов сети А х™ можно считать постоянным в диапазоне 2002-09 гг. с весьма близкими средними значениями для регионов: 7,8 для Р и 8,5 для С.
Таким образом для активных клиентов сети А справедлив следующий критерий отнесения их к категории лояльных: минимум Zacf=8 купленных товаров вне зависимости от года, когда была совершена первая покупка.
Небезынтересно рассмотреть те же зависимости, по-другому сформировав выборки клиентов. Откажемся от требования «активного» статуса клиента, отбирая всех, кто совершил первую покупку в торговой сети за конкретный календарный год, включая и «ушедших» клиентов, переставших взаимодействовать с сетью. Можно ожидать, что за счет расширения выборки будут легче выделяться участки линейности на лог-лог графиках, а также лучше выполняться условие близости Й2 к 1 (см. рис. 1).
Для сформированных по таким правилам выборок клиентов для сети А в регионе С получаем а = 2,722 - 0,141 Т, что дает в оценку для а0 =1,36+0,05 (р = 0,9). Для той же сети в регионе Р: а0 =1,42+0,08.
Таким образом, можно заключить, что характеристики степенного распределения для сети А не обнаруживают значимой зависимости от способа формирования когорты-выборки клиентов. Из этого следует правдоподобность вывода, что и опосредованно оцениваемый параметр кривой полезности также не модифицируется при изменении алгоритма формирования выборки.
Однако критерий лояльности, формулируемый по величине х™, видоизменяется - для отнесения к сегменту лояльных клиентов теперь требуется совершить лишь zany=4 покупки (как для региона С, так и для региона Р). Налицо противоречие - активные клиенты, не проходящие по первому варианту критерия лояльности, оказываются лояльными по второму критерию. Ведущим фактором, вызывающим такое расхождение в критериях, является существенная доля контрагентов, ограничивших свое взаимодействие с компанией одной единственной покупкой, в результате которой было приобретено некоторое количество товаров.
Для прояснения вопроса следует перекомпоновать когорты, проследив зависимость х™ от года совершения последней покупки в сети (т.е. от временной привязки факта прекращения взаимодействия с компанией). Оказывается, что для недавних клиентов (2010-2011 гг.) соответствующий показатель преобразуется в коэффициент 4 товара/год. Т.е. для покупателя, чья первая транзакция совершена полтора года назад, критерий его отнесения к постоянным будет состоять в достижении порогового значения в 6 купленных товаров.
Итак, если считать активными тех клиентов, которые совершили последнюю покупку в любой момент из интервала последних 12 календарных месяцев, то для них критерий лояльно-
Ы О К О
г
к
м
>
и >
£=1 О
К
¡=1
•по
>■
ьа о
Li (tnow) = xfst, tnow) S Min (zact, zany ■ datediff (year, tfirst, tnow))
где tnow - дата проведения анализа, tnow - дата первой покупки клиента, x (ti,t2) - количество купленных товаров в интервале [ti,t2], zact = 8, zany = 4 - эмпирически найденные для изучаемой сети А параметры, а функция datediff вычисляет неокругленную величину временного интервала в единице измерения, тип которой задается первым аргументом, между датами, заданными вторым и третьим аргументами. В этом понимании лояльность определяется как теку-
Однако лояльность клиента можно оценивать и ретроспективно, относя ее к периоду совершения покупок. Тогда клиента можно считать лояльным торговой сети на момент времени t, т.е. по крайней мере, в момент совершения им некоторых из своих покупок, если им было
Понятно, что критерий лояльности L2 оказывается более слабым, чем Li. Однако апелляция к некоторому неопределенному моменту предыстории клиента позволяет снять явное
3.4. Анализ межрегиональных различий и различий между торговыми сетями.
Аналогичное исследование было проведено для сети B в регионах C и Р (см. рис. 3)
3,5 3 2,5 2 1,5 1
0,5 0
а = -0,290 T + 3,662 R2 = 0,989
Рис. 3. Зависимость коэффициента Парето а от интервала лет Т, прошедших с момента первой покупки (активные клиенты сети В в регионе С)
В регионе С для активных клиентов ао = 1,83+0,08, для всех клиентов ао = 1,84+0,15. В регионе Р для активных клиентов а0 = 2,15+0,11, для всех клиентов а0 = 2,02+0,10. В данном случае на уровне p = 0,9 можно говорить о статистическом различии сегментов активных клиентов в исследованных регионах.
При определении порога лояльности для активных клиентов сети В в регионе С отмечаем отсутствие стационарного уровня, наблюдавшегося для сети А в том же регионе: устанавливается линейная зависимость от Т с коэффициентов наклона Zad ~ 4 купленных товара в год (см. рис. 4). Аналогичный линейный тренд (с несколько большим значением zаny) проявляется и на выборке всех клиентов этой сети в регионе С. В регионе Р активные клиенты сети В характеризуются более «крутой» кривой лояльности с zаct ~ 6.
8
35 30 25 20 15 10 5 0
Рис. 4. Зависимость «левой» границы распределения Парето Хтп от количества лет Т, прошедших с момента первой покупки (Активные клиенты, сеть В, регион С)
Для сети и в регионе С по активным клиентам получаем а = 4,734 - 0,606 Т, что дает оценку для параметра кривой полезности а0 = 2,37 ± 0,03. В регионе Р тренд имеет существенно отличающийся коэффициент наклона: а = 4,200 - 0,258 Т, что дает в оценку для а0 = 2,10±0,25 (р=0.9). Из-за ограниченности временного ряда доверительный интервал значений а0 весьма широк. Уровень лояльности для обоих регионов можно оценить как постоянный (обоснованные оценки динамики показателя не удается сделать из-за недолгой истории функционирования торговых предприятий этой сети) с 1аС1 ~ 15.
Сеть Е характеризуется сравнительно короткой историей функционирования и гораздо меньшим объемом клиентской базы по сравнению с другими сетями. Заранее понятно, что при количестве клиентов в пределах не более нескольких сотен гистограмма плотности выборочного распределения будет настолько «изрезана», что сколько-нибудь объективизированное выделение участков линейности обеспечить крайне затруднительно. Воспользуемся этим поводом для иллюстрации ранговых распределений (см. рис. 5).
Из-за того, что х является целочисленной величиной, ранговая зависимость на рис. 5 имеет ступенчатый вид, что тем не менее не мешает выбрать участок линейности. Оценка коэффициента р = 0,663± 0,013 (р=0,9) позволяет рассчитать коэффициент степенной зависимости а = 1 / р + 1 = 2,51 ± 0,03, что очень хорошо согласуется с оценкой а из гистограммы плотности 2,56±0,66 (р=0,9), которая, как можно заметить, оценивается с точностью более чем в 20 раз хуже. Порог лояльности активных клиентов для сети Е можно определить как 4,5 купленных товара в год.
4,5 4 3,5 3 2,5 2 1,5 1
0,5 0
1п(х) = -0,663 1п(г) + 4,671 К2 = 0,985
0
1п(г)
Л
о к о
г
к
м
>
и >
£=1 О
К
¡=1
•по
>■
ьа о
Рис. 5. Ранговая зависимость для количества купленных товаров (активные клиенты, сеть Е, регион Р, первая покупка в 2010 г.)
Заключение
Подводя итог, можно отметить, что степенные распределения с различными показателями Парето а весьма часто (хотя отнюдь не во всех случаях) проявляются при изучении количественных показателей, характеризующих структуру клиентской базы. Их детальное изучение, например, посредством построения выборочных гистограмм распределения клиентов в зави-
о pq
Plh
К
К О
н
симости от количества купленных ими товаров, позволяет получить дополнительную информацию о механизмах формирования клиентской базы, о ее динамике (как о факторах роста, так и о факторах сужения базы). Кроме того, удается формализовать ряд критериев, которые до того могли быть выражены только в вербальной, словесной форме. Одним из таких критериев является продемонстрированный в настоящей работе порог для определения сегмента лояльных клиентов.
Рассчитанные параметры степенных распределений позволяют делать выводы о схожести или несхожести характеристик сегментов клиентской базы, формируемых по различным критериям (например, в региональном разрезе, в разрезе текущей активности и неактивности покупателей). Эти же методики позволяют судить о значимости различий между сегментами клиентов, взаимодействующих с разными торговыми сетями. Понятно, что такой анализ должен сопровождаться содержательной интерпретацией выявленных особенностей в терминах рассматриваемой предметной области.
Литература
[1] Чернавский Д.С., Никитин А.П., Чернавская О.Д. О возникновении распределения Парето в нелинейных динамических системах // Биофизика. 2008. - Т. 53. - №2. - С. 351-358.
[2] Nikitin A.P., Chernavskaya O.D., Chernavskii D.S. Pareto distribution in dynamical systems subjected to noise perturbation // Physics of Wave Phenomena. - 2009. - v.17. - No.3. - С. 207-217.
[3] Hughes A.M. Strategic database marketing - 3rd Ed. - McGraw-Hill, 2006. - 438 p.
[4] Kotler Ph. Kotler on marketing: how to create, win, and dominate markets. - NY, FreePress, 1999. - 256 p.
[5] Drozdenko R.G., Drake P.D. Optimal database marketing: strategy, development, and data mining -Sage Publications, Th. Oaks, 2002. - 298 p.
[6] Меркулина И.А., Никитин А.П. Экономические приложения интеллектуального анализа данных. - М.: ВГНА, 2007.
[7] Kechedzhi K.E., Usatenko O.V., Yampol'skii V.A. Rank distribution of words on correlated symbolic systems and the Zipf law // Physical Review E. - 2005. - v.72. - No.4. - 046138.
[8] Solomon S., Richmond P. Stable power laws in variable economies; Lotka-Volterra implies Pareto-Zipf // Eur. Phys. J. B. - 2002. - v.27. - p. 257-261.
[9] Романовский М.Ю., Романовский Ю.М. Введение в эконофизику. Статистические и динамические модели. - М.: ИКИ, 2007. - 280 с.
[10] Малинецкий Г.Г., Подлазов А.В. Парадигма самоорганизованной критичности. Иерархия моделей и пределы предсказуемости // Известия ВУЗов. Прикладная нелинейная динамика. - 1997. - т. 5. - №5. - С. 89-106.
[11] Малинецкий Г.Г. Управление риском. Риск, устойчивое развитие, синергетика. - М.: Наука, 2000. - 432 с.
[12] Fader S.P., Hardie B., Huang C.-Y. A dynamic changepoint model for new product sales forecasting // Marketing Science. -2004. - No.23. - p. 50-65
M К
О
ш
о
и