Научная статья на тему 'Анализ временных рядов в приложении к изучению поведения покупателей'

Анализ временных рядов в приложении к изучению поведения покупателей Текст научной статьи по специальности «Математика»

CC BY
374
130
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
SSA / МЕТОД "ГУСЕНИЦА" / АНАЛИЗ ПОВЕДЕНИЯ КЛИЕНТОВ / ВРЕМЕННОЙ РЯД / CATERPILLAR / BEHAVIORAL ANALYSIS / TIME SERIES

Аннотация научной статьи по математике, автор научной работы — Савин Андрей Сергеевич, Хохлов Алексей Анатольевич, Четов Артур Игоревич

В настоящей работе рассматривается задача применения алгоритма анализа временных рядов «Гусеница» к исследованию поведения клиентов магазина. Авторами была проделана работа по созданию и внедрению программного комплекса, состоящего из мобильного приложения для клиентов, позволяющего собирать статистику поведения клиентов, серверной части для хранения и обработки данных, а также работа по анализу полученной за пять месяцев работы статистики с применением методов анализа временных рядов. Были выяснены закономерности, что накопление большего количества данных может позволить формировать эффективные стратегии взаимодействия с клиентами. Результаты анализа и выводы представлены в работе.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Савин Андрей Сергеевич, Хохлов Алексей Анатольевич, Четов Артур Игоревич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Time series analysis applied to the study of consumer behavior

In this paper we consider the problem of applying the algorithm of time series analysis "Caterpillar" to study the behavior of customers at the shop. The authors developed and implemented software consisting of a mobile application for customers which allows collecting statistics of customer behavior and the server side to store and processing data. Authors analyzed results obtained during five months of work with the use of statistical methods for analyzing time series. Authors clarified dependencies which can allow forming effective strategies for interacting with customers in future. The analysis results and conclusions are presented in the work.

Текст научной работы на тему «Анализ временных рядов в приложении к изучению поведения покупателей»

Интернет-журнал «Науковедение» ISSN 2223-5167 http ://naukovedenie.ru/ Том 7, №3 (2015) http ://naukovedenie. ru/index.php?p=vol7-3 URL статьи: http://naukovedenie.ru/PDF/41TVN315.pdf DOI: 10.15862/41TVN315 (http://dx.doi.org/10.15862/41TVN315)

УДК 004.021

Савин Андрей Сергеевич

ООО «Махуру» Российская Федерация, Москва1 Программист E-mail: [email protected]

Хохлов Алексей Анатольевич

ФГБОУ «Российский университет дружбы народов (РУДН)»

Российская Федерация, Москва

Доцент

Кандидат физико-математических наук E-mail: [email protected]

Четов Артур Игоревич

ФГБОУ «Российский университет дружбы народов (РУДН)»

Российская Федерация, Москва

Студент

E-mail: [email protected]

Анализ временных рядов в приложении к изучению

поведения покупателей

1 115419, Москва, Орджоникидзе, 3, к. 118 1

Аннотация. В настоящей работе рассматривается задача применения алгоритма анализа временных рядов «Гусеница» к исследованию поведения клиентов магазина. Авторами была проделана работа по созданию и внедрению программного комплекса, состоящего из мобильного приложения для клиентов, позволяющего собирать статистику поведения клиентов, серверной части для хранения и обработки данных, а также работа по анализу полученной за пять месяцев работы статистики с применением методов анализа временных рядов. Были выяснены закономерности, что накопление большего количества данных может позволить формировать эффективные стратегии взаимодействия с клиентами. Результаты анализа и выводы представлены в работе.

Ключевые слова: SSA; метод «Гусеница»; анализ поведения клиентов; временной

ряд.

Ссылка для цитирования этой статьи:

Савин А.С., Хохлов А.А., Четов А.И. Анализ временных рядов в приложении к изучению поведения покупателей // Интернет-журнал «НАУКОВЕДЕНИЕ» Том 7, №3 (2015)

http://naukovedenie.ru/PDF/41TVN315.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ. DOI: 10.15862/41ГУШ15

Развитие мобильного интернета, повсеместное распространение смартфонов, удешевление связи и другие факторы предоставили новые возможности для бизнеса по взаимодействию со своими клиентами. Теперь, чтобы донести до клиента информацию, предоставить ему скидку, дать возможность зафиксировать покупку или факт использования услуги, достаточно разработать и опубликовать мобильное приложение, которое может установить любой человек. Помимо выполнения своей прямой цели - коммуникация с клиентами в обе стороны при помощи различных технологий, таких как PUSH сообщения, такие инструменты позволяют собирать и анализировать подробную статистику о поведении своих клиентов.

Например, можно собирать статистику о том, когда, в какое время, в какую погоду, при каком курсе валют было сделано то или иное количество покупок, какой возрастной категорией, новые это клиенты или старые - факторов для анализа может быть много.

Такого рода задачи являются актуальными на данный момент, так как в результате можно формировать эффективные стратегии коммуникации с клиентами, предлагать адресные предложения с высокой конверсией, избавить клиентов от ненужной им назойливой рекламы - одним словом, предлагать клиентам именно то, что им нужно (на основании статистического портрета клиента) именно в данный момент.

На сегодняшний день системы, которые позволяют решать такие задачи, используются только в крупных компаниях и являются очень дорогими. Авторы поставили перед собой задачу создать программный комплекс, который мог бы интегрироваться с большинством распространенных кассовых систем, был сравнительно недорогим и позволял, используя методы и алгоритмы, относящиеся к концепции Big Data [1, 2], проводить анализ данных, прогнозирование тех или иных процессов и формировать рекомендации для бизнеса [3].

В данной статье описан проведенный с декабря 2014 года по май 2015 года эксперимент по разработке и внедрению прототипа такого комплекса в крупный сетевой магазин одежды, который включал в себя разработку мобильного приложения для платформ iOS/Android, разработку базы данных и системы управления данными, обработку полученных данных при помощи алгоритма анализа временных рядов «Гусеница», известный также, как SSA (Singular Spectrum Analysis) [4, 5, 6].

Мобильное приложение, которое устанавливали клиенты магазина, выполняло различные функции. Для анализа в данной работе важны только некоторые из них -получение некоторого бонуса за регистрацию и фиксация покупок. Данные в интерактивном режиме передаются на сервер, где хранятся в специально спроектированной базе данных, позволяющей делать в любой момент времени удобные выборки.

После накопления определенной статистики (около 30 000 установок) авторами был проведен анализ полученных данных, представленных в виде временных рядов. Для этого был выбран алгоритм SSA.

Алгоритм SSA не требует присутствия особенных характеристик у исследуемого временного ряда, будь то стационарность, знания модели, наличия периодических составляющих и других. При этом SSA успешно решает такие задачи, как, выделение трендов, обнаружение периодик, сглаживание ряда, построение полного разложения ряда в сумму тренда, периодик и шума и задачи фильтрации, поэтому он был использован авторами - априорной информации о данных не было.

Алгоритм стандартного метода SSA хорошо известен и изучен [4], поэтому опишем его вкратце. Из исходного одномерного временного ряда строится траекторная матрица, размерность которой определяется параметром, зависящим от условий конкретной задачи -

Интернет-журнал «НАУКОВЕДЕНИЕ» Том 7, №3 (май - июнь 2015)

http://naukovedenie.ru [email protected]

длина гусеницы. Небольшая длина гусеницы позволяет учесть меньше информации о ряде, большая длина гусеницы требует больших вычислительных ресурсов. Столбцами траекторной матрицы являются скользящие отрезки длиной, равной длине гусеницы. После некоторых преобразований, опционально включающих в себя процедуры нормирования и центрирования, строится квадратная матрица, содержащая в себе информацию об исходном временном ряде. Далее производится сингулярное разложение этой матрицы на сумму элементарных матриц, каждая из которых задается набором из собственного числа и двух сингулярных векторов — собственного и факторного. Таким образом, исходный временной ряд разлагается на интерпретируемы аддитивные составляющие. В зависимости от условий задачи производится отбор главных компонент, по которым при помощи процедуры

ганкелизации восстанавливается временной ряд. Непосредственно алгоритм описан ниже.

(

Рассмотрим временной ряд | , образованный последовательностью N равноотстоящих значений некоторой функции /1:

х = / и=ка - 1)до, (0.1)

где г = 1,2,...,N.

В качестве примера такой функции можно привести, например, курсы американского доллара, отмечаемые каждый час в течение года. Тогда N = 365*24 = 8760 .

Задача работы заключается в анализе временного ряда (разложении на главные компоненты, их отбор, восстановление и последующий анализ).

Сначала производится преобразование одномерного ряда в многомерной. Выберем некоторое число М < N, называемое длиной гусеницы, и представим первые М значений последовательности / в качестве первой строки матрицы X. В качестве второй строки

матрицы берем значения последовательности с х2 по хМ+1. Последней строкой с номером

к = N -М +1 будут последние М элементов последовательности : х^,х,...,х^:

х = (ху К

(хх х2 ■■■ хм ^

х2 хз ХМ+1

Vх*- хк+1 "' хы у

(0.2)

Далее вычисляются средние арифметические значения и стандартные отклонения по столбцам матрицы X

1 к

х, = 1 £ хг+,-1 (°3)

к 1=1

Ь к ~

£ х'+' - - х)2

Ь =,1т£ (х,+,-, - х, )2 (0.4)

Обозначим через X = (х* )г \=х матрицу, полученную из X в результате центрирования по столбцам и нормирования на стандарты :

х* = (х, -х,)/; 1 = 1,...,к; , = 1,...,М (0.5)

Операции центрирования и нормирования не являются обязательными. Далее вычисляется матрица

Я = (1/ к)(X *)т X *

(0.6)

Следующий шаг состоит в вычислении собственных чисел и собственных векторов матрицы Я, т.е. разложение ее

Л =

я = рлрт,

о ••• о Л •••

о о •••

(П о

Л/,

(0.7)

(0.8)

диагональная матрица собственных чисел и

Р = Рг, -, Рм) =

Р11 Р21

Р12 Р22

Рмг

Рм 2

Л

(0.9)

\Рш Ргы ''' Рыы J

• ортогональная матрица собственных векторов матрицы Я. При этом должны выполняться следующие соотношения:

Рт = Р"1; РТР = РРТ = I

м>

Л = РТЯР, ¿Д = м,

г=1

м

пл = а* я

(0.10)

Матрицы Л и Р совместно имеют множество интерпретаций, основанных на анализе главных компонент (АГК) [7]. В частности, матрицу Р можно рассматривать как матрицу перехода к главным компонентам:

X*Р = У = (у,, уг,...,Ум) .

(0.11)

Далее необходимо упорядочить матрицу собственных значений по возрастанию и пересортировать соответственно матрицу собственных векторов. Каждое собственное значение (ГК) вносит свой «вклад» в исследуемый процесс, и для проведения анализа пользователь должен иметь возможность выбрать для дальнейшей работы некоторые из них, в зависимости от условий задачи. Таким образом, после этого этапа остается г <М собственных значений и соответствующих им собственных векторов.

Следующим ключевым элемента метода «Гусеница» является процедура восстановления. Эта процедура основана на следующих достаточно простых соотношениях.

Из ортогональности матрицы Р следует, что при умножении матрицы главных компонент У на Рт восстанавливается матрица X*, при этом получается разложение

I=1

( т \ ' Ри ^

т

Р2

X * = ¥Р2 = (у1г...ум )

т

V рм

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

м м

= £ ур = £ X* (0.12)

I=1 1=1

нормированной и центрированной матрицы X* в сумму матриц X*, каждая из которых порождена одним собственным вектором матрицы Я. Далее производится денормировка X* с помощью умножения этой матрицы на диагональную матрицу £, состоящую из выборочных средних:

м м

X=Х1 т+X =x0 *x;s=£ x;s (0.13)

7=1 1=0

В результате получается исходная матрица диагональной структуры в виде суммы м +1 матриц. Переход к исходному ряду формально может быть осуществлен усреднением по побочным диагоналям. Обозначим через А этот оператор усреднения

м

X = А( X) = £ А^) (0.14)

I =0

Ранее авторами была разработана эффективная реализация алгоритма SSA, которая использовалась при обработке данных [8].

Анализировались такие данные, как количество покупок по дням, количество потраченных денег и для примера параллельно анализировался курс доллара в эти дни. Анализ позволил выявить определенные закономерности. Например, количество денег, которые пользователи мобильных приложений тратили в магазине, имело зависимость от курса доллара, причем обратную. Чем меньше был курс доллара, тем больше денег тратили покупатели. При этом надо отметить, что цены в магазинах от курса доллара не зависели -товар был закуплен осенью по фиксированному курсу.

При этом интересная особенность заключается в том, что количество потраченных денег не зависит прямо от количества покупок (во всяком случае, такой зависимости проследить не удалось, проанализировав поведение восстановленного ряда с разными параметрами SSA - длиной гусеницы и различными отобранными ГК). Таким образом, можно предположить, что, когда клиенты приходят в магазин при низком курсе доллара, они покупают больше дешевых вещей, а когда при высоком - это более осмысленные покупки и люди покупают более дорогие вещи.

Представленные результаты показывают, что задача исследования поведения покупателей при помощи анализа временных рядов даже в самом просто виде позволяет предлагать бизнесу маркетинговые рекомендации - например, в случае высокой волатильности иностранной валюты, на ее ослаблении можно выкладывать в продажу и делать акции на более дешевый товар, который люди будут покупать активнее, а при повышении курса валюты скидки на эти товары можно убирать, так как люди приходят в магазины за более дорогими товарами.

В дальнейшем авторы планируют проводить работу по накоплению статистики за счет подключения к системе новых магазинов, а также учитывать при анализе такие данные, как возраст и пол клиентов, структуру чека, время суток и другие параметры. Для анализа планируется использование методов CSSA и MSSA [9, 10].

ЛИТЕРАТУРА

1. Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим; пер. с англ. Инны Гайдюк. — М.: Манн, Иванов и Фербер, 2014. - 240с.

2. James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers. Big data: The next frontier for innovation, competition, and productivity // McKinsey Global Institute. 2G11, 143 p.

3. Петров ВА., Савин A.C, Хохлов A.A., Четов A.H Aнализ временных рядов методом «Гусеница»-SSA в Big Data. Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 20-24 апреля 2015 г. — Москва: РУДН, 2015. — 332 с.: ил, с. 3G5-3G7.

4. Golyandina N., Nekrutkin V., Zhigljavsky A. Analysis of Time Series Structure: SSA and Related Techniques, CHAPMAN & HALL/CRC, 2GG1.

5. Golyandina N., Zhigljavsky A. Singular Spectrum Analysis for Time Series, Berlin: Springer, 2G13. — 12G p.

6. Голяндина Н.Э. Метод «Гусеница»-SSA: анализ временных рядов: Учеб. пособие. СПб: Изд-во СПбГУ, 2004. 76 с.

7. Данилов Д.Л. Главные компоненты временных рядов: метод «Гусеница» / Под ред. Д.Л. Данилова, A.A. Жиглявского. - СПб: Пресском, 1997. — 308 с.

В. Савин A.C, Хохлов A.A. Оптимизация алгоритма Singular Spectrum Analysis для ARM процессоров мобильных устройств // Интернет-журнал «Науковедение», 2014 №2(21) [Электронный ресурс]-М.: Науковедение, 2014. - Режим доступа: http://naukovedenie.ru/PDF/110TVN214.pdf, свободный. - Загл. с экрана. - Яз. рус., англ.

9. Петров ВА., Савин A.C, Хохлов A.A., Четов A.H Задача формирования маркетинговых стратегий для ресторанного бизнеса. Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем: материалы Всероссийской конференции с международным участием. Москва, РУДН, 20-24 апреля 2015 г. — Москва: РУДН, 2015. — 332 с.: ил, с. 308-3G9.

1G. Голяндина Н.Э., Некруткин В.В., Степанов Д.В. Варианты метода «Гусеница»-SSA для анализа многомерных временных рядов. Труды II Международной конференции «Идентификация систем и задачи управления» SICPRO'G3. Москва, 2GG3, c. 2139-2168.

Рецензент: Ловецкий Константин Петрович, кандидат физико-математических наук, доцент кафедры прикладной информатики и теории вероятностей РУДН.

Savin Andrey Sergeevich

«Mahuru», Ltd Russian Federation, Moscow E-mail: [email protected]

Khokhlov Aleksey Anatol'evich

Peoples' Friendship University of Russia (PFUR) Russian Federation, Moscow E-mail: [email protected]

Chetov Artur Igorevich

Peoples' Friendship University of Russia (PFUR) Russian Federation, Moscow E-mail: [email protected]

Time series analysis applied to the study of consumer behavior

Abstract. In this paper we consider the problem of applying the algorithm of time series analysis "Caterpillar" to study the behavior of customers at the shop. The authors developed and implemented software consisting of a mobile application for customers which allows collecting statistics of customer behavior and the server side to store and processing data. Authors analyzed results obtained during five months of work with the use of statistical methods for analyzing time series. Authors clarified dependencies which can allow forming effective strategies for interacting with customers in future. The analysis results and conclusions are presented in the work.

Keywords: SSA; Caterpillar; behavioral analysis; time series.

REFERENCES

1. 2.

3.

4.

5.

6.

7.

8.

9.

10.

Mayer-Shenberger V., Kuk'er K. Bol'shie dannye. Revolyutsiya, kotoraya izmenit to, kak my zhivem, rabotaem i myslim; per. s angl. Inny Gaydyuk. — M.: Mann, Ivanov i Ferber, 2014. - 240s.

James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers. Big data: The next frontier for innovation, competition, and productivity // McKinsey Global Institute. 2011, 143 p.

Petrov V.A., Savin A.S., Khokhlov A.A., Chetov A.I. Analiz vremennykh ryadov metodom «Gusenitsa»-SSA v Big Data. Informatsionno-telekommunikatsionnye tekhnologii i matematicheskoe modelirovanie vysokotekhnologichnykh sistem: materialy Vserossiyskoy konferentsii s mezhdunarodnym uchastiem. Moskva, RUDN, 20-24 aprelya 2015 g. — Moskva: RUDN, 2015. — 332 s.: il, s. 305-307.

Golyandina N., Nekrutkin V., Zhigljavsky A. Analysis of Time Series Structure: SSA and Related Techniques, CHAPMAN & HALL/CRC, 2001.

Golyandina N., Zhigljavsky A. Singular Spectrum Analysis for Time Series, Berlin: Springer, 2013. — 120 p.

Golyandina N.E. Metod «Gusenitsa»-SSA: analiz vremennykh ryadov: Ucheb. posobie. SPb: Izd-vo SPbGU, 2004. 76 s.

Danilov D.L. Glavnye komponenty vremennykh ryadov: metod «Gusenitsa» / Pod red. D.L. Danilova, A.A. Zhiglyavskogo. - SPb: Presskom, 1997. — 308 s.

Savin A.S., Khokhlov A.A. Optimizatsiya algoritma Singular Spectrum Analysis dlya ARM protsessorov mobil'nykh ustroystv // Internet-zhurnal «Naukovedenie», 2014 №2(21) [Elektronnyy resurs]-M.: Naukovedenie, 2014. - Rezhim dostupa: http://naukovedenie.ru/PDF/110TVN214.pdf, svobodnyy. - Zagl. s ekrana. - Yaz. rus., angl.

Petrov V.A., Savin A.S., Khokhlov A.A., Chetov A.I. Zadacha formirovaniya marketingovykh strategiy dlya restorannogo biznesa. Informatsionno-telekommunikatsionnye tekhnologii i matematicheskoe modelirovanie vysokotekhnologichnykh sistem: materialy Vserossiyskoy konferentsii s mezhdunarodnym uchastiem. Moskva, RUDN, 20-24 aprelya 2015 g. — Moskva: RUDN, 2015. — 332 s.: il, s. 308-309.

Golyandina N.E., Nekrutkin V.V., Stepanov D.V. Varianty metoda «Gusenitsa»-SSA dlya analiza mnogomernykh vremennykh ryadov. Trudy II Mezhdunarodnoy konferentsii «Identifikatsiya sistem i zadachi upravleniya» SICPRO'03. Moskva, 2003, c. 2139-2168.

i Надоели баннеры? Вы всегда можете отключить рекламу.