Особенности интеллектуального анализа данных для агентства недвижимости

Омаров К.А

Особенности интеллектуального анализа данных для агентства недвижимости Features intelligent data analysis for real estate agencies

УДК: 517

Исследование выполнено по гранту Президента РФ по государственной поддержке ведущих научных школ № НШ-5449.2018.6 «Исследование цифровой трансформации

экономики».

The research was supported by grant of President of Russian Federation according to state support of leading scientific schools (grant № NSh-5449.2018.6).

Омаров К.А,

Научные руководители: Нефедов Ю.В., Федоров Б.М.

Российский экономический университет имени Г.В. Плеханова Москва, Россия

Аннотация: В статье рассматривается практическое применение метода интеллектуального анализа данных «Карта Кохонена» для сегментации клиентской базы на основе данных анкетирования. Для иллюстрации приведены скриншоты результатов обработки анкетных данных с помощью данного метода в аналитической платформе Deductor Studio.

Summary: The article discusses the practical application of the Kohonen Map data mining method for segmentation of the client base on the basis of survey data. Screenshots of the results of the processing of personal data using this method in the analytical platform Deductor Studio are provided for illustration.

Ключевые слова: анкетирование, интеллектуальный анализ данных, сегментация клиентской базы, Карта Кохонена, маркетинг, аналитическая платформа, нейронная сеть, кластеры, методы Data-Mining, поиск скрытых зависимостей.

Keywords: survey, data mining, customer base segmentation, Kohonen map, marketing, analytical platform, neural network, clusters, Data-Mining methods, search for hidden dependencies.

Традиционно под понятием «Недвижимость» понимали определенный земельный участок со всеми строениями, размещенными на нем. Впервые в России термин «недвижимое и движимое имущество» на законодательном уровне был упомянут во время

царствования Петра I [3]. В те времена к недвижимому имуществу относили земельные участки и угодья, жилые строения, заводы, фабрики, лавки, шахты, мосты, плотины.

В настоящее время недвижимость - это не только земельные угодья, участки недр и ряд иных объектов, тесно связанных с землей, но и виды воздушного, речного и морского транспорта. Также, согласно Гражданскому Кодексу Российской Федерации, к недвижимости относят и другое имущество, представляющее собой имущественный комплекс, использующийся для осуществления предпринимательской деятельности [1].

На сегодняшний день информационные технологии достигли высокого уровня развития в сфере сбора и хранения данных. Перманентное увеличение информации в сети интернет и на предприятиях привело к тому, что возможностей и знаний экспертов не достаточно для обработки такого объема данных. Более эффективной альтернативой является интеллектуальный анализ данных (Data Mining). Алгоритмы интеллектуального анализа данных получили широкое распространение в поисковых системах, где объемы данных колоссальны, а полученная в результате поиска информация должна соответствовать не только точному запросу пользователя, но и его семантике.

Модель интеллектуального анализа данных в зависимости от выбранного алгоритма может иметь различные формы:

1) набор кластеров, описывающих связи вариантов в наборе данных;

2) дерево решений, которое предсказывает результат и описывает, какое влияние на этот результат оказывают различные критерии;

3) математическую модель;

4) набор ассоциативных правил [1].

В результате проведенного анализа литературных источников нами была составлена укрупненная классификация алгоритмов интеллектуального анализа данных, представленная на Рисунке 1.

В Табл.1 приведен сравнительный анализ наиболее распространенных алгоритмов интеллектуального анализа данных.

Рисунок 1 - Классификация алгоритмов интеллектуального анализа данных

Выбор необходимого алгоритма для использования в конкретной задаче может быть достаточно сложным. Для выполнения одной и той же задачи можно использовать различные алгоритмы, при этом каждый алгоритм может выдавать различный результат, а некоторые алгоритмы могут выдавать более одного типа результатов. В случае задачи поиска полезной информации с учетом семантики запроса пользователя целесообразно использовать комбинацию алгоритма классификации на первом этапе и алгоритма взаимосвязей в дальнейшем, когда понятийная база достаточно сформирована.

Таблица 1 - Свойства основных алгоритмов Data Mining

Описание С учителем или без ГГреимуще ства Недостатки Использование

С4.5 Алгоритм классификации. Создает классификатор в виде дерева решений. Для этого С4.5 дается набор данных, представляющий собой уже классифицированные объекты. С учителем Простота, скорость распространенное ть Неприменим для случаев с нечёткой логикой Weka

Наивный байесовский классификатор Простой вероятностный классификатор;, основанный на применении Теоремы Байеса со строгими (наивными) предположениями о независимости В зависимости от точной природы вероятностной модели, наивные байесовские классификалоры могут обучаться очень эффективно. Во многих практических приложениях, для оценки параметров для наивных байесовых моделей используют метод максимального правдоподобия. С учителем Малое количество данных для ©бучения Не предназначен пля решения сложных задач и большого количества условий классификации Фильтрация сгима

Метод опорных векторов Алгоритм классификации. Метод опорных векторов (SVM) находит гиперплоскость для классификации данных в два класса. В отличие от С4.5 не использует деревья решений. С учителем Позволяет решать задачи с большим шумовым разбросом данных Невозможность калибровки вероятности попадания в определенный класс. Подходит только для решения задач с 2 классами. Параметры модели сложно интерпретировать MatlabLibsvm Seikit- learn

Ad a Boos t Алгоритм усиления классификаторов, путем объединения их в комитет. AdaBoost является адаптивным в том смысле, что каждый следующий комитет классификаторов строится по объектам, неверно классифицированным предыдущими комитетами. С учителем Простота, скорость. гибкость, приспосабливаемо сь Не исключены ошибки классификации Scikit- leamlCSEBoostGb m Generalized BoostecLRegression Models

Apriori Алгоритм взаимосвязей. Ищет ассоциативные правила и применят их к базе данных, содержащей большое количество транзакций. Самообучающийся Понятен Легок в реализации Алгоритм может быть достаточно требователен по отношению к памяти и времени генерации элементных наборов ARtool "Weka Orange

FPG В основе метода лежит предобработка базы транзакций, в процессе которой эта база данных преобразуется в компактную древовидную структуру, называемую Frequent-Pattem Tree -дерево популярных предметных наборов. Самообучающийся Позволяет произвести декомпозицию сложной задачи на п простых; Эффективное и полное извлечение предметных наборов Значительно сложнее в реализации чек! Арпоп Weka Orange

k-шеапз Алгоритм сегментации. Разбивает множество элементов векторного пространства на заранее известное число кластеров к. На каждой итерации перевычисляется пентр масс для каждого кластера, полученного на предыдущем шаге, затем векторы разбиваются на кластеры вновь. Полуконтролируемый Простота. Крайне эффективен при больших объемах, данных. Использование для предварительного кластерного анализа Высокая зависимость от набора входных данных. Не предполагает работу с дискретными значенияьш Apache MahoutJulIa SciPy WekaMatlab SAS

C-means Алгоритм сегментации. Вместо однозначного ответа на вопрос к какому кластеру относится объект, он определяет вероятность того, что объект принадлежит к тому или ином}7 кластеру. Полуконтролируемый В отличие от к-теапз не зависит от начального выбора центров кластеров С ложнее по сравнению с к- теапз Apache MahoutJulIa SciPy WekaMatlab SAS

Elvi Алгоритм кластеризации. Каждая итерация алгоритма состоит из двух шагов. На Е-шаге (expectation) вычисляется ожидаемое значение функции правдоподобия, при этом скрьпые переменные рассматриваются как наблюдаемые. На М-шаге (maximization) вычисляется оценка максимального правдоподобия, таким образом увеличивается ожидаемое правдоподобие, вычисляемое на Е-шаге. Затем это значение используется для Е-шата на следующей итерации. Самообучающийся Прямолинейная реализация. Дополняет недостающие данные Медленный на больших количествах итераций, не всегда находит оптимальные параметры и застревает в локальных оптимумах WefcaScikit-leam

Алгоритм! кластеризации последовательно er ей Алгоритм изучает вероятность переходов и измеряет различия, или расстояния, между всеми возможными последовательностями б наборе данных, чтобы определить, какие последовательности лучше всего использовать в качестве входных данных для кластеризации. После создания алгоритмом списка вероятных последовательностей он использует данные этой последовательности в качестве входных данных пля ЕМ-метода кластеризации. Самообучающийся Масштабируем ость Не поддерживается использование языка разметки прогнозирующих моделей (РММЬ) для создания моделей интеллектуального анализа данных MicroSoft

С целью увеличения релевантности и комфортности информационного поиска искомого документа при сравнительно небольших и редко изменяющихся объемах данных нами разработана модель пользователя,

основанная на критериально — экстремизационных механизмов выбора с предварительным разбиением документов на группы [2].

Одним из самых распространённых способов получения информации о субъективных оценках потребителей и их поведении является анкетирование. Часто компании недооценивают важность получаемой информации и возможности ее применения для бизнеса в силу отсутствия возможности увидеть в ней скрытые закономерности. Использование методов интеллектуального анализа данных может стать решением проблему поиска скрытых зависимостей для принятия стратегических решений [1]. Для любого успешного предприятия важнейшим фактором успеха является наличие постоянной клиентской базы. Для правильного использования информации о постоянных и случайных посетителях требуется провести сегментацию клиентуры для дальнейшего выявления целевой аудитории и принятия стратегических решений.

В данной статье будет рассмотрен процесс сегментации клиентской базы на основе заполненных анкетных данных посетителей агентства недвижимости в аналитической платформе Deductor Studio. Такой метод интеллектуального анализа данных как карта Кохонена входит в группу методов Data-Mining, основное назначение которых - поиск нетривиальных скрытых закономерностей для практического применения этих знаний. Ответы респондентов образуют набор для обучения. Требуется произвести настройку обработчика «Карта Кохонена». В качестве выходного параметра указывается «Желание повторного обращение к услугам агентства» для применения к решению задачи прогнозирования. Таким образом после обработки входного набора данных получается следующая карта Кохонена (рис.2) [2].

Рисунок 2 - Карта Кохонена

Интерпретировать результаты можно применяя также визуализатор «Профили кластеров», где выводится каждый атрибут и распределение этого атрибута в каждом кластере. Самым крупным является кластер, выделенный зелёным. 30 % респондентов отнесены к данному кластеру. В него входят женщины среднего возраста (30-40 лет), подавляющее большинство которых имеют высшее образование и средним уровнем дохода. Источником информации является интернет. Процентное соотношение - основной критерий выбора агенства. Положительные оценки выставляли 80 % опрошенных.

Ко второму кластеру относятся 25,7 % респондентов (синий цвет). Это мужчины среднего возраста (30-40 лет) с высшим образованием и дохами выше среднего. Выделяют цену основным критерием для выбора. Положительные оценки впечатления от агентства недвижимости выставляют 60 % из них.

Кластер, выделенный голубым почти такой же по величине как предыдущий, представлен мужчинами среднего возраста. Их доходы ниже среднего и средние, а образование - среднее (иногда начальное). Почти всегда дают положительные оценки общему впечатлению от оказанных услуг, только в 17 % случаев ставят оценку «3».

Последний кластер образуют 20 % респондентов. В него входят женщины со средним образованием. Возраст колеблется от юного до зрелого, а доходы - средние и выше среднего. Для выбора агентства недвижимости используют в качестве критерия цену в 42 % случаев, чуть реже удобства и отзывы. Почти всегда довольны оказанными услугами.

Кроме того, можно проанализировать такой визуализатор как «Что-Если», где при подаче изменении значений входных полей данных получить ответ на вопрос о том, каким скорее всего окажется выходной параметр при заданных входах (рис. 3).

Рисунок 3 - Визуализатор «Что если» Кроме всего прочего доступным для анализа еще до обработки с помощью «карты Кохонена» является «Статистика» или визуализированные в удобном виде статистические характеристики конкретного узла набора данных. Характеристики общего впечатления говорят о низкой лояльности клиентов наряду с отрицательными ответами на вопрос о желании повторного обращения к агентству по недвижимости (рис.4).

Рисунок 4 - Статистические данные о низкой лояльности

Для представления информации понятной для обычного пользователя форме требуется составить Olap-куб с переименованными кластерами (рис.5).

Все остальные визуализаторы аналитик может вынести во вкладку «Отчёты», чтобы скрыть подробности сценария обработки и затем использовать на рабочем месте пользователя в приложении Deductor Viewer.[3]

Таким образом, в данной статье были описаны и проиллюстрированы результаты сегментации клиентской базы на основе анкетных данных с применением методов интеллектуального анализа данных в аналитической платформе Deductor Studio, которые

можно использовать для принятия оперативных и стратегических решений в агентстве по недвижимости.

Список использованной литературы

1. Дюк В. А. Data Mining: Учебный курс. СПб.: Питер 2016.

2. Извозчикова В.В., Матвейкин И.В. Использование модели ассоциативной семантической сети для поиска информации // Вестник Ростовского государственного университета путей сообщения, №1 (29) 2017 г., Ростов-на-Дону. — с.37-40.

3. Извозчикова В.В., Матвейкин И.В. Методика поиска информации в информационной системе технического сервиса //Вестник Саратовского госагроуниверситета им. Н.И. Вавилова, №1 2018 г., Саратов. — с.33-35.

4. Deductor Руководство аналитика [Электронный ресурс]. - Режим доступа: https://basegroup.ru/system/files/documentation/guide_analyst_5.3.0.pdf.

5. Deductor Viewer [Электронный ресурс]. - Режим доступа: https://basegroup.ru/deductor/components/vi ewer/.

6. Уринцов А.И., Дик В.В. Информационный менеджмент / Москва, 2009.

7. Божко В.П., Грибанов В.П., Тельнов Ю.Ф., Дик В.В., Уринцов А.И., Федосеев С.В., Микрюков А.А., Федоров И.Г., Медведев А.В., Воронкова Т.Н., Голкина Е.Г., Макаров М.Г., Селетков С.Н., Днепровская Н.В., Павлековская И.В., Микрюков А.А., Разумов О.С., Баяндин Н.И., Диго С.М. Информационные системы и технологии / Под редакцией Ю.Ф. Тельнова . Москва, 2012. Сер. Научные школы

Особенности интеллектуального анализа данных для агентства недвижимости Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Омаров К. А.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Омаров К. А.

Текст научной работы на тему «Особенности интеллектуального анализа данных для агентства недвижимости»