Научная статья на тему 'Методы регрессионно – когнитивного анализа в задачах прогнозирования данных биллинговой системы'

Методы регрессионно – когнитивного анализа в задачах прогнозирования данных биллинговой системы Текст научной статьи по специальности «Экономика и бизнес»

CC BY
194
22
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по экономике и бизнесу, автор научной работы — М А. Кораблин, А А. Салмин, А В. Мелик-шахназаров

Рассматриваются вопросы применения регрессионно-когнитивных моделей для анализа биллинговых систем. Описывается методика создания регресионно-когнитивных графов на основе регрессионного анализа, используя технологию Data Mining. Показан пример использования данной методики для прогнозирования на данных, получаемых от биллинговой системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Methods regression-cognitive analysis for billing system data forecasting

The paper is considered problems of regression-cognitive models application for the analysis of billing systems. It is described a technique of creation regression-cognitive graphs on a basis of regression analysis, using Data Mining technology. The methodology is shown by the example of the given technique use for billing system data forecasting.

Текст научной работы на тему «Методы регрессионно – когнитивного анализа в задачах прогнозирования данных биллинговой системы»

Методы регрессионно - когнитивного анализа в задачах прогнозирования данных биллинговой системы

Кораблин М.А., Салмин А.А. ([email protected]), Мелик-Шахназаров А.В.

Поволжская государственная академия телекоммуникаций и информатики

В соответствии с основными нормативно - регламентирующими материалами Международного Союза Электросвязи (МСЭ) [1] биллинговые системы (БС) в основном охватывают два уровня управления телекоммуникационными сетями (Telecommunication Management Network - TMN) [2] - управление услугами и управление бизнесом. Концепция TMN носит общий характер и отражает основную направленность телекоммуникационного бизнеса: ориентацию на нужды конкретного потребителя, быструю и конструктивную реакцию на его запросы, широкий спектр предлагаемых услуг. Такие целевые установки позволяют рассматривать БС и процессы биллинга основным инструментом реализации рыночной политики оператора.

Один из основных недостатков современных биллинговых систем заключается в том, что клиент (потенциальный абонент) в БС фактически рассматривается как «лицевой счет», обезличивается [3]. Такой подход к клиенту приводит к образованию упущенной выгоды, которая связана с недоучетом потребностей и возможностей клиента. Во многих ситуациях размер этой упущенной выгоды весьма значителен, поэтому в условиях обостряющейся конкурентной борьбы за клиента на первый план выходит индивидуальный подход к обслуживанию, способный найти наиболее рациональный «индивидуальный баланс интересов» на рынке телекоммуникационных услуг.

Как показывают оценки экспертов [4], привлечение нового клиента стоит примерно в 10 раз больше, чем удержание старого, а возврат ушедшего - в 100 раз больше. Эти цифры во многом объясняют появление новой парадигмы бизнеса, в основу которой заложены долгосрочные, индивидуальные отношения с клиентом. Реализация этой парадигмы основывается на знании не только платежеспособности клиента, но его потребностей, интересов, особенностей и т. д. Информация об атрибутах такого рода сама по себе ничего не дает для развития бизнеса. Для того чтобы связать такие атрибуты клиента непосредственно с параметрами биллинговых процессов, необходимо выявить «скрытые» знания о наличии или отсутствии подобных связей, их надежности и достоверности. Решение этой задачи поддерживается новыми классами аналитических информационных систем, - в первую очередь это OLAP -технологии (On-Line Analytical Processing) [5, 6] и CRM - технологии (Customer Relationship Management) [7].

С направлением CRM тесно связаны методы интеллектуального анализа данных (ИАД) (Data Mining) [8, 9]. Сфера использования этих методов отличается тем, что накопленные объемы данных обобщаются до такого уровня представления информации, который может быть охарактеризован как получение знаний. Инженерия знаний - одно из направлений современного искусственного интеллекта - включает в себя множество различных методов. Цель Data Mining состоит в выявлении скрытых правил и закономерностей в наборах данных. Такие закономерности представляются в виде эмпирических моделей, классификационных правил, выделенных кластеров и т. д. Концепция Data Mining позволяет увидеть нетривиальные взаимоотношения между данными, которые могут способствовать увеличению эффективности деятельности предприятия в целом. Выявленная закономерность, как правило, не может претендовать на всеобщность или

универсальность, но она может дать аналитику определенный повод для объяснения отдельных аспектов реинжиниринга бизнеса, в том числе и телекоммуникационного.

Наиболее рельефно возможности ИАД [6, 9] характеризуют механизмы классификации данных и выявления цепочек. Классификация позволяет выявить классообразующие признаки, по которым тот или иной объект можно отнести к заданному классу. Например, признаки устойчивости (надежности, стабильности) клиента. Выявление цепочек (событий или связанных факторов) позволяет установить связи между факторами, которые на первый взгляд не связаны друг с другом. Такие цепочки могут быть хронологическими или причинно-следственными, связи между элементами цепочек могут определяться на различных основах: вероятностной, корреляционной, регрессионной и т.п.

Ниже рассматривается регрессионно - когнитивная модель для интеллектуального анализа данных и её использование в биллинговых системах для анализа объемов услуг, предлагаемых клиентам. Количество видов телекоммуникационных услуг постоянно растет, а их объемы варьируются от клиента к клиенту, изменяются во времени, подвержены сезонным изменениям и т.п. Взаимосвязи между объемами услуг разных видов неочевидны: существуют ли скрытые связи между услугами, какова «сила» этих связей и к чему приведут возможные изменения объемов оказываемых услуг. Ответ на эти и подобные вопросы имеет вполне определенное практическое значение, позволяющее предсказать изменение объемов и, соответственно, экономические эффекты, свойственные той или иной ситуации, складывающейся на рынке телекоммуникационных услуг.

Не нарушая общности рассуждений, рассмотрим пример, в котором используются лишь 4 вида услуг: международная связь (М), местная связь (МС), передача данных (ПД) и Интернет (И). На рис. 1 приведен полносвязный граф, иллюстрирующий возможные связи между услугами.

Рис. 1. Полносвязный граф, иллюстрирующий возможные связи между услугами Двунаправленные стрелки иллюстрируют взаимные влияния факторов.

Для количественного анализа таких взаимных влияний мы построили линейную регрессионную модель вида:

И = Иб + кы^И м + кыС-И МС + кпд^н ПД; М = кИ ^м И + Мб + кМе^М МС+кпД ПД; МС = ^МС И + кМ^МС М + МСб + кпД^МС ПД;

ПД = кИ^ПД И + кМ^ПД М + к;

^-МС^ПД

МС + ПД

б.

(1)

Здесь Мб, Иб, МСб, ПДб - базовые объемы по видам услуг (свободные члены регрессий), к -коэффициенты влияния. Например, кМ^И определяет влияние объемов международной связи на объемы услуг Интернета.

Значения коэффициентов оцениваются на основе биллинговых файлов, в нашем случае это набор из 2000 записей по объемам услуг, оказываемых различным клиентам в разное время.

Упрощая ситуацию, мы оставили вне поля зрения хронологию получения записей и тип клиента. Значения базовых объемов и коэффициентов, вычисленные в системе Ро1уАт^ [10], сведены в таблицу 1. Здесь по диагонали расставлены базовые объемы услуг, а в остальных клетках безразмерные коэффициенты линейных связей. Строки таблицы идентифицированы видами услуг как зависимыми переменными, а столбцы - как влияющими переменными. Например, коэффициент к М^И размещается в столбце М (влияющая переменная) и строке И (зависимая переменная). Матрица [к в общем случае асимметрична.

Таблица 1

И М МС ПД

И 28831 - 0,0937054 0,360806 0,0559736

М - 0,128943 114059 0,831809 0

МС 0,193472 0,320125 18804 - 0,0349213

ПД 0,0398273 0 0 20869

Структура таблицы определяет когнитивный граф [11, 12, 13] взаимосвязей между объёмами услуг, который не относится к полносвязным. Кроме того, соответствующий сигнальный граф [14], определяемый только знаками коэффициентов (+ или -), свидетельствует о наличии в системе услуг множества положительных и отрицательных обратных связей, которые в совокупности определяют

характер влияния исследуемых факторов друг на друга (рис. 2).

+

Рис. 2. Сигнальный граф, иллюстрирующий возможные связи между услугами для таблицы 1

Такого рода регрессионно-когнитивная графовая модель не только определяет связанную цепочку факторов, но и позволяет экстраполировать процессы формирования объемов рассматриваемых услуг. Обычная регрессионная модель позволяет предсказать значение одного из элементов цепочки по другим известным без учета динамики обратных связей, только на основе прямого вычисления одного из уравнений системы (1). Предлагаемая модель способна на основе общей информации о связях между вершинами когнитивного графа реализовать серию (последовательность) вычислений системы (1), продолжающуюся до наступления в системе устойчивого состояния. При этом схема вычислительного процесса по предсказанию объемов услуг приобретает итерационный характер (рис. 3).

Рис. 3. Схема вычислительного процесса по предсказанию объемов услуг

На рис. 4 показан переход исследуемой системы из заданного исходного состояния в конечное устойчивое состояние, подчиняющееся общим скрытым закономерностям связей между видами услуг (вопрос существования устойчивого состояния мы здесь не рассматриваем). Горизонтальная ось на этом рисунке определяет номер итерации алгоритма рис. 3. Содержательно эта ось должна интерпретироваться как шкала условного времени, в котором происходит переходный процесс из начального в конечное состояние системы (Иб , Мб, МСб, ПДб). В качестве единицы такого времени может выступать день, неделя, месяц. Выбор единицы времени определяется инерционностью системы и устанавливается на основе экспертных оценок. По вертикальной оси отложены объемы соответствующих услуг.

200 000,00 180 000,00 160 000,00 140 000,00 120 000,00 100 000,00 80 000,00 60 000,00 40 000,00 20 000,00 0,00

1 3 5 7 9 11 13 15 17

Рис. 4. Переход исследуемой системы из заданного исходного состояния в конечное устойчивое состояние

Обсуждаемая модель имеет ярко выраженную предсказательную функцию (как и большинство ИАД-моделей). Система (Иб, Мб, МСб, ПДб) в этом контексте рассматривается как планируемые объемы услуг, реализуемые в определенный период времени. Система (И , М,

>

.... И к--М .— МС

----ПД

МС, ПД), формируемая алгоритмом в рис. 3 в серии итераций, рассматривается как ожидаемый результат выполнения такого плана, обусловленный взаимным влиянием услуг.

Объяснительный (семантический) аспект регрессионно-когнитивного моделирования требует отдельной интерпретации для каждого конкретного приложения.

В рассматриваемом примере, положительные и отрицательные обратные связи в системе (И, М, МС, ПД) следует рассматривать как механизмы перераспределения общих сетевых ресурсов, участвующих в реализации телекоммуникационных услуг разного вида. Роль такого ресурса здесь представляют каналы передачи информации. Фактор влияния (взаимозависимости) между отдельными видами услуг обусловлен тем обстоятельством, что одни и те же каналы (реальные или виртуальные) участвуют одновременно в реализации услуг разного типа. Например, международная связь (М) на «последних милях» разделяет «свои» каналы с местной связью (МС), а Интернет использует международные каналы и т.п. Такие разделяемые ресурсы в конечном счете и выступают в качестве неявных ограничений, определяющих скрытые механизмы влияния в исследуемой системе.

Ниже на рис. 5 приведены два примера. Лучевая диаграмма (график Кивиата) иллюстрирует сочетание плановых объемов услуг (Иб , Мб, МСб, ПДб) (Ряд 1) и ожидаемых результатов такого планирования (И, М, МС, ПД) (Ряд 2), предсказанных системой. Кроме того, на рис. 5 представлены соответствующие суммарные объемы по всем видам услуг £б = (Иб + Мб + МСб + ПДб) и £ = (И + М + МС + ПД).

Рис. 5а иллюстрирует вариант, когда скрытые стационарные связи между объемами услуг увеличивают объем £ по сравнению с £б, т.е. обеспечивают дополнительную прибыль за счет перераспределения плановых объемов по видам услуг. Здесь заявленный нулевой объем местной связи (МС) вызывает «перетекание» объемов Интернета (И) и междугородной связи (М) в местную связь, поскольку ни И, ни М не могут обойтись без МС.

Рис. 5б иллюстрирует обратную ситуацию, связанную с уменьшением £ по сравнению £б. Планируемая ситуация выбрана парадоксальной: отказ от Интернета, международной связи и долги по местной связи. Сложившаяся система взаимовлияний приведет к «возрождению» Интернета и дополнительным убыткам по всем видам связи, кроме ПД.

Несмотря на то, что интерпретация предсказываемых результатов, полученных на регрессионно-когнитивных моделях в общем случае нетривиальна, в рамках описанного подхода могут успешно решаться многие другие проблемы телекоммуникационных операторов, такие как потеря клиентов, анализ предпочтений и создание оптимального профиля клиента, загруженность каналов и т. п.

Литература.

1. International Telecommunication Union http://www.itu.int

2. International Telecommunication Union // series TMN http ://www.itu.int/search/index.asp?SearchString=TMN&Action=Search&pagelanguage=en

3. Орлов Д. Сокровенная суть современных биллинговых систем // Business Online. - 5/2002.

4. Тарасов А., Коваль Д. От теории CRM к реальному повышению прибыльности и качества обслуживания // Мобильные телекоммуникации. - 2002. - № 03.

5. Щедрин М. Умный помощник руководителя // Business Forum. - 2003. - № 09.

6. Эделстейн Г. Интеллектуальные средства анализа, интерпретации и представления данных в информационных хранилищах // ComputerWeek-Москва. - 1996. - № 16.

7. Локшина Э. Внедрение CRM-решения и эволюция бизнес-культуры и организационной структуры оператора // Мобильные телекоммуникации. - 2004. - № 05.

8. Дюк В., Самойленко А. Data Mining. Учебный курс - СПб.: Питер, 2001.

9. Щавелев Л.В. Способы аналитической обработки данных для поддержки принятия решений // СУБД. - 1998. - № 04-05, № 06.

10. «PolyAnalyst & Data Mining» http:// www.megaputer.ru

11. Корноушенко Е. К., Максимов В. И. Управление процессами в слабоформализованных средах при стабилизации графовых моделей среды. // Труды ИПУ, 1998. вып. 2.

12. Кулинич А.А. Когнитивная система поддержки принятия решений «Канва» // Программные продукты и системы. 2002. - №03.

13. Максимов В.И., Корноушенко Е.К., Качаев С.В. Когнитивные технологии для поддержки принятия управленческих решений // Технологии информационного общества 98. - М.: ИПУ РАН, 1999.

14. Робертс Ф.С. Дискретные математические модели с приложениями к социальным, биологическим и экологическим задачам / Пер. с англ. - М.: Наука, 1986.

(Иб; Мб; МСб; ПДб) = (28831; 114059; 0; 20869) £б = 163 759

(И; М; МС; ПД) = (19311; 110341; 41312; 22017) £ = 192 982

ПД

М

Мс

--Ряд 1

-Ряд2

И

Рис. 5а

(Иб; Мб; МСб; ПДб) = (0; 0; -400; 20869) (И; М; МС; ПД) = (807; -832; -1729; 20869)

£б = 19 869 £ = 19 116

ПД

25 000,00 20 000,00 15 000,00

М

Мс

--Ряд 1

-Ряд2

И

Рис. 5б

i Надоели баннеры? Вы всегда можете отключить рекламу.