Научная статья на тему 'Изучение методов интеллектуального анализа данных при подготовке управленцев'

Изучение методов интеллектуального анализа данных при подготовке управленцев Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
318
32
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Изучение методов интеллектуального анализа данных при подготовке управленцев»

Ю.Ю. Петрунин*

ИЗУЧЕНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ ПОДГОТОВКЕ УПРАВЛЕНЦЕВ1

В последние годы в специальной литературе все чаще встречается словосочетание «интеллектуальный анализа данных» (ИАД), или его англоязычный синоним Data Mining2 (иногда переводится как «обнаружение знаний в базах данных»). Если традиционный анализ данных опирался, в первую очередь, на методы прикладной статистики3, то новые направления обработки данных используют технологии нейронных сетей, генетических алгоритмов, нечеткой логики и другие инструменты современной математики, логики, теории искусственного интеллекта.

В отличие от статистических методов, дающих на основе имеющихся данных, если можно так выразиться, «картину в целом» о проблемной ситуации, интеллектуальные подходы претендуют на открытие неочевидных закономерностей в наличных данных. Они призваны не только описать зависимости и взаимосвязи, но и объяснить их. Наконец, они не налагают априорных моделей на данные, не навязывают реальности заранее выбранных шаблонов, работая даже тогда, когда данные (а значит и описываемая ими предметная область) имеют сложную, запутанную структуру.

Рассмотрим некоторые примеры. При анализе проблемной ситуации и принятии управленческого решения часто применяются методы линейного программирования. Оптимизация загрузки оборудования, поиск наилучшего расписания работы сотрудников, минимизация потерь при транспортировании грузов, максимизация прибыли при планировании производственной программы - все эти задачи можно решить при помощи указанных методов. Существуют также относительно простые программные продукты или модули, которые позволяют делать это весьма эффектно. К простейшим из них относится

* Петрунин Юрий Юрьевич - профессор, доктор философских наук.

1 Статья написана при поддержке гранта РГНФ 04-03-00066а от 2004 г.

2 Появились даже первые учебные пособия по этой дисциплине: Han J., Kamber M.. Data Mining: Concepts and Techniques, 2000; Berry M. J. A., Linoff G. Data Mining Techniques : For Marketing, Sales, and Customer Support, 2003; Дюк В., Самойленко А. Data Mining. Учебный курс. СПб., 2001 и др.

3 Речь идет о количественном анализе данных. О методах качественного анализа см., например, Жеребцов М.В. Метод case-study в прикладных политологических исследованиях//Вестник МГУ. Серия 21. «Управление (государство и общество). М., 2004. № 1.

модуль Поиск решения (в английской версии - Solver) широко распространенного электронного табличного процессора Microsoft Excel.

Рис. 1. Диалоговое окно подпрограммы Поиск решения в Excel

Задачи, которые лучше всего решаются данным средством, имеют три аспекта. Во-первых, имеется единственная цель, которую можно формализовать в виде некоторой формулы и которую нужно оптимизировать, т.е. обычно найти значения входящих в нее переменных, при которых она принимает минимальное или максимальное значение. Во-вторых, имеются ограничения, выражающиеся, как правило, в виде неравенств, ограничивающих множество возможных решений задачи. В третьих, имеется набор входных значений, непосредственно или косвенно влияющих на ограничения и на оптимизируемые величины.

Однако возможности методов линейного программирования ограничены. Например, они могут справляться только с линейными задачами. Между тем, множество задач, с которыми имеют дело управленцы носит нелинейный характер. Для решения подобного рода затруднений эффективно применение более мощных методов оптимизации, например с использованием технологии генетических алгоритмов. В основе последних технологий лежит модель эволюционного процесса в биологии. Предполагается, что главная задача живого состоит в приспособлении к среде с целью выживания. Механизм этого приспособления реализуется через множество особей, каждая из которых в той или иной степени приспособлена (или не приспособлена) к внешнему миру. Эти особи скрещиваются между

собой, порождая потомство, которое берет часть своих свойств от каждого из родителей. Возможны также случайные мутации, приводящие к появлению особей с новыми свойствами или с новыми комбинациями свойств. Наконец, внешняя среда отбирает только те особи, которые имеют набор свойств (признаков), лучше всего отвечающих ее требованиям. Все остальные особи погибают. Такого рода процесс селекции, происходящий на протяжении многих поколений, приводит к совокупности особей, оптимально приспособленных к данной среде.

Если понятие «особь» понимать расширительно, например, как математическое уравнение, формальную теоретическую конструкцию или набор случайных признаков, то данную модель можно использовать и в процессе решения очень широкого круга задач. Фактически, можно интерпретировать оптимизацию как поиск направляемого эволюционными механизмами наилучшего решения в пространстве всех возможных решений. Реализацией такого рода технологий является, например, встраиваемая в тот же Excel программа GeneHunter. Интерфейс ее похож на подпрограмму Поиск решения, однако возможности гораздо шире.

Рис. 2. Диалоговое окно программы Gene Hunter, встроенной в Excel

В диалоговом окне также нужно указать адрес поля электронной таблицы, где находится целевая функция, адрес подбираемых значений для получения результата (здесь он

назван Подбираемые параметры (хромосомы)), вводимые ограничения на решение, указать тип оптимизации (минимум, максимум, или определенное значение). Однако имеется и ряд дополнительных возможностей, существенно расширяющих применимость данного инструмента: возможность решения нелинейных задач, использование нескольких оптимизируемых функций, наличие «мягких» ограничений, выполняющихся после выполнения основных, «жестких» ограничений и др.

Допустим, перед менеджером стоит задача распределения инвестиций4. Имеется инвестиционный капитал, который нужно распределить среди 10 проектов. Для каждого проекта задана функция зависимости прибыли от объема вложения. Требуется найти наиболее прибыльный вариант распределения капитала, при условии, что заданы минимальный и максимальный объем инвестиций для каждого проекта. Если все функции линейны, то можно применить традиционные методы линейного программирования, воспользовавшись, как уже говорилось, подпрограммой Поиск решения (Solver) программы Excel. Однако для большинства случаев функции зависимости прибыли от объема вложения являются нелинейными и, например, симплекс-метод линейного программирования применять нельзя.

Как можно использовать для решения этой задачи метод генетических алгоритмов? В этом примере переменными являются объемы инвестиций в каждый проект (10 переменных), а функцией, которую нужно максимизировать - суммарный доход инвестора. Минимальный и максимальный объем вложений в каждый из проектов задают область изменения каждой из переменных. Можно рассматривать каждый вариант инвестирования (набор значений переменных) как индивидуума, а доходность этого варианта - как приспособленность этого индивидуума. Значение каждой переменной называется по биологической аналогии геном, а их совокупность - хромосомой. Хромосомы представляют собой переменные, значения которых подбираются для того, чтобы найти решение задачи.

Тогда в процессе эволюции приспособленность индивидуумов будет возрастать, а значит, будут появляться все более и более доходные варианты инвестирования. Остановив эволюцию в некоторый момент и выбрав самого лучшего индивидуума, мы получим достаточно хорошее решение задачи.

Чтобы смоделировать эволюционный процесс, сначала нужно сгенерировать случайную популяцию - несколько индивидуумов со случайным набором хромосом. Генетический алгоритм имитирует эволюцию этой популяции как циклический процесс скрещивания индивидуумов и смены поколений. Жизненный цикл популяции - это несколько случайных скрещиваний (посредством кроссовера) и мутаций, в результате которых к популяции добавляется какое-то количество новых индивидуумов. Отбор в генетическом алгоритме -это процесс формирования новой популяции из старой, после чего старая популяция погибает. После отбора к новой популяции опять применяются операции кроссовера и мутации, затем опять происходит отбор, и так далее.

4 Пример обсуждается на сайте www.neuroproject.ru

Рис. 3. Процесс работы генетического алгоритма5

Механизм отбора в генетическом алгоритме состоит в том, что популяция следующего поколения формируется в соответствии с целевой функцией: чем приспособленнее индивидуум, тем больше вероятность его участия в кроссовере, т.е. размножении. Таким образом, модель отбора определяет, каким образом следует строить популяцию следующего

л =

п

3=1

5 Алгоритм описан в: Корнеев В.В., Гарев А.Ф., Васютин С.В., Райх В.В. Базы данных: Интеллектуальная обработка информации. М., 2000. С. 220-221.

поколения. Как правило, вероятность участия индивидуума в скрещивании берется пропорциональной его приспособленности. Очевидно, что одна особь может быть задействована в нескольких родительских парах (своеобразный промискуитет).

п - размер популяции,

[ - номер особи,

Р; - вероятность участия особи в процессе размножения,

Г; - значение целевой функции для ьой особи

Аналогично может быть решен вопрос уничтожения особей. Только вероятность уничтожения, соответственно, должна быть пропорциональна качеству особей. Однако обычно происходит просто уничтожение особей с наихудшим качеством. Таким образом, выбирая для размножения, то есть для передачи наследуемых признаков, наиболее качественные особи и уничтожая наиболее слабые, генетический алгоритм постоянно улучшает популяцию, ведя к нахождению все лучших решений.

Оператор скрещивания моделирует природный процесс наследования, то есть передачи свойств родителей потомкам. Обычно процесс скрещивания выполняется в два этапа. Пусть особь представляет собой строку из п элементов. На первом этапе равновероятно выбирается натуральное число к от 1 до п-1. Это число называется точкой разбиения. В соответствии с ним обе исходные строки разбиваются на две подстроки. На втором этапе строки обмениваются своими подстроками, лежащими после точки разбиения, то есть элементами с к+1-го по п-й. Так получаются две новые строки, которые наследовали частично своих обоих родителей.

Вероятность применения оператора скрещивания обычно выбирается достаточно большой, в пределах от 0,9 до 1, чтобы обеспечить постоянное появление новых особей, расширяющих пространство поиска. При значении вероятности меньше 1 часто используют так называемую стратегию элитизма, при которой несколько лучших индивидуумов переходят в следующее поколение без изменений, не участвуя в кроссовере и отборе. Применение элитизма способствует сохранению общего качества популяции на высоком уровне. Количество элитных особей обычно определяется по формуле:

К = (1 - Р) * К,

Где К - количество элитных особей,

Р - вероятность применения оператора скрещивания,

N - размер популяции.

Оператор мутации служит для моделирования природного процесса мутации. Его применение в генетических алгоритмах обусловлено следующими соображениями. Исходная популяция, какой бы большой она ни была, охватывает ограниченную область пространства

поиска. Оператор скрещивания, безусловно, расширяет эту область, но все же до определенной степени, поскольку использует ограниченный набор значений, заданный исходной популяцией. Внесение случайных изменений в особи позволяет преодолеть это ограничение и иногда значительно сократить время поиска или улучшить качество результата.

Как правило, вероятность мутации, в отличие от вероятности скрещивания, выбирается достаточно малой. Сам процесс мутации заключается в замене одного из элементов строки на другое значение (например с помощью перестановки элементов и др.).

В процессе работы алгоритма все указанные выше операторы применяются многократно и ведут к постепенному изменению исходной популяции. Поскольку операторы отбора, скрещивания, мутации и редукции по своей сути направлены на улучшение каждой отдельной особи, то результатом их работы является постепенное улучшение популяции. В этом и заключается основной смысл работы генетического алгоритма - улучшить популяцию решений по сравнению с исходной. Критерием останова работы генетического алгоритма может быть одно из трех событий:

- сформировано заданное пользователем число поколений,

- популяция достигла заданного пользователем качества,

- достигнут некоторый уровень сходимости, то есть особи в популяции стали настолько подобными, что дальнейшее их улучшение происходит чрезвычайно медленно.

После завершения работы генетического алгоритма из конечной популяции выбирается та особь, которая дает максимальное (или минимальное) значение целевой функции и является, таким образом, результатом работы генетического алгоритма.

Возвращаясь к задаче оптимального распределения инвестиций, поясним особенности реализации генетического алгоритма в этом случае.

• Индивидуум = вариант решения задачи = набор из 10 хромосом Хj

• Хромосома Хj= объем вложения в проект j = 16-разрядная запись этого числа

• Так как объемы вложений ограничены, не все значения хромосом являются допустимыми. Это учитывается при генерации популяций.

Так как суммарный объем инвестиций фиксирован, то реально варьируются только 9 хромосом, а значение 10-ой определяется по ним однозначно6.

Рассмотрим другую часто используемую технологию интеллектуального анализа данных, основанную на теории нечеткой (или фази, от английского слова fuzzy), логики. Начнем с небольшого примера, связанного с прогнозированием7. Предвидение будущего, с той или иной степенью точности и надежности, является необходимым условием любого

6 тэ

В качестве одного из последних примеров использования генетических алгоритмов в деятельности менеджера можно указать статью: Keber C. Diskrete Portefeuilleoptimierung mit Hilfe von Genetischen Algorithmen // Zeitschrift fur Betriebswirtschaft, 1999, H. 9, 1025-1051.

7 с изменениями некоторых параметров пример взят из: Решение бизнес-задач средствами нечеткой логики. Работа с пакетом FuziCalc. Тора-Центр. М., 1998. С. 3-6.

управления. Обычно для этой цели используются разнообразные статистические методы. Однако зачастую использование нечеткой логики и проще, и эффективнее.

Предположим, менеджер планирует деятельность фирмы, работающий на рынке недвижимости, на следующий год. Задача состоит в том, чтобы определить диапазон прибыли на которую можно рассчитывать. При решении задачи менеджер опирается на четыре нечетких утверждения, выявленных из статистики деятельности фирмы за несколько прошедших лет:

1. В течение года в фирму приходят около 110 потенциальных клиентов.

2. Из потенциальных клиентов примерно 25 % совершают сделки.

3. Стоимость недвижимости, фигурирующей в сделках, составляет примерно $ 200 000.

4. За проведенную сделку с каждого клиента берется приблизительно 4,5 % комиссионных.

Если просто перемножить эти четыре значения, мы получим цифру $ 247 500. Такова сумма прибыли за год, если ее вычислять обычным способом. Однако, другим способом, можно получить более содержательное и корректное решение.

В основе нечеткой арифметики (алгебры) лежит представление о нечетком числе. Нечеткие числа несколько отличаются от обычных. Называются они так потому, что описывают события или объекты недостаточно хорошо известные и строго определенные. Например, когда на улице мы спрашиваем: «Где ближайшая остановка?», то можем услышать в ответ: «Пройдите вперед примерно метров 100». Хотя ответ не является абсолютно точным, но он может нам существенно помочь в поисках желанной остановки. Таких примеров можно вспомнить очень много. Любая кулинарная книга полна рецептов типа «налейте % стакана молока» и т.п. Вряд ли мы при этом будет пользоваться мерным стаканом с делениями. Тем не менее, не прибегая к безукоризненно точным пропорциям, можно получить неплохой результат.

Приведенные выше примеры показывают, что в обыденной жизни часто используются нечеткие количественные оценки, которые вполне удовлетворительно описывают многие процессы и явления. Нечеткие числа отличаются от обычных тем, что их значения могут находиться в некотором диапазоне. При этом указывается так называемая функция принадлежности р,(х), с помощью которой задается, вообще говоря, субъективная оценка степени возможности нахождения этого числа в этом диапазоне. Функция принадлежности может принимать значения на отрезке [0,1]. Например, нечеткое число «примерно 100» может быть представлено графиком на рис. 4

8 Вообще говоря, максимум функции принадлежности может быть меньше 1. Такие нечеткие числа называются субнормальными.

Рис. 4. Графическое представление нечеткого числа 100 в программе ЕыггуХ

Его можно интерпретировать так: вероятней всего нечеткое число примет значение 100, вполне вероятно - от 85 до 115, и уж никак не меньше 80 и не больше 120.

Приведенная выше задача решается с помощью нечеткой логики следующим образом. Четыре утверждения менеджера, которые он использует для прогноза, можно записать более подробно таким образом:

- когда речь идет о 110 потенциальных клиентах, то практика показывает, что никогда не бывает меньше 73 и никогда - больше 127,

- когда говорят о 25 % потенциальных клиентов, совершающих сделки, то, как правило, это значение изменяется в пределах 20-35 %, но никогда не было меньше 10 % и никогда больше 50 %,

- когда речь идет о стоимости недвижимости в $ 200 000 то чаще всего происходят сделки по цене от 180 000 $ до 220 000 $, но никогда не дешевле 130 000 и не дороже 250 000 $,

- размер комиссионных чаще всего лежит в пределах 4-6 %, но не меньше 3,5 % и не больше 7 %.

Функции принадлежности показаны на рис 5-8.

Рис.5. Графическое представление утверждения о приблизительно 110 потенциальных

клиентах.

Рис. 6. Графическое представление утверждения о приблизительно 25 % потенциальных клиентов, совершающих сделки. Проценты показаны как доли от 100 %.

Рис. 7. Графическое представление о приблизительной стоимости недвижимости в $ 200 000.

Рис. 8. Графическое представление приблизительного размера комиссионных в пределах 4-6 %. Проценты показаны как доли от 100 %.

Система при такой постановке задачи произведение значений вычисляет перемножением интегралов, описывающих данные кривые. Поскольку типы кривых известных, число их конечно, то применение 4 стандартных функций, описывающих эти кривые делает вычисления практически мгновенными. Самое главное в том, что изменяя входные значения, вы не меняете способа их вычисления.

В таком случае ответ получится следующий: наиболее достоверное значение прибыли будет находиться в пределах 220 000 - 385 000 $ (рис.9). При этом наиболее ожидаемый ответ существенно отличается от простого перемножения чисел в первом варианте прогнозирования - 302 500 $, вместо 247 250 $. Кроме того, прогноз с помощью нечеткой логики позволяет выделить ожидаемые границы будущей прибыли, которые хорошо видны на графике.

Рис. 9. Графический результат перемножения четырех нечетких чисел.

Решение задачи проведено в программе FuzzyXl, которая также встраивается в табличный процессор Excel.

Можно назвать множество других управленческих задач, при решении которых использование методов интеллектуального анализа данных весьма полезно и перспективно. Они встречаются и при управлении регионом, и отраслью, и отдельной организацией; и в финансовой сфере, и в социально-экономической, и в политической. Кто же должен использовать эти новые методы? Должны ли это быть математики, программисты? Или, может быть, нужно готовить новую специальность? На взгляд автора, это не так.

Вспоминается одна недавняя защита диплома на факультете государственного управления МГУ. Хорошо подготовленный студент написал дипломную работу на очень

интересную и актуальную тему, лежащую на стыке современных информационных технологий и теории управления. К сожалению, первая часть работы, в которой речь шла как раз о генетических алгоритмах, нейронных сетях и прочих инструментах Data Mining, содержала существенные ошибки и неточности. Уважаемая комиссия, в которую входили и специалисты в области IT, и в области менеджмента, решила, что непроработанность первой главы вполне извинительна, что эта скорее область выпускников факультета вычислительной математики и кибернетики, чем государственного управления, в которой дипломник явно преуспел.

Думается, что с выводами комиссии можно поспорить. Одна из основных тенденций развития программного обеспечения состоит в приближении его к той или иной сфере профессиональной деятельности, в превращении его в инструмент решения конкретных прикладных задач. Прошли те времена, когда специалист и программист, как люди говорящие на разных языках, в долгих дискуссиях выясняли, как решить ту или иную предметную задачу. Огромное разнообразие прикладных программ привело к тому, что наверное не осталось области деятельности, для которой нет 2-3, а то и более программных продуктов. За программистами остается область решения уникальных, сложных, не имеющих аналогов в прошлом задач (а также совершенствование прикладного и системного программного обеспечения). Владеть же прикладным программным обеспечением должен без сомнения специалист в соответствующей области. Именно для него это программное обеспечение и создавалось и звать для его использования выпускника ВМКа абсолютно неправильно.

Теория искусственного интеллекта за последние 10-15 лет претерпела существенные, если не сказать революционные изменения. После 30 лет чрезвычайно интересных, но почти бесплодных для практики исследований, были получены воплощенные в компьютерные модели результаты, которые стали активно использоваться в самых различных сферах: в медицине, в управлении техническими системами и производствами, в финансах, в экономике, в менеджменте. Программы нечеткой логики, генетических алгоритмов, нейронных сетей предназначены не для программистов, а для управленцев, менеджеров, инженеров. Они являются незаменимыми помощниками при принятии решений, анализе ситуации, прогнозировании развития событий.

Конечно, чтобы специалист в области управления мог свободно пользоваться современными IT-технологиями, его нужно соответствующим образом подготовить к этому. Выделим при обсуждении этого вопроса два момента. Во-первых, какие знания и навыки должен иметь студент (или слушатель) предварительно, для того чтобы изучать интеллектуальные технологии, и, во-вторых, каким образом изучать сами интеллектуальные технологии.

Необходимым фундаментом изучения методов Data Mining является хорошая математическая подготовка. Особенно важен раздел теории вероятностей и математической статистики. В определенной степени интеллектуальные технологии служат естественным

развитием статистических методов, а соответствующие программы - надстройками или дополнительными модулями математических или статистических пакетов.

Другим условием овладения студентами методами Data Mining являются навыки продвинутого пользователя при работе с электронными таблицами. Человека, не умеющего вводить в Excel формулы, строить графики, форматировать ячейки, пользоваться приемами автозаполнения, функциями и т.д. вряд ли можно научить более сложным способам обработки информации.

Разумеется также, что обучающийся должен иметь базовые знания в области экономики, менеджмента, политики, социологии, психологии. Он должен понимать, какие проблемы существуют в управленческой сфере, какие аспекты этих проблем могут быть решены традиционными методами, а какие нет. Только в том случае, если человек умеет справляться с определенным типом задач традиционным способом, он может понять потребность в использовании более тонких и глубоких инструментов, которые расширяют возможности управленца.

Второй момент подготовки управленца - специалиста в области применения современных интеллектуальных технологий, связан с тем, каким образом должны изучаться собственно эти интеллектуальные технологии. Очевидно, что возможны три пути в этой подготовке:

- отдельный курс или спецкурс,

- внедрение в другие курсы (например, политический анализ, финансовый менеджмент, исследование рынка, социологические и маркетинговые исследования, принятие решений и

др.Х

- индивидуальная работа со студентами (курсовые и дипломные работы).

Конечно, идеальным вариантом было бы использовать все три пути. Однако внедрить в учебный план новые курсы весьма сложно. Также весьма затруднительно использовать поле другой дисциплины, например, экономической или политологической. Во-первых, обычно им самим не хватает часов на полноценный охват всех необходимых разделов своей науки, а, во-вторых, прежде нужно научить пользоваться новыми инструментами преподавателей, которые не всегда готовы к этому. Исходя из вышесказанного, наиболее реальным является путь спецкурсов и написания на их основе курсовых и дипломных работ, а в дальнейшем и диссертационных исследований.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Опыт автора статьи свидетельствует, что даже без специального курса возможно написание соответствующих курсовых и дипломных работ. На факультете государственного управления имеется ряд основных курсов («Анализ данных», «Количественные методы и компьютерные технологии в управлении» и др.), в которых в течение 2-3 лекций рассказывается об интеллектуальных технологиях и возможностях использования их в управлении. Если студент заинтересовался этими методами, то он может углубить свои знания в этой области и получить определенные навыки при работе с соответствующими программными продуктами под руководством преподавателя при написании курсовых работ. Приведу некоторые реальные примеры из своей практики.

Начну с дипломной работы «Современные методы анализа данных» студента факультета Дмитрия Ровенского, защищенной в 2003 году. Начало истории весьма драматично. Заинтересовавшись темой, дипломник собрал много информации по ней в Интернете. К сожалению, как с каждым годом становится все популярней, студент просто «смонтировал» материал, не упомянув первоисточников. Поскольку работа была представлена научному руководителю в последний момент, то изменить что-либо не представлялось возможным. Таким образом, дипломник не был допущен к защите, которая была перенесена на более поздний срок. Встал вопрос - не только перед студентом, но и перед научным руководителем - как быть?

Интерес к теме у Ровенского был искренний, поэтому менять ее было бы не совсем правильно. Конечно, нужно было проставить авторство все чужих мыслей, ввести ссылки, сноски и т.д. Но после этого, что осталось бы от диплома, который по определению должен представлять самостоятельное научное исследование?

Было принято следующее решение: корректно оформив весь научный аппарат работы, попытаться применить изложенный теоретический материал к самостоятельно собранным данным и сделать самостоятельные выводы по прикладной части работы.

Дипломник собрал информацию по социально-экономическому развитию всех регионов Российской Федерации и провел их кластерный анализ в программе 81аЙ81;юа. Данные группировались по 31 переменной: ♦♦♦ Индекс промышленного производства, в % к предыдущему году ♦♦♦ Строительствожилых домов тыс кв. м общей площади ♦♦♦ Продукция сельского хозяйства, в % к предыдущему году ♦♦♦ Оборот розничной торговли, в % к предыдущему году ♦♦♦ Объем платных услуг населению, в % к предыдущему году ♦♦♦ Инвестиции в основной капитал в январе-сентябре, млрд. руб. ♦♦♦ Иностранные инвестиции в январе-сентябре, тыс долларов США

♦♦♦ Индекс потребительских цен на товары и услуги в декабре, в % к декабрю предыдущему году ♦♦♦ Стоимость минимального набора продуктов питания ♦♦♦ Индекс цен производителей промышленной продукции. ♦♦♦ Реальные денежные доходы населения ♦♦♦ Средняя начисленная заработная плата

♦♦♦ Просроченная задолженность по заработной плате на 1 января, млн. рублей ♦♦♦ Общая численность безработных, тыс. чел

♦♦♦ Численность безработных, зарегистрированных в службах занятости на конец 2001 г, тыс. чел.

♦♦♦ На 1000 населения в январе-декабре 2001 г. родившихся ♦♦♦ На 1000 населения в январе-декабре 2001 г. умерших

♦♦♦ На 1000 населения в январе-декабре 2001 г. естественный прирост (+), убыль (-) населения

♦♦♦ Доходы консолидированных бюджетов субъектов Российской Федерации в 2001 году, тыс. руб.

♦♦♦ Расходы консолидированных бюджетов субъектов Российской Федерации в 2001 году, тыс. руб.

♦♦♦ Профицит, дефицит ( - ) консолидированных бюджетов субъектов Российской Федерации в 2001 году, тыс. руб. ♦♦♦ Ранг инвестиционного потенциала региона в 2000-2001 гг ♦♦♦ Ранг инвестиционного потенциала региона в 1999-2000 гг ♦♦♦ Ранг инвестиционного риска в 2000-2001 гг

♦♦♦ Выброшено вредных веществ в атмосферу в 2000 г., всего тыс. тонн ♦♦♦ Уловлено и обезврежено вредных веществ, % ♦♦♦ Забрано воды в 2000 г, млн. м 3

♦♦♦ Сброшено сточных вод в водные объектыь в 2000 г, мл. м 3 ♦♦♦ Сброшено загрязненных сточных вод в водные объекты в 2000 г, мл. м 3 ♦♦♦ Образовалось токсичных отходов в 2000 г, тыс. т ♦♦♦ Из них использовано и обезврежено в 2000г, тыс. т

Конечно, проведенное разбиение субъектов по классам интересно само по себе. Однако полученные с помощью статистических методов результаты не всегда могут быть просто интерпретированы человеком. Учитывая большое количество, по всей видимости, сложно связанных между собой, переменных, не всегда ясно, почему некоторые регионы попадают в один кластер, а другие, весьма похожие с нашей точки зрения, в другой - это остается за пределами статистических процедур.

Для того, чтобы кластеризация имела вполне осмысленный, понятный для человека характер, была использована программа построения логических правил WyzWhy, которая позволяет четко сформулировать правила, которые лежат в основе разбиения регионов на группы. Таким образом, была не только продемонстрирована способность молодого специалиста применять полученные знания в прикладных задачах, пользоваться современными достижениями computer science, но и, сравнивая традиционные методы анализа данных и интеллектуальные методы, сделать вполне обоснованные самостоятельные выводы.

Другой пример использования методов Data Mining - дипломная работа Регины Лочмеле, защищенная в 2002 г. Ее название - «Статистические и нейросетевые методы исследования ценообразования на рынке недвижимости». На основе диплома и предшествующих курсовых работ студентка (а сегодня уже аспирантка) имеет несколько публикаций и выступлений на научных конференциях9. За одно из них Лочмеле получила диплом Ректора Московского университета.

9 Лочмеле Р.Р. Анализ рынка недвижимости с помощью самоорганизующихся карт (на примере рынка земельных участков Подмосковья) // Материалы Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов». Выпуск 7.

Использование статистических методов при анализе рынка недвижимости является традиционным и имеет длительную историю. В основном, для этой цели применяются регрессионные модели, которые показывают, какие факторы (переменные) и как влияют на цену, как они соотносятся между собой. Иногда также используют методы прогнозирования временных рядов с целью определить, как меняется воздействие различных факторов на ценообразование с течением времени.

Однако проблема с применением регрессионных моделей к рынку недвижимости состоит в том, что он не является однородным. Если взять, например, объекты загородной жилой недвижимости, то обычно выделяют несколько групп таких объектов, закономерности внутри которых существенно отличаются друг от друга: дома, коттеджи и дачи. Несмотря на интуитивно кажущуюся ясность этой классификации, четкого разделения объектов загородной недвижимости на эти категории не существует. Более того, как показало исследование Р.Лочмеле, существует определенная информационная асимметрия при продаже этих объектов: продавцы и покупатели имеют различное представление о том, что относится к даче, дому или коттеджу. Для доказательства этого были использованы как классические методы кластерного анализа, так и методы нейронных сетей без учителя, или так называемые самоорганизующиеся карты Кохонена10. Анализ проводился в программе Statistica Neural Networks. В результате анализа данных о предложениях продажи, опубликованных в газете «Квартира. Дача. Офис» за 2000 и 2001 г., был выделено 3 кластера объектов, но, в значительной степени, не совпадающих с традиционным делением.

Первый кластер охватывает объекты, средняя площадь дома которых равна 523 кв.м., площадь земельного участка 30 соток, цена 358 тыс.дол. Ко второму кластеру относятся объекты со следующими характеристиками: площадь дома 305 кв.м., площадь земельного участка 18 соток, цена - 173 тыс.дол. Наконец, третий кластер охватывает объекты недвижимости со средней площадью дома равной 127 кв.м., площадью земельного участка 11 соток и ценой около 49 тыс. дол.

Кластеры отличаются и «содержательным наполнением»: например, наличие бассейна характерно, прежде всего, для первого кластера (34 %) и, частично, для второго (16 %).

Объекты загородного жилья при использовании методов нейронных сетей распределились по кластерам в следующих пропорциях (% от общего количества): первый кластер - 11-20%, второй - 35-42 %, третий - 40-54 %. Автор сравнивает эти результаты с процентным распределением объектов по категориям «дома», «коттеджи», «дачи», заявленным в объявлениях в газете. «Коттеджи» составляют 40-60 %, «дома» - 25-50 %, «дачи» - 5-15 %. Исходя из субъективного мнения продавцов 40-60 % из них владеют коттеджами и только 5-15 % - дачами. Очевидно, это является одним из проявлений

М.: Издательство МГУ, 2002; Лочмеле Р.Р. Социально-экономические процессы переходного общества: сравнительный анализ статистических и нейросетевых методов исследования// Материалы международной конференции студентов и аспирантов по фундаментальным наукам «Ломоносов». Выпуск 6. М.: Центр студентов МГУ, 2001 и др.

10 подробнее о них см. Дебок Г., Кохонен Т. Анализ финансовых данных с помощью самоорганизующихся карт. М., 2001.

асимметричной информации, делает вывод Р.Лочмеле. В условиях сложившегося общего мнения о престижности «коттеджа» и отсутствия четкого представления относительно его конкретных характеристик и средней цены продавца, стремясь «повысить» среднее качество объекта недвижимости, в объявлениях нередко относят его к категории «коттеджи», таким образом давая потенциальным покупателям ложный сигнал о качестве объекта загородного жилья.

Анализ распределения объектов загородного жилья Подмосковья, предлагаемых к продаже, позволил также автору утверждать, что объекты как из категории «коттеджи», так и из первого кластера, представлены, прежде всего, на Рублево-Успенском, Белорусском и Киевском направлении. Это косвенно подтверждает сведения о приоритетности направления для расположения объектов недвижимости, характеризующихся большой площадью дома, большой площадью земельного участка и высокой ценой.

Таким образом, использование методов нейронных сетей позволило не только углубить наше понимание рынка недвижимости, не только решить проблемы, не могущие быть решенными с помощью известных статистических алгоритмов, но и обнаружить содержательные экономические проблемы, связанные, в данном случае, с асимметричной информацией. Не говоря уж о том, что дипломница научилась применять самые современные инструменты анализа, которые могут быть использованы и в других областях профессиональной деятельности.

Наконец, последний пример. Речь идет о курсовой работе Николая Трубачева «Сравнительный анализ статистических и нейросетевых методов прогнозирования», написанной и защищенной в 2003 г. Совершенно очевидно, что управление на любом уровне предполагает прогнозирование будущих событий. Это нужно как руководителю страны, так и руководителю фирмы, и каждому отдельному менеджеру.

Существуют различные методы и технологии «предвосхищения будущего». Наиболее развиты и обоснованы методы, основанные на формальных статистических процедурах прогнозирования временных рядов. Имея длинный ряд данных о прошлом, мы можем попытаться найти некоторое уравнение, адекватно описывающее имеющиеся данные и затем на его основе предугадать будущее развитие событий. В простейшем случае это будет некоторое регрессионное уравнение, в более сложных случаях используются специальные методы, такие как экспоненциальное сглаживание, модель АРПСС и другие.

И все-таки, несмотря на появление все более мощных и совершенных моделей, во многих случаях получить приемлемо точный и надежный прогноз не удается. На помощь и в данном случае могут прийти методы Data Mining. Поскольку Н.Трубачев учился только на 3 курсе, то перед ним не была поставлена задача получение оригинальных научных результатов. Однако все-таки, думается, что курсовая работа в любом случае должна быть не только пересказом дополнительно прочитанных студентом книг и статей, но и содержать определенный элемент новизны. В курсовой работе в качестве информационной базы были взяты известные данные о продажах на бензоколонках в США за промежуток времени с 1967

по 2001 гг.11 В литературе эта база данных использовалась для иллюстрации работы различных статистических методов прогнозирования. В курсовой же работе кроме метода экспоненциального сглаживания к имеющимся данным был применен также метод нейронных сетей (программа STATISTICA Neural Networks).

Кроме этого, студент использовал применение статистических и нейросетевых технологий для анализа авиаперевозок в США после второй мировой войны. Этот пример известен в учебной и популярной литературе. Однако самостоятельно проделанная работа в отношении известных баз данных позволила получить Н.Трубачеву интересные выводы о том, к каким временным рядам лучше подходят традиционные методы, а к каким -нейросетевые. Опять же заметим: студент не только научился использовать эффективные инструменты анализа данных, но и углубил свое познание конкретной прикладной сферы. Не будет преувеличением сказать, что такого рода курсовая или дипломная работа явилась по своей сути междисциплинарной.

Подведем некоторые итоги. Деятельность современного управленца немыслима без использования интеллектуального анализа данных. Там, где дают сбой традиционные методы оптимизации, поиска зависимостей, прогнозирования, кластерного анализа, успешно применяются технологии генетических алгоритмов, нечеткой логики, нейронных сетей, эвристического программирования, объединенные общим названием Data Mining или интеллектуального анализа данных. Основанные на теории искусственного интеллекта и воплощенные в компьютерные программы, подобного рода методы являются мощных инструментом обработки имеющейся информации для принятия решений в различных ситуациях и на различных уровнях управленческой деятельности. Эти программы адресованы управленцам, а не программистам или математикам. Умение пользоваться ими также входит в «джентльменский набор» менеджера, как и умение водить автомобиль, знать английский язык или пользоваться компьютером (хотя раньше для этих целей использовались шоферы, переводчики и секретари). Для того, чтобы квалифицированно работать с этими программами, необходима общая, на уровне обычной управленческой подготовки математическая база, прежде всего, знание теории вероятности и математической статистики и некоторая дополнительная подготовка в области интеллектуального анализа данных, или Data Mining. Последняя может осуществляться как через специальные курсы в вузе (или на курсах повышения специальности), так и через самостоятельную, под руководством преподавателя работу. Обычно такая работа в высшей школе реализуется через курсовые и дипломные работы. Учитывая загруженность учебного плана, такой вариант представляется во многих случаях более реализуемым. Собственный опыт автора в области обучения студентов навыкам Data Mining показывает, что такой путь вполне возможен. Студенты, имеющие склонность к исследовательской работе приобретают весьма ценные навыки, получают дополнительные знания современных методов анализа. Недостатком этого подхода является то, что он не может охватить всех студентов. Поэтому, вероятней всего, с

11 Эти данные есть в: Боровиков В. STATISTICA: искусство анализа данных на компьютере. СПб., 2001. С. 629-630 и на сайте (первоисточник): www.economagic.com

ростом потребностей сегодняшних и будущих управленцев в новых методах анализа данных и принятия решений, востребованности специалистов с этими «конкурентными преимуществами», в учебных планах по управленческим специальностям будут появляться новые основные и специальные курсы по методам интеллектуального анализа данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.