Научная статья на тему 'Разработка программного модуля для интеллектуального анализа данных и принятия решений'

Разработка программного модуля для интеллектуального анализа данных и принятия решений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
748
60
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / КЛАССИФИКАЦИЯ / НЕФТЕГАЗОВАЯ ОТРАСЛЬ / DATA MINING / CLASSIFICATION / OIL AND GAS INDUSTRY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Димитриев И. В.

Развитие информационных технологий способствует усовершенствованию обработки, визуализации и сравнению больших данных, в конечном итоге интеллектуальному принятию решений. Одним из методов data mining является классификация, проводимая на основе решения сложных задач при помощи языков программирования, позволяющая установить связи и зависимости. Разработка программного модуля определяет инструментарий поддержки технологических решений, способный получать информацию о геологических породах, проводить классификационный анализ полученных результатов и экспорта их в базу данных, что упрощает принятие управленческих решений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The development of information technology contributes to the improvement of processing, visualization and comparison of large data, ultimately intellectual decision-making. One of the methods of data mining is classification, conducted on the basis of solving complex problems using programming languages, allowing you to establish relationships and dependencies. The development of the software module defines the instrumentarium supporting technological solutions. Able to obtain information on geological rocks, carry out classification analysis, visualize the results obtained and export them to a database, which simplifies the adoption of management decisions.

Текст научной работы на тему «Разработка программного модуля для интеллектуального анализа данных и принятия решений»

Балтийский морской форум материалы Международного морского форума. 2016. С. 37-47.

3. Лосев А.Н., Воронин Е.А. Обоснование способа управления энергоаккумулирующими отопительными установками сельских домов // Международный технико-экономический журнал. 2013. № 4. С. 37-41.

4. Нечаев Ю.Б., Зотов С.А., Макаров Е.С. Эффективность пеленгации источников радиоизлучения несобственноструктурными методами сверхразрешения в радиопеленгаторах с плоскими антенными решетками // Теория и техника радиосвязи. 2006. № 2. С. 40-48.

5. Поляничко М.А. Методика автоматизированного обнаружения конфликтов в комплексе программных средств защиты информации компьютерной системы // диссертация ... кандидата технических наук. - Санкт-Петербург, 2013. - 135 с.

6. Санников В.Г. Слуховая томография - новое направление в области обработки речевых сигналов // Электросвязь. 2007. № 5. С. 5256.

Димитриев И.В.

РАЗРАБОТКА ПРОГРАММНОГО МОДУЛЯ ДЛЯ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ И ПРИНЯТИЯ

РЕШЕНИЙ

ПАО «Газпромбанк», РГУ нефти и газа (НИУ) им. И.М. Губкина

Аннотация: Развитие информационных технологий способствует усовершенствованию обработки, визуализации и сравнению больших данных, в конечном итоге - интеллектуальному принятию решений. Одним из методов data mining является классификация, проводимая на основе решения сложных задач при помощи языков программирования, позволяющая установить связи и зависимости. Разработка программного модуля определяет инструментарий поддержки технологических решений, способный получать информацию о геологических породах, проводить классификационный анализ полученных результатов и экспорта их в базу данных, что упрощает принятие управленческих решений.

Abstract: The development of information technology contributes to the improvement of processing, visualization and comparison of large data, ultimately - intellectual decision-making. One of the methods of data

mining is classification, conducted on the basis of solving complex problems using programming languages, allowing you to establish relationships and dependencies. The development of the software module defines the instrumentarium supporting technological solutions. Able to obtain information on geological rocks, carry out classification analysis, visualize the results obtained and export them to a database, which simplifies the adoption of management decisions.

Ключевые слова: интеллектуальный анализ данных, классификация, нефтегазовая отрасль

Keywords: data mining, classification, oil and gas industry

Из-за высокого уровня развития информационных технологий, сегодня менеджеры и аналитики компаний вынуждены сталкиваться с обработкой огромных объемов данных, что является довольно трудозатратным процессом. Еще более сложная задача - визуализация полученных данных, сравнение между собой, анализ полученных подобным образом данных. Самым актуальным направлением в области анализа и обработки таких больших объемов данных в настоящее время является классификация.

Классификация - процесс разбиения данных на классы, которые обладают высоким сходством друг с другом, позволяющий выявить общие связи и закономерности. Классификация широко используется во всевозможных областях человеческой жизни и труда, в том числе в исследованиях рынка, анализе данных, обработке изображений и так далее. Например, в бизнесе классификация может помочь маркетологам обнаружить различные зависимые группы в своих базах данных о клиентах и, например, охарактеризовать эти группы клиентов на основании их потребительских предпочтений или покупательных способностей. В биологии классификация может быть использована для выведения таксономий растений и животных, категорий генов с аналогичной функциональностью, а также получения представления о структурах, присущих популяции. Она также может помочь в выявлении областей подобного использования земель в базе данных наблюдения Земли и в выявлении групп домов в городе в зависимости от типа дома, стоимости, и географического положения, а также в выявлении групп автовладельцев с высокой средней ценой страхового иска.

Большие наборы данных скрывают в себе достаточное количество информации, которая может быть полезна для интеллектуального принятия решений. Классификация - форма анализа данных, которая может использоваться, чтобы извлечь модели, описывающие важные

классы данных, а также предсказать будущие тенденции этих данных. Подобный интеллектуальный анализ данных может быть очень полезен в получении лучшего понимания данных в целом. Например, работнику кредитного отдела банка нужен анализ данных, чтобы понять, какие клиенты, обращающиеся за кредитом, «безопасны», а какие «опасны» для банка. Менеджеру по маркетингу некоторого магазина электронной техники анализ данных поможет предположить, купит ли клиент с данными потребностями и финансовыми возможностями новую модель компьютера, обладающую некоторыми характеристиками при определенной денежной стоимости. Медицинскому работнику необходимо произвести анализ данных больных раком определенного органа, чтобы предсказать, какой из трех определенных типов лечения (А, В или С) должен получить пациент.

Классификация также может быть полезна в обнаружении аномальных значений, где «выбросы» (значения, которые "далеки" от объекта любого класса) могут быть более интересными, чем общие случаи объектов данных. Например, поиск «выбросов» может помочь в обнаружении мошенничества с кредитными картами и отслеживании преступной деятельности в сферах электронной коммерции и покупок. К примеру, исключительные случаи операций с кредитными картами, при выполнении которых совершаются очень дорогие и частые покупки, могут представлять интерес для компетентных органов, так как есть основание полагать, что где-то ведется мошенническая деятельность.

В каждом из этих примеров задача анализа данных -классификация, где модель или классификатор созданы, чтобы выявить категоричные метки, такие как «безопасный» или «опасный» для заявки на кредит в банке; «да» или «нет» для маркетолога в магазине электронных товаров; или «лечение А», «лечение В», «лечение С» для медицинского работника.

Кроме того, data mining применяется в нефтегазовой области. Данное направление в XXI веке также очень активно используется в области добычи нефти, газа и других полезных ископаемых. Например, с помощью специальных микроскопов и окрашивания особым составом пород, а также с использованием особого программного обеспечения, можно получать снимки шлифов пород, что позволяет обнаружить на них поры и получить их линейные параметры: радиус, площадь, форм-фактор, глубину и так далее.

Многие методы классификации были предложены исследователями в областях машинного обучения, распознавания образов и статистике.

Большинство алгоритмов предназначено для работы с небольшими объёмами входных данных, однако сегодня ведутся работы по разработке масштабируемых алгоритмов классификации [1]. В методах классификации выделяют несколько типов входных данных, предназначенных для анализа:

• Признаковое описание — самый часто встречающийся на практике случай. Каждый объект в данном случае будет описан набором своих характеристик, называемых признаками. Признаки могут представлять собой, как численные значения, так и нечисловые.

• Матрица расстояний между объектами. Каждый объект будет описан расстояниями до всех остальных объектов обучающей выборки. Временной ряд или, как его еще принято называть, сигнал, представляет последовательность измерений по интервалам времени. Каждое из этих измерений может быть представлено как числом, так и вектором, а в общем случае это признаковое описание исследуемого объекта в конкретный момент времени.

Существуют также и несколько более сложные случаи, когда входные данные подаются на вход в виде графов, текстов, результатов запросов к базе данных, и т.д. Как правило, они приводятся либо к признаковому описанию, либо к матрице расстояний между объектами путём предварительной обработки данных и извлечения признаков.

Для проведения данного исследования выбрана группа данных по характеристикам геологических пород на основе результатов геологической разведки. Если порода присутствует в регионе, ей присваивается значение 1, если нет - 0. Обучающая выборка составляется из прецедентов двух классов: районов известных месторождений и похожих районов, в которых интересующее ископаемое обнаружено не было. В такой задаче плохо работают классические методы статистики.

Максимальный объем данных - около 20 шлифов, на каждый из которых приходится от 1 до 8 фотографий. На каждой фотографии, в свою очередь, находится от 100 до 10 000 пор. Итого, максимальный объем данных на одно исследование составляет около 1 600 000 пор. Каждая пора имеет свой набор атрибутов: площадь и форм-фактор. В данной работе в качестве примера в базу данных была загружена информация о 2 000 пор. С учетом того, что данных в наборе много, есть наличие «шумов», то для решения поставленной задачи лучше всего подойдут методы простой Байесовской классификации, индукции дерева решений и классификация, основанная на правилах. Данный выбор обусловлен следующими факторами:

• Хорошая масштабируемость.

• Возможность обнаруживать выбросы - данной свойство особенно актуально для геофизических исследований, где количество объектов в выборке зачастую измеряется миллионами.

• Универсальность - данные алгоритмы хорошо подходят для классификации данных как с 1-2 атрибутами, так и с большим их количеством.

• Высокая вероятность получить в итоге адекватную классификацию.

• Данные алгоритмы хорошо подходят для классификации объектов с численными атрибутами.

Таким образом, необходимо разработать специализированный пользовательский программный модуль, который будет способен решать задачу классификации данных о литологических породах и визуализировать полученный результат.

Разрабатываемый программный модуль будет состоять из базы исходных данных, комплекса методов классификационного анализа данных, метода к-средних кластерного анализа для получения обучающего набора данных, визуализации данных подключаемыми средствами языка Я.

Функциональная схема следующим образом (рис. 1):

программного модуля выглядит

Рисунок 1 - Функциональная схема программного модуля Источник: построено автором

Качество итогового результата классификации сильно зависит от качества обучающего набора данных, который формируется за счет кластеризации методом к-средних, потому необходимо подобрать наиболее подходящее количество кластеров для разбиения при формировании обучающего набора данных [2].

Для этого используется коэффициент силуэта (silhouette coefficient). Значения, близкие к -1, соответствуют плохим (разрозненным) кластеризациям, значения, близкие к нулю, говорят о том, что кластеры пересекаются и накладываются друг на друга, значения, близкие к 1, соответствуют "плотным" четко выделенным кластерам. Таким образом, чем больше силуэт, тем более четко выделены кластеры, и они представляют собой компактные, плотно сгруппированные облака точек.

Одним из наиболее популярных в Data Mining языков программирования является язык R. В языке R данная метрика вычисляется при помощи функции silhouette пакета cluster, которая получает на вход 2 параметра: результаты кластеризации и матрицу расстояний итогового набора данных. Silhouette coefficient в нашем случае составил 0,64. Вероятно, данный результат можно улучшить, задав большее количество кластеров, например, 6.

Кроме того, применим метод, позволяющий оценить релевантность применяемого в модели анализа для независимой выборки. Коэффициент кросс-валидации показывает предсказывающую силу модели.

В простейшем случае, коэффициент валидации вычисляется по формуле: n

С= —, где n - количество объектов, для которых была верно

N

вычислена классовая принадлежность, а N - общее количество объектов. Данный коэффициент лежит в пределах [0,1], чем ближе к 1, тем выше качество результата классификации. Результаты разбиения входных данных на 3 класса. Полученный коэффициент валидации в данном случае составил 0,78. Таким образом, полученную информацию необходимо обрабатывать, при этом из-за постоянно растущих объемов данных требуется внедрение специализированного программного комплекса, способного на основе современных технологий хранить, обрабатывать, визуализировать и предоставлять доступ к большим объемам данных для последующего принятия аналитических и управленческих решений.

Работа выполнена при финансовой поддержке РФФИ, проект «Методология и инструментарий стратегирования технологических изменений экономических систем разного уровня иерархии с учетом требований индустрии 4.0 к нестационарной российской экономике» № 18-010-01028 «а»

Список литературы

1. Han Jiawei, Micheline Camber. Data Mining. Concepts and Techniques. - Издательство Morgan Kaufmann Publishers, 2013. - 743 с.

2. Теория и практика машинного обучения : учеб. 4. пособие / В.В. Воронина, А.В. Михеев, Н.Г.Ярушкина,. К.В. Святов. - Ульяновск : УлГТУ, 2017. - 290 с.

3. Барсегян А., Куприянов М., Холод И., Тесс М., Елизаров С. -Анализ данных и процессов. - Издательство БХВ-Петербург, 2013, 336 с.

4. Н.Паклин, В.Орешков. - Бизнес-аналитика: от данных к знаниям. - Издательство Питер, 2013. - 700 с.

5. Guangren Shi. - Data Mining and Knowledge Discovery for Geoscientists. - Издательство Petroleum Industry Press, 2014.- 367 с.

6. "The 18th annual KDnuggets Software Poll" [электронный ресурс] URL: https://www.kdnuggets.com/2017/05/poll-analytics-data-science-machine-learning-software-leaders.html (дата обращения: 02.12.2017)

7. Преимущества языка R [электронный ресурс] URL: https ://azure.microsoft.com/ru-ru/documentation/articles/machine-learning-r-quickstart/ (дата обращения: 02.12.2017)

i Надоели баннеры? Вы всегда можете отключить рекламу.