Научная статья на тему 'Алгоритмы интеллектуального анализа данных в информационной системе поддержки удалённого эксперимента'

Алгоритмы интеллектуального анализа данных в информационной системе поддержки удалённого эксперимента Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
169
64
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Михеев А. М., Сёмочкина И. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Алгоритмы интеллектуального анализа данных в информационной системе поддержки удалённого эксперимента»

Михеев А.М., Сёмочкина И.Ю.

Пензенский государственный университет

АЛГОРИТМЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ИНФОРМАЦИОННОЙ СИСТЕМЕ ПОДДЕРЖКИ УДАЛЁННОГО ЭКСПЕРИМЕНТА

Использование современных технически сложных объектов в различных научно-производственных сферах деятельности, обязывает предпринимать меры по обеспечение их безопасного использования, а так же мониторингу и контроля состояния. Проведения научно-исследовательских экспериментов на современных экспериментальных стендах для организации удалённого эксперимента, наиболее приближенного к реальной ситуации является устойчивой мировой тенденцией. Об этом свидетельствует огромное количество разработок, а также множество зарубежных и отечественных публикаций, посвященных решениям задач в области мониторинга и контроля удалённого физического объекта.

Стоимость организации современных экспериментальныхстендов велика, а уровень развития современных телекоммуникационных технологий предоставляет широкие возможности,связанные с созданием распределённых информационных систем,поэтому задача создания и последующего использования систем поддержки удалённого эксперимента является весьма актуальной.

Совмещениеаппаратно-программных систем с телекоммуникационными сетями и предоставлениеудалён-ного доступа к измерительному и управляющему оборудованиюпозволяет, не зависит от расстояния до удалённого физического объекта. Подобная интеграция двух технологийрасширяет функциональные возможности систем, построенных на их основе.

Эффективность использования подобных систем для поддержки удалённых дистанционных экспериментов достигается Благодарявозможностям программным путем, опираться на мощь современной компьютерной техники, при этом перестройка к изменяющимся требованиям, значительно уменьшает затраты на материальное и программное обеспечение.Весьма важным является продвижение дистанционных технологий в лабораторные практикумы и в учебный эксперимент как с целью повышения эффективности, так и снижения материальных затрат на обучение в сфере инженерного образования.

Для проведения эффективных экспериментальных исследований следует использовать положения теории научного планирования эксперимента, факторного анализа, методов математической статистики, прогнозирования и поиска оптимальных решений.

Получение экспериментальных данныхобеспечивает информационно-измерительнаясистема, которая в реальных условиях имеет распределенную структуру, включающую с себя интеллектуальные многофункциональные датчики, унифицирующие измерительные преобразователи, средства хранения и цифровой обработки информации, соединенные между собой каналами связи.

Полученная измерительная информация, наряду с накопленной ранее информацией и синтезированными на ее основе математическими моделями, используется для идентификации состояний исследуемой сложной технической системы и протекающих в ней физических процессов и уточнения соответствующих математических моделей. Удобным средством решения задачи идентификации состояний исследуемой системы и протекающих в ней процессов служит искусственная нейронная сеть (ИНС), а процесс ее обучения - средством хранения и уточнения соответствующих математических моделей.

Задача обучения ИНС формулируются следующим образом. Известен набор из тэталонных векторов размерностью п, описывающих состояние исследуемой сложной технической системы или протекающие в ней физические процессы

Xf = {xf:k = 0...m-l; i = О...п-l}, где xf - элементы векторов обучающей выборки.

В процессе обучения ИНС необходимо при подаче k-го вектора

Xf = {xf: i = 0 ... п — 1}

обеспечить выходной сигнал сети

у= {yi':i = О...п — l}

равный эталонномуУ = Xf.

В процессе обучения ИНС подбирается ее структура (число слоев нейронов, число нейронов в слое, их взаимосвязи и т.д.), а также параметры нейронов.

В процессе идентификации на вход ИНС подается вектор результатов измерений параметров сложной технической системы или протекающего в ней процесса имеющий ту же размерность, что и эталонные векторы:

Xf = {xf: i = 0 ... п — 1}

Необходимо в обучающей выборке определить вектор

Xf = {xf: i = 0 ... п — 1}

максимально близкий к исследуемому, и выдать его на выход ИНС

Y = Xf.

Если такой вектор определить не удается, выдать об этом сообщение.

Архитектуры ИС ПНЭ представлена на рисунке 1.

Рисунок 1 - Архитектура ИС ПНЭ

Разработанная интеллектуальная информационная система поддержки научного эксперимента (ИИС ПНЭ) обеспечивает:

- сбор и обработку измерительной информации;

- обмен данными между удалённым объектом и информационной системой;

идентификацию состояний исследуемого физического объекта по совокупности накопленной информации при помощи нейронной сети;

- визуальный контроль состояния физического объекта через WEB- интерфейс;

- дистанционное управление измерительным экспериментом.

К сожалению, ИНС относительно хорошо работают при хорошо проработанной обучающей выборке и относительно небольшом числе хорошо различающихся друг от друга ситуаций. Поэтому в настоящее время нейросетевая идентификация понимается как один из элементов технологии интеллектуального анализа данных DataMining.[3]

Поскольку для передачи информации используется некий несущий сигнал, выполняющий функцию транспорта для доставки информации, измерительные данные с удалённого физического объекта система сбора и обработки данных получает в виде цифрового сигнала. Однако измерительная информация, получаемая подсистемой сбора данных за относительно короткий промежуток времени, представляет собой только первичные или так называемые сырые данные о состоянии удалённого физического объекта. Следовательно, по первичной измерительной информации, за короткий промежуток времени можно произвести только первичную оценку его состояния, а дальнейшее прогнозирование его поведения не возможно по причине отсутствия необходимого количества данных.

DataMining - новая технология интеллектуального анализа данных с целью выявления скрытых закономерностей в виде значимых особенностей, корреляций, тенденций и шаблонов. Современные системы добычи данных используют основанные на методах искусственного интеллекта средства представления и интерпретации, что и позволяет обнаруживать растворенную в терабайтных хранилищах не очевидную, но весьма ценную информацию.В основу технологии DataMining положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные подвыборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборке и виде распределений значений анализируемых показателей.

Выделяют следующие стандартные типы :

классификацию. Наиболее распространенная задача DataMining. Она позволяет выявить признаки, характеризующие однотипные группы объектов для того, чтобы по известным значениям этих характеристик можно было отнести новый объект к тому или иному классу.

последовательность. Подобно ассоциациям, последовательность имеет место между событиями, но наступающими не одновременно, а с некоторым определенным разрывом во времени.

прогнозирование. Это особая форма предсказания, которая на основе особенностей поведения текущих и исторических данных оценивает будущие значения определенных численных показателей. В задачах подобного типа наиболее часто используются традиционные методы математической статистики (в частности, регрессия), а также нейронные сети.

анализ отклонений. Выявление наиболее нехарактерных шаблонов.

При выявлении вышеназванных закономерностей DataMining использует большое число различных методов или их различные комбинации.

В качестве первого направления развития средств DataMiningcледyет выделить методы статистической обработки данных, которые можно подразделить на:

предварительный анализ природы статистических данных(проверка гипотез стационарности, нормальности, независимости, однородности, оценка вида функции распределения и ее параметров, выделение существенных качественных факторов (дисперсионный анализ);

выявление связей и закономерностей (корреляционный, регрессионный анализ);

многомерный статистический анализ (кластерный, дискриминантный, факторный);

динамические модели и прогноз на основе временных рядов.

Важное положение DataMining - нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания. К обществу пришло понимание, что сырые данные содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки. Трансформация, нормализация данных. Это необходимо для методов, которые требуют, чтобы исходные данные были в каком-то определенном виде. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей.

Для возможности реализации методов прогнозирования состояния удалённого физического необходимо накопить измерительную информацию с объекта за большой промежуток времени. Для решения данной задачи в информационной системе поддержки удалённого эксперимента в качестве хранилища данных была разработана реляционная база данных.

База данных в информационной системе поддержки удалённого эксперимента выполняет функции систематизации результатов экспериментов. Упорядоченность информации в базе данных, помимо удобств доступа, ведёт к значительному сокращению аппаратных ресурсов сервера баз данных, необходимых для ее обслуживания, которая достигается путем нормализации и целостности данных.

Разработка хранилища данных полученных с удалённого источника информации позволяет осуществить накопление измерительной информации за большой промежуток времени, для возможности дальнейшего прогнозирования состояния контролируемого объекта. Однако полезной измерительной информацией, которая возможно является необходимой для прогнозирования состояния исследуемого объект, в хранилище данных информационной системы поддержки удалённого эксперимента является часть от всей накопленной информации. Для выявления той полезной информации, по которой возможно произвести идентификацию дальнейшего состояния исследуемого объекта, было принято решение использовать технологии предобработки и трансформации данных, а затем технологию DataMining, выявление полезной информации в «сырых данных».

Общий принцип построения решений, использующих DataMining, заключается в создании соответствующей модели, в ее обучении и тестировании, а также в разработке приложения, применяющего созданную модель для прогнозирования значений неизвестных атрибутов. При этом процессы создания и обучения модели включают обязательное использование большого по объему набора данных, для которых известны значения атрибутов и прогнозирование которых предполагается в данной модели. Перед созданием модели, предназначенной для реальной эксплуатации, иногда создается ее прототип, обучаемый на наборе данных меньшего объема, а другой набор предназначен для тестирования созданной модели или прототипа. После подготовки исходных наборов данных выбирается алгоритм DataMining, параметры работы алгоритма и входные поля.

В информационной системе поддержки принятия решения было принято решение использовать следующие алгоритмы, входящие в состав MS SQL Server 2008:

алгоритм последовательной кластеризации (MicrosoftSequenceClustering) сочетает анализ последовательности операций с кластеризацией, то есть, в отличие от обычных алгоритмов кластеризации, он учитывает последовательность возникновения событий. Обычно алгоритмы кластеризации используются в тех случаях, когда нет абсолютно никаких предположений о характере взаимосвязи между данными, а результаты их применения нередко являются исходными данными для других алгоритмов, например для построения деревьев решений. Обычно они осуществляют итеративный поиск групп данных на основании заранее заданного числа кластеров. Изначально центры будущих кластеров представляют собой случайным образом выбранные точки в n-мерном пространстве возможных значений (где n — число параметров) . Затем все исходные данные перебираются и в зависимости от значений параметров помещаются в тот или иной кластер, при этом постоянно происходит поиск точек, сумма расстояний которых до остальных точек в данном кластере является минимальной. Эти точки становятся центрами новых кластеров, и процедура повторяется до тех пор, пока центры и границы новых кластеров не перестанут перемещаться. Данный алгоритм далеко не всегда приводит к результату, поддающемуся логическому объяснению, — он просто позволяет определить различные группы объектов или событий. Кроме того, не всегда можно с первого раза точно угадать число кластеров, отражающее реально существующее число групп. Реализация выполнена на программной платформе Microsoft SQL Server 2008 (Developeredition) с установленными аналитическими службами.

алгоритм поиска ассоциаций (MicrosoftAssociation) обеспечивает эффективный метод нахождения корреляций в больших наборах данных за счет поиска наборов записей, появляющихся одновременно. На основании полученных сведений генерируются правила о том, какие категории записей должны появляться вместе с наибольшей вероятностью.

В процессе исследования были проведены работы:

- разработан электронный депозитарий, обеспечивающий хранение планов экспериментов и полученной в ходе них измерительной информации,

- в качестве структуры данных электронного депозитария использована распределенная реляционная база данных, обеспечивающую дистанционный доступ к структурированной измерительной информации посредством сети передачи данных intranet Internet.

Доступ к панели управления интеллектуальной информационной системы контроля состояния технически сложного объекта осуществляется через локальную сеть или сеть Internet, по средством браузера. На рис. 1 представлена диаграмма развёртывания, показывающая взаимосвязи между подсистемами и как осуществляется доступ к информационной системе пользователей, а так же и аппаратные и программные средства, необходимые для её функционирования.

Используемые аппаратные и программные платформы обеспечивают сохранность и целостность информации при полном или частичном отключении электропитания, аварии сетей телекоммуникации, полном или частичном отказе технических средств ИИС ПНЭ.

WEB-ориентированная подсистема управления содержит слой представления, который отвечает за реакцию подсистемы на действия пользователя. Он спроектирован по шаблону проектирования ModelViewController (MVC) [5] . Который является наиболее подходящим современным шаблоном проекти-

роваиия пользовательского интерфейса, в качестве программной платформы разработки была использована классическая web-ориентированная теxиoлoгияASP.NETMVC и современный объектно-ориентированный язык программирования C#. [б]

ЛИТЕРАТУРА

1. Михеев М.Ю. Обобщенная структура системы мониторинга и контроля состояний сложных систем природного или техногенного происхождения / Михеев М.Ю., Жашкова Т.В // Надежность и качество: Труды международного симпозиума. - Пенза: Информационно издательский центр ПензГУ 2011. Т. 2. С. 361-363 .

2. Семочкина И.Ю. Имитационное моделирование процедуры нейросетевой идентификации двумерного радиолокационного сигнала/ Северин В.А., Кузнецов А.А., Михеев М.Ю., Семочкина И.Ю.// Вопросы радиоэлектроники. M:-2009. Т. 4. № 4. С. 114-120.

3. Михеев А.М. Информационная система поддержки научного эксперимента / Михеев А.М., Исаков С.А.// Современные информационные технологии: Труды международной научно-технической конференции. - Пенза: ПГТА, 2011. № 14. С.119-122

4. Барсеягин А. А. Технологии анализа данных. DataMining, VisualMining, TextMining, OLAP, БХВ-Петербург , 2007, С. 384 .

5. Фаулер М. Шаблоны корпоративных приложений, Вильямс, 2010. С.579.

6. Эспозито Д. Microsoft ASP.NET 2.0 базовый курс, Вильямс, 2007. С. 688.

i Надоели баннеры? Вы всегда можете отключить рекламу.