Научная статья на тему 'Использование кластерного анализа для решения задачи объединения взаимосвязей между сигналами'

Использование кластерного анализа для решения задачи объединения взаимосвязей между сигналами Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
73
27
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРЕЦЕДЕНТ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ / НАДЕЖНОСТЬ / МЕТОД / КЛАСТЕР / ДЕРЕВО РЕШЕНИЙ / ГРАДИЕНТ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дудко Ярослав Владимирович

Рассмотрен общий подход к решению задач объединения выявленных взаимосвязей между сигналами, описываемых в виде прецедентов, возникающих в распределенной управляющей системе; предложен метод на основе математического аппарата кластерного анализа, предназначенный для выявления устойчивых взаимосвязей между прецедентами и локализации источника возникновения нештатных ситуаций; в качестве основы для хранения выявленных взаимосвязей предложено использование механизма дерева решений с неограниченным количеством ветвей узла, построенного при помощи алгоритма C4.5.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование кластерного анализа для решения задачи объединения взаимосвязей между сигналами»

двуокиси углерода в атмосфере и даже может привести к существенному ее сокращению путем превращения двуокиси углерода в органическое вещество. Использование биоэтанола в бензине - огромный потенциал для сокращения в атмосфере уровня двуокиси углерода.

Окиси азота (N0^ образуются при высоких температурах горения, воздействуя на уровень околоземного озона. Благодаря введению биоэтанола вбензин сокращаются выбросы отдельных компонентов бензина, таких как олефины и ароматические вещества.

Плюсы: запасы сырья разнообразны и практически неограниченны; есть богатый опыт эксплуатации двигателей, работающих на спирте; ниже токсичность выхлопных газов.

Минусы: нужно вносить конструктивные изменения в систему питания; мощность двигателя снижается, а расход горючего увеличивается; из -за гигроскопичности спирта могут ухудшаться пусковые свойства двигателя; дорогостоящее производство биоэтанола.

При использовании топлива Е85 (85% об. этанола, 15%об. неэтилированного бензина) или Е10 (10% об. этанола, 90% об. неэтилированного бензина) значительно улучшается качество воздушной среды и повышается эффективность энергетики. Результаты исследований, показывают, что выбросы газов, вызывающих парниковый эффект, снижаются, на 35-46%, а при использованиине возобновляемых источников энергии благодаря применению этанола в качестве моторного топлива снижаются на 50-60% [2].

Заключение. Проанализировав материалы по использованию энергии и выбросампарниковых газов, можно сделать вывод, что этанол в топливе Е85 по сравнению с любыми иными видами топлив сокращает в несколько раз выбросы газов, вызывающих парниковый эффект.

Литература

1. Багиров И. Т. Современные установки первичной переработки. М. Химия, 1974.

240 с.

2. Уильям Л. Леффлер. Переработка нефти. М., 2003. 224 с.

ИСПОЛЬЗОВАНИЕ КЛАСТЕРНОГО АНАЛИЗА ДЛЯ РЕШЕНИЯ ЗАДАЧИ ОБЪЕДИНЕНИЯ ВЗАИМОСВЯЗЕЙ МЕЖДУ

СИГНАЛАМИ Дудко Я. В.

Дудко Ярослав Владимирович /БЫко Уагоз1ау УЫттукк - аспирант, кафедра информационных систем и технологий, факультет фундаментальной и прикладной информатики, Юго-Западный государственный университет, г. Курск

Аннотация: рассмотрен общий подход к решению задач объединения выявленных взаимосвязей между сигналами, описываемых в виде прецедентов, возникающих в распределенной управляющей системе; предложен метод на основе математического аппарата кластерного анализа, предназначенный для выявления устойчивых взаимосвязей между прецедентами и локализации источника возникновения нештатных ситуаций; в качестве основы для хранения выявленных взаимосвязей предложено использование механизма дерева решений с неограниченным количеством ветвей узла, построенного при помощи алгоритма С4.5.

Ключевые слова: прецедент, интеллектуальный анализ данных, надежность, метод, кластер, дерево решений, градиент.

Восстановление состояния системы после обнаружения ее нештатного функционирования наряду с определением критериев достоверности данных информационного обмена играет важную роль при решении задачи обеспечения надежности в распределенных управляющих системах.

Отдельные обнаруживаемые прецеденты, появляющиеся в системе, целесообразно выделять в группы с устойчивыми взаимосвязями, используя методы интеллектуального анализа информационных потоков (Data Mining). Задача кластеризации успешно осуществляет подобные объединения [1].

На основе данных (свойств), описывающих сущность объектов (наблюдений, событий), можно произвести группировку этих объектов, что и является целью кластеризации. В пределах одного кластера объекты должны быть максимально похожими друг на друга. При этом они так же должны максимально отличаться от объектов из других кластеров. Задача кластеризации осуществляется тем эффективней и точнее, чем больше наблюдается сходств между объектами внутри кластера и различий между кластерами.

Благодаря отсутствию накладываемых ограничений на представление исследуемых объектов возможен анализ показателей разного рода: интервальные данные, частоты, бинарные данные и т.д. Для этого необходимым является измерение и сравнение переменных в нормализованном представлении.

Кластерный анализ позволяет сокращать размерность анализируемых данных и представлять их в наглядном структурированном виде.

Кроме того, кластерный анализ применяется к совокупностям временных рядов. При этом выделяются периоды схожести некоторых показателей и определяются группы временных рядов со схожей динамикой [2]. Для кластерного анализа можно выделить следующие группы задач:

1) задача классификации или разработки типологии;

2) задача анализа принципов группирования объектов;

3) задача формирования гипотез на основе исследования полученных данных;

4) задача проверки гипотез для определения входимости выделенных типов в имеющихся данных.

Как правило, при использовании кластерного анализа решаются одновременно несколько поставленных задач.

Следующие математические характеристики описывают кластер: размер кластера, его радиус, центр кластера и среднеквадратичное отклонение.

Центром кластера является среднее геометрическое место точек в пространстве переменных. Радиус кластера - это максимальное расстояние точек до центра кластера.

Размер кластера равен либо радиусу кластера, либо среднеквадратичному отклонению объектов данного кластера [3]. Объект входит в состав кластера, если его расстояние до центра кластера меньше радиуса кластера.

Кластерный анализ возможен при выполнении следующих условий [5]:

- рассматриваемая совокупность объектов может быть разбита на кластеры на основании признаков этих объектов;

- для сопоставления признаков выбраны правильные единицы измерения признаков (произведена их нормализация).

В данной статье предложен способ группирования выявленных взаимосвязей между сигналами при помощи кластерного анализа. Исходными данными является совокупность прецедентов, формируемая при помощи алгоритма поиска взаимосвязей между сигналами для определения нештатного функционирования систем [4].

Под кластером в данном методе будет пониматься группа прецедентов, выявленных на основе информации, хранящейся в базе знаний в виде временных рядов, и содержащих

62

сведения о взаимосвязях между сигналами. Для вхождения прецедента в кластер необходимо наличие в его составе сигнала, присутствующего хотя бы в одном из прецедентов кластера. Близость прецедента к центру кластера определяется градиентом частоты возникновения прецедентов кластера. Прецедент, не входящий ни в один из имеющихся кластеров, образует новый кластер и является его центром.

Для кластеризации каждого из прецедентов выделены следующие этапы:

1. Определение кластера для прецедента

Для всех сигналов прецедента осуществляется поиск их вхождений в прецеденты из состава имеющихся кластеров. В случае выявления такого вхождения прецедент включается в состав кластера. Прецеденты, не имеющие общих сигналов ни с одним из кластеров, образуют новые кластеры.

2. Определение нового центра кластера, в состав которого был включен прецедент, с последующим пересчётом расстояний до центра кластера каждого прецедента.

Значение градиента частот [6] возникновения прецедентов определяет центр кластера:

-► ОК ОК

= (^;...; ), ох ох

(1)

где х1 ...Хп - значения, обратные частотам возникновения прецедентов; ¥с1 -

суммарное условие возникновения прецедентов в кластере: ¥с1 = Е^ . Расстояние до центра кластера ьго прецедента вычисляется по формуле:

ЯГайР*

(

Л

ч°х1 У

(

+... +

д¥„

Л

ч0^ У

(2)

3. Построение неориентированного невзвешенного графа прецедентов в рамках кластера.

Прецеденты из состава кластера являются вершинами графа, а наличие общих сигналов в составе прецедентов определяют связи между ними. На рисунке 1 представлен пример построения кластера.

Рис. 1. Представление кластера прецедентов в виде графа

63

4. Осуществление выбора оптимального правила в графе кластера для выделения в его составе набора прецедентов, имеющих наибольшую взаимосвязанность, на основе классификационного алгоритма C4.5.

Для построения дерева решений с неограниченным количеством ветвей узла используется алгоритм C4.5 [7]. Данный алгоритм предназначен для решения исключительно классификационных задач, так как область его применения исключает все атрибуты кроме зависимых дискретных.

Кластерный анализ позволяет распределить выявленные прецеденты в кластеры на основе их взаимосвязей и частот возникновения, что делает возможным определение наиболее взаимосвязанных прецедентов для локализации источника возникновения нештатных ситуаций в распределенных управляющих системах.

Литература

1. ДюкВ., Самойленко А. Data mining. Учебный курс. СПб.: Питер, 2001. 368 с.

2. Чубукова И. А. Data mining. М.: Бином, 2008. 384 с.

3. Технологии анализа данных: DataMining, VisualMining, TextMining, OLAP / Барсегян, Куприянов, Степаненко, Холод, Под ред. Барсегяна А. А. 2 изд. СПб.: БХВ-Петербург, 2007. 336 с.

4. Башмаков А. И., Дудко Я. В. Алгоритм обнаружения и анализа нештатных ситуаций // Информатика, вычислительная техника и управление. Ижевск: Системная инженерия. Научно-теоретический журнал, 2015. С. 100-104.

5. Гитис Л. X. Кластерный анализ в задачах классификации, оптимизации и прогнозирования. М.: МГГУ, 2001. 103 с.

6. Дубровин Б. А., Новиков С. П., Фоменко А. Т. Современная геометрия методы и приложения: учебное пособие для физико-математических специальностей университетов. М.: Наука, 1986. 759 с.

7. Hand D., Mannila H. and Smyth P., 2001. Principles of Data Mining. London: MIT Press. P. 197-201.

БИОМЕТРИЯ: СИСТЕМА ИДЕНТИФИКАЦИИ ЛИЧНОСТИ

ПРИ ОПЛАТЕ Иванов В. В.1, Черкасов Д. Ю.2, Лубова Е. С.3

1Иванов Вадим Вадимович /Ivanov Vadim Vadimovich - студент; 2Черкасов Денис Юрьевич / Cherkasov Denis Yurievich - студент; 3Лубова Елена Сергеевна /Lubova Elena Sergeevna - студент, кафедра компьютерной и информационной безопасности, Институт кибернетики Московский институт радиотехники электроники и автоматики Федеральное государственное бюджетное образовательное учреждение высшего образования Московский технологический университет, г. Москва

Аннотация: биометрия - это научная дисциплина, изучающая способы измерения и статического анализа физических и поведенческих характеристик людей, для идентификации одного человека из множества других людей. В настоящее время биометрические технологии используются и внедряются во многих областях или сферах, направленных на обеспечение защиты информации, такие как: сервисы онлайн-платежей, системы идентификации личности в различных структурах и в банковских структурах. С каждым годом количество биометрических систем и их пользователей увеличивается.

Ключевые слова: биометрия, аутентификация, платеж, технологии.

i Надоели баннеры? Вы всегда можете отключить рекламу.