The nonhierarchical neural network Kohonen Shayakhmetkizi D.1, Adilov A.2, Ysenbai T.3, Kunesbekov A.4 (Russian Federation)
Неиерархическая нейронная сеть Кохонена Шаяхметкызы Д.1, Адилов А. И.2, Усенбай Т. А.3, Кунесбеков А. С.4
(Российская Федерация)
1 Шаяхметкызы Динара / Shayakhmetkizi Dinara - магистрант;
2Адилов Алмат Искандирбекулы / Adilov Almat - магистрант, кафедра сенсорики;
3Усенбай Талгат Абдижалелулы / Ysenbai Talgat -магистрант;
4Кунесбеков Абылайхан Сеилбекович / Kunesbekov Abilai - магистрант, кафедра систем управления и информатики,
Санкт-Петербургский национальный исследовательский университет информационных технологий, механики оптики, г. Санкт-Петербург
Аннотация: в работе исследована структура нейронной сети по типу Кохонена для кластерного анализа. С помощью кластерного анализа группировались данные белковых масс риса. Результатом спектограммы кластера объединились по родственному сходству, весовые позиции кластера смещены направо. С помощью программы Matlab проведено обучение нейронной сети Кохонена и получены кластеры.
Abstract: we study the structure of the neural network of the type Kohonen for cluster analysis. With dasstemogo grouped data analysis rice protein mass. The result spektogrammy cluster united on sibling resemblance cluster weight positions shifted to the right. With the help of Matlab trained neural network Kohonen and obtained clusters.
Ключевые слова: Кохонен, кластерный анализ, нейронная сеть, анализ данных, Matlab.
Keywords: Kohonen, cluster analysis, neural network analysis, Matlab.
Применение нейронных сетей в интеллектуальном анализе данных вызывало скептическое отношение, ввиду недостатков, присущих нейронным сетям: сложная структура, плохая интерпретируемость и долгое время обучения. Однако такие преимущества, как высокая допустимость к зашумленным данным и низкий коэффициент ошибок, непрерывное усовершенствование и оптимизация различных алгоритмов обучения сетей, алгоритмов извлечения правил, алгоритмов упрощения сетей, делают нейронные сети все более и более перспективным направлением в data mining. Data mining - анализ данных, основанный на нейронной сети Кохонена [1].
Существует множество применений нейронных сетей: в биоинформатике, робототехнике, автоматизации процессов, обработке сигналов, в биомедицине (автоматическая постановка диагноза по ЭКГ, ЭМГ или идентификация личности по биометрическими показателями).
Таким образом, можно сказать, что использование нейронных сетей в технологии интеллектуального анализа данных является актуальным направлением, которое непрерывно развивается по пути устранения недостатков.
В аналитических методах технологии анализа данных известны различные алгоритмы и методы. Основная часть методов анализа данных была разработана в области интеллекта. Из методов нейронных сетей модель сети Кохонена использует для кластеризации и распознавания образов. Data mining основан на обучения без учителя. При таком обучении обучающее множество состоит из значений входных переменных. Идея сети Кохонена принадлежит финскому ученному Тойво Кохонену
56
[2-4]. Нейроны самоорганизующихся сетей могут быть обучены выявлению групп (кластеров) векторов входа, обладающих некоторыми общими свойствами.
Обучение без учителя или кластерный анализ - это кластеризация объектов, когда схожие объекты кластеризуются в один объект. Алгоритмы кластерного анализа делятся на две группы, такие как иерархические и итеративные методы, т. е. неиерархические. Иерархические методы кластеризации объединяют объекты по схожему типу в одну, так сказать дендрограмму, т. е. иерархическое дерево. В итеративном алгоритме кластеризации наиболее популярны методы Кохонена. На сегодняшнее время существует много программ для кластерного анализа, в том числе есть специальная программа STATISTICA для решении статистических задач. Использование нейронной сети Кохонена дает возможность точной визуализации и упрощения многомерной структуры.
В качестве примера выбираем метод неиерархической кластеризации по методу Кохонена. Для анализа данных выбираем ЭФИ показатель риса. Электрофоретическая интенсивность (ЭФИ) - движение заряженных частиц под воздействием электрического поля. ЭФИ показывает количество заряженных пигментных частиц белков а, в, ю зоны. Все показатели трех зон - смешанные по содержанию белка. Данной задачи кластерного анализа является - определить, к какой зоне относятся показатели белковых масс.
С помощью программного продукта Matlab создаем сеть Кохонена. Такие сети полезны, когда мы не знаем цель Target.
Ниже приведены данные для самонастройки сети:
А количество нейронов в этой сети равно 6; х база знаний z;
х зададим одно из множеств для 1 кластера;
х середина для 1 кластера будет равна 3, с средним разбросом от центра случайность равна (1, 25);
А v^ cl будет массивом размерности (1, 25).
Текст программы на Matlab:
>> v1=1+rand(1,25);
>> c1=3+rand(1,25);
>> plot(c1,v1,'ob')
>> v2=0+rand(1,25);
>> c2=-2+rand(1,25);
>> plot(c2,v2,'or')
>> v3=4+rand(1,25);
>> c3=-2+rand(1,25);
>> plot(c3,v3,'oy')
>> v4=0+rand(1,25);
>> c4=-3+rand(1,25);
>> plot(c4,v4,'og')
>> v5=4+rand(1,25);
>> c5=-3+rand(1,25);
>> plot(c5,v5,'ok')
>> v6=-4+rand(1,25);
>> c6=-1+rand(1,25);
>> plot(c6,v6,'oc')
Графика, состоящая из 6 кластеров, которая показывает массив размерности.
57
Рис. 1. Шесть класстеров, которые объедененны по типу схожества
Далее, после результата обучения нам будут известны насколько центров кластеров, и спектры распределились правильно. Если сравнить результаты спектров кластера и центры кластеров нейронной сети Кохонена, мы видим совершенно одинаковые результаты. Так как на 5 ячейке карты отсутствует значение, оно сместилось на 6 карту по типу одинаковых схожеств и по содержанию белков в рисе. По весовым позициям можем сказать что в 6 карте удвоение. Удвоение показывает одна типичность, т. е родственность.
58
Рис. 2. Результативные данные после обучении нейроной сети
В заключение следует отметить, что основным достоинством применения нейронных сетей является возможность решать различные неформализованные задачи. Даже при этом возможно моделировать различные ситуации, подавая на вход сети различные данные и оценивая выдаваемый сетью результат.
В ходе применения нейронных сетей отмечен существенный недостаток: сложность понимания процесса получения сетью результата. Первым шагом к устранению данной проблемы является разработка новой технологии, которая позволяет генерировать описание процесса решения задачи нейронной сетью. Используя таблицу экспериментальных данных, описывающих предметную область, можно будет получить явный алгоритм решения поставленной задачи.
Литература
1. Xianjun Ni. Research of Data Mining Based on Neural Networks. - World Academy of Science // -2008. - № 39. -P. 381-384.
2. Алтай Е. А., Макешева К. К. Применение нейронной сети Кохонена для кластерного анализа // Труды Международных Сатпаевских чтений «Роль и место молодых ученых в реализации стратегии «Казахстан-2050», посвященных 80-летию КазНТУ имени К. И. Сатпаева. - 2014. - Т. 3. - С. 47-51.
3. Manzhula V. G., Fedyashov D. S., Kohonen neural networks and fuzzy neural networks in data mining // Technical sciences. - 2013. - 4. - P 108-114.
4. Christopher M. Pattern Recognition and Machine Learning., SPRINGER SCIENCE, 2012. - 373 p.
59