Актуальные проблемы авиации и космонавтики - 2016. Том 1
УДК 62
О ВЫБОРЕЭФФЕКТИВНЫХНАСТРОЕКГЕНЕТИЧЕСКОГО АЛГОРИТМА ОПТИМИЗАЦИИ ПАРАМЕТРОВ КЛАССИФИКАТОРОВ В ЗАДАЧЕАНАЛИЗА АЭРОКОСМИЧЕСКИХСНИМКОВ ГОРОДСКОГО ЛАНДШАФТА
А. И.Ленчик
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Описывается исследование выбора эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задачах анализа аэрокосмических снимков городского ландшафта.
Одним из самых стремительно развивающихся направлений анализа данных является анализ изображений. Было решено исследовать эффективность интеллектуальных методов анализа данных в задачах классификации изображений.
С репозитория [1] была взята база данных, соответствующая этой задаче. База данных оаэро-космических снимках городского ландшафта содержит 168 снимков, с 148 параметрами и 9 классов объектов.
Для решения данной задачи использовалось программное обеспечение RapidMinerStudio 5.3.015 [2]. RapidMiner - популярное средство решения задач анализа данных, а именно эта версия зарекомендовала себя надежностью.
Как методы анализа данных для этой задачи, были выбраны следующие алгоритмы: искусственная нейронная сеть (ANN, [3]) с 1 скрытым слоем, состоящим из 19 нейронов с сигмоидальной логистической функцией в качестве функции активации; метод ближайших соседей (k-NN, [4]); дерево решений (DT, [5]); индукция правил (RI, [6]); автоматический многослойный персептрон (AutoMLP). Данные методы часто применяют для решения задач классификации и показывают высокие результаты [7].
После применения всех перечисленных методов на наборе данных задачи, были получены следующие результаты (табл. 1).
Таблица 1
ANN k-NN DT RI AutoMLP
70.23% 34.52% 68.45% 77.97% 72.62%
Результатом является точность классификации. Лучший результат показал метод RI. Три метода (DT, ANN, AutoMLP) показали схожие результаты, приблизительно 70 %. Следующий шаг был попыткой объединить несколько методов в одном алгоритме. Это ансамбль с голосованием, включает все методы или лучший с худшими методами (RI и k-NN). Результаты представлены в табл. 2.
Таблица 2
Ансамбли
RI + kNN Все методы
74.40 % 75.59 %
Была рассмотрена гипотеза о том, что генетический алгоритм (далее ГА), хорошо решающий сложную задачу однокритериальной оптимизации, должен справляться с задачей настроек классификатора. Был реализован ГА безусловной оптимизации использующий в качестве тестовых функций: квадратичную функцию, функцию Растригина, функцию Шекеля. Были отобраны 3 варианта настроек исследуемого ГА, показавших лучший, худший и средний результаты в задачах однокритериаль-ной оптимизации. В системе RapidMiner выбранные классификаторы были оптимизированы генетическим алгоритмом со следующими настройками:
1. «Лучшая»: селекция - турнирная с размером турнира 9; скрещивание - равномерное с вероятностью 0,95; мутация - средняя.
Секция «Математические методы моделирования, управления и анализа данных»
2. «Средняя»: селекция - ранговая; скрещивание - равномерное с вероятностью 0,6; мутация -сильная.
3. «Худшая»: селекция - пропорциональная; скрещивание - равномерное с вероятностью 0,6; мутация - слабая.
Результаты работы классификаторов с оптимизированными параметрами представлены в табл. 3.
Таблица 3
Настройки с лучшими результатами на тестовых функциях
ANN k-NN DT RI AutoMLP
70.83 % 33.33 % 68.75 % 78.57 % 73.21 %
Настройки с средними результатами на тестовых функциях
ANN k-NN DT RI AutoMLP
69.05 % 32.74 % 67.26 % 77.38 % 72.62 %
Настройки с худшими результатами на тестовых функциях
ANN k-NN DT RI AutoMLP
68.45 % 31.55 % 66.07 % 77.38 % 70.24 %
Как видно из таблицы далеко не всегда удается улучшить качество классификации оптимизируя параметры классификаторов. К тому же статистическая значимость отличия результатов не подтверждается. Возможно, работу классификаторов можно улучшить, оптимизируя их параметры с помощью ГА, но настройки самого ГА нужно выбирать другим способом, так как использование предварительного анализа эффективности ГА на тестовых задачах с последующим применением в пакете RapidMiner при решении реальных задач не дал положительного эффекта. Это может быть связано с недостаточно репрезентативным множеством тестовых задач, либо причиной является непереносимость выбора эффективных настроек с множества тестовых задач на реальные. Возможным решением этой проблемы может быть использование подходов к настройке классификаторов, связанных с самонастройкой адаптивных алгоритмов оптимизации [8-10].
Библиографические ссылки
1. URL: http://archive.ics.uci.edu/ml/index.html (дата обращения: 02.03.2016).
2. Rapid Miner Studio Downloadable GUI for machine learning, data mining, text mining, predictive analytics and business analytics // URL: https://rapidminer.com/ [21 August 2015] (дата обращения: 02.03.2016).
3. Wang S. C. Artificial neural network. New York: Springer US - Interdisciplinary Computing in Java Programming, 2003. Pp. 81-100.
4. Wang H., Bell D. Extended k-Nearest Neighbours Based on Evidence Theory // The Computer Journal. 2004. Vol. 47(6). Nov. Pp. 662-672.
5. Osei-Bryson K. M. Overview on decision tree induction. New York: Springer US - Advances in Research Methods for Information Systems Research, 2014. Pp. 15-22.
6. Rule Induction as a Technique of Detecting Severity of Myocardial Infarction /RaquibRidwan, MdIbneaSina Bony and Kamrul Hasan // 4th International Conference on Bioinformatics and Biomedical Technology. 2012. Pp. 34-39.
7. Lenchik A. I., Panfilov I. A. Application of data mining problem in banknote classification problems // Проблемы экономики, организации управления в России и мире : материалы X Междунар. науч.-практ. конф. Прага, Чешская республика. 2015.
8. Stanovov V. V., Semenkin E. S. Self-adjustede volutionary algorithms based approach for automated design of fuzzy-logic systems // Вестник СибГАУ. 2013. № 4(50). С. 148-152.
9. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm // ICINCO 2014 - Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics 11. 2014. С. 318-323.
10. Akhmedova S., Semenkin E. Co-operation of biology related algorithms meta-heuristic in ann-based classifiers design // Proceedings of the 2014 IEEE Congress on Evolutionary Computation, CEC 2014. 2014. С. 867-872.
© Ленчик А. И., 2016