Научная статья на тему 'О выбореэффективныхнастроекгенетического алгоритма оптимизации параметров классификаторов в задачеанализа аэрокосмическихснимков городского ландшафта'

О выбореэффективныхнастроекгенетического алгоритма оптимизации параметров классификаторов в задачеанализа аэрокосмическихснимков городского ландшафта Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
42
6
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ленчик А. И.

Описывается исследование выбора эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задачах анализа аэрокосмических снимков городского ландшафта.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ленчик А. И.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT ALGORITHM PARAMETER OPTIMIZATION OF CLASSIFIERS IN SADUCEANS AEROKOSMICHESKIKH OF THE URBAN LANDSCAPE

Describes a study of the choice of effective settings for genetic algorithm parameter optimization of classifiers in problems of analysis of space images of the urban landscape

Текст научной работы на тему «О выбореэффективныхнастроекгенетического алгоритма оптимизации параметров классификаторов в задачеанализа аэрокосмическихснимков городского ландшафта»

Актуальные проблемы авиации и космонавтики - 2016. Том 1

УДК 62

О ВЫБОРЕЭФФЕКТИВНЫХНАСТРОЕКГЕНЕТИЧЕСКОГО АЛГОРИТМА ОПТИМИЗАЦИИ ПАРАМЕТРОВ КЛАССИФИКАТОРОВ В ЗАДАЧЕАНАЛИЗА АЭРОКОСМИЧЕСКИХСНИМКОВ ГОРОДСКОГО ЛАНДШАФТА

А. И.Ленчик

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Описывается исследование выбора эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задачах анализа аэрокосмических снимков городского ландшафта.

Одним из самых стремительно развивающихся направлений анализа данных является анализ изображений. Было решено исследовать эффективность интеллектуальных методов анализа данных в задачах классификации изображений.

С репозитория [1] была взята база данных, соответствующая этой задаче. База данных оаэро-космических снимках городского ландшафта содержит 168 снимков, с 148 параметрами и 9 классов объектов.

Для решения данной задачи использовалось программное обеспечение RapidMinerStudio 5.3.015 [2]. RapidMiner - популярное средство решения задач анализа данных, а именно эта версия зарекомендовала себя надежностью.

Как методы анализа данных для этой задачи, были выбраны следующие алгоритмы: искусственная нейронная сеть (ANN, [3]) с 1 скрытым слоем, состоящим из 19 нейронов с сигмоидальной логистической функцией в качестве функции активации; метод ближайших соседей (k-NN, [4]); дерево решений (DT, [5]); индукция правил (RI, [6]); автоматический многослойный персептрон (AutoMLP). Данные методы часто применяют для решения задач классификации и показывают высокие результаты [7].

После применения всех перечисленных методов на наборе данных задачи, были получены следующие результаты (табл. 1).

Таблица 1

ANN k-NN DT RI AutoMLP

70.23% 34.52% 68.45% 77.97% 72.62%

Результатом является точность классификации. Лучший результат показал метод RI. Три метода (DT, ANN, AutoMLP) показали схожие результаты, приблизительно 70 %. Следующий шаг был попыткой объединить несколько методов в одном алгоритме. Это ансамбль с голосованием, включает все методы или лучший с худшими методами (RI и k-NN). Результаты представлены в табл. 2.

Таблица 2

Ансамбли

RI + kNN Все методы

74.40 % 75.59 %

Была рассмотрена гипотеза о том, что генетический алгоритм (далее ГА), хорошо решающий сложную задачу однокритериальной оптимизации, должен справляться с задачей настроек классификатора. Был реализован ГА безусловной оптимизации использующий в качестве тестовых функций: квадратичную функцию, функцию Растригина, функцию Шекеля. Были отобраны 3 варианта настроек исследуемого ГА, показавших лучший, худший и средний результаты в задачах однокритериаль-ной оптимизации. В системе RapidMiner выбранные классификаторы были оптимизированы генетическим алгоритмом со следующими настройками:

1. «Лучшая»: селекция - турнирная с размером турнира 9; скрещивание - равномерное с вероятностью 0,95; мутация - средняя.

Секция «Математические методы моделирования, управления и анализа данных»

2. «Средняя»: селекция - ранговая; скрещивание - равномерное с вероятностью 0,6; мутация -сильная.

3. «Худшая»: селекция - пропорциональная; скрещивание - равномерное с вероятностью 0,6; мутация - слабая.

Результаты работы классификаторов с оптимизированными параметрами представлены в табл. 3.

Таблица 3

Настройки с лучшими результатами на тестовых функциях

ANN k-NN DT RI AutoMLP

70.83 % 33.33 % 68.75 % 78.57 % 73.21 %

Настройки с средними результатами на тестовых функциях

ANN k-NN DT RI AutoMLP

69.05 % 32.74 % 67.26 % 77.38 % 72.62 %

Настройки с худшими результатами на тестовых функциях

ANN k-NN DT RI AutoMLP

68.45 % 31.55 % 66.07 % 77.38 % 70.24 %

Как видно из таблицы далеко не всегда удается улучшить качество классификации оптимизируя параметры классификаторов. К тому же статистическая значимость отличия результатов не подтверждается. Возможно, работу классификаторов можно улучшить, оптимизируя их параметры с помощью ГА, но настройки самого ГА нужно выбирать другим способом, так как использование предварительного анализа эффективности ГА на тестовых задачах с последующим применением в пакете RapidMiner при решении реальных задач не дал положительного эффекта. Это может быть связано с недостаточно репрезентативным множеством тестовых задач, либо причиной является непереносимость выбора эффективных настроек с множества тестовых задач на реальные. Возможным решением этой проблемы может быть использование подходов к настройке классификаторов, связанных с самонастройкой адаптивных алгоритмов оптимизации [8-10].

Библиографические ссылки

1. URL: http://archive.ics.uci.edu/ml/index.html (дата обращения: 02.03.2016).

2. Rapid Miner Studio Downloadable GUI for machine learning, data mining, text mining, predictive analytics and business analytics // URL: https://rapidminer.com/ [21 August 2015] (дата обращения: 02.03.2016).

3. Wang S. C. Artificial neural network. New York: Springer US - Interdisciplinary Computing in Java Programming, 2003. Pp. 81-100.

4. Wang H., Bell D. Extended k-Nearest Neighbours Based on Evidence Theory // The Computer Journal. 2004. Vol. 47(6). Nov. Pp. 662-672.

5. Osei-Bryson K. M. Overview on decision tree induction. New York: Springer US - Advances in Research Methods for Information Systems Research, 2014. Pp. 15-22.

6. Rule Induction as a Technique of Detecting Severity of Myocardial Infarction /RaquibRidwan, MdIbneaSina Bony and Kamrul Hasan // 4th International Conference on Bioinformatics and Biomedical Technology. 2012. Pp. 34-39.

7. Lenchik A. I., Panfilov I. A. Application of data mining problem in banknote classification problems // Проблемы экономики, организации управления в России и мире : материалы X Междунар. науч.-практ. конф. Прага, Чешская республика. 2015.

8. Stanovov V. V., Semenkin E. S. Self-adjustede volutionary algorithms based approach for automated design of fuzzy-logic systems // Вестник СибГАУ. 2013. № 4(50). С. 148-152.

9. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm // ICINCO 2014 - Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics 11. 2014. С. 318-323.

10. Akhmedova S., Semenkin E. Co-operation of biology related algorithms meta-heuristic in ann-based classifiers design // Proceedings of the 2014 IEEE Congress on Evolutionary Computation, CEC 2014. 2014. С. 867-872.

© Ленчик А. И., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.