Актуальные проблемы авиации и космонавтики - 2016. Том 1
УДК 519.87
О ВЫБОРЕ ЭФФЕКТИВНЫХ НАСТРОЕК ГЕНЕТИЧЕСКОГО АЛГОРИТМА ОПТИМИЗАЦИИ ПАРАМЕТРОВ КЛАССИФИКАТОРОВ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ СТЕКЛА
А. В. Скороход
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева
Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Производится выбор настроек генетического алгоритма с последующим применением их в системе RapidMiner при оптимизации классификаторов в задаче определения типов стекла по их химическим характеристикам.
Ключевые слова: анализ стекла, классификация, оптимизация, генетический алгоритм. OPTIMIZE PARAMETERS OF DATA MINING METHODS IN GLASS IDENTIFICATION
A. V. Skorokhod
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
In this article, the selection of genetic algorithm 's settings is fulfilled following their application within RapidMiner system for the classifiers optimization in the task of glass identification.
Keywords: glass identification, classification, optimization, genetic algorithm.
В наши дни с развитием всевозможных новых технологий передачи и хранения данных объем новой информации постоянно растет. Обработка поступающих данных человеком уже не просто нецелесообразна, а невозможна. В связи с этим актуальность методов интеллектуального анализа данных, и, следовательно, задач классификации, моделирования и прогнозирования, несомненна.
Решение задачи классификации осколков стекла по типу их исходного использования необходимо в области криминалистики. Осколки, полученные с места преступления, являются вещественными доказательствами и определение их принадлежности важно для следствия.
Используемая в данной работе база данных ([1]) включает 214 примеров, каждый из которых содержит 9 параметров классификации. Количество классов, к которым может быть отнесен объект равно семи - это типы классифицируемых осколков стекла (оконное, автомобильная фара, и т. п.). Задача может быть достаточно успешно решена встроенными средствами пакета RapidMiner [2]. Для решения данной задачи [3] были использованы следующие классификаторы: искусственная нейронная сеть [4], метод k-ближайших соседей [5], дерево решений [6].
Для повышения точности классификации может быть применена оптимизация параметров классификаторов встроенным эволюционным алгоритмом оптимизации. Однако эволюционные алгоритмы в свою очередь должны быть тщательно настроены для успешности решения конкретной задачи, что затруднительно делать в ходе решения задачи классификации. Поэтому для выбора эффективных настроек эволюционного алгоритма оптимизации была выполнена его программная реализация на языке С++ в среде Embarcadero RAD Studio XE5, которая была использована для проведения численных экспериментов с множеством тестовых задач, отражающих основные особенности целевых функций. В качестве тестовых задач были выбраны квадратичная функция, функция Растригина и функция Шекеля, а в качестве показателей эффективности - надежность алгоритма и затраты на нахождения оптимума [7]. В результате были установлены «лучшие» и «худшие» настройки эволюционного алгоритма на множестве тестовых задач. «Худшая»: селекция пропорциональная, мутация средняя, вероятность равномерного скрещивания 0,9. «Лучшая»: селекция турнирная, мутация сред-
Секция «Математические методы моделирования, управления и анализа данных»
няя, вероятность равномерного скрещивания 0,9. Данные настройки и были применены при оптимизации параметров указанных классификаторов в системе RapidMiner в ходе решения задачи идентификации типов осколков стекла.
Сравнение эффективности каждого из классификаторов (усредненная по 10 экспериментам доля правильно классифицированных событий и ее разброс), полученной описанным способом в ходе численных экспериментов с системой RapidMiner, а также результаты проверки по критерию Стью-дента показали, что статистически значимого улучшения не происходит. Более того, «оптимизация» эволюционным алгоритмом с худшими настройками иногда приводит к (несущественному) снижению эффективности классификаторов.
Таким образом, можно сделать вывод, что оптимизация параметров классификаторов при идентификации осколков стекла генетическим алгоритмом должна осуществляться на основе других подходов. В первую очередь необходимо расширить множество тестовых задач за счет включения в него более сложных случаев, например - добавляя реальные практические задачи оптимизации [8-10]. Кроме того, учитывая возможность того, что выводы, сделанные по тестовым задачам, далеко не всегда напрямую переносимы на реальные практические задачи [11], необходимо дополнять инструментарий универсальных систем, типа RapidMiner, средствами автоматической настройки используемых в нем стохастических алгоритмов оптимизации [12-14].
Библиографические ссылки:
1. UCI Machine Learning repository URL: http://archive.ics.uci.edu/ml/datasets (дата обращения: 22.09.2015).
2. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 05.09.2015).
3. Скороход А. В. Об эффективности методов интеллектуального анализа данных при классификации типов стекла по его химическому составу // Решетневские чтения : материалы XIX Между-нар. науч.-практ. конф., посвящ. 55-летию Сиб. гос. аэрокосмич. ун-та им. акад. М. Ф. Решетнева (10-14 нояб. 2015, г. Красноярск). 2015. Ч. 2. С. 96-98.
4. Горбань А. Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей // Сибирский журнал вычислительной математики. 1998. Т. 1, № 1. С. 12-24.
5. Angiulli F. Fast nearest neighbor condensation for large data sets classification, IEEE Transactions on Knowledge and Data Engineering. 2007. Vol. 19, No. 11. Pp. 1450-1464.
6. Шевелев О. Г., Петраков А. В. Классификация текстов с помощью деревьев решений и нейронных сетей прямого распространения // Вестник Томск. гос. ун-та. 2006. Вып. № 290.
7. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник СибГАУ. 2007. № 3. С. 27-33.
8. Yakimov Y. I., Semenkin E. S., Yakimov I. S. Two-level genetic algorithm for a fullprofile fitting of x-ray powder patterns // Zeitschrift fur Kristallographie, Supplement. 2009. № 30. С. 21-26.
9. Медведев А. В., Победаш П. Н., Семенкин Е. С. Математическая модель глобального социально-экономического развития // Вестник СибГАУ. 2010. № 5(31). С. 137-142.
10. Семенкин Е. С., Клешков В. М. Модели и алгоритмы распределения общих ресурсов при управлении инновациями реструктурированного машиностроительного предприятия // Проблемы машиностроения и автоматизации. 2006. № 3. С. 24-30.
11. Бежитский С. С., Семенкин Е. С., Семенкина О. Э. Гибридный эволюционный алгоритм для задач выбора эффективных вариантов систем управления // Автоматизация. Современные технологии. 2005. № 11. С. 24.
12. Stanovov V. V., Semenkin E. S. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. № 4(50). С. 148-152.
13. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm // ICINCO 2014 - Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics 11. 2014. С. 318-323.
14. Akhmedova S., Semenkin E. Co-operation of biology related algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the 2014 IEEE Congress on Evolutionary Computation, CEC 2014. 2014. С. 867-872.
© Скороход А. В., 2016