Научная статья на тему 'Эффективность методов интеллектуального анализа данных в идентификации химического состава'

Эффективность методов интеллектуального анализа данных в идентификации химического состава Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
82
17
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТИП СТЕКЛА / TYPE OF GLASS / ТИП СТАЛИ / TYPE OF ANNEALING STEEL / КЛАССИФИКАЦИЯ / CLASSIFICATION / ОПТИМИЗАЦИЯ / OPTIMIZATION / АНСАМБЛЬ / ENSEMBLE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Скороход А. В.

Рассматривается решение задачи классификации типов объектов по его химическому составу методами интеллектуального анализа данных в платформе программной системы RapidMiner. Произведено сравнение эффективности использованных методов и установлены наиболее эффективные из них.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DATA MININNG TECHNIQUE EFFECTIVENESS IN IDENTIFICATION OF CHEMICAL COMPOSITION

Chemical composition identification problem is solved with data mining tools adopted from RapidMiner system. The performance of the used methods is compared and the most effective approaches are determined.

Текст научной работы на тему «Эффективность методов интеллектуального анализа данных в идентификации химического состава»

Решетнеескцие чтения. 2015

Искусственный интеллект и принятие решений. 2013. № 1. С. 13-23.

5. Semenkin E., Semenkina M. Self-configuring genetic algorithm with modified uniform crossover operator // Lecture Notes in Computer Science. 2012. Vol. 7331 LNCS. Part. 1. С. 414-421.

6. Semenkina M. E. Hybridization of local search with self-configuring genetic programming algorithm for automated fuzzy classifier design // Вестник СибГАУ. 2015. Т. 16, № 1. С. 113-118.

References

1. Semenkin E. S. [Evolutionary algorithms of decision support for complex systems management and control] // Vestnik SibGAU. 2005. No. 3, рp. 83-85 (In Russ.).

2. Lipinsky L. V., Semenkin E. S. [Application of genetic programming algorithm in automated design of intellectual information technologies] // Vestnik SibGAU. 2006. No. 3(10), рp. 22-26 (In Russ.).

3. Stanovov V. V., Semenkin E.S. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Vestnik SibGAU. 2013. No. 4(50), рр. 148-152.

4. Semenkina M. E. [Effectiveness investigation of adaptive evolutionary algorithms for data mining information technology design] // Iskusstvennyyintellekt i prinyatiyeresheniy. 2013. No. 1, рр. 13-23 (In Russ.).

5. Semenkin E., Semenkina M. Self-configuring genetic algorithm with modified uniform crossover operator // Lecture Notes in Computer Science. 2012. Vol. 7331 LNCS. Part 1, pр. 414-421.

6. Semenkina M. E. Hybridization of local search with self-configuring genetic programming algorithm for automated fuzzy classifier design // Vestnik SibGAU. 2015. No. 1(16), рp. 113-118.

© Семенкина М. Е., 2015

УДК 519.87

ЭФФЕКТИВНОСТЬ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В ИДЕНТИФИКАЦИИ ХИМИЧЕСКОГО СОСТАВА*

А. В. Скороход

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Рассматривается решение задачи классификации типов объектов по его химическому составу методами интеллектуального анализа данных в платформе программной системы RapidMiner. Произведено сравнение эффективности использованных методов и установлены наиболее эффективные из них.

Ключевые слова: тип стекла, тип стали, классификация, оптимизация, ансамбль.

DATA MININNG TECHNIQUE EFFECTIVENESS IN IDENTIFICATION OF CHEMICAL COMPOSITION

A. V. Skorokhod

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

Chemical composition identification problem is solved with data mining tools adopted from RapidMiner system. The performance of the used methods is compared and the most effective approaches are determined.

Keywords: type of glass, type of annealing steel, classification, optimization, ensemble.

Проблема классификации типов объектов по его химическому составу имеет большое значение. Классификация стекла или стали, прошедшей отжиг, по типу их исходного использования является актуальной задачей в ситуациях расследования причин и последствий различных происшествий. Так, к примеру, задача классификации типа осколков стекла решалась составителями базы данных в области криминалистики.

Было создано несколько процессов в платформе программной системы RapidMiner [1] для решения проблем классификации: проверка гипотезы о различии средних для двух выборок для данных векторов производительности использованных методов с помощью оператора 7^-1е81 по /-критерию Стьюден-та. Для обучения каждой технологии системы был

* Работа выполнена в рамках проекта RFMEFI57414X0037.

Математические методы моделирования, управления и анализа данных

использован метод перекрестной проверки (Cross Validation [2]). Также был создан процесс оптимизации классификационных моделей с оператором Optimize Parameters [1] и ансамбль методов при помощи оператора Vote [1]. В этих процессах для обучения каждой технологии системы был использован метод (Split Data [1]).

Для решения поставленной задачи были использованы такие методы, как индукция правил (RI [3]), метод k-ближайших соседей (k-NN [4]), линейный дис-криминантный анализ (LDA [5]), дерево решений (DT [6]), многослойный персептрон (MLP [7]), нейронная сеть (NN [8]), наивный байесовский классификатор (NB [9]), случайный лес (RF [10]), логистическая регрессия (LR [11]), метод опорных векторов (SVM [12]).

Процесс оптимизации классификационных моделей по некоторым параметрам с оператором Optimize Parameters [1] был создан для улучшения показателей векторов производительности использованных методов.

Было создано два ансамбля методов, реализованных при помощи оператора Vote [1], ансамбль, содержащий три метода, имеющих наилучшие показатели векторов производительности. Такими оказались индукция правил, многослойный персептрон и метод k ближайших соседей (для базы данных Glasses Identification) и индукция правил, дерево решений и метод k ближайших соседей (для базы данных Anneal). Также был создан ансамбль, содержащий все используемые методы. Созданный процесс позволил учитывать ошибки всех методов, использованных для решения задачи классификации.

Задача классификации типов осколков стекла по его химическому составу была решена с наивысшей точностью (96,64 %) методом RI с оптимизационными настройками параметров. Ансамбль как с использованием всех методов, так и с использованием трех лучших методов не позволяет построить достаточно эффективные системы классификации стекол.

Задача классификации типов отжига стали по ее химическому составу была решена с наилучшим результатом (99,26 %) методом DT. Остальные методы работают хуже, и это различие статистически значимо. Применение оптимизации настроек и обоих видов ансамблей ожидаемо не дало повышения точности решения задачи.

Таким образом, проблема классификации типов объектов по химическому составу может быть успешно решена в платформе программной системы RapidMiner, однако для этого требуется специалист в области интеллектуального анализа данных. Разработка самонастраивающихся процедур интеллектуального анализа данных, с которыми сможет работать конечный пользователь (специалист в предметной области), возможна за счет применения более эффективных технологий, основанных на специальных эволюционных алгоритмах [13; 14].

Библиографические ссылки

1. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 5.09.2015).

2. Shao J. Linear Model Selection by Cross-validation // J. of the American Statistical Association. 1993. Vol. 88. Р. 486-494,

3. Evett Ian W., Spiehler E. J. Rule Induction in Forensic Science // KBS in Government. 1987. P. 107-118

4. Angiulli F. Fast nearest neighbor condensation for large data sets classification // IEEE Transactions on Knowledge and Data Engineering. 2007. Vol. 19, no. 11. P. 1450-1464,

5. Sparse Discriminant Analysis / Line Clemmensen, Trevor Hastie, Daniela Witten and Bjarne Ersboll // Technometrics. 2011. Vol. 53, no. 4. P. 406-413.

6. Yuan Y., Shaw M. J. Induction of fuzzy decision trees // Fuzzy Sets and Systems. 1995. № 69. P. 125-139.

7. Stirling D. and Buntine W. Process routings in a steel mill: A challenging induction problem // Artifical Intelligence Developments and Applications / Ed. J. S. Gero and R. Stanton Amsterdam : North-Holland, 1988. P. 301-313.

8. Горбань А. Н. Обобщенная аппроксимационная теорема и вычислительные возможности нейронных сетей // Сибирский журнал вычислительной математики. 1998. Т. 1, № 1. С. 12-24.

9. Kevin P. Murphy Naive Bayes classifiers, Last updated. October 24, 2006.

10. Breiman L. Random forests // Machine Learning. 2001. № 45(1). Р. 5-32.

11. Friedman J., Hastie T., Tibshirani R. Additive logistic regression: a statistical view of boosting (With discussion and a rejoinder by the authors) // Ann. Statist. 2000. Vol. 28, № 2. Р. 337-407.

12. Suykens J. A. K., Vandewalle J. Least Squares Support Vector Machine Classifiers // Neural Processing Letters, Vol. 9, iss. 3. Pp. 293-300.

13. Бежитский С. С., Семенкин Е. С., Семенкина О. Э. Гибридный эволюционный алгоритм для задач выбора эффективных вариантов систем управления // Автоматизация. Современные технологии. 2005. № 11. С. 24.

14. Семенкин Е. С., Семенкина М. Е. Применение генетического алгоритма с модифицированным оператором равномерной рекомбинации при автоматизированном формировании интеллектуальных информационных технологий // Вестник СибГАУ. 2007. № 3(16). С. 27-33.

References

1. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (date of visit: 5.09.2015).

2. Shao J. Linear Model Selection by Cross-validation // J. of the American Statistical Association. 1993. Vol. 88, pp. 486-494.

3. Rule Induction in Forensic Science / Ian W. Evett and E. J. Spiehler // KBS in Government. 1987. Pp. 107-118.

4. Angiulli F. Fast nearest neighbor condensation for large data sets classification, IEEE Transactions on Knowledge and Data Engineering. Nov. 2007. Vol. 19, no. 11, pp. 1450-1464,

5. Sparse Discriminant Analysis / Line Clemmensen, Trevor Hastie, Daniela Witten and Bjarne Ersboll // Technometrics. 2011. Vol. 53, no. 4, pp. 406-413.

6. Yuan Y. and Shaw M.J. Induction of fuzzy decision trees. Fuzzy Sets and Systems 69, 1995, pp. 125-139.

Решетнееские чтения. 2015

7. Stirling D. and Buntine W., Process routings in a steel mill: A challenging induction problem, In Gero J. S. and Stanton R., editors, Artifical Intelligence Developments and Applications, Amsterdam : North-Holland, 1988. Pр. 301— 313.

8. Gorban A. N. Generalized approximation theorem and computational capabilities of neural networks // Siberian Journal of Computational Mathematics. 1998. Vol. 1, no. 1, pp. 12-24.

9. Kevin P. Murphy Naive Bayes classifiers, Last updated. October 24, 2006.

10. Breiman L. Random forests // Machine Learning, 2001. 45(1), рр. 5-32.

11. Friedman J., Hastie T., Tibshirani R. Additive logistic regression: a statistical view of boosting (With discussion and a rejoinder by the authors) // Ann. Statist. 2000. Vol. 28. №. 2, рр. 337-407.

12. Suykens J. A. K., Vandewalle J. Least Squares Support Vector Machine Classifiers // Neural Processing Letters. Vol. 9, iss. 3, pp. 293-300.

13. Bezhitskiy S. S., Semenkin E. S., Semenkina O. E. Hybrid evolutionary algorithms for the choice of effective variants of control systems // Avtomatizatsiya. Sovremennye technologii. 2005. № 11. P. 24.

14. Semenkin E. S., Semenkina M. E. Application of genetic programming algorithm with modified uniform crossover operator for automated design of intelligent information technologies // Vestnik SibGAU. 2007. № 3 (16), рp. 27-33.

© Скороход А. С., 2015

УДК 519.85

ГЕНЕТИЧЕСКИЙ АЛГОРИТМ ДЛЯ ИДЕНТИФИКАЦИИ МНОЖЕСТВА ЭКСТРЕМУМОВ*

Е. А. Сопов

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Предложен новый генетический алгоритм для решения задачи мультимодальной оптимизации, заключающейся в отыскании множества всех глобальных и локальных оптимумов задачи или построении хорошей аппроксимации этого множества. Используется самоконфигурируемая метаэвристика для кооперации многих мультимодальных стратегий поиска.

Ключевые слова: генетический алгоритм, мультимодальная оптимизация, самоконфигурация, метаэври-стика.

GENETIC ALGORITHM FOR MULTIPLE OPTIMA IDENTIFICATION

E. A. Sopov

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

In this paper a new genetic algorithm is proposed for solving multimodal optimization problems, which are to find the set of all global and local optima to the problem or a good approximation of the set. A self-configuring metaheuristic for the cooperation of many multimodal search strategies is used.

Keywords: genetic algorithm, multimodal optimization, self-configuration, metaheuristic.

Введение. Задача мультимодальной оптимизации (ММО) заключается в отыскании множества всех глобальных и локальных оптимумов задачи или построении хорошей аппроксимации этого множества. Генетические алгоритмы (ГА) довольно успешно справляются с многоэкстремальными задачами, однако имеют тенденцию сходиться к лучшему найденному решению. В последние годы ММО становится популярной, предложено множество различных подходов [1]. Большинство эффективных алгоритмов ори-

ентировано на решение задач с вещественными переменными, что связано с лучшим понимаем свойств ландшафта целевой функции в непрерывном пространстве поиска. В то же время многие практические задачи оптимизации являются моделью «черного ящика», их анализ затруднен или невозможен. Переменные задачи могут быть представлены в разных

* Работа поддержана грантом Президента Российской Федерации (МК-3285.2015.9).

i Надоели баннеры? Вы всегда можете отключить рекламу.