Научная статья на тему 'О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задаче распознавания спама в электронных письмах'

О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задаче распознавания спама в электронных письмах Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
83
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СПАМ / РАСПОЗНАВАНИЕ / КЛАССИФИКАЦИЯ / ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / ОПТИМИЗАЦИЯ / SPAM / IDENTIFICATION / CLASSIFICATION / GENETIC ALGORITHM / OPTIMIZATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дресвянский Д. В.

Рассматривается решение задачи анализа спама в электронных письмах средствами пакета RapidMiner. Используемые методы классификации оптимизированы с помощью генетического алгоритма. Проведено сравнение эффективности неоптимизированных методов классификации с оптимизированными.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Дресвянский Д. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ABOUT A CHOICE OF EFFECTIVE SETTINGS OF GENETIC ALGORITHM FOR OPTIMIZATION OF CLASSIFIERS' PARAMETERS IN THE PROBLEM OF SPAM DETECTION IN E-MAILS

The problem of spam detection in e-mails is solved with RapidMiner. Classification methods used are optimized with genetic algorithm. Efficiency comparison of non-optimized and optimized methods of classification is presented.

Текст научной работы на тему «О выборе эффективных настроек генетического алгоритма оптимизации параметров классификаторов в задаче распознавания спама в электронных письмах»

Секция ««Математические методы моделирования, управления и анализа данных»

УДК 519.87

О ВЫБОРЕ ЭФФЕКТИВНЫХ НАСТРОЕК ГЕНЕТИЧЕСКОГО АЛГОРИТМА ОПТИМИЗАЦИИ ПАРАМЕТРОВ КЛАССИФИКАТОРОВ В ЗАДАЧЕ РАСПОЗНАВАНИЯ СПАМА В ЭЛЕКТРОННЫХ ПИСЬМАХ

Д. В. Дресвянский

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected]

Рассматривается решение задачи анализа спама в электронных письмах средствами пакета RapidMiner. Используемые методы классификации оптимизированы с помощью генетического алгоритма. Проведено сравнение эффективности неоптимизированных методов классификации с оптимизированными.

Ключевые слова: спам, распознавание, классификация, генетический алгоритм, оптимизация.

ABOUT A CHOICE OF EFFECTIVE SETTINGS OF GENETIC ALGORITHM FOR OPTIMIZATION OF CLASSIFIERS' PARAMETERS IN THE PROBLEM OF SPAM DETECTION IN E-MAILS

D. V. Dresvyanskiy

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

The problem of spam detection in e-mails is solved with RapidMiner. Classification methods used are optimized with genetic algorithm. Efficiency comparison of non-optimized and optimized methods of classification is presented.

Keywords: spam, identification, classification, genetic algorithm, optimization.

Спам - это массовая рассылка коммерческой, политической и другой рекламы или определенной информации (на электронную почту, в виде сообщений на форумах, в чатах, социальных сетях и т. д.) людям, которые не желали это получать. Следует отличать спам от запрашиваемых человеком рассылок, которые, хотя и во многом копируют многие черты спама, все-таки должны доставляться ему. Также спам очень часто используется совместно с различными компьютерными вирусами, которые могут украсть ваши личные данные или попросту вывести из строя компьютер. Защита пользователя от такого рода покушений является важной проблемой, а разработка и исследование соответствующих интеллектуальных информационных технологий анализа писем представляет собой серьезную научную задачу.

При выполнении исследований использовалась база данных, взятая с репозитория [1], с помощью которой система обучалась распознавать, является ли спамом электронное письмо.

Для обучения системы были применены 5 методов классификации объектов, реализованные с помощью программы RapidMiner [2]: нейронная сеть (Neural Net) [3], метод k ближайших соседей (k-NN) [4], деревья решений (Decision Tree) [5], индуктивный правил (Rule Induction) [4], случайный лес (Random Forest) [4]. Для всех методов была применена 10-ступенчатая кросс-валидация.

Для того чтобы улучшить точность классификации, было решено оптимизировать используемые в данной работе методы с помощью генетического алгоритма, причем выбрать настройки генетического алгоритма, используя собственную его программную реализацию. Также было необходимо сравнить эффективности оптимизированных методов с неоптимизированными по Т-критерию Стью-дента для выявления статистически значимых различий. Другие методы улучшения точности классификации данной задачи с помощью программного пакета RapidMiner, а также эффективность неоп-

Актуальные проблемы авиации и космонавтики - 2016. Том 1

тимизированных классификаторов были рассмотрены в [6; 7]. Для выбора настроек генетического алгоритма было решено протестировать его на функциях Шекеля, Растригина и полиноме второго порядка. Для каждой комбинации настроек было проведено 100 запусков алгоритма. В результате полного перебора всех возможных настроек генетического алгоритма определялась лучшая, средняя и худшая комбинация настроек для всех тестовых функций. Эти настройки представлены в табл. 1.

Таблица 1

Лучшая, средняя и худшая настройки генетического алгоритма для тестовых функций

Комбинации настроек Тип селекции Скрещивание Мутация

Лучшая Турнирная селекция с размером турнира 9 Равномерное с вероятностью 0,9 Слабая

Средняя Ранговая Равномерная с вероятностью 0,5 Слабая

Худшая Пропорциональная Равномерное с вероятностью 0,7 Сильная

Данные настройки были применены для оптимизации параметров классификаторов, используемых в данной работе генетическим алгоритмом, представленном в программном пакете Rapid Miner. Для всех оптимизированных методов была применена кросс-валидация. Сравнение эффектив-ностей неоптимизированных методов и методов, оптимизированных с помощью генетического алгоритма, представлено в табл. 2.

Таблица 2

Сравнение эффективностей оптимизированных и неоптимизированных методов

Метод классификации Эффективность неоптимизирован-ного метода Эффективность оптимизированного метода (лучшая комбинация настроек ГА) Эффективность оптимизированного метода (средняя комбинация настроек ГА) Эффективность оптимизированного метода (худшая комбинация настроек ГА)

Нейронная сеть 91,6 ± 1,7 % 89,7 ± 4,4 90,7 ± 1,0 88,0 ± 6,8

Метод k ближайших соседей 82,6 ± 1,9 % 82,2 ± 2,2 81,3 ±1,8 82,5 ± 2,4

Деревья решений 90,7 ± 0,8 % 90,1 ± 1,0 90,1 ± 1,2 90,6 ± 0,8

Индуктивный вывод правил 90,8 ±1,7 % 89,6 ± 1,1 90,4 ± 1,3 90,2 ± 1,6

Случайный лес 72,8 ± 8,7 % 73,4 ± 4,2 70,5 ± 2,3 70,9 ± 7,7

Как видно из таблицы, оптимизация методов классификации либо незначительно улучшает, либо и вовсе ухудшает эффективность классификации всех представленных методов. T-test показал, что статистически значимых различий между оптимизированными (с любым типом настроек генетического алгоритма, представленных в данной работе) и неоптимизированными методами нет. Это означает, что брать настройки генетического алгоритма, протестированного на функциях, не относящихся к задаче, не является целесообразным.

Таким образом, результаты исследования показали, что использовать напрямую генетический алгоритм, представленный в программном пакете RapidMiner, для оптимизации параметров классификации не следует. Необходимо разрабатывать адаптивные методы, которые смогут автоматически настраиваться на конкретную решаемую задачу. Сделать это в рамках используемой системы RapidMiner не представляется возможным, поэтому следует использовать другие подходы. Примером таких подходов является применение самонастраивающихся эволюционных и бионических алгоритмов при автоматическом проектировании классификаторов, основанных на нечеткой логике [8; 9] и нейронных сетях [10].

Библиографические ссылки

1. Machine Learning Repository [Электронный ресурс]. URL: http://archive.ics.uci.edu/ml/datasets (дата обращения: 10.03.2016).

2. RapidMiner [Электронный ресурс]. URL: https://rapidminer.com/ (дата обращения: 15.03.2016).

Секция «Математические методы моделирования, управления и анализа данных»

3. Hinton G., Deng L., Yu D., Dahl G., Mohamed A., Jaitly N., Senior A., Vanhoucke V., Nguyen P., Sainath T. and Kingsbury B. Deep Neural Networks for Acoustic Modeling in Speech Recognition, IEEE Signal Processing Magazine, Vol. 29, No. 6, 2012, pp. 82-97.

4. Fayyad U. M., Piatetsky-Shapiro G., Smyth P., and Uthurusamy R. Advances in Knowledge Discovery and Data Mining // The AAAI Press, 1996.

5. Antipov E. A., Pokryshevskaya E. B. Mass appraisal of residential apartments: An application of Random forest for valuation and a CART-based approach for model diagnostic // Expert Systems with Applications. 2012. Vol. 39. No. 2. P. 1772-1778.

6. Дресвянский Д. В. Эффективность методов интеллектуального анализа данных при распознавании спама, Актуальные проблемы авиации и космонавтики : материалы XI Междунар. науч.-практ. конф., посвященной празднованию 55-летия Сиб. гос. аэрокосмич. ун-таим. акад. М. Ф. Ре-шетнева (6-10 апр. 2015, г. Красноярск, 2015. Т. 2, С. 302-304 )

7. Дресвянский Д. В. Исследование интеллектуальных информационных технологий анализа коммуникативной корреспонденции, Решетневские чтения: материалы XIX Междунар. науч.-практ. конф., посвящ. 55-летию Сиб. гос. аэрокосмич. ун-та им. акад. М. Ф. Решетнева (10-14 нояб. 2015 г., Красноярск, 2015. Ч. 2. С. 34-36.)

8. Stanovov V. V., Semenkin E. S. Self-adjusted evolutionary algorithms based approach for automated design of fuzzy logic systems // Вестник СибГАУ. 2013. № 4(50). С. 148-152.

9. Semenkin E., Stanovov V. Fuzzy rule bases automated design with self-configuring evolutionary algorithm // ICINCO 2014 - Proceedings of the 11th International Conference on Informatics in Control, Automation and Robotics 11. 2014. С. 318-323.

10. Akhmedova S., Semenkin E. Co-operation of biology related algorithms meta-heuristic in ANN-based classifiers design // Proceedings of the 2014 IEEE Congress on Evolutionary Computation, CEC 2014. 2014. С. 867-872.

© Дресвянский Д. В., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.