Научная статья на тему 'Об эволюционном методе взвешенного голосования в коллективах в задаче классификации текстов'

Об эволюционном методе взвешенного голосования в коллективах в задаче классификации текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
80
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ ТЕКСТОВ / TEXT CLASSIFICATION / ОПРЕДЕЛЕНИЕ ТЕМ ВХОДЯЩИХ ЗВОНКОВ / ВЗВЕШЕННОЕ ГОЛОСОВАНИЕ / WEIGHTED VOTING / САМОКОНФИГУРИРУЕМЫЙ ГЕНЕТИЧЕСКИЙ АЛГОРИТМ / SELF-CONFIGURING GENETIC ALGORITHM / TOPICSIDENTIFICATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Камшилова Ю. А., Сергиенко Р. Б.

Рассматривается идея применения коллективов методов взвешивания термов, основанных на процедуре взвешенного голосования, в задаче определения тем входящих звонков клиентских служб. Для оптимизации весовых коэффициентов предлагается использование самоконфигурируемого генетического алгоритма.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Камшилова Ю. А., Сергиенко Р. Б.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON EVOLUTIONARY METHOD OF WEIGHTED VOTING IN ENSEMBLES FOR TEXT CLASSIFICATION PROBLEM

In this paper concept of ensembles of term weighting methods based on weighted voting procedure for incomingcalls topics identification problem is considered. For weights optimization using of self-configuring genetic algorithm is proposed.

Текст научной работы на тему «Об эволюционном методе взвешенного голосования в коллективах в задаче классификации текстов»

Решетнеескцие чтения. 2015

Библиографические ссылки

1. Леонтьев А. Н. Потребности, мотивы и эмоции. М., 1971.

2. Haq, S., Jackson, P. J. B. Speaker-dependent audiovisual emotion recognition // In Proc. Int. Conf. on Auditory-Visual Speech Processing (AVSP'09). Norwich, UK, 2009. Pp. 53-58,

3. Eyben F., Wullmer M., Schuller B. OpenSMILE -the Munich versatile and fast open-source audio feature extractor // Proceedings ACM Multimedia (MM), ACM. Florence, Italy, 2010. P. 1459-1462.

4. Local zernike moment representation for facial affect recognition / E. Sariyanidi [et al.] // BMVC'13.

5. Иванов И. А., Сопов Е. А. Самоконфигурируемый генетический алгоритм решения задач поддержки многокритериального выбора // Вестник СибГАУ. 2013. № 1(47). С. 30-35.

References

1. Leont'yev A. N. Potrebnosti, motivy i emotsyi [Needs, motives and emotions]. Moscow, 1971.

2. Haq S., Jackson P. J. B. Speaker-dependent audiovisual emotion recognition // In Proc. Int. Conf. on Auditory-Visual Speech Processing (AVSP'09), Norwich, UK, pp. 53-58, September, 2009.

3. OpenSMILE - the Munich versatile and fast open-source audio feature extractor / Eyben F., Wullmer M, Schuller B. // In Proceedings ACM Multimedia (MM), ACM, Florence, Italy. 2010. P. 1459-1462.

4. Local zernike moment representation for facial affect recognition / E. Sariyanidi, H. Gunes, M. Gokmen, A. Cavallaro // BMVC'13.

5. Ivanov I. A., Sopov E. A. [Self-configuring genetic algorithm for solving multi-objective choice support problems] // Vestnik SibGAU. 2013. No. 1(47), рp. 30-35 (In Russ.).

© Иванов И. А., 2015

УДК 519.6

ОБ ЭВОЛЮЦИОННОМ МЕТОДЕ ВЗВЕШЕННОГО ГОЛОСОВАНИЯ В КОЛЛЕКТИВАХ В ЗАДАЧЕ КЛАССИФИКАЦИИ ТЕКСТОВ*

Ю. А. Камшилова1, Р. Б. Сергиенко2

1 Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected] 2Ульмский университет Германия, 89081, г. Ульм, аллея Альберта Эйнштейна, 43 E-mail: [email protected]

Рассматривается идея применения коллективов методов взвешивания термов, основанных на процедуре взвешенного голосования, в задаче определения тем входящих звонков клиентских служб. Для оптимизации весовых коэффициентов предлагается использование самоконфигурируемого генетического алгоритма.

Ключевые слова: классификация текстов, определение тем входящих звонков, взвешенное голосование, самоконфигурируемый генетический алгоритм.

ON EVOLUTIONARY METHOD OF WEIGHTED VOTING IN ENSEMBLES FOR TEXT

CLASSIFICATION PROBLEM

Iu. A. Kamshilova1, R. B. Sergienko2

:Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected] 2Ulm University 43, Albert Einstein Alee, Ulm, 89081, Germany E-mail: [email protected]

In this paper concept of ensembles of term weighting methods based on weighted voting procedure for incomingcalls topics identification problem is considered. For weights optimization using of self-configuring genetic algorithm is proposed.

Keywords: text classification, topicsidentification, weighted voting, self-configuring genetic algorithm.

*

Работа выполнена при финансовой поддержке Министерства образования и науки Российской Федерации в рамках проекта М'МЕЕ157414Х0037.

Математические методы моделирования, управления и анализа данных

В настоящее время, в условиях постоянно растущего объема информации и большого количества текстовых данных, хранящихся в цифровом формате, становится актуальной задача классификации текстовых документов - отнесение их к конкретным категориям в зависимости от тематики. Классификация текстов находит применение в различных областях: поиск информации, фильтрация сообщений, определение тем, составление каталогов и т. д. [1]. В данной работе рассматривается задача определения по семантическому содержанию тем входящих звонков клиентских служб [2].

Задача классификации текстов состоит из двух этапов:

1) предварительная обработка текстовой информации, извлечение числовых признаков;

2) применение алгоритмов классификации.

На этапе предварительной обработки рассматривается применение различных методов взвешивания термов (TF-IDF, GR, CW, TM2, RF, TRR, NTW), которые позволяют преобразовать текстовую информацию в векторное пространство для составления словаря, учитывая частоту встречаемости слов в тексте. В качестве алгоритма классификации в данной работе используется метод ближайших соседей [3].

Использование коллективов различных методов взвешивания термов позволяет значительно повысить качество решения задачи в сравнении с использованием метода ближайших соседей. Коллектив состоит из семи классификаторов, построенных на основе метода ближайших соседей с применением одного из методов взвешивания термов, т. е. результат классификации зависит только от комбинации методов взвешивания термов для определенного алгоритма. Для повышения эффективности использования рассматриваемых коллективов предлагается использовать процедуру взвешенного голосования.

В данной работе предлагается проводить оптимизацию весовых коэффициентов с помощью эволюционных алгоритмов, например, с помощью генетических алгоритмов [4], так как они показали хорошие результаты при отыскании глобальных оптимумов в решении задач оптимизации [5]. Однако эффективность решения поставленной задачи сильно зависит от выбранных параметров генетического алгоритма, поэтому имеется необходимость в автоматическом выборе значений параметров алгоритма. В связи с этим, для выбора весовых коэффициентов взвешенного голосования предлагается использование самоконфигурируемого генетического алгоритма [6; 7], что позволяет исключить необходимость экспертных знаний для настройки его параметров.

Результаты будут представлены в докладе.

Библиографические ссылки

1. Aggarwal Charu C, & Zhai, ChengXiang. 2012. Mining text data. Springer. 222 p.

2. Bernhard Suhm [et al.]. A comparative study of speech in the call center: Natural language call routing vs. touch-tone menus // Proceedings of the SIGCHI

conference on Human Factors in Computing Systems. 2002. P. 283-290. ACM.

3. Айвазян С. А. [и др.]. Прикладная статистика. Классификация и снижение размерности. М. : Финансы и статистика, 1989. 607 с.

4. Гуменникова А. В. [и др.] Об эволюционных алгоритмах решения сложных задач оптимизации // Вестник СибГАУ. 2003. № 4(10). С. 14-23.

5. Коромыслова А. А., Семенкина М. Е. Об эффективности эволюционных алгоритмов многокритериального проектирования искусственных нейронных сетей // Вестник СибГАУ. 2015. Т. 16, № 1. С. 79-85.

6. Semenkin E., Semenkina M. Self-configuring genetic algorithm with modified uniform crossover operator // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 7331 LNCS (PART 1), 2012. P. 414-421.

7. Stanovov V. [et al.]. Application of Self-Gonfiguring Genetic Algorithm for Human Resource Management // J. of Siberian Federal University. Mathematics and Physics. 2015. № 8(1). P. 98-107.

References

1. Aggarwal Charu C, &Zhai, ChengXiang. 2012. Mining text data. Springer, 222 p.

2. Bernhard Suhm, Josh Bers, Dan McCarthy, Barbara Freeman, David Getty, Katherine Godfrey, and Pat Peterson. 2002. A comparative study of speech in the call center: Natural language call routing vs. touch-tone menus // Proceedings of the SIGCHI conference on Human Factors in Computing Systems, рp. 283-290. ACM.

3. Ajvazjan S. A., Buhshtaber V. M., Enjukov I. S. i dr. Prikladnajastatistika. Klassifikacija i snizhenie raz-mernosti [Applied Statistics. Classification and dimension reduction]. M. : Finance and statistic, 1989, 607 p.

4. Gumennikova A. V., Emel'yanova M. N., Semenkin E. S., Sopov E. A. [About evolutionary algorithms for solving complex optimization problems] // Vestnik SibGAU. 2003. No. 4, рp. 14-23 (In Russ.).

5. Koromyslova A. A., Semenkina M. E. Multicri-terial design of artificial neural networks with evolutionary algorithms // Vestnik SibGAU. 2015. Vol. 16, no. 1, рp. 79-85.

6. Semenkin E., Semenkina M. Self-configuring genetic algorithm with modified uniform crossover operator // Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 7331 LNCS (PART 1), 2012, рp. 414-421.

7. Stanovov V., Skraba A., Kofiac D., Znidarsic A., Maletic M. Rozman C., Semenkin E., Semenkina M. Application of Self-Gonfiguring Genetic Algorithm for Human Resource Management // J. of Siberian Federal University. Mathematics and Physics, 2015. No. 8(1), рp. 98-107.

© Камшилова Ю. А., Сергиенко Р. Б., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.