Научная статья на тему 'О применении эволюционных алгоритмов с выбором наиболее информативных признаков для задач классификации текстов'

О применении эволюционных алгоритмов с выбором наиболее информативных признаков для задач классификации текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
61
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КЛАССИФИКАЦИЯ УСТНОЙ РЕЧИ / CLASSIFICATION OF SPEECH / ИНФОРМАТИВНЫЕ ПРИЗНАКИ / АНАЛИЗ ДАННЫХ / DATA MINING / FEATURES SELECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Коромыслова А. А., Сергиенко Р. Б.

Рассматривается проблема классификации устной речи на практических задачах большой размерности. Решение данных задач поможет в различных сферах, в том числе аэрокосмической. Предлагается использование алгоритмов анализа данных с выбором наиболее информативных признаков.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

EVOLUTIONARY ALGORITHM WITH FEATURE SELECTION FOR TEXT CLASSIFICATION

We consider the problem of classifying speech on the practical problems of large dimension. Solving these problems will help in various areas including aerospace. We propose to use the algorithms data mining with features selection.

Текст научной работы на тему «О применении эволюционных алгоритмов с выбором наиболее информативных признаков для задач классификации текстов»

Решетнеескцие чтения. 2015

References

1. Kudrin B. I., Butorin V. K. Organizacionno-tehnologicheskie sistemy: terminy i opredelenija [Organizational and technological systems: terms and definitions]. M. : Tehnetika, 2005. 20 s.

2. Goncharova I. S., Kovalev I. V. Model'no-algoritmicheskaja podderzhka analiza jekonomicheskoj dejatel'nosti strukturno-svjazannyh podrazdelenij firmy [Model-algorithmic support for the analysis of economic activity of structurally-related parts of the firm] // Aktual'nye problemy aviacii i kosmonavtiki. 2012. Iss. 1, no. 8, рр. 293-294.

3. Intelektual'nye tehnologii monitoringai upravlenija strukturnoj dinamikoj slodnyh tehnicheskih obektov [Intellectual technologies of monitoring and management of structural dynamics of complex technical objects] / M. Ju. Ohtelev, B. Vju Sokolov, R. M. Jusupov. M. : Nauka, 2006. 410 s.

4. Alekseeva N. A., Bogdanova O. V., Kovalev I. V., Carev R. Ju. Planirovanie periodichnyh zadach pri raspredelennoj obrabotke informacii [Scheduling periodic tasks in distributed information processing] // Informacionno-izmeritel'nye i upravljajushhie sistemy. 2010. Iss. 8, no. 3, рр. 11-14.

5. Kovalev I., Zelenkov P., Ognerubov S. The Efficiency Analysis of Automated Lines of Companies Based on DEA Method // Lecture Notes in Economics and Mathematical Systems, 675 (2015). P. 107-115.

6. Kovalev I., Zelenkov P., Ognerubov S., Bahma-reva K. and Denisova E. The efficiency analysis of

the automated plants // 2015 IOP Conf. Ser.: Mater. Sci. Eng. 70(1), art. no. 012007, doi: 10.1088/1757-899X/70/1/012007.

7. Kovalev I. V., Novozhilov A. A., Rukovicyna T. A. Analiz jeffektivnosti organizacionno - tehnologicheskih kompleksov predprijatij [Analysis of the effectiveness of organizational-technological complexes of enterprises] // Sistemy upravlenija i informacionnye tehnologii. Moskva-Voronezh, 2010. Vyp. 4 (42), рр. 33-39.

8. Kovalev D. I., Tueva E. V., Klimenko A. V., Kovalev I. V., Zelenkov P. V. Analiz organizacionno-tehnologicheskih kompleksov predprijatij na osnove analiticheskogo metoda ocenki jeffektivnosti funkcionirovanija slozhnyh system [The analysis organizational-technological complexes of the enterprises on the basis of an analytical method for performance evaluation of complex systems] // Aktual'nrye problemy aviacii i kosmonavtiki. 2014. Iss. 1, no. 10, рр. 314-316.

9. Kovalev I. V., Novozhilov A. A., Rukovicyna T. A. Prinjatie upravlencheskih reshhenij na osnove analiza jeffektivnosti organizacionno-tehnologicheskih komplek-sov predprijatij [Management decisions based on the analysis of the efficiency of organizational and technological systems of enterprises] // Jekonomika i menedzhment sistem upravlenija. 2011. Iss. 1, no. 1, рр. 36-42.

© Ковалев Д. И., Туева Е. В., Туев Е. В., Першакова К. К., Смирнов О. О., 2015

УДК 519.6

О ПРИМЕНЕНИИ ЭВОЛЮЦИОННЫХ АЛГОРИТМОВ С ВЫБОРОМ НАИБОЛЕЕ ИНФОРМАТИВНЫХ ПРИЗНАКОВ ДЛЯ ЗАДАЧ КЛАССИФИКАЦИИ ТЕКСТОВ*

А. А. Коромыслова1, Р. Б. Сергиенко2

1 Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

E-mail: [email protected] 2Ульмский университет Германия, 89081, г. Ульм, аллея Альберта Эйнштейна, 43 E-mail: [email protected]

Рассматривается проблема классификации устной речи на практических задачах большой размерности. Решение данных задач поможет в различных сферах, в том числе аэрокосмической. Предлагается использование алгоритмов анализа данных с выбором наиболее информативных признаков.

Ключевые слова: классификация устной речи, информативные признаки, анализ данных.

EVOLUTIONARY ALGORITHM WITH FEATURE SELECTION FOR TEXT CLASSIFICATION

A. A. Koromyslova1, R. B. Sergienko2

1Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

*

Работа выполнена при финансовой поддержке Министерства образования и науки Российской Федерации в рамках проекта М'МЕЕ157414Х0037.

Математические методы моделирования, управления и анализа данных

2Ulm University 43, Albert Einstein Alee, Ulm, 89081, Germany E-mail: [email protected]

We consider the problem of classifying speech on the practical problems of large dimension. Solving these problems will help in various areas including aerospace. We propose to use the algorithms data mining with features selection.

Keywords: classification of speech, features selection, data mining.

Классификация текстов является важной задачей обработки информации, которая часто встречается для фильтрации спама, снятия неоднозначности при автоматическом переводе текстов, определения кодировки и языка текста и в других областях науки и техники.

В данном исследовании рассматриваются 4 задачи классификации устной речи по распознанным текстам:

1. Автоматическая маршрутизация вызовов на естественном языке.

2. Классификация ответов операторов в колл-центре.

3. Определение уровня вербального интеллекта по монологам (под вербальным интеллектом будем понимать способность анализировать и синтезировать речевые суждения, вникать в смысл слов, богатую словесно-понятийную базу);

Определение уровня вербального интеллекта по диалогам, параметры которых указаны в таблице.

В настоящее время для решения задач подобного вида активно используются методы классификации текстов на основе автоматического обучения [1]. Основная трудность использования этих методов состоит в очень большой размерности пространства признаков (тысячи или даже десятки тысяч), что для большинства алгоритмов интеллектуального анализа данных очень много. В связи с этим необходимо уменьшить размерность пространства признаков [2], т. е. выбрать такое подмножество признаков из исходного набора, что точность классификации, обученного на этом подмножестве признаков, будет мак-

Библиографические ссылки

1. Langley Pat. The changing science of machine learning // Machine Learning. 2011. № 82(3). P. 275-279.

2. Joachims T. Text categorization with Support Vector Machines: Learning with many relevant features // Proceedings of the 10th European Conference on Machine Learning (ECML'1998). 1998. Р. 137-142.

3. Hall P., Park B. U., Samworth R. J. Choice of neighbor order in nearest-neighbor classification // Annals of Statistics. 2008. № 36(5). Р. 2135-2152.

4. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. М. : Наука, 1979. 448 с.

симальной (по всем подмножествам исходного множества признаков).

Существует множество способов снижения размерности в задачах классификации текстов, такие как удаление общеупотребляемых слов, объединение од-нокоренных слов и удаление слов с низкими весами (т. е. тех, которые встречаются в тексте реже остальных). Однако использование перечисленных выше методов не всегда эффективно и, кроме того, требует наличия экспертных знаний и большого количества временных ресурсов.

В данной работе для автоматизации выбора наиболее эффективных признаков предлагается использовать следующие методы анализа данных:

1. Метод k ближайших соседей [3].

2. 8УМ (метод опорных векторов), который переводит исходные векторы в пространство более высокой размерности и ищет разделяющую гиперплоскость с максимальным зазором в этом пространстве [4].

3. Многокритериальные эволюционные алгоритмы для настройки оптимальной структуры нейронных сетей с выбором наиболее информативных признаков [5].

4. Многокритериальные эволюционные алгоритмы для формирования систем, основанных на нечёткой логике, с выбором наиболее информативных признаков, в которых в качестве критериев используется ошибка классификации, количество правил, количество термов каждой лингвистической переменной и количество используемых входов.

4. Результаты исследования будут представлены в докладе.

5. Koromyslova A., Semenkina M. About the effectiveness of evolutionary algorithms for multicriterial design of artificial neural networks // Вестник СибГАУ. 2015. Т. 16, № 1. С. 79-85.

References

1. Langley Pat. The changing science of machine learning // Machine Learning. 2011. No. 82(3), рр. 275-279.

2. Joachims T. Text categorization with Support Vector Machines: Learning with many relevant features // Proceedings of the 10th European Conference on Machine Learning (ECML'1998). 1998. Рр. 137-142.

Параметры задач классификации текстов

Номер задачи Число атрибутов Размер выборки Количество классов Язык базы

1 3 305 292 156 20 Английский

2 885 337 5 Английский

3 100 3 138 2 Немецкий

4 91 6 987 2 Немецкий

Решетневские чтения. 2015

3. Hall P., Park B. U., Samworth R. J. Choice of neighbor order in nearest-neighbor classification // Annals of Statistics. 2008. No. 36(5), pp. 2135-2152.

4. Vapnik V. Vosstanovlenie zavisimostey po empiricheskim dannym [Restoring dependencies from empirical data]. Moscow : Nauka Publ.,1979. 448 p.

5. Koromyslova A., Semenkina M. About the effectiveness of evolutionary algorithms for multicriterial design of artificial neural networks // Vestnik SibGAU. 2015. T. 16, no. 1, pp. 79-85.

© KopoMbicnoBa A. A., Cepraemo P. E., 2015

УДК 519.854.33

ВЫЧИСЛЕНИЕ ПОРОГОВЫХ ЗНАЧЕНИЙ ВЕЩЕСТВЕННЫХ ПРИЗНАКОВ ПРИ ПОСТРОЕНИИ ЛОГИЧЕСКИХ ЗАКОНОМЕРНОСТЕЙ

Е. М. Краева, И. С. Масич1

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Рассматриваются вопросы дискретизации и бинаризации вещественных признаков для возможности их использования при построении логических классификаторов.

Ключевые слова: логические алгоритмы, распознавание, закономерности.

CALCULATING REAL ATTRIBUTES TO CUTPOINTS FOR CONSTRUCTING LOGICAL RULES

E. M. Kraeva, I. S. Masich1

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation Е-mail: [email protected]

In this paper we consider issues of discretization and binarization of real attributes to be used in constructing logical classificators.

Keywords: logic algorithms, recognition, pattern.

Среди различных методов распознавания существуют методы, которые изначально разработаны для работы с объектами, описываемыми бинарными признаками [1]. В то же время эти методы могут быть эффективны и при работе с разнотипными признаками. Это требует применения процедуры бинаризации, т. е. преобразования признаков различных типов в бинарные признаки.

Как обсуждалось ранее [2], наиболее сложным является кодирование вещественных признаков. Число различных значений вещественного признака может быть велико, поэтому назначение бинарной переменной на каждое значение признака неприемлемо. Наилучшим является назначение бинарной переменной на некий интервал значений исходного признака.

Таким образом, весь диапазон значений каждого вещественного признака следует разбить на интервалы. Границы таких интервалов называются порогами.

Бинарные переменные указывают, превысило ли значение признака объекта соответствующий порог:

[1, ь, >р/,

Здесь I - номер исходного вещественного признака; / - номер порога; р/ - значения порогов.

В качестве потенциальных порогов можно взять середины интервалов между двумя последовательными значениями признака, соответствующими объектам различных классов:

Ь( /) + ь( /) у = ь + ьм

0, bj <pj.

2

Для двух произвольных объектов разных классов

г е К + и V е К- определим величину

ау = |ху - ху |.

Если а/ = 1, то объекты г и V различны по бинарной переменной х,, т. е. значения численного признака Ь/ у этих объектов лежат по разные стороны порога р/.

Для описания решения, будет ли порог в/ использоваться при дискретизации, введем бинарную переменную:

[1, если порог р, используется,

УУ = I л

[0, в противном случае.

i Надоели баннеры? Вы всегда можете отключить рекламу.