Решетневские чтения. 2015
References
1. Sistemy elektronnogo dokumentooborota [Electronic document management systems] // SibGAU. Krasnoyarsk, 2012. 96 s.
2. Nadezhnost' informatsionnykh sistem [Reliability of information systems]. Tambov : Izdatel'stvo TGTU, 2010. 160 s.
3. Pavlov I. V. Statisticheskie metody otsenki nadezhnosti slozhnykh sistem po rezul'tatam ispytaniy [Statistical techniques of reliability assessment of difficult systems on test results]. M. : Radio i svyaz', 1982. 168 s.
4. Ryabinin I. A. Nadezhnost' i bezopasnost' strukturno-slozhnykhsistem [Reliability and safety of structural and difficult systems]. SPb. Izdatel'stvo Sankt-Peterburgskogo universiteta, 2007.
5. Kuznetsov V. P. Interval'nye statisticheskie modeli [Interval statistical models]. M. : Radioisvyaz', 1991. 352 s.
© Бычков С. С., 2015
УДК 519.6
СРАВНЕНИЕ ЭФФЕКТИВНОСТИ АЛГОРИТМОВ КЛАССИФИКАЦИИ ДЛЯ ЗАДАЧ ОЦЕНКИ КАЧЕСТВА ДИАЛОГОВОГО ВЗАИМОДЕЙСТВИЯ ТИПА «ЧЕЛОВЕК-ЧЕЛОВЕК»*
О. А. Васьковская1, А. В. Спирина2
1 Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
2Ульмский университет Германия, 89081, г. Ульм, аллея Альберта Эйнштейна, 43 E-mail: [email protected]
Повышение качества коммуникаций между компьютером и человеком является задачей большой размерности, встречающейся, в частности, в области пилотируемой космонавтики. Рассмотрены методы классификации для решения поставленной задачи.
Ключевые слова: речевой анализ, алгоритмы классификации, диалог типа «человек-человек», эволюционное исчисление.
COMPARING EFFICIENCY OF CLASSIFICATION ALGORITHMS FOR THE PROBLEM OF THE INTERACTION QUALITY MODELING IN "HUMAN-HUMAN" TASK-ORIENTED
CONVERSATIONS
O. A. Vaskovskaya1, A. V. Spirina2
:Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected] 2Ulm University 43, Albert Einstein Alee, Ulm, 89081, Germany E-mail: [email protected]
Problem of advancing the Computer-Human communication quality is principal one, for instance, it is relevant to the field of manned cosmonautics. This article is devoted to the classification of the possible methods to solve the problem.
Keywords: speech analysis, classification algorithms, 'human-human ' type dialogue, evolutionary computation.
Развитие техники и технологий играет всё более важную роль в современном мире. Неотъемлемым последствием научно-технического прогресса стало появление множества сфер, где компании (интернет-провайдеры, мобильные операторы, банки и другие организации, занимающиеся сопровождением процессов продажи продуктов, услуг и сервисного обслужи-
вания) нуждаются в выделенных подразделениях, занимающихся обработкой обращений и информированием по голосовым каналам связи, т. е. колл-центрах.
*
Работа выполнена при финансовой поддержке Министерства образования и науки Российской Федерации в рамках проекта М'МЕЕ157414Х0037.
Математические методы моделирования, управления и анализа данных
В связи с этим главной задачей является повышение эффективности работы за счёт совершенствования коммуникации человека и компьютерных систем. Для повышения качества диалоговой коммуникации компьютера и человека за счёт большей человекопо-добности поведения компьютера следует изучить диалоги типа «человек-человек».
Для оптимизации входящих и исходящих звонков, улучшения работы технической поддержки, контроля качества работы с абонентами, а также в области пилотируемой космонавтики для разработки систем автоматического мониторинга состояния экипажа космического корабля и т. п. необходимо выполнять анализ большого объёма речевой информации [1] с последующей оценкой качества речевого взаимодействия (IQ). «Interaction Quality - это метрика качества, которая используется для оценки качества взаимодействия между компьютером и человеком. Она базируется на различных характеристиках речи» [1].
Речь является самым универсальным средством коммуникации, так как в этом случае при передаче информации менее всего теряется смысл сообщения. Для анализа речевых диалогов применяются различные способы, позволяющие определить просодические (тон, громкость, темп и др.), лексические (употреблении тропов: сравнения, эпитеты, ирония и др.), паралингвистические (тембр, заполнители пауз, диалектные, социальные особенности) и другие особенности речи. Анализ и оценка качества речевого взаимодействия приводит к задачам классификации большой размерности.
Для решения задачи классификации в ходе выполнения исследования могут быть использованы как классические алгоритмы классификации, реализованные в программной среде RapidMiner, так и различные интеллектуальные информационные технологии, автоматически сгенерированные при помощи эволюционных алгоритмов (ЭА).
Наиболее известными из алгоритмов классификации, представленных в программной среде RapidMiner, являются:
1. Метод к ближайших соседей - метрический алгоритм классификации, основным принципом которого является то, что объект присваивается тому классу, который наиболее распространён среди его соседей [2].
2. Байесовский классификатор - класс алгоритмов классификации, основанный на принципе максимума апостериорной вероятности. Сначала для классифицируемого объекта вычисляются функции правдоподобия каждого из классов, далее по ним вычисляются апостериорные вероятности классов. Объект относится к классу, для которого апостериорная вероятность является максимальной [3].
3. Деревья решений - способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Применяется такой алгоритм для задач классификации, где целевая переменная имеет дискретные значения [4].
4. Метод опорных векторов - набор алгоритмов обучения с учителем, использующихся для задач
классификации, особым свойством которого является непрерывное уменьшение эмпирической ошибки классификации и увеличение зазора, поэтому метод также известен как метод классификатора с максимальным зазором [5].
5. Искусственные нейронные сети (ИНС) - это вычислительные структуры, которые моделируют биологические процессы, обычно ассоциируемые с процессами человеческого мозга [6]. ИНС представляет собой совокупность элементов (нейронов), связанных между собой синоптическими связями. Нейронная сеть обрабатывает входную информацию, формируя выходные сигналы [7].
Кроме того, в данной работе будут использованы нейронные сети, выбор структуры, входов и настройка весовых коэффициентов которых будет осуществляться с помощью эволюционных алгоритмов. Наиболее известными представителями ЭА являются генетические алгоритмы (ГА), представляющие собой стохастические процедуры обработки информации, основанные на принципах естественной эволюции. ГА успешно применяются при решении задач классификации, но серьёзные трудности создаёт существенная зависимость эффективности таких алгоритмов от выбора их настроек и параметров. Для решения этой проблемы исследователями предлагается использование различных подходов, направленных на отказ от выбора настроек ГА за счёт сокращения числа настраиваемых параметров [8]. В данной работе будут использоваться самонастраиваемые ГА [9].
Результаты исследования будут представлены в докладе.
Библиографические ссылки
1. Spirina А. V., Semenkin E. S., Schmitt A., Minker W. Interaction Quality in Human-Human Conversations: Problems and Possible Solutions // J. of SFU Mathematics & Physics. 2015. № 8. P. 217-223.
2. Altman N. S. An introduction to kernel and nearest-neighbor nonparametric regression // The American Statistician. 1992. № 46. P. 175-185.
3. Domingos P., Pazzani M. On the optimality of the simple Bayesian classifier under zero-one loss // Machine Learning. 1997. № 29. P. 103-137.
4. Quinlan J. R. Simplifying decision trees // International J. of Man-Machine Studies. 1987. № 27. P. 221-234.
5. Cortes C., Vapnik V. Support-vector networks // Machine Learning. 1995. № 20. P. 273-297.
6. Haykin S. Neural networks: a complete course. M. : Williams, 2006. 1104 p.
7. Зайцев И. В. Нейронные сети: основные модели. Воронеж, 1999. 76 с.
8. Vaskovskaya О. A. Performance evaluation of adaptive evolutionary algorithms // Youth. Society. Modern science, technologies & innovations : Electronic Collection of papers of the XIV-th Intern. Scientific Conference. Krasnoyarsk, 2015. P. 197-199.
9. Muhlenbein H., SсЫierkamp-Voosen D. Strategy Adaptation by ^mpeting Subpopulations // Parallel Problem Solving from Nature III. 1994. P. 199-208.
Решетнеескцие чтения. 2015
References
1. Spirina A. V., Semenkin E. S., Schmitt A., Minker W. [Interaction Quality in Human-Human Conversations: Problems and Possible Solutions] // Journal of SFU Mathematics & Physics. 2015. No. 8, pp. 217-223.
2. Altman N. S. [An introduction to kernel and nearest-neighbor nonparametric regression] // The American Statistician. 1992. No. 46, pp. 175-185.
3. Domingos P., Pazzani M. [On the optimality of the simple Bayesian classifier under zero-one loss] // Machine Learning. 1997. No. 29, pp. 103-137.
4. Quinlan J. R. [Simplifying decision trees] // International Journal of Man-Machine Studies. 1987. No. 27, pp. 221-234.
5. Cortes C., Vapnik V. [Support-vector networks] // Machine Learning. 1995. No. 20, pp. 273-297.
6. Hay kin S. Neural networks: a complete course. M. : Williams, 2006. 1104 p.
7. Zaentsev I. V. Neural networks: basic models. Voronezh, 1999. 76 p.
8. Vaskovskaya O. A. [Performance evaluation of adaptive evolutionary algorithms]. Electronic Collection of papers of the XIV-th International Scientific Conference "Youth. Society. Modern science, technologies & innovations". Krasnoyarsk, 2015, pp. 197-199.
9. Mühlenbein H., Schlierkamp-Voosen D. [Strategy Adaptation by Competing Subpopulations] // Parallel Problem Solving from Nature III. 1994, pp. 199-208.
© Васьковская О. А., Спирина А. В., 2015
УДК 519.87
ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ АНАЛИЗА КОММУНИКАТИВНОЙ КОРРЕСПОНДЕНЦИИ*
Д. В. Дресвянский
Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31
E-mail: [email protected]
Рассматривается решение задач анализа коммуникативной корреспонденции. Проведено сравнение эффективности известных методов классификации и ансамблей из этих методов. К некоторым методам классификации применен бустинг. Выбраны наилучшие варианты решения каждой задачи стандартными алгоритмами системы RapidMiner.
Ключевые слова: спам, фишинг, распознавание, классификация, ансамбли, бустинг.
INVESTIGATION OF INTELLIGENT INFORMATION TECHNOLOGIES OF COMMUNICATIVE CORRESPONDENCE ANALYSIS
D. V. Dresvyanskiy
Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]
We consider the problem of communicative correspondence analysis. A comparison of the effectiveness of known classification methods with their ensembles is fulfilled. Boosting is applied for some of classification methods. The best variants solving each problem with standard algorithms of RapidMiner are chosen.
Keywords: spam, fishing, identification, classification, ensembles, boosting.
Спам - это массовая рассылка любой рекламы или иного вида сообщений лицам, которые не давали согласие на ее получение. Следует отличать спам от легальных почтовых рассылок, которые, хотя и во многом повторяют многие черты спама, являются запрошенными пользователем и должны доставляться ему. Однако, помимо спама, в электроном письме от якобы знакомого человека может содержаться ссылка на какой-нибудь сайт. Этот сайт может быть фишин-говым. Фишинг - вид интернет-мошенничества, це-
лью которого является получение доступа к конфиденциальным данным пользователей - логинам и паролям, номерам кредитных карт, электронной почте и т. д. С помощью таких конфиденциальных данных пользователя мошенник может нанести пользователю серьезный ущерб, как моральный, так и материальный.
* Работа выполнена при поддержке Министерства образования и науки Российской Федерации в рамках проекта ММЕЕ157414Х0037.