doi: 10.24411/2409-5419-2018-10263
СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ ОЦЕНКИ КОЛИЧЕСТВА И СТРУКТУРЫ АТРИБУТОВ В ЗАДАЧАХ КЛАССИФИКАЦИИ МОБИЛЬНЫХ ПРИЛОЖЕНИЙ
ШЕЛУХИН Олег Иванович1
БАРКОВ
Вячеслав Валерьевич2
ПОЛКОВНИКОВ Михаил Вадимович3
Сведения об авторах:
1д.т.н., профессор, заведующий кафедрой информационной безопасности Московского технического университета связи и информатики, г. Москва, Россия, sheluhin@mail.ru
2старший преподаватель кафедры информационной безопасности Московского технического университета связи и информатики, г. Москва, Россия, viacheslav. barkov@gmail.com
3магистрант кафедры информационной безопасности Московского технического университета связи и информатики, г. Москва, Россия, mnxamoto@mail.ru
АННОТАЦИЯ
Для оценки эффективности алгоритмов классификации в режимах обучения и тестирования с помощью разработанного программно-аппаратного комплекса была сформирована база данных мобильных приложений трафика, WEB (http, https), mail (SMTP, IMAP), Skype (TCP, UDP) и др. Из полученных потоков трафика 66% исходных данных использовались для обучения, остальные для тестирования алгоритмов классификации выбранных приложений методами машинного обучения. В качестве алгоритмов классификации методами машинного обучения рассматривались: Random Forest, С4.5, SVM, Adaboost, Naive Bayes. Для обоснования выбора количества атрибутов классификации использовались оберточный и фильтрующий методы. Показано, что некоторые атрибуты, используемые для классификации трафика, не несут значимой информации, и их использование незначительно влияет на эффективность классификации. Рассмотрены алгоритмы выбора атрибутов классификации: PCA, InfoGain, CFS, Wrapper. Показано, что использование оберточного алгоритма выбора атрибутов является ресурсоемкой вычислительной операцией, которая при большом количестве атрибутов требует длительного времени. Показано, что среди рассмотренных алгоритмов классификации предпочтение следует отдать алгоритму С4.5. Сравнительный анализ алгоритмов отбора информативных атрибутов мобильных приложений показал, что наиболее эффективным и легко реализуемым является алгоритм InfoGain. Специфической особенностью классификации мобильных приложений является высокая информативность всего нескольких атрибутов. При выборе способа отбора атрибутов наиболее предпочтителен алгоритм, при котором сначала отбирается наиболее информативный атрибут, а к нему добавляются следующие менее информативные. Для количественной оценки отбора количества атрибутов предложен алгоритм отбора на основе их информативности.
КЛЮЧЕВЫЕ СЛОВА: классификация; достоверность; DataMining; атрибуты; Random Forest; метрики; протокол.
Для цитирования: Шелухин О.И., Барков В.В., Полковников М.В. Сравнительный анализ алгоритмов оценки количества и структуры атрибутов в задачах классификации мобильных приложений // Наукоемкие технологии в космических исследованиях Земли. 2019. Т. 11. № 2. С. 90-100. сЫ: 10.24411/2409-5419-2018-10263
Hi iff,
Vol 11 No 2-2019, H&ES RESEARC INFORMATICS, COMPUTER ENGINEERING AND CONT
V\\\ v \\\\ ■
Постановка задачи
При классификации мобильных приложений сетевого трафика [1], важное значение имеют данные, используемые для обучения классификатора (например, экспериментально полученный набор потока сетевых данных), и корректный выбор атрибутов. Процесс отбора атрибутов [2] является важным подготовительным этапом разработки классификатора, позволяющий оптимизировать процесс его обучения на предоставляемом наборе данных. Результат этого этапа может положительно сказаться на вычислительной сложности классификации.
В тех случаях, когда набор данных содержит большое количество прецедентов, отбор атрибутов является необходимым этапом машинного обучения (МО), позволяющим сократить количество вычислительных операций. В результате будет получен набор данных, признаки которого будут отражать необходимую и достаточную информацию об интересующем классе, что в свою очередь ускорит процесс обучения классификатора. Методы отбора атрибутов можно разделить на фильтрующие и оберточные. Фильтрующие методы осуществляют выбор атрибутов, опираясь только на исходные данные, представленные в обучающем наборе. В результате формируется независимая оценка и осуществляется отбор наилучшего описания атрибутов до начала обучения, полагаясь на определенные метрики. Оберточные методы оценивают выбранное подмножество, полагаясь как на обучающий алгоритм, так и на его характеристики. В отличие от фильтрующих методов, они позволяют получить более точную оценку прогнозирования, поскольку подстраиваются под особенности алгоритма обучения. Однако подобные алгоритмы являются достаточно трудоемкими в вычислительном отношении.
Цель статьи: Сравнительный анализ алгоритмов выделения наиболее информативных атрибутов мобиль-
ных приложений, как на этапе обучения, так и на этапе тестирования, а также оценка влияния ограничения количества атрибутов на эффективность и быстродействие алгоритмов классификации.
Захват и анализ сетевого трафика
мобильных приложений
Для формирования базы данных трафика мобильных приложений был разработан программный комплекс (ПК) «Система анализа трафика» (САТ), включающий в себя сервер баз данных, сервер приложений, Web-приложение и клиентское программное обеспечение (ПО) для мобильных устройств под управлением операционной системы (ОС) Android (мобильный клиент) [13].
Процесс сбора трафика осуществлялся с использованием разработанного ПО с учётом взаимодействия компонентов программного комплекса между собой и с внешними мобильными приложениями. Структура комплекса и сбора реального мобильного трафика представлены на рис. 1. На смартфон или планшет под управлением ОС Android установлен мобильный клиент ПК САТ. Клиент перехватывает пакеты сетевого трафика заданных приложений, которые также установлены на мобильном устройстве.
Перехваченные пакеты сетевого трафика отправляются на сервер приложений ПК САТ, установленной на серверной ЭВМ и управляемой ОС Windows Server 2016.
Сервер приложений ПК САТ группирует пакеты сетевого трафика в потоки и сохраняет данные в базу данных с помощью сервера.
Обмен данными между компонентами ПК САТ осуществляется через глобальную сеть Интернет с использованием протокола HTTP в формате JSON. Сервер приложения включает в себя Web-службу, предоставляющую клиентам REST API, с помощью которого можно получить доступ к функциям сбора пакетов сетевого трафика,
Рис. 1. Схема сбора мобильного трафика
управления наборами данных, создания и обучения классификаторов, классификации и другим функциям.
С использованием ПК САТ был собран трафик мобильных приложений трёх категорий: «С шифрованием трафика», «Без шифрования трафика», «С частичным шифрованием трафика» [14].
В ходе работы была спроектирована, реализована и наполнена база данных. В ходе инфологического и да-талогического проектирования выделено 21 сущность, 6 из которых (apps, flows, flowsinset, flowsets, packets, backgroundflows) используются для непосредственного хранения данных трафика. В ходе физического проектирования был выбран сервер баз данных MySQL 5.7 и создана 21 таблица. Для доступа к базе данных с применением технологии Java Enterprise Edition было создано корпоративное приложение, предоставляющее доступ с помощью REST API. Для сбора трафика с мобильных устройств под управлением операционной системы Android было разработано приложение, которое с помощью прикладного программного интерфейса для создания виртуальных частных
сетей, собирает пакеты сетевого трафика, идентифицирует приложение-источник и отправляет их по протоколу HTTP серверному программному обеспечению. С использованием клиентского и серверного программного обеспечения созданная база данных была наполнена трафиком 18 основных мобильных приложений. В ходе сбора данных было получено 71 667 потоков и 6 989 991 пакетов. Характеристика созданной базы данных приведена в табл. 1.
Алгоритмы и метрики
алгоритмов классификации
Для классификации приложений использовались алгоритмы машинного обучения: NaiveBayes, С4.5 1,6], Random Forests [7], Support Vector Machine (SVM) [8], Adaptive Boost [10]. Для оценки эффективности алгоритмов классификации использовались следующие метрики информационного поиска [4-7]: Precision (Точность), Recall (Полнота), F-Measure (F-мера), ROC-кривые (Receiver Operating Characteristic Curve) и AUC (Area Under Curve) — площадь под ROC-кривой.
Таблица 1
Сводная таблица собранной базы данных трафика мобильных приложений
№ Название приложения Тип трафика Количество
Потоков Пакетов
1 Почта Mail.ru Шифрованный 5078 246184
2 Сбербанк онлайн Шифрованный 5110 241235
3 Skype Шифрованный 5244 232510
4 Пикабу Шифрованный 5329 265071
5 Instagram Шифрованный 4979 1916363
6 Hearthstone Шифрованный 5028 227688
7 Wolfram Без шифрования 5190 61140
8 Московский комсомолец Без шифрования 5335 107202
9 Фишки.нет Без шифрования 5422 576581
10 НТВ Без шифрования 5908 233982
11 Пицца Суши Вок Без шифрования 5097 64460
12 Годвилль Без шифрования 5016 61343
13 Google Chrome Частично шифрованный 3865 620277
14 Коммерсант Частично шифрованный 5325 338327
15 Booking Частично шифрованный 5326 552606
16 4PDA Частично шифрованный 4974 524215
17 Яндекс браузер с Алисой Частично шифрованный 5132 139595
18 Badoo Частично шифрованный 4976 581212
Методы выбора атрибутов классификации
Широкое распространение получили следующие алгоритмы выбора атрибутов [1-3]:
• Алгоритм выбора главных компонент (Principal Components Analysis, PCA).
• Алгоритм ранжирования атрибутов на основе информационного усиления (Information Gain Attribute Ranking [10], InfoGain).
• Алгоритм, основанный на корреляции (A Correlation-based Feature Selector [12], CFS).
• Оберточный алгоритм выбора атрибутов (Wrapper [1, 9]).
Оптимальный состав и количество атрибутов алгоритмов классификации определяется выбором такого подмножества, на котором сосредоточена основная информация о анализируемом приложении. Алгоритм выбора атрибутов осуществляет поиск лучшего подмножества, используя для оценки алгоритм индукции. Эффективность перечисленных алгоритмов доказана такжже при классификации зашифрованных приложений [5].
Алгоритм ранжирования атрибутов на основе информационного усиления (InfoGain) представляет собой процесс сортировки атрибутов, базирующийся на информационном усилении между классом и признаком. Пусть F — множество атрибутов, а C — множество классов объекта набора данных. С учетом введенных обозначения уравнения оценки энтропии данного класса до и после наблюдения атрибута с, имеют следующий вид:
Информационная энтропия класса до наблюдения атрибута (1)
H (C) = -£p (с)• log2 p (с),
(1)
а информационная энтропия класса после наблюдения атрибута (2)
H (C | F ) = -Yf (f )• Yp (c I f ) • log2 P(c I f), (2)
feF ceC
где p(c) — априорная вероятность появления класса с; p(f) — априорная вероятность появления атрибута f; р(с[/) — условная вероятность появления класса с при наличии атрибута f
Разность энтропий H(C) и H(C\F), характеризующая новые сведения об этом классе (информативность), называется информационным усилением. Оценка атрибутов F. основывается на информационном усилении (3):
gain = H (С )-H C ) = H (F, )-H (Ft\C ) = = H (F, ) + H (C )-H (F,, С ),
S/ZK m ¡/f,
Vol 11 No 2-2019, H&ES RESEARC INFORMATICS, COMPUTER ENGINEERING AND CONT
V\\\ y \\\\ '
Алгоритм ранжирования атрибутов на основе информационного усиления является одним из самых простых и быстрых, что является его главным достоинством.
Алгоритм выбора главных компонент (PCA) является фильтрующим. Задачей алгоритма является уменьшение пространства атрибутов с минимальной потерей полезной информации. Главные компоненты являются результатом вычисления собственных векторов и собственных значений ковариационной матрицы атрибутов, отображающих значения (важность) каждого элемента исходных данных. Построенные внутри пространства атрибутов главные компоненты формируют новое подпространство, исключающее из своего множества некоторые второстепенные атрибуты. Подобный подход можно назвать проекционным, поскольку признаки набора данных проецируются на гиперплоскость, меньшей размерности по сравнению с изначальной моделью исходных данных. Отличительной чертой РСА является непараметрический анализ.
Алгоритм выбора атрибутов, основанный на корреляции (CFS) является фильтрующим, осуществляющим ранжирование описания атрибутов. Неприемлемые атрибуты, имеющие слабую корреляцию с классом — игнорируются. Резервные атрибуты экранируются, так как они сильно коррелированы с одним или несколькими оставшимися атрибутами. Выбор атрибута зависит от того, насколько он предсказывает классы в областях пространства объектов набора данных, которые еще не были предсказаны другими признаками. Функция оценки подмножества атрибутов — эвристическое «качество» описания атрибутов 5, выглядит следующим образом (4):
M =
k ■>
.yjk + k (k - l)-rf
(4)
(3)
где k — количество атрибутов; rcf — среднее значение корреляции «атрибут-класс»; rff — среднее значение корреляции атрибутов.
Числитель уравнения (4) показывает, на сколько прогнозируемым для класса является анализируемый набор атрибутов. Знаменатель характеризует избыточность атрибутов.
Оберточный алгоритм выбора атрибутов (Wrapper) [9] позволяет выделить атрибуты, под воздействием индукционного алгоритма. При контролируемом обучении, алгоритм индукции обычно представлен обучающим набором данных, в котором каждый объект описывается вектором значений атрибутов и класса. Задачей алгоритма индукции является формирование классификатора, который будет полезен в будущем. В результате, классификатор представляет собой отображение из пространства значений атрибутов в набор значений класса.
Подмножество атрибутов с наилучшей оценкой выбирается в качестве окончательного набора, на котором и выполняется алгоритм индукции. После завершения этапа выбора атрибутов и обучения, классификатор оценивается на независимом тестовом наборе, который не использовался на этапе обучения.
Общий принцип работы методов выбора атрибутов следующий. Алгоритмы фильтрующих методов строятся на корреляционных зависимостях между признаками и классами набора данных. Алгоритмы оберточных методов используют при выборе атрибутов индукционный ал-
горитм, позволяющий отобрать для классификатора лучшее подмножество.
Результаты отбора атрибутов
Во время исследований использовался полный список атрибутов, формируемый серверным ПО и состоящий из 23 позиций.
Алгоритм InfoGain. Результаты ранжирования атрибутов методом InfoGain представлены в табл. 2.
Гистограмма информативности атрибутов, построенная по результатам ранжирования с использованием
Таблица 2
Результаты ранжирования атрибутов
№ Атрибут
1 DestinationIPAddress - 1Р-адрес назначения
2 SourceIPAddress - 1Р-адрес источника
3 TransportLayerPayload SizeFromServer -Общий объем полезной нагрузки на транспортном уровне от сервера
4 TransportLayerPayload SizeFromClient - Общий объем полезной нагрузки на транспортном уровне от клиента
5 NetworkLayerPayload SizeFromServer - Общий объем полезной нагрузки на сетевом уровне от сервера
6 EfficiencyOfServer - КПД сервера
7 AverageSize OnTransportLayerFromServer - Средний размер пакета со стороны сервера
8 AverageSizeData OnTransportLayerFromServer - Средний размер порции данных со стороны сервера
9 RatioOfData - Соотношение полезной нагрузки
10 StandardDeviation OfPacketSizeFromServer - Стандартное отклонение размера пакета со стороны сервера
11 StandardDeviationOfData OnTransportLayerFromServer - Стандартное отклонение размера данных со стороны сервера
12 StandardDeviationOfData OnTransportLayerFromClient - Стандартное отклонение размера порции данных со стороны клиента
13 StandardDeviation OfPacketSizeFromClient - Стандартное отклонение размера пакета со стороны клиента
14 RatioByte - Соотношение байт
15 NetworkLayerPayload SizeFromClient - Общий объем полезной нагрузки на сетевом уровне от клиента
16 AverageSize OnTransportLayerFromClient- Средний размер пакета со стороны клиента
17 EfficiencyOfClient - КПД клиента
18 AverageSizeData OnTransportLayerFromClient - Средний размер порции данных со стороны клиента
19 RatioOfNumberOfPackets - Соотношение пакетов
20 NumberOfServingsFromServer - Общее количество переданных сегментов транспортного уровня со стороны сервера
21 NumberOfServingsFromClient - Общее количество переданных сегментов транспортного уровня со стороны клиента
22 AverageNumberOfDataPacketsFromClient - Среднее число пакетов на порцию данных со стороны клиента
23 AverageNumberOfDataPacketsFromServer - Среднее число пакетов на порцию данных со стороны сервера
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1£ 17 IK 19 20 21 22 23
Рис. 2. Гистограмма информативности атрибутов
InfoGain, соответствующих нумерации атрибутов в табл. 2, представлена на рисунке 2.
Можно видеть, что изменение информативности атрибутов лежит в диапазоне 0,281 до 2,463.
Алгоритм PCA. Эксперименты проводились с двумя наборами данных с помощью алгоритма поиска Ranker. В результате эксперимента были отобраны 12 атрибутов, с номерами 3, 4, 5, 7, 8, 10, 11, 12, 13, 16, 18, 21 в табл. 2.
Алгоритм CFS. В результате отбора атрибутов с помощью алгоритма CFS было выбрано всего два атрибута № 1 и 2 в табл. 2.
Алгоритм Wrapper. Эксперименты по отбору атрибутов проводились с двумя наборами данных с помощью
■ Preclsfon ■ Recall ш Accuracy ■ F-measure
a)
i 0,9 0,8 0,7
0,Б 0,5 0,4 0,3 0,2 ОД о
алгоритмов поиска Best First и Greedy Stepwise, реализующими оберточный метод. Были выбраны следующие атрибуты №№ 1, 2, 10, 17, 19, 23 в табл. 2.
Сравнительные оценки алгоритмов выделения
информативных атрибутов
В качестве примера на рис. 3а-3г представлены результаты классификации нешифрованного набора приложений, соответствующих нумерации приложений в табл. 1, алгоритмом SVM.
Из представленных зависимостей видно, что наилучшие результаты показывает алгоритм InfoGain при полном наборе атрибутов. Вместе с тем, как видно из рис. 2 ряд
1 0,9 0,8 0,7 0,6 0,3
0,4
0,3 0,2 0,1 О
9 7 11 8 12 10
fl Precision я Recall ■Accuracy F-measure
б)
0,9 0,8 0,7 0,6 0,5 0/1
7 11 3 12 10
I Precision ■ Recall ■ Accuracy f-measure
в)
0,2
0,1 0
7 И E 12
»Precision »RecaB ^Accuracy F-measure
д)
Рис. 3. Результаты классификации мобильных приложений при использовании различных алгоритмов отбора информативных атрибутов: a) Полный набор атрибутов InfoGain; б) Wrapper в) CFS д) PCA
Таблица 3
Характеристики используемого набора данных по типу приложений при анализе сетевых потоков
Название приложения Количество потоков в обучающей выборке Количество потоков в тестовой выборке
Почта Mail.ru 3356 1644
Сбербанк 3303 1697
Skype 3329 1671
Пикабу 3325 1675
Инстраграмм 3357 1643
Hearthstone 3330 1670
Всего 20000 10000
атрибутов мало информативны и не существенно влияют на эффективность классификации, однако увеличивают вычислительную сложность. В этой связи были проведены исследования по способу отбора и количеству информативных атрибутов алгоритма InfoGain.
Оценка эффективности способов отбора
атрибутов алгоритма InfoGain
В качестве исследуемого алгоритма машинного обучения был выбран Random Forest. В табл. 3 приведены числовые характеристики сетевых потоков по приложениям используемых для обучающей и тестовой выборок.
Для оценки качества классификации были вычислены метрики качества и временные метрики: Precision; Recall; Accuracy; F-measure; TPR; FPR, а также То6—время обучения и Т — время тестирования.
•> тест r г
На основе ранжирования, представленного на рис. 2 было рассмотрен следующий способ отбора атрибутов. Увеличение количества атрибутов осуществлялось путем
добавления наиболее информативных атрибутов («Сверху-вниз») в порядке, указанном в табл. 2.
На рис. 4 и рис. 5 представлены результаты эксперимента по увеличению количества атрибутов, путем добавления наиболее информативных по алгоритму «Сверху-вниз».
Из представленных зависимостей видно, что наиболее информативные атрибуты № 1, 2 и 3 в табл. 2 в основном и определяют качество классификации мобильных приложений. По мере увеличения количества атрибутов качество классификации незначительно снижается,
в то время как время обучения и тестирования наоборот возрастают (рис. 5).
Как видно из представленных зависимостей использование нескольких наиболее информативных атрибутов указанных в табл. 2 обеспечивает высокую достоверность правильной классификации TPR (рис. 6), что достигается, однако за счет высокой вероятности ложной классификации приложений FPR (рис. 7).
ь
'1
0,995 0,99 0,985 0,98 0,975 0,97 0,965 0,96 0.95S
10 11 12 13 14 15 16 17 18 19 20 21 22 23
-Recall
- Accuracy
Рис. 4. Изменение качества классификации, при увеличении количества атрибутов, путем добавления наиболее информативных («Сверху-вниз»)
МЛ
!Ч /У// !!Ч ///'
Vol 11 N0 2-2019, H&ES РЕБЕАРС
INFORMATICS, COMPUTER ENGINEERING AND СО^,
'Л\\ у
Рис. 5. Изменение Тоб; Ттест классификатора (в процентах по сравнению со случаем использования всех атрибутов), при увеличении количества атрибутов, добавляя наиболее информативные («Сверху-вниз»)
а)
б)
Рис. 6. Изменение характеристик достоверности классификации при добавлении наиболее информативных (Сверху-вниз): а) TPR; б) FPR
Как видно при использовании первых 20 атрибутов достоверность правильной классификации снижается с 0,998 до 0,995 в то время как вероятность ложной классификации снижается более чем в 2 раза с 0,007 до 0,0028.
Представленные зависимости позволяют предложить следующий алгоритм отбора количества атрибутов на основе их информативности:
Шаг 1. Задавшись вероятностью FPR = const по рис. 6б оценить количество требуемых атрибутов ka;
Шаг 2. По найденному значению ka по рис. 6а оценить вероятность правильной классификации TPR;
Шаг 3. По найденному значению ka по рис. 5 оценить требуемое время обучения Т, и время тестирования Т ;
i j i j об A A тест
Шаг 4. По найденному значению ka по рис. 4 оценить достижимые метрики качества: Precision; Recall; Accuracy; F-measure.
В качестве примера на рисунках 4...6 показано выполнение алгоритма для случая, когда FPR = const= 0,04. Как видно в этом случае ka =12, а TPR = 0,98 (рис. 6а).
Выводы
Сравнительный анализ алгоритмов отбора информативных атрибутов мобильных приложений показал, что наиболее эффективным и легко реализуемым является алгоритм InfoGain.
Специфической особенностью классификации мобильных приложений является высокая информативность всего нескольких наиболее информативных атрибутов, представленных в табл. 2. Наиболее предпочтителен способа отбора атрибутов «Сверху-вниз», при котором сначала отбирается наиболее информативный атрибут, а затем к нему добавляются следующие менее информативные. Для оценки количества атрибутов предлагается алгоритм, базирующийся на величине вероятности ложной классификации FPR
Показано, что, задаваясь вероятностью ложной классификации FPR могут быть оценены основные метрики, характеризующие качество классификации, То6; Ттест; Precision; Recall; Accuracy; F-measure.
Литература
1. Шелухин О.И., Ерохин С. Д., Вaнюшинa А. В. Классификация IP-трафика методами машинного обучения. М.: Горячая линия — Телеком, 2018. 276 с.
2. Шелухин О.И., Симонян А. Г., Вaнюшинa А. В. Эффективность алгоритмов выделения атрибутов в задачах классификации приложений при интеллектуальном анализе трафика // Электросвязь. 2016. № 11. С. 45-52.
3. Шелухин О.И., Симонян А. Г., Вaнюшинa А. В. Влияние структуры обучающей выборки на эффективность классификации приложений трафика методами машинного обучения // T-Comm: Телекоммуникации и транспорт. 2017. Т. 11. № 2. С. 25-31.
4. Щербaковa Н. Г. Анализ IP-трафика методами Data Mining // Пробл. информатики. 2012. № 4. С. 30-46.
5. Бaрсегян А. А., Куприянов М. С., Сmепaненко В. В., Холод И. И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, Olap. СПб.: БХВ-Петербург, 2007. 384 c.
6. Jamuna A., Vinodh Ewards S. E. Efficient Flow based Network Traffic Classification using Machine Learning // International Journal of Engineering Research and Applications (IJERA). 2013. Vol. 3. Issue 2. Pp.1324-1328.
7. Park B.C., Win Y. J., Kim M. S., Hong J. W. Towards automated application signature generation for traffic identification // Proceedings of the International Conference on Network operations and management symposium (Salvador, Bahia, Brazil, 7-11 April 2008). IEEE, 2008. Pp.160-167.
8. Szabo G., Orincsay D., Malomsoky S., Szabo I. On the validation of traffic classification algorithms // Proceedings of the 9th Inte rnational Passive and Active Measurement conference (Cleveland, OH, USA, April 29-30, 2008). Berlin: Springer-Verlag, 2008. Pp.72-81.
9. Kohavi R., John G. H. Wrappers for feature subset selection // Artificial Intelligence. 1997. Vol. 97. Pp. 273-324.
10. Coates A., Carpenter B., etc. Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning. URL: https://crypto.stanford.edu/~dwu4/ papers/ICDAR2011.pdf (дата обращения 15.01.2019).
11. Moore A. W. Information Gain tutorial. URL: http:// www.autonlab.org/tutorials/infogain11.pdf (дата обращения 15.01.2019).
12. HallM.A. Correlation-based feature selection for machine learning. Ph.D. dissertation, University of Waikato, Hamilton, New Zealand, 1998. 198 p.
13.Хэшими С., Комaтинэни С., MaKnmД. Разработка приложений для Android: пер с англ. СПб.: Питер, 2011. 736 с. ISBN 978-5-459-00530-1.
14. Kapmea И. П. Базы данных. Курс лекций и материалы для практических занятий. СПб.: Питер, 2013. 240 с.
15.Kumano Y., Ata S., Nakamura N., Nakahira Y., Oka I. Towards real-time processing for application identification of encrypted traffic // Proceedings of the 2014 International Conference on Computing, Networking and Communications, ICNC (Honolulu, Hawaii, USA, 03-06 Февраля 2014 г.). IEEE, 2014. Pp. 136-140.
m ff,
I H I u/
Vol 11 No 2-2019, H&ES RESEARC INFORMATICS, COMPUTER ENGINEERING AND CONT
V\\\ v \\\\ '
COMPARATIVE ANALYSIS OF THE ALGORITHMS FOR ASSESSING THE QUANTITY AND STRUCTURE OF ATTRIBUTES IN THE PROBLEMS OF CLASSIFICATION OF MOBILE APPLICATIONS
OLEG I. SHELUHIN, KEYWORDS: classification; validity; DataMining; attributes; Random
Moscow, Russia, sheluhin@mail.ru Forest; metrics; protocol.
VIACHESLAV V. BARKOV,
Moscow, Russia, viacheslav.barkov@gmail.com
MIKHAIL V. POLKOVNIKOV,
Moscow, Russia, mnxamoto@mail.ru
ABSTRACT
To assess the effectiveness of classification algorithms in the training and testing modes, a database of mobile applications for traffic, WEB (http, https), mail (SMTP, IMAP), Skype (TCP, UDP), etc. was developed using the developed software and hardware complex. Of the traffic streams received, 66% of the source data was used for training, the rest for testing the classification algorithms for selected applications using machine-learning methods. The following algorithms were considered as classification algorithms: Random Forest, C4.5, SVM, Adaboost, and Naive Bayes. To justify the choice of the number of classification attributes, the wrapping and filtering methods were used. It is shown that some attributes used to classify traffic do not carry meaningful information, and their use does not significantly affect the classification efficiency. Algorithms for the selection of classification attributes are considered: PCA, InfoGain, CFS, and Wrapper. It is shown that the use of the attribute selection-wrapping algorithm is a resource-intensive computational operation, which, with a large number of attributes, takes a long time. It is shown that among the considered classification algorithms, preference should be given to the C4.5 algorithm. A comparative analysis of the selection algorithms for the informative attributes of mobile applications has shown that the most efficient and easily implemented is the In-foGain algorithm. A specific feature of the classification of mobile applications is the high information content of only a few attributes. When choosing a method for selecting attributes, the most preferred algorithm is to select the most informative attribute first and add the following less informative attributes to it. For a quantitative assessment of the selection of the number of attributes, a selection algorithm based on their information content is proposed.
REFERENCES
1. Sheluhin O.I., Yerokhin S. D., Vanyushina A. V. Klassifikatsiya IP-trafika metodami mashinnogo obucheniya [Classification of IP-traffic methods of machine learning]. Moscow: Goryachaya liniya - Telekom, 2018. 276 p.
2. Sheluhin O.I., Simonyan A. G., Vanyushina A. V. Algorithms efficiency for attributes isolation in applications classification problem with intelligent traffic analusis. Elektrosvyaz' [Telecommunication]. 2016. No. 11. Pp. 45-52.
3. Sheluhin O.I., Simonyan A. G., The influence of the structure of the training sample on the effectiveness of the classification of traffic applications by machine learning methods. T-Comm. 2017. Vol. 11. No. 2. Pp. 25-31.
4. Shcherbakova N. G. Analiz IP-trafika metodami Data Mining [Analysis of IP traffic using Data Mining methods]. Problems of informatics. 2012. No. 4. Pp. 30-46.
5. Barsegyan A. A., Kupriyanov M. S., Stepanenko V. V., Kholod I. I. Tekhnologii analiza dannykh: Data Mining, Visual Mining, Text Mining, Olap [Data Analysis Technologies: Data Mining, Visual Mining, Text Mining, Olap]. St. Petesburg: BKhV-Peterburg, 2007. 384 p.
6. Jamuna A., Vinodh Ewards S. E. Efficient Flow based Network Traffic Classification using Machine Learning. International Journal of Engineering Research and Applications (IJERA). 2013. Vol. 3. Issue 2. Pp.1324-1328. ISSN: 2248-9622
7. Park B.C., Win Y. J., Kim M. S., Hong J. W. Towards automated application signature generation for traffic identification. Proceedings of the International Conference on Network operations and management symposium (Salvador, Bahia, Brazil, 7-11 April2008). IEEE, 2008. Pp. 160-167.
8. Szabo G., Orincsay D., Malomsoky S., Szabo I. On the validation of traffic classification algorithms. Proceedings of the 9th International Passive and Active Measurement conference (Cleveland, OH, USA, April29-30, 2008). Berlin: Springer-Verlag, 2008. Pp. 72-81.
9. Kohavi R., John G. H. Wrappers for feature subset selection. Artificial Intelligence. 1997. Vol. 97. Pp. 273-324.
10. Coates A., Carpenter B., etc. Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning. URL: https://crypto.stanford.edu/~dwu4/papers/ICDAR2011.pdf (date of access: 15.01.2019).
11. Moore A. W. Information Gain tutorial. URL: http://www.auton-lab.org/tutorials/infogain11.pdf (date of access:15.01.2019).
12. Hall M. A. Correlation-based feature selection for machine learning. Ph.D. dissertation, University of Waikato, Hamilton, New Zealand, 1998. 198 p.
13. Hashimi S., Komatineni S. MacLean D. Pro Android 2. Apress, 2010. 736 p. ISBN 978-1-4302-2659-8.
14. Karpova I. P. Bazy dannykh. Kurs lektsiy i materialy dlya praktich-eskikh zanyatiy [Database. A course of lectures and materials for practical training]. St. Petesburg: Piter, 2013. 240 p.
15. Kumano Y., Ata S., Nakamura N., Nakahira Y., Oka I. Towards real-time processing for application identification of encrypted traffic. Proceedings of the 2014 International Conference on Computing, Networking and Communications, ICNC (Honolulu, Hawaii, USA, 03-06 february 2014). IEEE, 2014. Pp. 136-140.
INFORMATION ABOUT AUTHORS:
Sheluhin O.I., PhD, Professor, Head of the Department of Information Security of the Moscow Technical University of Communications and Informatics;
Barkov V.V., Senior lecturer of the Department of Information Security of the Moscow Technical University of Communications and Informatics; Polkovnikov M.V., Master of the Department of Information Security of the Moscow Technical University of Communications and Informatics.
For citation: Sheluhin O.I., Barkov V.V., Polkovnikov M.V. Comparative analysis of the algorithms for assessing the quantity and structure of attributes in the problems of classification of mobile applications. H&ES Research. 2019. Vol. 11. No. 2. Pp. 90-100. doi: 10.24411/2409-54192018-10263 (In Russian)