АНАЛИЗ СТАТИСТИЧЕСКИХ ХАРАКТЕРИСТИК ИНТЕРНЕТ-ТРАФИКА В МАГИСТРАЛЬНОМ КАНАЛЕ
Симаков Денис Вячеславович,
аспирант Сибирского Федерального Университета,
Россия, Красноярск,
Кучин Алексей Андреевич,
аспирант Сибирского Федерального Университета,
Россия, Красноярск,
Ключевые слова: QoS, траффик, нагрузка, самоподобие, коэффициент Херста, Интернет, распределение с "тяжелым хвостом".
Описывается исследование статистических характеристик Интернет-трафика в магистральном канале и приводятся результаты исследования. Исследуемым объектом является публично доступная в сети Интернет реализация трафика магистрального Интернет-канала. Целью исследования является получение информации о статистических характеристиках Интернет-трафика, необходимой для проектирования и оптимизации сети, а также совершенствования технологий обеспечения качества обслуживания (QoS - Quality of Service). В результате исследования были получены графики временных реализаций трафика и плотностей вероятности распределения интенсивности передаваемого трафика для трех значений времени агрегирования. Кроме того, получены оценки коэффициента Херста для трех временных реализаций трафика (с разным временем агрегирования) несколькими методами, графики распределения интервалов времени между пакетами, размеров пакетов и количества переданными ими информации. Сделаны выводы о высокой степени самоподобия и дисперсии интенсивности трафика, присутствии большого количества пакетов малого размера, что приводит к значительному повышению нагрузки, ухудшению показателей QoS, и, следовательно, должно учитываться при решении многих практических задач. Также сделан вывод о высокой сложности (или даже невозможности) разработки универсальной аналитической модели трафика, учитывающей непостоянство в его составе долей разных типов трафика, влияющих на его статистические характеристики. Предложена гипотеза о перспективности использования в этих условиях контроллеров нечеткой логики для решения задач, связанных с повышением эффективности использования сети.
Для цитирования:
Симаков Д.В., Кучин А.А. Анализ статистических характеристик Интернет-трафика в магистральном канале // T-Comm: Телекоммуникации и транспорт. - 2015. - Том 9. - №5. - С. 31-35.
For citation:
Simakov D.V., Kuchin A.V. Analysis of statistical characteristics of the internet-traffic in a backbone link. T-Comm. 2015. Vol 9. No.5, рр. 31-35. (in Russian).
f i л
К современным мультисервисным транспортным сетям, через которые передается большое количество различных потоков трафика, предъявляется требование обеспечения качества обслуживания (QoS - Quality of Service) при передаче данных потоков, в соответствии с их потребностями {задержка, «джиггер», полоса пропускания, надежность каналов). Для соответствия этому требованию разработаны и продолжают разрабатываться и модернизироваться алгоритмы [I] эффективного управления потоками трафика (например, QoS-маршрутизация, алгоритмы управления окном перегрузки TCP-соединения и др.), управления очередями и планирования обслуживания пакетов в буферах интерфейсов (например, RED, WFQ), ограничения интенсивности потока и многие другие. Однако, в основном, все эти алгоритмы получены эвристическим путем, и не имеют математического обоснования своей эффективности, учитывающего статистические характеристики трафика. Кроме того, эти характеристики необходимы для эффективного планирования требуемой полосы пропускания каналов передачи и мощности коммутационных устройств в сети, как это было для сетей с коммутацией каналов. Следовательно, задача проведения исследования статистических характеристик трафика является актуальной, а результаты исследования должны быть опорной базой для решения проблем, связанных с обеспечением QoS.
В качестве исследуемого объекта была взята реализация трафика из источника [2], где ежедневно в открытый доступ выкладывается файл собранной с магистрального канала 15 минутной реализации трафика. Из всех доступных файлов случайным образом был выбран файл датируемый 31 марта 2014 г. С помощью программы Wire-shark [3] из данной реализации были выбраны пакеты с одинаковым МАС-адресом источника, чтобы оставить лишь пакеты движущиеся в одном направлении. При этом количество оставшихся пакетов составило приблизительно 45 миллионов. Полученный таким образом однонаправленный поток был подвергнут анализу.
В первую очередь поток трафика был приведен к эквидистантному временному ряду, то есть весь временной интервал был разделен на равные интервалы, и каждому такому промежутку времени была сопоставлена интенсивность потока трафика (в Мбит/с). На рисунке 1 представлены графики профиля сетевого трафика при трех значениях размера интервала времени усреднения (I мс, 10 мс и 100 мс). Как видно из этих графиков, интенсивность трафика изменяется скачкообразно, то есть, как принято говорить [4], трафик является «пачечным».
Это означает, что в однонаправленном Ethernet-канале несколько подряд переданных пакетов сменяются сравнительно длительными интервалами «тишины», и наоборот. На рисунке 2 изображены графики плотностей распределения вероятности (ПРВ) величины интенсивности трафика для трех интервалов времени усреднения. К сожалению, полученные распределения не удалось аппроксимировать каким-либо из известных ранее. Однако, можно и важно отметить тот факт, что при малой величине окна усреднения, распределения обладают так называемым «тяжелым хвостом» [4, 5], что означает спадание «хвоста»
распределения не по экспоненциальному, а по степенному закону, то есть его медленное убывание. С практической же точки зрения это означает, что при проектировании сети, в частности при расчете нагрузки, необходимо учитывать «экстремальные» значения интенсивности трафика, которые в Ether net-сети, в отличии от сетей с коммутацией каналов, не могут рассматриваться как слишком маловероятные.
С другой стороны, это также означает большую дисперсию интенсивности трафика, что может сопровождаться скачкообразным и нелинейным характером изменения размеров очередей в буферах коммутационных устройств сети. Данный эффект способен негативно влиять на производительность сети, например, приводя к кратковременным перегрузкам и необоснованному сбросу пакетов устройствами, неэффективности алгоритмов traffic policing* traffic shaping и RED [I], а также увеличивая «джиттер» и, таким образом, оказывая негативное влияние на качество передачи трафика реального времени, работу протоколов сетевой синхронизации времени {например, NTP) и др.
Анализируя графики, приведенные на рисунке I, можно также заметить, что, несмотря на многократное отличие в размере окна усреднения, все они содержат резкие «всплески» и «провалы». Этот факт, а также факт наличия «тяжелого хвоста» распределения, являются косвенными признаками статистического самоподобия [4, 5] интенсивности сетевого трафика. Самоподобные процессы иначе называются процессами с долговременной или медленно убывающей зависимостью (МУЗ).
Фактически МУЗ означает, что если количество поступающих пакетов за некоторую единицу времени начало уменьшаться или увеличиваться, то и далее, на протяжении некоторого промежутка времени, эта тенденция будет сохраняться с большей долей вероятности, чем обратная. И чем дольше эта тенденция длится, тем меньше вероятность ее дальнейшего сохранения. Количественную оценку степени такой зависимости дает показатель Херста Н, который для случая МУЗ находится на интервале: 0,5 > Н > 1, Трафик с МУЗ называется персистентным. Если 0 > Я> 0,5, то случайная величина называется антиперсистентной, ее увеличение резко сменяется уменьшением, и наоборот. В случае Н = 0,5 процесс является действительно случайным, не имеющим последействия. Наличие в характере изменения трафика МУЗ представляет определенный интерес, поскольку теоретически позволяет с некоторой долей вероятности предсказывать изменение интенсивности трафика на некоторое время вперед [6].
В таблице I представлены результаты оценки коэффициента Херста разными методами [5], а также дисперсия, стандартное отклонение и математическое ожидание для профилей интенсивности трафика с тремя значениями окна усреднения. Полученные оценки коэффициента Херста говорят о наличии высокой степени МУЗ. Следует отметить, что наиболее точным из всех использованных методов является метод периодограмм. Остальные три метода имеют большую погрешность оценки и могут быть использованы лишь для получения информации о том, является ли временной ряд самоподобным, или нет.
T-Comm Том 9. #5-2015
У
33
7Тл
"Ol
Н
= -toi
201
п-!—г
_^_I_I_I_I_I_I_I_;_I_
О 100 200 300 J 00 500 €00 700 S00 900 1000 1100 1200 1300 1400 1500 1600 Размер пакета, байт
Рис. 4. ПРВ размеров переданных пакетов
70 60
к
= 50 2
J 40 I 30
Э
= 20 ж
|ю| о'
...........i-.....
шЛ_I_t_L
0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 Размер пакета, бай
Рис. 5, Доля переданных данных пакетами разного размера Заключение
Агрегированный трафик магистрального канала сети, вопреки ожиданиям усреднения и сглаживания за счет суммирования большого количества потоков, обладает высокой дисперсией, степенью самоподобия и характеризуется распределением интенсивности обладающим «тяжелым хвостом». Предположительно, с возрастанием интенсивности трафика, спад «хвоста» его распределения будет становиться более пологим, и соответственно, будет возрастать дисперсия. В противоположность этому, с возрастанием интенсивности, спад «хвоста» распределения интервалов времени между двумя последовательно переданными пакетами будет становиться более крутым.
Большая дисперсия интенсивности передаваемого трафика должна приводить к большой дисперсии размеров очередей а буферах интерфейсов, и, как следствие, большому «джиттеру». Высокое значение «джиттера» приводит не только к ухудшения показателей ОоБ, но и к трудностям при создании алгоритмов <2о5-маршрутизации [I], в которых концептуально принято при вычислении метрики помимо полосы пропускания и других параметров каналов учитывать еще и задержку.
большое количество пакетов малого размера приводит не только к неэффективности использования полосы пропускания технологии канального уровня за счет внесения больших издержек на передачу служебной информации в заголовках пакетов, но и к высокой загрузке коммутационных устройств, которые просматривают заголовки каждого пакета и принимают решение о его дальнейшей судьбе.
Кроме того, предположительно, степень самоподобия, дисперсия и распределение размеров пакетов будут меняться в зависимости от состава передаваемого трафика. Под составом понимается доля TCP и UDP-пакетов. Протокол TCP отправляет «пачку» данных, не превышающую минимального из двух значений размера окна перегрузки, либо окна приемника, а затем ожидает прихода подтверждения их успешной доставки, после чего процедура повторяется, с некоторыми возможными корректировками [I]. С другой стороны, сервисы «реального времени», использующие UDP, требуют минимального значения «джиттера», а потому передают свои данные равными частями с почти постоянной скоростью.
Учитывая, что в исследованной реализации трафика, доля TCP составляла приблизительно 73%, а доля UDP -около 10%, можно сделать предположение, что это и является основной причиной высокой степени «пачечности» трафика. Однако, количество сервисов «реального времени» и их популярность непрерывно растут, что приводит к увеличению доли UDP-трафика. Кроме того, в связи с повышением надежности каналов, оборудования, и, следовательно, сети Интернет в целом, появился протокол обмена данными в пиринговых сетях иТР [8], использующий UDP, взамен TCP, для повышения производительности сети.
Данные факты необходимо учитывать при решении многих задач: проектировании сети, мониторинге нагрузки, разработке алгоритмов передачи данных, маршрутизации и управления очередями. Отсутствие универсальных аналитических моделей статистических характеристик трафика, а следствии большой сложности (или даже невозможности) их получения, наводит на мысль о перспективности использования контроллеров нечеткой логики (fuzzy logic) [9] для решения этих задач.
Литература
1. Кучерявый Е.А. Управление трафиком и качество обслуживания е сети Интернет. - СПб.: Наука и техника, 2004. - 336 с.
2. MAWI Working Group Traffic Archive. URL: http://mawi.wide.ad.jp/mawi/ (дата обращения: 21.05.2014).
3. Wireshark. URL: http://www.wireshark.org/ {дата обращения: 21.05.2014).
4. Столлингс В. Современные компьютерные сети. 2-е изд. - СПб.: Питер, 2003. - 783 с.
5. Осин A.B., Смольский СМ., Шелухин О.И. Самоподобие и фракталы. Телекоммуникационные приложения. - М.: Физматшт, 2008. - 368 с.
6. Петров В.В. Структура телетрафика и алгоритм обеспечения качества обслуживания при влиянии эффекта самоподобия: диссертация кандидата технических наук. Московский энергетический институт. - Москва, 2004.
7. Корнышев Ю.Н., Пшеничников А.П., Харкевич А .Д. Теория телетрафика. - М: Радио и связь, 1996. - 272 с.
8. uTorrent Transport Protocol. URL http://www.bittorrent.org/ beps/bep_0029,htm 1 {дата обращения: 21.05.2014).
9. Круглое B.B., Дли М.И., Голунов Р.Ю. Нечеткая логика и искусственные нейронные сети. - М.: Физматлит, 2001. - 224 с.
COMMUNICATIONS
ANALYSIS OF STATISTICAL CHARACTERISTICS OF THE INTERNET-TRAFFIC IN A BACKBONE LINK
Simakov D.V., Krasnoyarsk, Russia, [email protected] Kuchin A.V., Krasnoyarsk, Russia, [email protected]
Abstract
This paper describes a research of statistical characteristics of Internet-traffic in a backbone link and its results. An object of the research is a publicly available on the Internet traffic dump. A goal of the research is getting information about statistical characteristics of the Internet-traffic, required for problems of network design, optimization and improving QoS-technologies. Results of the research are plots of traffic time series and power distribution functions of traffic intensity, packet size and delay between packets. Furthermore, Hurst parameter estimations are obtained by four methods. Conclusions were made about high degree of traffic self-similarity, high mean of traffic intensity dispersion and presence of a large number of small packets, which increase load and lead to QoS degradation, hence it should be taken into account when solving many problems. Also conclusion was made about high complexity (or maybe just impossibility) of developing of universal analytical traffic model, that will take into account traffic composition variability, impacting its statistical characteristics. Proposed hypothesis about prospects of using fuzzy logic controllers for solving problems of improving network using efficiency.
Keywords: QoS, traffic, network load, self-similarity, Hurst parameter, Internet, heavy tailed distributions.
References
1. Kucheryavy E.A. Traffic management and quality of service in the Internet. St. Petersburg, 2004. 336 p. (in Russian).
2. MAWI Working Group Traffic Archive, viewed 21 May 2014, http://mawi.wide.ad.jp/mawi
3. Wireshark, viewed 21 May 2014, http://www.wireshark.org.
4. Stallings W. Modern computer networks, 2 ed. St. Petersburg, 2003. 783 p. (in Russian).
5. Osin A.V., Smolsky S.M., Sheluhin O.I. Self-similarity and fractals. Telecommunication applications. Moscow, 2008. 368 p. (in Russian).
6. Petrov V.V. Teletraffic structure and QoS-providing algorithm under the influence of self-similarity effect: PhD dissertation. Moscow, 2004. (in Russian).
7. Kornishev Y.N., Pshenichnikov A.P., Harkevich A.D. Teletraffic theory. Moscow, 1996. 272 p. (in Russian).
8. uTorrent Transport Protocol, viewed 21 May 2014, http://www.bittorrent.org/beps/bep_0029.html (in Russian).
9. Kruglov V.V., Dli M.I., Golunov R.Y. Fuzzy logic and artificial neural networks. Moscow, 2001. 224 p. (in Russian).
Information about authors:
Simakov D.V., Postgraduate student of Siberian Federal University, Russia, Krasnoyarsk; Kuchin A.V., Postgraduate student of Siberian Federal University, Russia, Krasnoyarsk.
For citation:
Simakov D.V., Kuchin A.V. Analysis of statistical characteristics of the internet-traffic in a backbone link. T-Comm. 2015. Vol 9. No.5, pp. 31-35. (in Russian).
T-Comm Vol.9. #5-201 5
7TT