УДК 004.738.5:311
А.К.Скуратов
ИСПОЛЬЗОВАНИЕ ВРЕМЕННЫХ РЯДОВ ДЛЯ ЦЕЛЕЙ СТАТИСТИЧЕСКОГО АНАЛИЗА ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЕЙ НА ОСНОВЕ ИССЛЕДОВАНИЯ ИНФОРМАЦИОННЫХ ПОТОКОВ
ГНИИ информационных технологий и телекоммуникаций «Информика», Москва
It is shown, that statistical models of telecommunication systems in the form of time series are the most authentic, as they are based on the big number of experimental data and consequently are the most informative for the forecast of system conditions.
Учитывая объективно сложившуюся неоднородность как телекоммуникационных сетей, сетевых информационных ресурсов, так и аудитории, которой данная информация адресована, необходимо создание и надежное функционирование достаточно большого набора инфокоммуникационных сервисов, обеспечивающих эффективную работу пользователя с разнородной информацией в гетерогенной телекоммуникационной сети. Представляется очевидным, что при эксплуатации телекоммуникационных сетей должен быть использован достаточно широкий спектр современных технологий мониторинга и анализа. Практика использования и эксплуатации гетерогенных телекоммуникационных сетей убеждает в необходимости более широкого и научно обоснованного внедрения статистических методов их анализа и мониторинга на основе открытой потоковой информации, которую можно легко получить, используя доступные методы и средства.
В результате обработки статистической информации о функционировании телекоммуникационной сети можно определить нормальный профиль сети (этап анализа). Выявление и предсказание отклонений от нормального профиля сети (этап мониторинга) проводится системным администратором с целью определения возникновении нештатной ситуации и принятия соответствующего решения об изменении конфигурации сети. Таким образом, является актуальным разработка методов сбора первичной статистической информации о функционировании телекоммуникационной сети, обработка первичной информации с использованием выбранных статистических методов анализа и выработка рекомендаций по реконфигурации сети.
1. Наиболее распространенные модели
С целью выбора наиболее адекватной модели для анализа и мониторинга телекоммуникационных сетей рассмотрим наиболее распространенные модели системы.
1.1.Марковская модель системы
В качестве исходной информации для построения марковской модели рассматриваются так называемые события, например все действия пользователя, связанные с безопасностью: локальная авторизация, запросы на удаленный доступ и т. п.
Пусть событие — это одно из возможных случайных значений состояния системы Э1,Э2,...,Эк,...,Эк . Тогда, очевидно, система описывается дискретным во времени случайным процессом с множеством значений Э1,Э2,...,,...,, каждое из которых является
определенным событием, фиксируемым операционной системой. Интервалы между различными событиями определяются отдельными действиями пользователя, вызвавшими то или иное событие, и, следовательно, могут быть неодинаковыми. Однако это не имеет существенного значения для построения марковской модели, так как в ней важна последовательность действий, а не интервал между ними.
0 n = 0 (tn ) — случайная величина, характеризующая состояние системы через n
шагов, а 0О = 0 (t0) — случайное начальное состояние системы.
Полное вероятностное описание поведения рассматриваемой системы задается совместными конечномерными вероятностями Р(00,01,..., 0n) при всех n . Для упрощения предполагается, что система описывается моделью простой цепи Маркова, тогда вероятности Р(00,01,...,0n) определяются известным выражением
П
Р(0 0, 01,..., 0 n ) = Ро (00 )П П. (10ц-1).
Ц=1
Далее делается очередное допущение, что вероятности одношаговых переходов пц (0ц 10ц-1) не зависят от времени, т.е. 0(t) рассматривается как простая стационарная
цепь Маркова. Это вносит еще большие упрощения в модель, а также в вычислительный алгоритм, делая тем самым использование подобной модели удобным на начальных этапах исследованиях системы. Естественно, в этом случае ставится вопрос об адекватности модели.
1.2. Модели сетевого трафика фрактальным броуновским движением
При построении этих моделей постулируется или доказывается фрактальность происходящих в сетях процессов на базе исследования свойства самоподобия [1].
В основе экспериментальной проверки фрактальных свойств трафика сети лежат методы, позволяющие по выборочным значениям числа событий на интервалах заданной длительности сформировать и оценить некоторые статистики, которые можно затем использовать для проверки гипотезы о протяженной зависимости трафика.
К числу процессов, аппроксимируемых фрактальным броуновским движением, можно отнести RTT (round-trip йше)-задержку [2,3].
Для стационарного процесса RTT-задержку (обозначим ее T) можно записать в виде
Ti = Tu + T2i+ Тпр,
где i = 1,2,3... — номера задержек (циклов); T1i, T2i — интервалы, соответствующие времени пересылки пакета от источника к приемнику и обратно; T^ — время обработки информации в приемнике. Для известного маршрута движения пакета величина задержки
Ti = To + AT,,
где T0 — постоянная составляющая при отсутствии очередей; ATi — случайная составляющая, связанная с задержками в сети. Пусть AT^ — среднее значение приращения RTT-задержки. Тогда модель фрактального броуновского процесса для момента tn записывается в виде
n
Bh (tn) = £[[ - (To +ATcp)]. i=1
Это позволяет записать выражение для корреляционной функции процесса и перейти к ее исследованию.
1.3. Моделирование временных рядов
Моделирование различных составляющих, характеризующих работу сети, таких, как объем трафика, количество потерянных пакетов и др. [4], в виде временных рядов имеет ряд очевидных преимуществ по сравнению с вышеописанными способами. При построении модели временных рядов используется экспериментальная информация (полученная в реально функционирующей сети), требуется меньше допущений, и, следовательно, более адекватно отражается телекоммуникационная сеть. Математическая модель описывает поток информации в зависимости от момента t. При статистическом анализе временных потоков информации необходимо осуществить выделение тренда; выделение периодических составляющих — колебаний относительно тренда с некоторой регулярностью; анализ случай-
ной компоненты.
Для такого показателя работы сети, как загрузка каналов, в [5] предложена следующая модель, включающая три составляющие:
ДО = ЛО + в(Т) + 8(0,
где ДО — тренд, медленно меняющаяся во времени функция, описывающая изменения среднесуточных (средненедельных) загрузок за интервалы времени большие, чем суточная периодичность; g(T) — периодическая составляющая, которая может быть описана конечным рядом Фурье, построенным по экспериментальным данным величин загрузок телекоммуникационного канала; в(0 — случайная последовательность, относительно математического ожидания которой делается предположение М[в(0] = 0.
Методы исследования данной модели предлагаются следующие. Моделирование тренда может проводиться с помощью хорошо разработанных методов регрессионного анализа. Для построения ряда Фурье следует применять методы анализа периодограмм и спектрального анализа случайных процессов. Свойства и характеристики случайной последовательности в(0 изучаются с помощью классических методов математической статистики и методов анализа случайных последовательностей.
Таким образом, статистические модели телекоммуникационных сетей в виде временных рядов, на наш взгляд, наиболее достоверны, так как основаны на большом числе экспериментальных данных, а следовательно, являются и наиболее информативными для прогноза состояния сети.
2. Временные ряды и их характеристики для целей статистического мониторинга
телекоммуникационных сетей
В случае статистического мониторинга телекоммуникационных сетей при анализе временных рядов наибольший интерес представляет прогнозирование будущих значений ряда. Процедуры предсказания, как правило, основываются на моделировании структуры рядов. Если моделирование осуществляется только с использованием значений самого моделируемого ряда без применения какой-либо дополнительной наблюдаемой переменной (ряда), то говорят об анализе одномерных рядов. Примерами моделей одномерных временных рядов могут служить модель тренда или авторегрессионная модель.
В статистической системе мониторинга телекоммуникационных сетей реализуется процедура автоматического обнаружения подозрительных (т.е. аномально отклоняющихся от тренда) значений. В основе этой процедуры лежит представление о ряде как о сумме тренда и случайной составляющей. Соответственно, выброс — это точка, отстоящая от предполагаемой линии тренда слишком далеко. Для поиска выбросов сначала к ряду применяется процедура медианного сглаживания, состоящая из применения ^-точечной скользящей медианы. Затем строится ряд остатков и находится устойчивая оценка его стандартного отклонения (медиана абсолютных отклонений (МАО)), деленная на 0,6745 для устранения смещения в случае нормального распределения. В качестве выбросов в исходном ряду рассматриваются точки ряда остатков, превысившие по модулю приблизительно m стандартных отклонений (величина m называется уровнем детектирования). Значения параметров k и m задаются пользователем в процессе диалога. Обычно величина m выбирается равной 4. Значения исходного ряда в точках выброса заменяются значениями, полученными при медианном сглаживании.
Под разрывом понимается скачкообразное изменение уровня временного ряда. Разрыв — это выброс в ряду значений первых последовательных разностей исходного ряда. Предлагаемая в статистической системе мониторинга телекоммуникационных сетей процедура поиска разрывов (дополнительно к визуальному анализу) устроена следующим образом: сначала к ряду применяется ^точечная скользящая медиана, чтобы отфильтровать возможные выбросы, затем формируется ряд последовательных разностей сглаженного ряда, и полученный ряд обрабатывается с помощью процедуры поиска выбросов.
3. Модели для временных рядов, разработанные для статистической системы мониторинга телекоммуникационных сетей
3.1. Модель авторегрессии
Модель авторегрессии предназначена для описания стационарных временных рядов. Под процессом авторегрессии порядка р (обозначение — АР(р), в английской нотации АЯ(р)) понимают процесс Х(0, удовлетворяющий для некоторой константы с соотношению
Л =Ф1 -1 +.... + ФрУ(-р + е(, где у( = х( - с, а е( — «белый шум» с нулевым средним. Приведенное уравнение может описывать и нестационарные процессы. Процесс Х(0 стационарен, если все корни полинома Ф(г) = 1 -ф^ -...-ф р2р лежат вне единичного круга |г| > 1.
При слабых дополнительных предположениях стационарный процесс удовлетворяет уравнению авторегрессии бесконечного порядка с убывающими коэффициентами. Поэтому, в частности, авторегрессионная модель достаточно высокого порядка может хорошо аппроксимировать почти любой стационарный процесс. В связи с этим модель авторегрессии часто применяется для моделирования остатков в той или иной параметрической модели, например регрессии или тренда.
Моделью АР(2) хорошо описывается процесс колебаний маятника под действием случайных возмущений.
Для процесса АР(р) теоретические значения частной автокорреляционной функции для лагов, больших р, равны нулю. На основании этого свойства можно выбирать порядок модели авторегрессии для описания выборочных данных.
Модель авторегрессии является частным случаем более общей модели АРИСС (АЮМА Бокса — Дженкинса), пригодной и для описания нестационарных рядов.
3.2. Модель скользящего среднего
Модель скользящего среднего СС(д) (в английской нотации МА(д)) описывает стационарные временные ряды и является частным случаем модели Бокса — Дженкинса (АРИСС). Модель записывается в виде
Х = С + е1 — ©1et-1 - ....-®qet-q ,
где е( — «белый шум»; с — константа (среднее значение ряда); ®1 — коэффициенты модели. Модель всегда описывает стационарный ряд, но для анализа пригодна лишь такая форма модели, для которой выполняется условие обратимости: все корни полинома
©(г) = 2Ч -©1г9-1 -.... -© лежат внутри единичного круга ^1 < 1. В этом случае процесс ег
имеет смысл ошибок прогноза на один шаг вперед.
Для процесса СС(д) все значения автокорреляционной функции для лагов, больших 9, равны 0. Это свойство является характеристическим.
Важное практическое значение имеют процессы, первая (или более высокая) разность которых стационарна и является процессом СС(д). Подобные процессы устроены как случайные колебания с непостоянным средним уровнем или (для второй разности) непостоянным углом наклона. Для прогнозирования таких процессов часто используется метод экспоненциального сглаживания.
3.3. Модель авторегрессии скользящего среднего
Моделями СС(д) и АР(р) за счет выбора их порядков 9 и р можно удовлетворительно описывать многие реальные процессы. Однако на практике для достижения большей гибкости в подгонке моделей к наблюдаемым временным рядам иногда бывает целесообразно объединить в одной модели и авторегрессию и скользящее среднее; при этом цель должна состоять в построении моделей наиболее экономных (простых), дающих хорошую аппрок-
симацию с помощью небольшого числа параметров. Достижению этого помогает рассмотрение смешанных моделей авторегрессии и скользящего среднего или моделей АРСС(р,д):
Х = Ф1 Х-1 +... + Ф р^-р + е1 -©А-1 -...-©?^-?.
Или в другой форме:
ф(В^ = ©(B)et,
где ©(В) и ф(В) — операторы, определенные соответственно для моделей СС(д) и АР(р) и удовлетворяющие сформулированным ранее условиям стационарности и обратимости, а е( — такие же, как и раньше. Подобная модель может оказаться подходящей, например, в
том случае, когда наблюдаемый временной ряд является суммой двух или более независимых составляющих, каждая из которых описывается либо моделью АР, либо моделью СС, но которые непосредственно не наблюдаются.
3.4. Модель сезонных эффектов
Под сезонностью понимают влияние внешних факторов, действующих циклически с заранее известной периодичностью. Типичными примерами являются эффекты, связанные с астрономическими либо календарными причинами. Так, в рядах ежемесячных данных часто встречаются сезонные эффекты с периодом 12, в квартальных рядах — с периодом 4. В свою очередь, в информации, собираемой с интервалом 1 ч, могут присутствовать «сезонные эффекты» с периодом 24, а в собираемой с интервалом 5 мин — «сезонные» колебания с периодом 12 (час) и 288 (сутки).
Одна из наиболее простых моделей учета сезонности — модель сезонных эффектов. В аддитивной форме этой модели ряд представляется в виде
7(0 = Т(0 + 8(0 + е(,
где Т(0 — тренд; е( — ошибка; 8(0 — сезонная составляющая, которая предполагается периодической с периодом Ь: 8(0 = 8^ + Ь). Фактически функция 8 определяется своими значениями на периоде длины Ь, например, 8(1), ..., 8(Ь). Для однозначности параметризации модели обычно предполагают, что 8(1) + ... + 8(Ь) = 0. Значения 8(1), ..., 8(Ь) называют индексами сезонности. Поясним их смысл на примере. Пусть 7(0 — ряд суточных данных, а период сезонности — неделя. Соответственно, Ь = 7. Для определенности положим, что момент k = 1 соответствует понедельнику. Тогда коэффициент 8(1) выражает среднестатистическое отличие понедельников от среднего по всем дням недели. В свою очередь, 8(2) — аналогичная характеристика вторников и т.д.
Для рядов, содержащих явно выраженный тренд, часто более естественна мультипликативная форма модели. В этом случае в качестве условия нормировки используется условие 8(1) х ...х 8(Ь) = 1.
Индексы сезонности рассматриваются в статистической системе мониторинга телекоммуникационных сетей как периодические функции с бесконечной областью определения, и в таком качестве могут участвовать в любых арифметических операциях над временными рядами.
Наличие сезонных эффектов проявляется в виде острых узких пиков в периодограмме на соответствующей частоте (а при несимметричной форме сезонной волны — и на кратных частотах). В выборочной автокорреляционной функции также присутствуют выбросы для лагов (запаздываний), кратных периоду сезонности, но эти выбросы могут быть завуалированы присутствием тренда или большой дисперсией случайной компоненты.
В статистической системе мониторинга телекоммуникационных сетей для прогнозирования при использовании нескольких временных рядов будем применять либо линейную авторегрессионную модель
Щ = ОЩ- + 92^-2 + ... + Ь1У- + Ь2У-2 + ..-с1 ^-1 + с2 ^-2 + ..., либо нейронную сеть с несколькими промежуточными слоями (линейная авторегрессион-
ная модель может рассматриваться как крайний случай нейронной сети без промежуточных слоев). Для оценки коэффициентов авторегрессионной модели и нейронных сетей сначала выбираются ряды у,г,..., которые будут участвовать в предсказании, и формируется матрица данных X со строками вида
И^-1,..., Щ-к ,..., у^1,..., У^к2, 2^1,..., г,-к3 .
Таких строк (объектов) в матрице данных будет п - к +1, где к = шах(кь..., к9) и д — число используемых рядов. Величина лагов к, как и состав предсказывающих рядов, специфицируется пользователем.
В полученной матрице данных X имеется ^ ki +1 переменных. Первая переменная
1=1
х = и, является прогнозируемой, а остальные — предсказывающими.
Теперь для оценки коэффициентов выбранной модели могут использоваться все методы регрессионного анализа.
Выводы
В результате исследования и анализа информационных потоков, циркулирующих в телекоммуникационных сетях, показано, что статистические модели телекоммуникационных сетей в виде временных рядов наиболее достоверны, так как основаны на большом числе экспериментальных данных, а следовательно, являются и наиболее информативными для прогноза состояния сети. На основании предложенной математической модели моделирование тренда временного ряда может проводиться с помощью методов регрессионного анализа, для построения ряда Фурье следует применять методы анализа периодограмм и спектрального анализа случайных процессов, а свойства и характеристики случайной последовательности изучаются с помощью методов математической статистики и методов анализа случайных последовательностей.
Работа выполнена при финансовой поддержке РФФИ (грант №02-07-90026).
1. Городецкий А.Я., Заболоцкий В.С. Фрактальные процессы в компьютерных сетях. СПб: Изд-во СПбГТУ, 2000. 101 с.
2. Mandelblot B.B., Van Ness J.W. // SIAM Reiew. №10. 1968. Р.422-437.
3. Qiong Li, David L.Mills. // Processings of IEEE ICC’98. 1998. V.2. Р.56-78.
4. Прикладная статистика. Классификация и сокращение размерностей / С.А.Айвазян, В.М.Бухштабер,
И.С.Енюков, Л.Д.Мешалкин. М.: Финансы и статистика, 1989. 590 с.
5. Статистический анализ и мониторинг научно-образовательных интернет-сетей / И.С.Енюков,
И.В.Ретинская, А.К. Скуратов; Под. ред. А.Н.Тихонова. М.: Финансы и статистика, 2004. 320 с.: ил.