Научная статья на тему 'Диаграммы рассеяния в анализе случайных потоков событий'

Диаграммы рассеяния в анализе случайных потоков событий Текст научной статьи по специальности «Математика»

CC BY
520
55
i Надоели баннеры? Вы всегда можете отключить рекламу.
Область наук
Ключевые слова
ОБРАБОТКА ИНФОРМАЦИИ / СЛУЧАЙНЫЕ ПРОЦЕССЫ / ПОТОКИ СОБЫТИЙ / ТОЧЕЧНЫЕ ПРОЦЕССЫ / ДИАГРАММЫ РАССЕЯНИЯ / ВЕРОЯТНОСТНЫЙ АНАЛИЗ / НЕОДНОРОДНЫЕ ДАННЫЕ / INFORMATION PROCESSING / RANDOM PROCESSES / EVENT STREAMS / POINT PROCESSES / SCATTERPLOTS / PROBABILISTIC ANALYSIS / INHOMOGENEOUS DATA

Аннотация научной статьи по математике, автор научной работы — Хименко Виталий Иванович

Цель: вероятностный анализ случайных потоков событий на основе двумерных диаграмм рассеяния и исследование общей структуры диаграмм для нескольких наиболее распространенных моделей случайных потоков. Результаты: показаны особенности построения диаграмм рассеяния, которые заключаются в отображении двумерной информации в задачах вероятностного анализа случайных потоков событий. Введены простые числовые характеристики, отражающие информационную структуру случайных данных на фазовой плоскости. Выполнен вероятностный анализ диаграмм рассеяния для класса простых пуассоновских потоков, случайных потоков с неоднородной вероятностной структурой, потоков с двойной стохастичностью и класса случайных альтернирующих потоков событий. Практическая значимость: потенциальная полезность полученных результатов и практического использования диаграмм рассеяния состоит в наглядности и высокой информативности представления двумерной информации на фазовой плоскости. Диаграммы рассеяния позволяют накапливать, усреднять и систематизировать выборочные данные, оперативно оценивать однородность потоков событий, рассматривать эффекты коррелированности, группировки, эффекты случайных «загрязнений» и эффекты случайного пропуска данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Scatterplots in Analysis of Random Streams of Events

Purpose: Our goals are probabilistic analysis of random streams of events on the base of two-dimensional scatterplots, and studying a common structure of charts for several most common models of random streams. Results: We have shown the specific features of building scatterplots which are displaying two-dimensional information in the problems of probability analysis of random streams of events. We introduced simple numerical characteristics reflecting the information structure of random data on the phase plane. We performed probabilistic analysis of scatterplots for a class of simple Poisson streams, for random streams with inhomogeneous probabilistic structure, for streams with double stochasticity and for a class of random alternating streams of events. Practical relevance: Presenting two-dimensional information on a phase plane is highly informative, therefore scatterplots are potentially useful. They allow you to store, average out and systematize sampled data, quickly assess the homogeneity of the event streams, consider correlation effects, grouping, random "contamination" effects and randomly missed data.

Текст научной работы на тему «Диаграммы рассеяния в анализе случайных потоков событий»

V СТОХАСТИЧЕСКАЯ ДИНАМИКА И ХАОС

УДК 519.21:537.86

с1о1:10.15217/1ззп1684-8853.2016.4.85

ДИАГРАММЫ РАССЕЯНИЯ В АНАЛИЗЕ СЛУЧАЙНЫХ ПОТОКОВ СОБЫТИЙ

В. И. Хименко3, доктор техн. наук, профессор аОАО «НИО ЦИТ «Петрокомета», Санкт-Петербург, РФ

Цель: вероятностный анализ случайных потоков событий на основе двумерных диаграмм рассеяния и исследование общей структуры диаграмм для нескольких наиболее распространенных моделей случайных потоков. Результаты: показаны особенности построения диаграмм рассеяния, которые заключаются в отображении двумерной информации в задачах вероятностного анализа случайных потоков событий. Введены простые числовые характеристики, отражающие информационную структуру случайных данных на фазовой плоскости. Выполнен вероятностный анализ диаграмм рассеяния для класса простых пуассоновских потоков, случайных потоков с неоднородной вероятностной структурой, потоков с двойной стохастичностью и класса случайных альтернирующих потоков событий. Практическая значимость: потенциальная полезность полученных результатов и практического использования диаграмм рассеяния состоит в наглядности и высокой информативности представления двумерной информации на фазовой плоскости. Диаграммы рассеяния позволяют накапливать, усреднять и систематизировать выборочные данные, оперативно оценивать однородность потоков событий, рассматривать эффекты коррелированности, группировки, эффекты случайных «загрязнений» и эффекты случайного пропуска данных.

Ключевые слова — обработка информации, случайные процессы, потоки событий, точечные процессы, диаграммы рассеяния, вероятностный анализ, неоднородные данные.

Введение

Наиболее часто модели случайных потоков используются при описании различных последовательностей однородных событий. Необходимость исследования таких потоков возникает во многих задачах физики, биологии, техники, теории надежности и теории рисковых ситуаций, теории транспортных потоков, разнообразных задачах логистики и задачах теории массового обслуживания. Типовыми примерами случайных потоков событий могут быть последовательности телефонных вызовов, потоки заявок при многостанционном доступе в спутниковых системах связи, моменты отказов вычислительных систем, потоки импульсов в нейронных сетях, случайные потоки электронов, фотонов или каких-либо элементарных частиц при ядерно-физических экспериментах. Это могут быть и потоки переходов какой-либо сложной системы из одного состояния в другое.

Если рассматривается некоторая последовательность однородных событий, каждое из которых может происходить в случайный момент времени ti, то поток таких событий условно можно представить (рис. 1) на оси времени 0t в виде последовательности точек ^п} — случайного точечного процесса. Каждая точка ti, , = 1, 2, ... соответствует при этом моменту появления ,-го события, а значения т, = ti - — длительностям интервалов между последовательными событиями.

Учитывая, что случайный поток состоит из однородных событий, анализ точечных процессов {Ьп, п = 1, 2, ...} во многих практических за-

дачах основан на исследованиях вероятностных характеристик временных интервалов {т,}. При таком исследовании важное значение имеет не только описание длительностей т., но и рассмотрение совместных свойств случайных величин т, и т при ] ^ i. Одним из возможных (и наиболее простых) подходов к выявлению особенностей совместного поведения длительностей т и т; является анализ диаграмм рассеяния для т., т; на фазо-

i ]

вой плоскости (т., т^). Подобные представления используются в анализе вероятностной структуры временных рядов, например, при корреляционном, регрессионном и факторном анализе [1-4], в задачах распознавания образов [5], задачах обработки данных радиофизических экспериментов [6] и данных аэрокосмического мониторинга

[7], задачах анализа информации в эконометрике

[8], кардиологии [9] и нейрофизиологии [10].

Характерными свойствами диаграмм рассеяния, с одной стороны, являются простота и наглядность отображения двумерной информации, возможность накопления и усреднения выборочных данных при возрастании общей длительно-

гп, п = 1, 2, ...

to - 0 tl ^2 \

-С,,, = 1, 2, ...

■ Рис. 1. Отдельная реализация точечного процесса tn, п = 1, 2, ... и случайная последовательность интервалов т, между отдельными событиями

т

сти наблюдений. С другой стороны, исследования самих диаграмм рассеяния [1-10], как правило, носят лишь описательный характер, выполняются на уровне визуального анализа и не используют значительную часть информации, содержащейся в вероятностной структуре получаемых данных.

Цель данной работы — анализ особенностей представления случайных величин т. и т на фазовой плоскости (т., т;) и вероятностное исследование диаграмм рассеяния для нескольких практически важных моделей случайных потоков событий {¿п}.

Диаграммы рассеяния для процессов Пуассона

Общая структура и основные свойства процессов Пуассона достаточно хорошо изучены; такие процессы рассматриваются во многих работах (например, [1, 11, 12]) и используются в качестве базовой модели при построении большинства других, более сложных моделей случайных потоков событий [13, 14]. Именно поэтому с модели пуассоновского процесса полезно начать вероятностный анализ диаграмм рассеяния.

Предположим, что {Ьп, п = 1, 2, ...} — простой пуассоновский поток событий, и рассмотрим случайную последовательность {т., . = 1, 2, .} временных интервалов т. = ^ - ^ между соседними событиями. Характерной особенностью данной модели является то, что величины т1, т2, ., тп относятся здесь к классу независимых одинаково распределенных случайных величин. Они описываются экспоненциальным распределением [11-14], и если через X обозначить интенсивность потока (т. е. среднее число событий в единицу времени), то плотность вероятностей рт(т) и функция распределения (т) для т. будут иметь вид

рт (т) = Х ехр(-Хт), (т) = 1 - ехр(-Хт), т>0. (1)

Условие взаимной независимости интервалов т. и т при I ^ ] позволяет по выражениям (1) определить совместную плотность вероятностей

Р2(т;>т у) = Рт(т;) Рт(т у) = х2 ехР [-Х(т; + ту)]>

Ч| > 0.

(2)

Формально функция (2) содержит всю информацию о совместном поведении временных интервалов т. и т,, и является основой для исследования двумерных вероятностных характеристик случайных последовательностей {т.}. Однако в задачах статистического анализа построение по экспериментальным данным двумерных распределений требует больших объемов выборки и существенных вычислительных затрат. Кроме того, подобная информация в функции (2) содер-

жится в неявном виде, и для ее выделения нужны дополнительные операции.

Рассмотрим здесь более простой способ отображения информации о совместном поведении длительностей т. и т;. Выберем для определенности значение ] = . + 1 и будем интерпретировать случайные величины т. и т+ как координаты точки на плоскости (т., т.+1). Тогда поведение последовательности {т^, I = 1, 2, ...} можно представить геометрически в виде некоторой диаграммы рассеяния. В качестве простой иллюстрации на рис. 2 приведена типовая диаграмма для длительностей интервалов т. и Tj = т+ пуассоновского потока событий. Ее общий вид непосредственно связан с особенностями поведения совместной плотности вероятностей р2(тт}).

Действительно, характер функции (2) подтверждает (см. рис. 2), что для рассматриваемой модели процесса {Ьп, п = 1, 2, ...} диаграмма рассеяния должна обладать относительно высокой концентрацией (или «плотностью») точек в окрестностях малых значений т и не должна иметь каких-либо явно выраженных областей группировки событий на плоскости (т., т.+1) при возрастании длительностей т. С увеличением значений т плотность точек (или плотность событий потока) уменьшается по экспоненциальному закону.

Для определения вероятностных характеристик диаграмм рассеяния зададим на фазовой плоскости (т., т}) некоторую область «допустимых» значений О. Границы этой области (рис. 3)

Р2(Ъ

т;+1

1

0,8 0,6 0,4 0,2 0,

01

3 Г4

1 2 3 4 5 6 7

■ Рис. 2. Характер представления двумерной информации в виде совместной плотности вероятностей и в виде диаграммы рассеяния

т;+1

т;+1

п

1 2 3 4 5 6 7

Нх

6

5

Н 4 Ну 3 2 1

т; 0

п , V- .

1 2 3 4 5 6 7 Нх

■ Рис. 3. Типовая структура диаграммы рассеяния для пуассоновского потока событий и заданные области О допустимых значений

определим из условия т. е (0, Нх), где Нх может рассматриваться как некоторый пороговый уровень в диапазоне изменений длительностей т..

Предположим, что исследуется случайный поток событий п = 1, 2, ...} и наблюдению доступно т временных интервалов т1, т2, ., тт. При отображении этих наблюдений на фазовой плоскости (т., т+1) диаграмма рассеяния будет содержать (т - 1) точек, каждая из которых характеризуется координатами т., т^, где ] =, + 1, а , = 1, 2, ..., т- 1. Некоторое число этих точек п(О, т) может находиться в заданной области О допустимых значений т, е (0, Нх), а часть точек, обозначим их число через п+(О, т), — за границами выбранной области О. Если какая-либо произвольная точка ^ описывается координатами т., т+1 и при этом выполняется условие т. < Нх, то данная точка находится в области допустимых значений О. Вероятность такого события Р{| е О} можно выразить через функции (1) как

Нх

Р{% еО} = Р{т; < Нх} = { Рт (т)*т = (Их),

Hx > 0.

(3)

С другой стороны, если значение т. > Нх, то рассматриваемая точка ^ выходит за границу заданной области О, и вероятность этого события

Р{ЦО} = Р{т >ИХ} = | Рт (т)*г = 1 -2? (Нх). (4)

Нх

Таким образом, если наблюдению доступно т

случайных величин х1, х2,

то при анализе

диаграмм рассеяния, с учетом вероятностей (3) и (4), можно определить математическое ожидание (среднее значение) числа точек N (О, т)=М{п (О, т)}, попадающих на фазовой плоскости в область О, и среднее число точек ^(О, т)=М{п+(О, т)}, выходящих за границы области допустимых значений О:

ЩО, т) = (т- 1)Р{| еО};

N+ (О, т) = (т -1) - Ы(О, т) =

= (m -1)[1 - P{|eQ}].

(5)

Более полное вероятностное описание случайных величин п(О, т) и п+(О, т) в подобных задачах может быть выполнено на основе классической для теории вероятностей схемы Бернулли [14-16]. Так, будем считать, что результаты наблюдений т1, т2, . , тт относятся к классу независимых случайных величин и отображаются на фазовой плоскости (т., т+1) в виде совокупности случайно расположенных точек ..., |т_1. Каждая точка ^ с вероятностью р = Р{| е О}=^т(Нх) попадает в область допусти-

мых значений О и с вероятностью р+ = 1 - р = = 1 - (Нх) выходит за пределы заданной области О. Тогда, по аналогии с результатами работы [15], вероятность выхода за пределы области ровно й точек из рассматриваемой совокупности ...,

|т_1 определится выражением

pk (n+) = P\n+ (Q, m) = k} =

= Cm-1 (P+ )k (1 - P+ )m-1-k,

(6)

где й=0, 1, 2, ..., т- 1, а Скт-1=(т - 1)!/й!(т - 1 - й)! — число сочетаний из (т - 1) элементов по й.

По своему виду результат (6) соответствует одному из наиболее распространенных в теории вероятностей [14, 16] биномиальному закону распределения. Форма и параметры этого закона в данном случае зависят лишь от общего числа наблюдений т и вероятности р+. В частности, для математического ожидания и дисперсии числа точек, выходящих на фазовой плоскости за границы заданной области О, на основе распределения (6) получим

N + (О, т) = ы{п+ (О, т)} = (т -1)(р+) = = (т -1)[1 - (Их)];

D

[n+ (Q, m)] = M|[n+ (Q, m) - N+ (Q, m)]" = (m -1)( p+ )(1 - p+).

(7)

Эти формулы просты и удобны для численных расчетов. Полезно, кроме того, заметить, что среднее число точек N+(Q, m)=M{n+(Q, m)}, попадающих за пределы области Q, как и следовало ожидать, совпадает с выражением (5) и с учетом функции распределения (1) может быть представлено в форме

N + (Q, m) = (m- 1)exp(-XHx), Hx > 0. (8)

Если учесть здесь дисперсию стт2 экспоненциального распределения (1): ст2 = 1/Х2, и для удобства задания области Q ввести нормированное значение порогового уровня Hx /стт = XHx = hx, то формулу (8) можно переписать еще в более наглядном виде

N+ (Q, m) = (m - 1)exp(-hx), hx = XHx > 0. (9)

Это выражение показывает, что при фиксированном объеме выборки m = const изменение порогового уровня hx на фазовой плоскости (xi, xi+1) приводит к экспоненциальному изменению среднего числа отображающих точек (или событий), выходящих за границы заданной области Q.

Выделим теперь еще одну важную особенность вероятностного анализа. Очевидно, что в зависимости от решаемых задач область допустимых

о

X

m

значений О может иметь различную форму. Так, например, в качестве простого обобщения определим область О двумя условиями: т. е (0, Нх), т.+1 е (0, Ну), где значения Нх и Ну рассматриваются как некоторые пороговые уровни в диапазоне изменений т (см. рис. 3).

Вероятность е О} нахождения произвольной точки | с координатами т., т в заданной области О запишется при этом в виде

Р{еО} = Р{ <ИХ, ту <Иу } =

= I I Р2 (т;, тI)^атI, (10)

о о

а при независимости интервалов т. и т значение вероятности (10) будет определяться как

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Р{|еО} = Р{т; < Их} Р{ту <Иу} =

Их

И„

= | Рт (т;) ат; | Рт (т| ) ату .

(11)

Таким образом, если наблюдению доступно т. временных интервалов т1, т2, ..., тт между последовательными событиями точечного процесса {Ьп, п = 1, 2, ...}, то с учетом вероятностей (10),

(11) для диаграммы рассеяния на плоскости (т., т;) при ] =. + 1 можно определить среднее число точек Ы(О, т), попадающих в область О, и среднее число точек ^+(О, т), выходящих за границы заданной области допустимых значений О:

Щ(О, т) = (т - 1)Р{§ еО};

Щ+ (О, т) = (т -1)[1 - Р{§еО}]. (12)

Формально этот результат совпадает с выражением (5), однако значение вероятности е О} в формулах (12) определяется выражениями (10) или (11) с учетом иной области допустимых значений О.

Так, в частности, применительно к моделям пуассоновских процессов {Ьп, п = 1, 2, ...} на основе распределений (1) и (2) записанная в формулах

(12) вероятность будет определяться значением

Р{^еО} =1 -е~ХИх )( -е~ХИу Их, Иу е(0,ю).

(13)

Для удобства практических расчетов в этом выражении можно выполнить переход от пороговых уровней Нх и Ну к их нормированным значениям:

Нх/Стт = ХНх = hx, НА = ХНу =

В целом полезно здесь подчеркнуть, что рассмотренные результаты (3)-(13) позволяют выполнять вероятностный анализ общей структуры

диаграмм рассеяния, определять вероятностные характеристики и исследовать количественные соотношения в расположении точек (событий) на фазовой плоскости (т., т}) при различном задании

границ Нх и Ну области допустимых значений О.

х у

Случайные потоки с неоднородной структурой

В задачах обработки информации и задачах исследования случайных потоков событий достаточно часто возникают ситуации, когда интервалы т. между отдельными событиями {Ьп, п = 1, 2, ...} имеют неоднородную вероятностную структуру. Подобные неоднородности могут быть связаны с физической природой изучаемых процессов, могут появляться при анализе наблюдений со случайными пропусками данных, при анализе случайных потоков с «загрязнениями» или появлением аномальных значений.

Рассмотрим простую и распространенную для подобных задач вероятностную модель

Рт (т) = а1 Р1 (т|^1) +а,2 Р2 (т|^2), а1 +а2 = 1, а1 2 е[0,1],

(14)

в которой плотность вероятностей рт(т) для временных интервалов {т.} представляется в виде смеси двух различных распределений р1(т|Х1) и р2(т|Х2) с параметрами Х1 и Х2. Весовые коэффициенты а1 и а2 играют в этой модели роль вероятностей, а их соотношение определяет степень неоднородности случайной последовательности {т.}.

Для анализа совместного поведения случайных величин т. и т рассмотрим применительно к модели (14) особенности поведения диаграмм рассеяния для длительностей интервалов т. и т при ] = I + 1, I = 1, 2, ..., т - 1 на фазовой плоскости (т., т.+1).

Зададим на плоскости (тт^+1) в области изменения значений т. е (0, ¥) некоторый пороговый уровень Нх > 0 и будем считать область О: т. е (0, Нх) областью допустимых значений. Произвольная точка ^ = ^(т., т.+1) с координатами (т., т.+1) на фазовой плоскости может находиться в заданной области ^ е О и может выходить за границу Нх этой области, т. е. ^ ^ О. Вероятности этих событий в соответствии с формулами (3) и (4) определяются выражениями

Их

Р{| еО} = | Рт(т)ат =

Их

Их

= а1 I Р1 (т|Ч)ат + а2 I Р2 (т|Х)ат; о о

ю ю

Р{^£О} = а1 I Р1 (т^)ат + а2 I Р2 (т|Х)^т. (15)

Их

Их

0

Следовательно, если наблюдению доступно т случайных величин т1, т2, ., тт, то на основе общих результатов (5) и вероятностей (15) можно определить для диаграммы рассеяния на плоскости (т., т+1) среднее число точек ^О, т), находящихся в области допустимых значений О, и среднее число точек ^(О, т), выходящих за границу Нх заданной области О:

N(О, т) = (т -1) - N + (О, т);

N + (О, т) = а^+ (Нх, т) + а2N2 (Нх, т), (16)

где

да

N(Их, т) = (т -1) | рк(т\Хк)ат, А = 1, 2. (17)

Нх

Такой результат показывает, что представление неоднородных данных {т.} моделью распределения рт(т) в виде вероятностной смеси (14) позволяет представить и характеристики расположения точек ^ на диаграмме рассеяния в виде взвешенной суммы слагаемых Nk+(Hx, т), соответствующих отдельным компонентам й = 1, 2 случайной последовательности {т.}.

Рассмотрим теперь на фазовой плоскости (т., т+1) два пороговых уровня Нх и Ну и определим область допустимых значений условием

О: т. е (0, Нх), т+1 е (0, Н„).

(18)

Для упрощения анализа будем считать, что случайная последовательность {т.} является последовательностью независимых и одинаково распределенных случайных величин с общей плотностью вероятностей (14). Допущение о независимости случайных интервалов {т.} характерно для большинства моделей точечных процессов {^}. При этом без потери общности можно также в определении пороговых уровней (18) положить

Нх = НУ = Н

Перечисленные условия позволяют воспользоваться формулой (11) и для диаграммы рассеяния процессов ^п} с неоднородной структурой (14) определить вероятность нахождения произвольной точки ^ = |. (т., т+1) с координатами (т., т+1) в заданной области О:

(И Л2

Р{| еО} = Р{т <И, т <И} = | | Рт(т)^ =

( И И 1 л 2

= |а11 Р1 (т|^1)ат + а2 | Р2(т|^2)ат I . (19)

В свою очередь, этот результат позволяет на основе общих выражений (12) непосредственно определить среднее число точек ^О, т) и ^(О, т), находящихся в области О допустимых значений (18) и выходящих за границы Нх=Ну=Н заданной области О.

Рассмотренная вероятностная модель (14) наиболее часто используется при описании «загрязненных» наблюдений, анализе экспериментальных данных с «грубыми» ошибками или исследовании потоков событий {^ с аномальными отклонениями параметров. Функции р1(т|Х1) и р2(т|Х2) или параметры интенсивности Х1 и Х2 в подобных ситуациях существенно различаются между собой.

Для наглядности на рис. 4 показан характерный вид отдельной реализации т1, т2, ..., тт неоднородной случайной последовательности {т.} и приведена построенная для этой реализации диаграмма рассеяния на фазовой плоскости (т., т.+1). В качестве примера за основу здесь был выбран случайный точечный процесс ^п}, порожденный регулярным потоком однородных событий со случайными возмущениями длительностей интервалов т. между событиями. По структуре эти возмущения представляют собой последовательность независимых случайных величин, описание которых в модели (14) выполняется на основе плотности вероятностей р1(т|Х1). Вторая компонента р2(т|Х2) в вероятностной модели (14) описывает эффекты резких отклонений длительностей т. от их средних значений и, по существу, отражает структуру случайных «загрязнений» последовательности {т.}.

Неоднородность общей вероятностной структуры точечного процесса {ЬЩ} достаточно наглядно проявляется на фазовой плоскости (т., т+1). При весовых коэффициентах а1 >> а2 на диаграмме рассеяния (см. рис. 4) отчетливо формируются область основных значений т, определяемых функцией р1(т|Х1), и области «загрязнений» — скопления редких, но выделяющихся по своей величине значений т, описываемых плотностью вероятностей р2(т|Х2).

При обработке и анализе подобных наблюдений за счет соответствующего выбора пороговых уровней Нх и Ну на фазовой плоскости (т., т+1) могут быть разделены основная и «загрязняющая» компоненты.

Рассмотренный здесь подход к анализу и полученные результаты (14)-(19) позволяют во многих

^+1

Н,

Н,

■ Рис. 4. Реализация случайной последовательности {т.} с неоднородной вероятностной структурой и ее отображение на фазовой плоскости

т.

т

т

практических задачах выполнять совместное и раздельное исследование вероятностных свойств отдельных составляющих в неоднородной структуре случайных потоков событий.

Случайные потоки с двойной стохастичностью

Подавляющее большинство моделей случайных потоков событий {tn} строится в предположении постоянства вероятностных характеристик потока на интервале наблюдения. Это относится, в частности, и к моделям процессов с неоднородной структурой вида (14). Реальные ситуации нередко оказываются более сложными, исследуемые потоки меняют свои параметры случайным образом, и для их описания необходимы более универсальные вероятностные модели.

Рассмотрим особенности поведения диаграмм рассеяния в задачах исследования случайных потоков событий с двойной стохастичностью. Для этого предварительно отметим, что при фиксированных границах области допустимых значений Q и постоянных на интервале наблюдения вероятностных характеристиках случайного потока событий {tn} для произвольной точки ^ = |i (xj, хт) с координатами (xt, xj+1) на диаграмме рассеяния может быть определена вероятность p = P{| е Q} события | е Q и вероятность p+ = P{£ ^ Q} = 1 - p того, что точка ^ выходит за границы заданной области Q.

Условие постоянства вероятностных характеристик случайного потока {tn} позволяет в данной ситуации считать постоянными и значения вероятностей p = const и p+ = 1 - p = const. Эти особенности, в свою очередь, приводят к возможности использования модели биномиального распределения (6) для описания числа точек n+(Q, m), выходящих на фазовой плоскости (х;, х- ) за пределы

j J

заданной области Q.

Перейдем теперь к более сложной ситуации и рассмотрим вероятностную модель (6) при условии случайных изменений значения вероятности p+ = P{| ^ Q}. Такие изменения могут происходить из-за меняющейся помеховой обстановки при обработке информационных процессов, за счет появления нестационарностей, эффектов случайной группировки событий в потоке, флюк-туаций границ заданной области, случайных изменений интенсивности потоков и многих других причин.

Будем считать, что в распределении (6) вероятность p+ является непрерывной случайной величиной и описывается некоторой плотностью вероятностей w(p+), p+ е [0, 1]. В этих условиях для описания числа точек n+(Q, m) необходимо выполнить вероятностное усреднение функ-

ции (6) по возможным значениям вероятности

p+ е [0, 1]:

pk (n+) = P{n+ (Q, m) = k} =

= CU] (P+) (1 - P+ )m-1-kw(p+ )dp+. (20)

0

Выражение (20) по своей сути является обобщением биномиального распределения (6) и может рассматриваться как вероятностная модель случайного потока с двойной стохастичностью. Функция w(p+) играет при этом роль управляющего закона для случайных изменений вероятности p+. Модель (20) справедлива при различных распределениях w(p+) и независимо от конкретного вида функции w(p+) дает возможность найти два полезных общих соотношения для основных параметров:

N + (Q, m) = M {n+ (Q, m)} = = (m - 1)M{ p+} = (m -1) p +;

D [n+ (Q, m) ] = = (m -1) p+ (1 - p +) + (m - 1)(m - 2)D [ p+ ]. (21)

Эти соотношения показывают связь математического ожидания N+(Q, m) и дисперсии D[n+(Q, m)] случайной величины n+(Q, m) с соответствующими параметрами p+ = M{p+} и D[p+] управляющего закона распределения w(p+).

Результаты (20) и (21) для многих практических задач дают исчерпывающее описание вероятностных характеристик числа точек n+(Q, m), выходящих на фазовой плоскости за границы заданной области Q. Сравнивая формулы (20), (21) и (6), (7), необходимо здесь заметить, что случайные изменения вероятности p+ и переход к исследованиям случайных потоков с двойной стохастичностью (20) всегда приводят к возрастанию дисперсии D[n+(Q, m)] случайной величины n+(Q, m). Как и следовало ожидать, это возрастание непосредственно связано с дисперсией D[p+] управляющего закона распределения w(p+). Если случайные изменения параметра p+ уменьшаются, то D[p+] ^ 0, и формулы (20), (21) переходят в соответствующие выражения (6), (7) для типовых задач с фиксированным значением вероятности p+ = 1 - p = const.

Очевидно, что вероятностная модель (20) с двойной стохастичностью является более общей для исследования случайных потоков событий. Полученные при этом результаты (20), (21) позволяют выполнять анализ вероятностной структуры диаграмм рассеяния в условиях случайных изменений заданной области Q и случайных изменений вероятностных характеристик рассматриваемых потоков событий.

Структура

альтернирующих потоков событий

Остановимся теперь кратко на рассмотрении вероятностной структуры диаграмм рассеяния для класса альтернирующих процессов. Характерной особенностью таких процессов является существование двух типов интервалов {-¿} и {х*} между последовательными событиями. При этом сама структура случайного потока {гп} формируется таким образом, что временные интервалы х1 и -*, I = 1, 2, ... следуют один за другим, поочередно заменяя друг друга и формируя двух-компонентную случайную последовательность

вида ^ х1% V <.

На практике обычно предполагается, что все случайные величины х1 и -1 являются взаимно независимыми, и их вероятностные характеристики описываются некоторыми плотностями вероятностей р(-) и рС-1). Такие особенности характерны для многих задач теории массового обслуживания, теории надежности и теории восстановления, задач логистики и задач теории запасов.

Для анализа вероятностной структуры альтернирующего потока событий {гп} предположим, что наблюдению доступна случайная последовательность

х1, х1, х2, х2, "•, хт, хп

(22)

состоящая из т пар временных интервалов хг и -1, I = 1, 2, ... . Такая последовательность (22) может рассматриваться как отдельная реализация -¿, -1, I = 1, ..., т двумерной векторной непрерывной случайной последовательности {-¿, -*} с независимыми компонентами {-¿} и {-*}. Если при этом значения х1 и х* интерпретировать как координаты точки ^ = £1 (-¿, -1) на фазовой плоскости (-¿, -1), то реализация (22) может быть представлена на этой плоскости в виде некоторой диаграммы рассеяния. По своей структуре такая диаграмма отличается от рассмотренных ранее диаграмм (см. рис. 3 и 4). Она формируется на фазовой плоскости (-¿, -1) из двух классов случайных величин {-¿} и {-1} и, по существу, может рассматриваться как диаграмма рассеяния для двумерной векторной случайной последовательности {-;, -1; I = 1, 2, ...}.

Характерный вид такой диаграммы показан на рис. 5. Для наглядности здесь приведен типовой пример, когда длительности интервалов {-¿} описываются экспоненциальным распределением р(-), а интервалы {-*} характеризуются гауссовой моделью р(-*).

Различия этих распределений наглядно проявляются в вероятностной структуре расположения точек ^ = -1). Так, в частности, концентрация отображающих точек на фазовой

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

^3

^3

■ Рис. 5. Особенности общей структуры альтернирующих потоков событий

плоскости (-¿, -1) вдоль горизонтальной оси отражает экспоненциальный характер убывания их количества по мере возрастания длительности Расположение и характер рассеяния точек ^ вдоль вертикальной оси 0-1 отражает особенности гауссова распределения р(-*) интервалов -1. Здесь наглядно проявляются эффекты группировки точек в окрестностях среднего значения т^ = М{-*} и эффекты характерного для гауссовой модели убывания количества отображающих точек ^ = 11 (-¿, -1) при возрастании отклонений 1-* - т-11 переменной от значения М{-1}.

Если применительно к подобным диаграммам рассеяния (см. рис. 5) воспользоваться результатами (3)-(9) и (11), (12), то появляется возможность исследовать вероятностную структуру альтернирующих потоков событий. Так, в частности, задавая различные пороговые уровни для значений {-¿}, можно исследовать вероятностные характеристики распределений р(-). Если рассматривать длительности интервалов {-*}, то при различных пороговых уровнях для можно исследовать вероятностные характеристики распределений р(-*).

Заключение

Результаты данной работы показывают возможности вероятностного анализа диаграмм рассеяния и особенности их использования в задачах исследования общей структуры случайных потоков событий. Диаграммы рассеяния обладают достаточно высокой информативностью и позволяют отображать, накапливать и систематизировать на фазовой плоскости двумерную информацию о совместном поведении случайных величин. На их основе удается оценивать однородность выборки, рассматривать эффекты коррелирован-ности, группировки, эффекты «загрязнения» и случайного пропуска данных, выполнять приближенную оценку простых вероятностных

г

п

г

1

т

к

0

СТОХАСТИЧЕСКАЯ ДИHАМИI<А И XАOC

характеристик — математического ожидания, степени разброса выборочных данных, вероятностей нахождения случайных величин в заданной области допустимых значений. Подобные операции представляют особый интерес в задачах оперативной обработки данных и экспресс-анализе вероятностной структуры различных по своей физической природе случайных потоков событий.

Литература

1. Вентцель Е. С. Теория вероятностей. — M.: Академия, 200б. — бТЗ с.

2. Forster E., Ronz B. Methoden der Korrelations und Regressionsanalyse. — Berlin: Verlag die Wirtschaft, 19Т9.

3. Боровиков В. П. STATISTICA: искусство анализа данных на компьютере. — СПб.: Питер, 2001. — 6б6 с.

4. Uberla K. Faktorenanalyse. — Berlin: Springer-Ver-

lag, 19Т1.

б. Tou J. T., Gonzalez R. C. Pattern Recognition Principles. — London: Addison — Wesley Publishing Company, 19Т4.

6. Яковлев О. И. Космическая радиофизика. — M.: Научная книга, 1998. — 432 с.

Т. Schowengerdt R. A. Remote Sensing: Models and Methods for Image Processing. — Amsterdam: Elsevier, 200Т.

8. Носко В. П. Эконометрика. — M.: Дело, 2011. — 6Т2 с.

Следует также отметить, что полученные в данной работе результаты допускают различные обобщения. В частности, это может быть связано с выбором вероятностных моделей рассматриваемых случайных потоков, принципами выбора областей допустимых значений, исследованиями нестационарных и неоднородных вероятностных структур.

9. Новые методы электрокардиографии / под ред. С. В. Грачева, Г. Г. Иванова, А. Л. Сыркина. — М.: Техносфера, 2007. — 552 с.

10. Naatanen R. Attention and Brain Function. — Hillsdale, New Jersey: Lawrence Erlbaum Associates Publishers, 1998. — 560 p.

11. Snyder D. L. Random Point Processes. — N. Y.: John Wiley, 1975. — 486 p.

12. Kingman J. Poisson Processes. — Oxford: Clarendon Press, 2007. — 136 p.

13. Коваленко И. Н., Кузнецов Н. Ю., Шуренков В. М. Случайные процессы: справочник. — Киев: Наук. думка, 1983. — 368 с.

14. Вероятность и математическая статистика: энциклопедия/ под ред. Ю. В. Прохорова. — М.: БРЭ, 2003. — 910 с.

15. Хименко В. И. Характеристики типа превышений уровней для случайных точечных процессов // Радиотехника и электроника. 2000. Т. 45. № 4. С. 436-443.

16. Гнеденко Б. В. Курс теории вероятностей. — М.: УРСС, 2007. — 400 с.

UDC 519.21:537.86

doi:10.15217/issn1684-8853.2016.4.85

Scatterplots to Analysis of Random Streams of Events

Khimenko V. I.a, Dr. Sc., Tech., Professor, [email protected]

aJSC "The Scientific Research and Experimental Centre of Intelligent Technologies "Petrokometa", 67, B. Morskaia St., 190000, Saint-Petersburg, Russian Federation

Purpose: Our goals are probabilistic analysis of random streams of events on the base of two-dimensional scatterplots, and studying a common structure of charts for several most common models of random streams. Results: We have shown the specific features of building scatterplots which are displaying two-dimensional information in the problems of probability analysis of random streams of events. We introduced simple numerical characteristics reflecting the information structure of random data on the phase plane. We performed probabilistic analysis of scatterplots for a class of simple Poisson streams, for random streams with inhomogeneous probabilistic structure, for streams with double stochasticity and for a class of random alternating streams of events. Practical relevance: Presenting two-dimensional information on a phase plane is highly informative, therefore scatterplots are potentially useful. They allow you to store, average out and systematize sampled data, quickly assess the homogeneity of the event streams, consider correlation effects, grouping, random "contamination" effects and randomly missed data.

Keywords — Information Processing, Random Processes, Event Streams, Point Processes, Scatterplots, Probabilistic Analysis, Inhomogeneous Data.

References

1. Ventcel E. S. Teoriia veroiatnostei [Probability Theory]. Moskow, Akademiia Publ., 2005. 576 p. (In Russian).

2. Forster E., Ronz B. Methoden der Korrelations und Regressionsanalyse. Berlin, Verlag die Wirtschaft, 1979. (In German).

3. Borovikov V. P. STATISTICA: iskusstvo analiza dannykh na komp'iutere [STATISTICA: Data Analysis a Computer Oriented Approach]. Saint-Petersburg, Piter Publ., 2001. 656 p. (In Russian).

4. Uberla K. Faktorenanalyse. Berlin, Springer-Verlag, 1971.

5. Tou J. T., Gonzalez R. C. Pattern Recognition Principles. London, Addison — Wesley Publishing Company, 1974.

6. Iakovlev O. I. Kosmicheskaia radiofizika [Space Radio-Physics]. Moscow, Nauchnaia kniga Publ., 1998. 432 p. (In Russian).

7. Schowengerdt R. A. Remote Sensing: Models and Methods for Image Processing. Amsterdam, Elsevier, 2007.

8. Nosko V. P. Ekonometrika [Econometrics]. Moskow, Delo Publ., 2011. 672 p. (In Russian).

9. Novye metody elektrokardiografii [Modern Methods in Electrocardiografii]. Ed. by S. V. Grachev, G. G. Ivanov, A. L. Syrkin. Moskow, Tekhnosfera Publ., 2007. 552 p. (In Russian).

10. Naatanen R. Attention and Brain Function. Hillsdale, New Jersey, Lawrence Erlbaum Associates Publishers, 1998. 560 p.

11. Snyder D. L. Random Point Processes. N. Y., John Wiley, 1975. 486 p.

12. Kingman J. Poisson Processes. Oxford, Clarendon Press, 2007. 136 p.

13. Kovalenko I. N., Kuznetsov N. Iu., Shurenkov V. M. Slu-chainye protsessy [Random Processes]. Kiev, Naukova dum-ka Publ., 1983. 368 p. (In Russian).

14. Veroiatnost' i matematicheskaia statistika [Probability and Mathematical Statistics]. Ed. by Iu. V. Prokhorov. Moscow, BRE Publ., 2003. 910 p. (In Russian).

15. Khimenko V. I. Level Crossing Type Characteristics for Random Point Processes. Radiotekhnika i elek-tronika [Journal of Communications Technology and Electronics], 2000, vol. 45, no. 5, pp. 436-443 (In Russian).

16. Gnedenko B. V. Kurs teorii veroiatnostei [Probability Theory]. Moscow, URSS Publ., 2007. 400 p. (In Russian).

Уважаемые авторы!

При подготовке рукописей статей необходимо руководствоваться следующими рекомендациями.

Статьи должны содержать изложение новых научных результатов. Название статьи должно быть кратким, но информативным. В названии недопустимо использование сокращений, кроме самых общепринятых (РАН, РФ, САПР и т. п.).

Объем статьи (текст, таблицы, иллюстрации и библиография) не должен превышать эквивалента в 20 страниц, напечатанных на бумаге формата A4 на одной стороне через 1,5 интервала Word шрифтом Times New Roman размером 13, поля не менее двух сантиметров.

Обязательными элементами оформления статьи являются: индекс УДК, заглавие, инициалы и фамилия автора (авторов), ученая степень, звание (при отсутствии — должность), полное название организации, аннотация и ключевые слова на русском и английском языках, электронные адреса авторов, которые по требованию ВАК должны быть опубликованы на страницах журнала. При написании аннотации не используйте аббревиатур и не делайте ссылок на источники в списке литературы.

Статьи авторов, не имеющих ученой степени, рекомендуется публиковать в соавторстве с научным руководителем, наличие подписи научного руководителя на рукописи обязательно; в случае самостоятельной публикации обязательно предоставляйте заверенную по месту работы рекомендацию научного руководителя с указанием его фамилии, имени, отчества, места работы, должности, ученого звания, ученой степени — эта информация будет опубликована в ссылке на первой странице.

Формулы набирайте в Word, не используя формульный редактор (Mathtype или Equation), при необходимости можно использовать формульный редактор; для набора одной формулы не используйте два редактора; при наборе формул в формульном редакторе знаки препинания, ограничивающие формулу, набирайте вместе с формулой; для установки размера шрифта никогда не пользуйтесь вкладкой Other..., используйте заводские установки редактора, не подгоняйте размер символов в формулах под размер шрифта в тексте статьи, не растягивайте и не сжимайте мышью формулы, вставленные в текст; в формулах не отделяйте пробелами знаки: + = -.

Для набора формул в Word никогда не используйте Конструктор (на верхней панели: «Работа с формулами» — «Конструктор»), так как этот ресурс предназначен только для внутреннего использования в Word и не поддерживается программами, предназначенными для изготовления оригинал-макета журнала.

При наборе символов в тексте помните, что символы, обозначаемые латинскими буквами, набираются светлым курсивом, русскими и греческими — светлым прямым, векторы и матрицы — прямым полужирным шрифтом.

Иллюстрации в текст не заверстываются и предоставляются отдельными исходными файлами, поддающимися редактированию:

— рисунки, графики, диаграммы, блок-схемы предоставляйте в виде отдельных исходных файлов, поддающихся редактированию, используя векторные программы: Visio 4, 5, 2002-2003 (*.vsd); Coreldraw (*.cdr); Excel (*.xls); Word (*.doc); Adobelllustrator (*.ai); AutoCad (*.dxf); Matlab (*.ps, *.pdf или экспорт в формат *.ai);

— если редактор, в котором Вы изготавливаете рисунок, не позволяет сохранить в векторном формате, используйте функцию экспорта (только по отношению к исходному рисунку), например, в формат *.ai, *.esp, *.wmf, *.emf, *.svg;

— фото и растровые — в формате *.tif, *.png с максимальным разрешением (не менее 300 pixels/inch).

Наличие подрисуночных подписей обязательно (желательно не повторяющих дословно комментарии к рисункам в тексте статьи).

В редакцию предоставляются:

— сведения об авторе (фамилия, имя, отчество, место работы, должность, ученое звание, учебное заведение и год его окончания, ученая степень и год защиты диссертации, область научных интересов, количество научных публикаций, домашний и служебный адреса и телефоны, e-mail), фото авторов: анфас, в темной одежде на белом фоне, должны быть видны плечи и грудь, высокая степень четкости изображения без теней и отблесков на лице, фото можно представить в электронном виде в формате *.tif, *.png с максимальным разрешением — не менее 300 pixels/inch при минимальном размере фото 40x55 мм;

— экспертное заключение.

Список литературы составляется по порядку ссылок в тексте и оформляется следующим образом:

— для книг и сборников — фамилия и инициалы авторов, полное название книги (сборника), город, издательство, год, общее количество страниц;

— для журнальных статей — фамилия и инициалы авторов, полное название статьи, название журнала, год издания, номер журнала, номера страниц;

— ссылки на иностранную литературу следует давать на языке оригинала без сокращений;

— при использовании web-материалов указывайте адрес сайта и дату обращения.

Список литературы оформляйте двумя отдельными блоками по образцам lit.dot на сайте журнала (http://i-us.ru/paperrules) по разным стандартам: Литература — СИБИД РФ, References — один из мировых стандартов.

Более подробно правила подготовки текста с образцами изложены на нашем сайте в разделе «Оформление статей».

Контакты

Куда: 190000, Санкт-Петербург, Б. Морская ул., д. 67, ГУАП, РИЦ Кому: Редакция журнала «Информационно-управляющие системы» Тел.: (812) 494-70-02 Эл. почта: [email protected] Сайт: www.i-us.ru

i Надоели баннеры? Вы всегда можете отключить рекламу.