УДК 004.7 + 519.233.22 ББК 78.34
ОЦЕНИВАНИЕ ВЕРОЯТНОСТЕЙ РЕДКИХ СОБЫТИЙ В ВЫЧИСЛИТЕЛЬНЫХ ЭКСПЕРИМЕНТАХ С ИМИТАЦИОННЫМИ МОДЕЛЯМИ
Агалаков Ю. Г.1
(ОАО Научно-исследовательский институт автоматической аппаратуры им. акад. В. С. Семенихина, Москва)
Вычислительные эксперименты с имитационными моделями вычислительных сетей проводятся для определения вероятностно-временных и надежностных характеристик сетей, в том числе для проверки того, удовлетворяет ли сеть заданным требованиям на вероятность недоведения информации за заданное время. Если вероятность недоведениядолжна быть малой и сеть удовлетворяет этому требованию, то недоведе-ние информации за заданное время является редким событием, которое может просто не осуществиться в процессе моделирования. В работе предложена схема планирования имитационных экспериментов и алгоритмы обработки их результатов, предназначенных для проверки выполнения требований на вероятности редких событий.
Ключевые слова: информационно-вычислительные сети,
имитационные модели, вероятности редких событий, планирование имитационных экспериментов.
1. Введение
К информационно-вычислительным сетям (ИВС), являющимся телекоммуникационными компонентами сложных информационно-телекоммуникационных систем, предъявляются
1 Юрий Глебович Агалаков, генеральный директор, кандидат физикоматематических наук ([email protected]).
высокие требования по скорости и надежности доставки информации, формулируемые в терминах вероятностно-временных и надежностных характеристик ИВС [3, 14, 15]. В процессе проектирования ИВС при выборе параметров проектирования (структуры сети, ее протоколов и алгоритмови т.п.) необходимо оценивать, будут ли принимаемые технические решения обеспечивать заданные требования к сети при различных сценариях ее функционирования. Сложность и многоаспектность протекающих в сети процессах не позволяют использовать аналитические модели (например, модели, основанные на сетях массового обслуживания [2, 11, 12, 14, 16-18, 21, 26, 28]и др.) для предсказания (оценивания) характеристик сети и их зависимости от параметров проектирования, условий функционирования и управляющих воздействий. Натурные испытания могут быть, как правило, проведены лишь на заключительных этапах проектирования, когда сеть уже создана и может эксплуатироваться, а основные технические решения уже приняты и их изменения либо невозможны, либо сопряжены с большими затратами. Поэтому наиболее эффективным инструментом, позволяющим предсказывать вероятностно-временные и надежностные характеристики сети, а также проектировать и исследовать процедуры управления сетью, является имитационное моделирование^, 4, 8, 22].
К ИВС, вкоторых циркулирует критически важная информация, предъявляются очень высокие требования к доставке сообщений, содержащих такую информацию, за заданное время Ткрит. Эти требования формулируются в виде неравенства
(1) Р(Т>ГКрИТ) < РКрЮ,
гдеТ- случайное время доставки сообщений, авероятность Ркрит может быть очень мала.
Пусть ^(0 = Р(Т < 0 - функция распределения времени доставки сообщений в сети, тогда соотношение (1) может быть записано в виде
(2) 1 -ДТКрит) < Ркрит.
В результате вычислительных экспериментов с имитационной моделью сети собирается статистика Ть Т2, ..., Ты времен доставки сообщений, по которой строится эмпирическая функция распределения
(3) *эмп (0=£Я= (7-<0 ,
используемая далее в качестве оценки для функции распределения ^(0;здесь 1(А) означает индикатор событияА: 1(А) = 1, если событие А осуществилось, и ДА) = 0 в противном случае. Тем самым, величина (1 - ^(Гкрит)) является оценкой вероятности того, что сообщение не будет доведено до адресата за заданное время ГКрИТ.
При достаточно большом числе N оценка ^эмп(0 (3) обеспечивает малость погрешности
Точность величины ^эмп(0, используемой в качестве оценки требуемой вероятности -^(0, обычно исследуется в предположении, что времена доведения Ть Т2, ..., ^ сообщений являются независимыми. Выполнимость этого предположения в имитационных экспериментах всегда можно обеспечить за счет специальной селекции сообщений в сети, времена доведения которых фиксируются в собираемой статистике. В случае независимых времен доведения классическая схема соответствует биномиальной модели (модели Бернулли) наблюдений[5, 20].
Однако классическую схему можно использовать лишь в области значений ?, при которых значение -Р(0 «отделено» от чисел 0 и 1, так как в области «больших уклонений» оценка (3) может иметь неприемлемо высокую относительную ошибку. Малая погрешность величины (1 - ^эмп(Гкрит)), используемой в качестве оценки для требуемой вероятности (1 - ^(Гкрит)), может не обеспечивать нужной точности при малых значениях вероятности (1 -^(Гкрит)): дисперсия
оценки (1 - ^эмп(Гкрит)) при больших значениях N и малых значениях вероятности (1 - ^(Гкрит)) является малой, но при этом величины (1 - ^(Гкрит)) и (1 - ^эмп(Гкрит)) могут отличаться в разы, так как относительная ошибка (коэффициент вариации) г(0 оценки (3) равна:
А ( 0 = 1 *э мп ( О-*1 ( 0 I .
а
2
^(7крит)х(1 ^(^крит))
N
и может быть сколь угодно большой для малых значений вероятности Дрит.
Поэтому для достижения нужной точности необходимо проводить неприемлемо длительные имитационные эксперименты, чтобы обеспечить большой размер выборки N. Например, при Ркрит = 10-4 для требуемой погрешности относительной ошибки г(0 < 0,1 необходим объем выборки N ~ 106. Заметим, что
1 - *э мп ( Т’крит) = ^!Г= 1/ (^ > ^крит) ,
но событиеТ > Ткрит происходит крайне редко, и из вышеизложенных рассуждений следует, что классическая биномиальная схема неприменима для оценивания вероятностей редких событий.
Проблема получения статистических выводов о вероятностях редких событий встречается и во многих приложениях -например, в теории надежности, где приходится оцениватьма-лую вероятность попадания в нелинейную область [22-24].
Известные альтернативные подходы к этой задачеоснованы на использовании «закона малых чисел»[7], а также теории рекордов [19]. Внастоящей же статье предлагается комбинированная схема проведения имитационных экспериментов для проверки выполнения условий (1), (2), основанная на синергии биномиальной схемы, так называемой отрицательнобиномиальной схемы [5, 20] и метода оценки вероятностей 0-событий [9, 10]. В разделе 2 приведены математическое обоснование предлагаемой схемы и необходимые математические формулы, используемые в комбинированной схеме. В разделе 3 описана комбинированная схема проведения имитационных экспериментов.
2. Математическое обоснование схемы проведения имитационных экспериментов
Рассмотрим сначала биномиальную схему экспериментов. Пусть при фиксированном значении числа испытаний N ровно т раз осуществилось редкое событие {Т > Ткрит}. Число т может принимать значения 0, 1, ..., N, и при т = 0 говорят, что имело
место 0-событие [9, 10]. В работе Клоппера-Пирсона [27] построены доверительные интервалы для неизвестной вероятности р, которые при заданной доверительной вероятность Рдовв интересующем нас «одностороннем случае» имеют вид:
где граница РВі(т, N Рдов) является Рдов-квантильюБета-распределения Іх(т + 1Д - т) с параметрами (т,у)[20], т.е. корнем уравнения
распределениятабулированы в таблице 5.2 [7], там же даны полезные приближенные формулы.
Если биномиальные эксперименты проводились для проверки выполнения условий (1), (2), то с заданной доверительной вероятностью Рдов можно считать, что эти условия выполнены, если выполнено неравенство
Порог Рв(т, N, Рдов) при фиксированном N является монотонно возрастающей функцией числа т, а при фиксированном т-монотонно убывающей функцией числа N.
Условие (5) связывает оба параметра т и N, и с учетом последнего замечания из него можно получить следующие выводы: при фиксированномN условие (5) будет выполнено (а значит, будут выполнены требуемые условия (1), (2)), если наблюдаемое число т удовлетворяет условию т < тКрШ(^,
где ткрит(^ = ]т(^[;здесь числот(^ является корнем уравнения
а]х[ означает наименьшее целое число, не меньшее х.
Для того чтобы выполнялось условие ткрит(^ > 0 (в противном случае даже отсутствие событий {Т > Гкрит}, т.е.если т = 0 и имеет место так называемое 0-событие [2]), не позволяет
Р(р<Рві(т, N Рдов)) = Р,
здесь
есть Бета-функция. Значения квантилей Бета-
В(ГП + 1 ,N — 171) = хт(1 — х)м т 1(1х
(5) Ры(т, N Рдов) < Ркрит.
/0Ркр итхт ( 1-х) *—- 1 сгх = рдо в,
сделать вывод о выполнении соотношений (1), (2)), число N должно удовлетворять условию
РВг(0, N, Р дов) < Р крит,
откуда следует, что при любых исходах при заданной доверительной вероятности Рдов необходимо провести не менее Njjott испытаний, где ^рит является корнем уравнения
РBi(0, N, Р дов) = Р крит-
Величина Nкрит может быть вычислена в явном виде и равна
Рдов)
1°§ ( 1 _ ^крит) .
При малых Ркрит величина (7) может быть записано в приближенном виде как
(7)
крит
(8)
крит
log(l Рдов) х (р +2
ґкрит ^
с ошибкой порядкаО(Ркрит).
Из полученных результатов можно сделать следующие предварительные выводы:
1. В биномиальной схеме наблюдений для проверки выполнения условий (1), (2) при заданной доверительной вероятно-стиРдов необходимо провести не менее Дфщ, (7), (8) испытаний.
2. При N = Дфщ, условия (1), (2) можно считать выполненными с заданной доверительной вероятностью Рдов, если все N = ^рит переданных сообщений были доведены за время, не превышающее Ткрит.
3. При N > Дфит условия (1), (2) можно считать выполненными с заданной доверительной вероятностью Рдов, если не более ткрит(^) сообщений из переданных сообщений были доведены за время, превышающее Ткрит (число ткрит(^) является наименьшим целым числом, не меньшим корня уравнения (6)).
Как указывалось выше, стандартная оценка вероятности редкого события в биномиальной схеме испытаний может иметь высокую относительную ошибку (коэффициент вариации) г(0 (4). Приведенный выше факт о высокой относительной ошибке оценки малых вероятностей в модели Бернулли давно известен, и поэтому экспериментаторы (см., например, [13]) для оценивания вероятностей редких событий часто отказываются от биномиальной схемы Бернулли и заменяют ее другими схемами,
например, отрицательно-биномиальной схемой, основанной на отрицательно-биномиальной модели наблюдений.
Отрицательно-биномиальная схема заключается в следующем^, 20]. Фиксируется число т, и эксперименты проводятся до тех пор, пока интересующее нас событие (в рассматриваемой задаче - событие {Т > Ткрит}) не наступит ровно т раз. В этой схеме случайным будет общее число Щт) проведенных экспериментов, и случайная величина
У = У(т) = N(m) - т, равная числу экспериментов, в которых редкое событие не наступило, принимает целочисленные значения из множества {0, 1, 2, ...}. В теории вероятностей [5, 20] распределение случайной величины У называется отрицательно-биномиальным распределением (называемым также распределением Паскаля или распределением Полиа), а при т = 1 - геометрическим распределением. Распределение величины У зависит от выбранного числа т, и вероятности р наступления события имеет вид
Р V = У) = (т+ у - 1) х Рт х ( 1 _ Р) У' У = °'1 '2 ' ■ ■ ■ ,
а математическое ожидание случайной величины Щт) равно
(9) М(Щт)) = т.
В отрицательно-биномиальной схеме при т > 1 можно построить [5] несмещенную оценкур (т) для величины р: т-1
р (т) =--------,
г 4 у т+у-1
а дисперсия этой оценки в зависимости от числа т имеет вид: Д(рЧт)|т = 2) = _1’г>Ч1-1’+"Ч1’))
О (р • (т)| т > 2) = + о(р 2) .
Следовательно, коэффициент вариации при малых р не возрастает до бесконечности, а ограничен: прир^ 0
л/Д(Р*) 1
р л/тп-2’
и этим отрицательно-биномиальная схема выгодно отличается от схемы Бернулли.
В работе [5] с помощью модификации метода Клоппера-Пирсона [27] построены доверительные интервалы для неиз-
вестнои вероятности р, которые в интересующем нас «одностороннем случае» при заданной доверительной вероятностиРдов имеют вид:
(10) Р(р<Р*(¥(т), Рдов)) = Рдов,
где граница Р (у, Рдов) является Рдов-квантильюБета-распределения 1х(т, у) с параметрами (т, у), т.е. корнем уравнения
(11) (т,У (т) ) ^ в (ту(т)) /0Р хт-1(1 - х)у-1<гх =РД0В.
Вернемся к исходной прикладной задаче проверки выполнения требований (1), (2) по результатам имитационных экспериментов. С использованием доверительного интервала (10) для вероятности недоведения сообщения за заданное время Гкрит, мы можем считать, что условия (1), (2) выполнены с заданной доверительной вероятностью Рдов, если выполняется условие
(12) Р*(у, Рдов) < Ркрит.
Так как функция Р (у, Рдов) монотонно убывает с ростом у, то условие (12) будет выполняться при
¥(т) — ^крит Yкрит(Pкрит, Pдов),
где величина Гкрит является корнем уравнения
Р*(у Р ) = Р
дов крит
а с учетом уравнения (11) Гкрит является корнем уравнения _! Г^криг хт- 1 ( 1 - Х) у- = р
В(т,у) ■'0 4 ' Д°в
Величина 7крит при заданных величинах Ркрит и Рдов также может быть вычислена с помощью таблицы 5.2 [7]. При очень малых значениях Ркрит при т — 1 величина Гкрит может быть вычислена с помощью приближенной формулы, полученной в работе [6]:
(13) ш+ +1 (т — 1 — —) + 2 (т 2- 1 }+(т -1 ) ж *- (ж * ) 2 х Ркр ш[,
2РкриТ 2 4 2 / 12х КРИТ [’
где х = х (Рдов) есть верхняя Рдов-квантиль ^-распределения с 2т степенями свободы (см. [7], таблица 2.2), погрешность приближенной формулы есть величина порядкаО(Ркрит2). Заметим, что отрицательно-биномиальная схема при выбранном значении т — 1 требует проведения в среднемт/Ркритнезависимых экспериментов (9).
Следовательно, при отрицательно биномиальной схеме экспериментов с заданным значением числа «успехов» т — 1 необходимо провести (Гкрит(т) + т - 1) испытаний, и условия (1), (2) можно считать выполненными с заданной доверительной вероятностью Рдов, если в процессе испытаний не более (т - 1) из переданных сообщений были доведены за время, превышающее Т
крит
3. Комбинированная схема проведения имитационных экспериментов
На основании математических результатов, полученных в разделе 2, предлагается следующая комбинированная схема проведения имитационных экспериментов для проверки выполнения условий (1), (2) (при заданном значении Ркрит), определяемая следующими задаваемыми параметрами схемы: доверительной вероятностью Рдов и максимальным числом Ытах экспериментов, которое исследователь считает возможным провести. Эти параметры нельзя задавать независимо друг от друга: в частности, должно выполняться соотношение
(14) Ытах—Мкр„,
где величина ^крит определена в (7), (8).
Если соотношение (14) не выполняется, то необходимо либо увеличить число Штах до .ЭДфит, либо (при малых значениях Ркрит) в соответствии с уравнением (8) уменьшить доверительную вероятность Рдов до величины
Рдов,шт
= 1 -ехр{ -
"Ркр иг х Чтах}.
После согласования параметров Рдов и Штах необходимо использовать биномиальную схему испытаний и считать условия (1), (2) выполненными с получившейся доверительной вероятностью Рдов,тш, если имело место 0-событие [10], т.е. все N = Ытах переданных сообщений были доведены за время, не превышающее Ткрит.
Если соотношение (14) выполнено, то число N„,0^: сравнивается с величиной Гкрит(1), получаемой из (13) при т = 1. Если
N <У (1)
тах крит
то имеет место описанная выше биномиальная схема с испытаний и принятием решения о выполнении условий (1), (2) при наступлении 0-события.
При Дтах — Гкрит(1) число Дтах последовательно сравнивается с величинами{Гкрит(т) + т - 1, т = 1, 2, ...}.Обозначим т* = тах{т: Дтах— ^крит(т) + т - 1} и используем комбинированную отрицательно-биномиальную схему испытаний с параметром т .
Следовательно, при комбинированной схеме экспериментов с заданным значением числа «успехов» т — 1 необходимо провести (Гкрит(т ) + т - 1) испытание, и условия (1), (2) можно считать выполненными с заданной доверительной вероятностью Рдов, если в процессе испытаний не более (т - 1) из переданных сообщений были доведены за время, превышающее Ткрит.
Выводы
Предложена комбинированная схема проведения имитационных экспериментов, позволяющая по их результатам определить, выполнены ли в с заданной доверительной вероятностью требования на доставку сообщений за заданное время.
Литература
1. АЛИЕВ Т.И., НГУЕН ДЫК ТАЙ. Программный комплекс аналитического и имитационного моделирования сетей передачи данных // Сборник докладов III Всероссийской научно-практической конференции «Имитационное моделирование. Теория и практика» (ИММОД-2007). Том II. - СПб.: ФГУП ЦНИИ технологии судостроения, 2007. - С. 11-16.
2. БАШАРИН Г.П., БОЧАРОВ П.П., КОГАН Я.А. Анализ очередей в вычислительных сетях. Теория и методы расчёта. -М.: Наука, 1989. - 336 с.
3. БЕРТСЕКАС Д., ГАЛЛАГЕР Р. Сети передачи данных.-М.: Мир, 1989. - 544 с.
4. БОЕВ В.Д. Моделирование систем. Инструментальные средства GPSSWorld: учебн. пособие. - СПб.: БХВ-Петербург, 2004. - 368 с.
5. БОЛЬШЕВ Л.Н.Об оценках вероятностей // Теория вероятностей и ее применения. - 1960. -Т. 5. - №4. -
С. 453-457.
6. БОЛЬШЕВ Л.НАсимптотически пирсоновские преобразования // Теория вероятностей и ее применения. - 1963. -Т. 8. - №2. - С. 129-155.
7. БОЛЬШЕВ Л.Н.,СМИРНОВ Н.В. Таблицы математической статистики.-3-е изд. - М.: Наука, 1983.- 416 с.
8. ГУДОВ А.М., СЕМЕХИНА М.В. Имитационное моделирование процессов передачи трафика в вычислительных сетях // Управление большими системами. -2010.- Вып. 31. - С. 130-161.
9. ГУРОВ С.И. Оценка вероятности ни разу не наблюденного события // Таврический вестник информатики и математики. - 2009. - Вып. 2. - С. 15-20.
10. ГУРОВ С.И. Оценка вероятности 0-события // Вестник Тверского гос университета, серия «Прикладная математика». - 2009. -Вып. 14. -С. 55-66.
11. ЖОЖИКАШВИЛИ В.А., ВИШНЕВСКИЙ В.М. Сети массового обслуживания. Теория и применение к сетям ЭВМ. -М.: Радио и связь, 1988. - 192 с.
12. КЛЕЙНРОК Л.Вычислительные системы с очередями.-М.: Мир, 1978. - 598 с.
13. КРАВЧЕНКО В.С., УЛЬЯШЕНКО В.Е. Взрывобезопас-ность оборудования в атмосфере взрывчатых газов // Вестник электропромышленности. - 1958. - Т. 9. - С. 69-74.
14. МАРТИН Дж. Системный анализ передачи данных. Т.2. -М.: Мир, 1975. - 431 с.
15. МИЗИН И.А., БОГАТЫРЕВ В.А., КУЛЕШОВ А.П. Сети коммутации пакетов / Под ред. В.С. Семенихина. - М.: Радио и связь, 1986. - 408 с.
16. МИТРОФАНОВ Ю.И. Основы теории сетей массового обслуживания:учебн. пособие. - Саратов: Изд-во Сарат. унте!, 1993. - 116 с.
17. МИТРОФАНОВ Ю.И., ЮДАЕВА Н.В. Методы определения оптимальных параметров управления маршрутизацией в сетях массового обслуживания // Автоматика и телемеханика. - 2001. - №8. - С. 109-117.
18. МИТРОФАНОВ Ю.И., ФОКИНА Н.П. Анализ сетей массового обслуживания с динамическим управлением маршрутизацией // Известия Сарат. ун-та. Серия «Математика. Механика. Информатика». - 2007. - Т. 7. - Вып. 1. -С. 27-33.
19. НЕВЗОРОВ В.Б.Рекорды. Математическая теория. - М.: Фазис, 2000.
20. ПРОХОРОВ Ю.В., РОЗАНОВ Ю.А.Теория вероятностей. -М.: Наука, 1973. - 494 с.
21. УОЛРЭНД Дж. Введение в теорию сетей массового обслуживания. - М.: Мир, 1993. - 336 с.
22. ШЕННОН Р. Имитационное моделирования систем, искусство и наука. - М.: Мир, 1978. - 420 с.
23. AU SIU-KUI, BECK J.L. Estimation of small probabilities in high dimensions by subset simulation // Probabilistic Engineering Mechanics. - 2001. - Vol. 7. - P. 263-277.
24. AUFFRAY Y., BARBILLON P., MARTIN, J.-M. Estimation
of rareevent probabilities in computer experiments / arXiv: 1105.0871v1 [stat.CO] 4 May 2011:
http://arxiv.org/abs/1105.0871.
25. AUFFRAY, Y., BARBILLON P., MARTIN J. -M. Bounding
rareevent probabilities in computer experiments // arXiv: 1105.0871v2 [stat.CO] 4 May 2011. -
URL:http://arxiv.org/abs/1105.0871.
26. BOUCHERIE R.J., VAN DIJK N.M. (Eds.). Queueing networks: a fundamental approach. - New York, Heidelberg, London: Springer Science + Business Media, LLC, 2011. - 823 р.
27. CLOPPER C.J., PEARSON E.S. The use of confidence or fiducial limits illustrated in the case of the binomial // Biometrika. - 1934. - Vol. 26. - P. 404-413.
28. DATTATREYA G.R. Performance Analysis of Queuing and Computer Networks.- CRC Press/Taylor & Francis, 2008. - 449 р.
ESTIMATION OF RARE EVENTS PROBABILITIES IN SIMULATION COMPUTER EXPERIMENTS
Yuri Agalakov, Research Institute for Automatic Equipment named Acad. V.S. Semenichin, Moscow, General director, Cand.ofSciences in Physics and Mathematics([email protected]).
Abstract:Computational experiments with simulation models for computer networks are performed to estimate various networkscharacteristics, for example, to check if a network satisfies requirements on a probability of delivering messages within a given time interval. If the probability of non-delivering is very small, this rare event may not occur during computational modeling experiments. We propose the design of computational experiments performed to check requirements on the probability of non-delivering as well as the method for experimental data processing.
Keywords:computer networks, simulation modeling, rare event probabilities, design for simulation experiments.
Статья представлена к публикации членом редакционной коллегии Д. А. Новиковым