УДК 004.3, 519.873 ББК 30.14
РАСЧЁТ НАДЁЖНОСТИ СЛОЖНЫХ СИСТЕМ С ПАРАЛЛЕЛЬНОЙ СТРУКТУРОЙ, ПОЛНОСТЬЮ ВОССТАНАВЛИВАЕМЫХ В ПРОЦЕССЕ ЭКСПЛУАТАЦИИ
Калимулина Э. Ю.1
(Московский технический университет связи и информатики, Москва) [email protected]
Рассматриваются вопросы оценки надёжности сложных параллельных систем, восстанавливаемых в процессе эксплуатации при неэкспоненциальном распределении времени восстановления. В работе представлен граф состояний для таких систем, выводится формула вероятности безотказной работы.
Ключевые слова: надёжность, корпоративные сети, восстанавливаемые системы.
Введение
Одним их важнейших этапов проектирования корпоративной сети (КС) является этап расчёта показателей надёжности её функционирования, причём хорошее качество проектирования избавляет от дополнительных материальных и временных затрат на устранение ошибок на стадии эксплуатации. С усложнением программно-аппаратных комплексов, применяемых для реализации конкретной КС, возникает необходимость в разработке
1 Калимулина Эльмира Юрьевна, аспирант (+7 495 360-8376, +7 903 512-3444, [email protected]).
156
новых методов и методик расчёта, позволяющих адекватно оценивать показатели надёжности и эффективности таких систем. На сегодняшний момент наиболее эффективными при анализе надёжности являются абстрактные модели, построенные не на основе конкретных аппаратных единиц, а на базе логических подсистем, реализующих конкретные функции в работе сети. На первом этапе проектирования данные модели позволяют определить оптимальную надёжность логических подсистем. Но на последующих этапах проектирования для перехода от абстрактных функциональных блоков в модели надёжности к более конкретным подсистемам, которые могут быть доведены до программно-аппаратной реализации, данные логические подсистемы должны быть рассмотрены более детально. Например, в работе [4] сложная информационная система моделировалась всего тремя блоками. В работе [3] КС моделировалась пятью блоками: сеть доступа, центрально-
вычислительный комплекс, магистральная транспортная сеть, сервис-центр, локально-вычислительная сеть.
Рассмотрим один из блоков - центрально-вычислительный комплекс (ЦВК). Системного уровня детализации достаточно для определения значения надёжности ЦВК в целом, но в дальнейшем полученное целевое значении надёжности должно быть распределено между элементами, образующими ЦВК. Сам ЦВК
- это сложная система, предназначенная для осуществления обработки большого объема данных для оператора связи и реализованная на основе большого числа серверов (> 100), обрабатывающих данные параллельно. Адекватно оценить надёжность такой системы, рассматривая её как один функциональный блок, нельзя. Следовательно, нужна детализация; в частности, возникает задача определения надёжности параллельной системы, состоящей из большого числа элементов. Основным методом, используемым при решении таких задач, сегодня является метод имитационного моделирования. Несмотря на многие его достоинства, к числу которых, прежде всего, относится достаточно высокая точность, его отличает большая
трудоемкость создания модели и большое время, необходимое для получения результатов. Кроме того, сложность создания модели заключается ещё и в том, что некоторые упрощения, которые, казалось бы могли сократить время расчётов, просто некорректны при моделировании КС. Например, законы, по которым работают технические устройства корпоративных сетей, в большинстве случаев отличаются от экспоненциальных законов [5]. В данной работе будет сделано только общее предположении о том, что времена восстановления подсистем имеют некоторые произвольные функции распределения Fв(t). Второе упрощение, делаемое при расчёте надёжности параллельных систем - идентичность элементов.
В корпоративных сетях при резервировании сетей доступа и магистральных сетей в качестве резервных используют линии связи с характеристиками надёжности, отличными от характеристик основной линии [1, 3]. Такая же ситуация и с ЦВК: основные и резервные сервера отличаются по своим надёжностным характеристикам. Из-за высокой стоимости в качестве резервных обычно используются системы, имеющие меньшую производительность и, соответственно, другую надёжность
[1, 3].
В качестве ещё одного примера параллельной системы с различной конфигурацией элементов можно рассмотреть КС, построенную на основе объединения нескольких различных сетей с низкой надёжностью в одну, где объединение сетей осуществляется на основе параллельной архитектуры [7].
1. Постановка задачи
Цель данной статьи - получить формулы для расчёта надёжности параллельной системы для случая, когда все подсистемы различны.
Поскольку все подсистемы КС полностью восстанавливаются после отказа, то будет рассматриваться случай только восстанавливаемых систем. На сегодняшний момент все извест-
ные методы расчёта надёжности таких систем основываются на построении графа состояний системы, определении переходных вероятностей между состояниями и выводе на основе этих данных формул для характеристик надёжности. В работе [3] автором получен ряд формул, по которым можно определить показатели надёжности для подобных систем с небольшим числом состояний (~ 50). Однако для большего числа применение данных формул требует значительных вычислительных затрат.
Следовательно, необходимо построить модель для нахождения показателей надёжности параллельных систем с большим числом разнородных элементов.
2. Графовая модель надежности
С учётом замечаний, сформулированных выше, и известных методов расчёта надёжности по графу состояний, построим граф состояний для общего случая - для системы, состоящей из п подсистем. Для наглядности всё множество состояний на графе удобно разбить на следующие подмножества:
- подмножество «0» - 0 отказавших элементов, данное подмножество включает всего 1 состояние;
- подмножество «1» - 1 отказавший элемент, в данном подмножестве п возможных состояний;
- подмножество «2» - 2 элемента находится в состоянии отказа, данное подмножество включает п(п - 1)/2 возможных состояний;
- подмножество «3» - 3 элемента находится в состоянии отказа, п(п - 1)(п - 2)/3 возможных состояний;
... 5
- подмножество «п - 2» - (п - 2) элемента находится в состоянии отказа, включает п(п - 1)/2 возможных состояний;
- подмножество «п - 1» - (п - 1) элемента находится в состоянии отказа, п состояний;
- уровень «п» - п элементов находится в состоянии отказа, 1
состояние.
Таким образом, число состояний на каждом таком уровне, где из п работоспособными остаются (п - г) элементов с различ-
п!
ной надёжностью, находится элементарно как Сп = —^-----------—.
Каждое состояние системы будем задавать бинарным вектором: 8Ы(() = {^(0, ..., sn(f)}, где I - число отказавших элементов (I = 0,п); т = 0,п!/1!(п-1)! - номер состояний в 1-ом подмножестве; si(t) = 1, если 7-ая подсистема была работоспособна в момент времени t, si(t) = 0, если 7-ая подсистема находилась в состоянии отказа.
Каждому состоянию соответствует п входящих дуг и п вы” п! п
ходящих, общее число дуг графа: I----------:--- . Дуга характери-
I=01 !(п -1)!
зует изменение состояние одного элемента: либо переход из работоспособного состояния в состояние отказа, либо восстановление. Интенсивности отказов у всех подсистем различны и равны: Х1, Х2, ..., Хп. Времена восстановлений подсистем имеют произвольные функции распределения: Fв1(t), Fв2(t), ..., Fвn(t).
Коэффициент готовности для системы, имеющей т состояний, матрица переходных вероятностей Р = (р7]) и вектор безусловных математических ожиданий времени пребывания в каждом из состояний п = (Пь П2, •••, Пт) находится следующим образом [6]:
I - I
ТУ- У^Е-
К Г = ^ ,
I ър
]<--Е
т
где ж = (ж1,ж2,...,жт) - вектор решения, ni = Di / I Dj , где Д7 -
;=0
минор детерминанта матрицы I - Р, получаемый вычеркиванием 7-го столбца и 7-ой строки; I - единичная матрица. Однако нетрудно заметить из самой формулы, что данный подход неэф-
фективен с точки зрения времени работы алгоритма: вычисление миноров матрицы занимает много времени.
Рис. 1. Интерпретация модели подсистемы корпоративной сети ориентированным графом
3. Оценка надёжности сложных систем
Рассмотрим другой подход к оценке надёжности системы, представимой графом на рис. 1. Рассмотрим вероятность того, что система, находясь в момент времени ґ0 = 0 в момент времени ґ окажется в нерабочем состоянии, т.е. откажет. Вероятность отказа здесь обозначим через Q0. Как и ранее, будем считать, что ^ет-(0 - функция распределения времени восстановления 7-го элемента; ^(ґ) = 1 - ехр{-1/} - функция распределения времени работы до отказа 7-го элемента.
Поведение системы, представленной графом на рис. 1, можно описать некоторым случайным процессом <^(0. Пространство состояний этого процесса Е = {0, 1, 2, ...}. Предполо-
жим, что в начальный момент времени £(0) = 0, т.е. в системе все элементы находятся в работоспособном состоянии. Переход из некоторого состояния п - I в состояние п - I + 1 следует рассматривать как отказ одного элемента. В зависимости от того, сколько элементов должны оставаться работоспособными, чтобы вся система находилась в работоспособном состоянии, под отказом системы можно понимать переход:
- из состояния п - 1 в состояние п, если для работоспособного состояния системы достаточно, чтобы один элемент находился в рабочем состоянии;
- из некоторого состояния п - т в состояние п - т + 1, если система остаются работоспособной при т работающих элементах.
В частности второму варианту соответствует условие работоспособности центра обработки данных оператора связи, где для нормального функционирования системы, достаточно, чтобы из 1000 серверов работало примерно 950.
Преимущество описанной выше схемы заключается в том, что она позволяет легко выделить промежуточные состояния, например, состояние частичного отказа. В случае необходимости можно рассмотреть различные схемы восстановления системы, определить оптимальные варианты профилактического обслуживания системы.
Оценим характеристики надёжности для данной модели. Составление системы интегральных уравнений и её решение для общего случая, когда элементы не одинаковые, - труднореализуемая задача. Рассмотрим некоторые приближённые оценки. Найдём вероятность отказа системы за время ^ по монотонной траектории, когда система последовательно переходит из состояний 0 в состояния 1, 2, ..., п - 1, п. Время до первого отказа системы будем оценивать как: т= шт{£ <£(0 = п | ^(0) = 0}. На рис. 2 показаны графики результатов имитационного моделирования системы, состоящей из 50 элементов. Для наглядности элементы считались одинаковыми и под отказом понимался: 1) отказ 40 элементов (отказ в момент т^, 2) отказ 30 элементов
(момент т2). Из траекторий реализации случайного процесса видно, что оценки времени работы системы до первого отказа и вероятности отказа по монотонной траектории могут быть использованы в качестве нижних границ надёжности, что в большинстве инженерных приложений, в частности, при анализе надёжности компьютерных сетей [2], находит широкое применение.
Рис. 2. График траектории случайного процесса
Рассмотрим траекторию, когда последовательно отказывают элементы 1, 2, ...« - 1, п. Вероятность отказа по такой монотонной траектории находится как
йо = i I .. j I ЛВД-МК1 -Ki(xn))
0<X <x2 < <xn-1 <Xn
(1) 1 Exp[-12 (x2 - X1 Ж1 - Fb2 (xn - x1))...
...1n-1ExP[-1n-1 ( Xn-1 - Xn-2 )](1 - Fon-1 ( Xn - Xn-2))
1nExP[-1n ( Xn - Xn-1)](1 - Fen ( Xn - Xn-1))dxndXn-1...dX2dX1.
Для систем с нагруженным резервом отказ может произойти по одной из монотонных траекторий. Всего таких траекторий на графе п! (рис. 1). Аналогичное выражение для вероятности отказа Q20, ..., 0(п-1)о, 0по,--, Опю для каждой траектории нетрудно получить путем последовательных перестановок сомножителей в выражении (1). Перепишем выражение (1) в следующем виде:
п п
Ою =П1 | | .. | | ЕхР[‘-Ё1 (X - х,-1
І=1 0<Хі <Х2 < <Хп-1 <Хп І=1
?
п
П (1 - Ев ,(хп - хг-1 )>іхп^хп-1 ..Лх2йх1
І=1
где хо = 0, °о = Ё йо .
по всем траекториям і
Произведём замену: у о = хп - хо, у = хп - хь Уп_1 = хп - хп_ь соответственно, хп - хп_1 = Уп_1, хп_1 _ хп_2 = Уп_2 _ Уп_1, .,
х2 - х1 = У1 - У2, х1 - хо = Уо - У1, Уп = о:
п п
О1о = Пі II... І I Ехр[-Ё1 (Уі-і-Уі)]
(2) І=1 Уо > У1 > >Уп-2 >Уп-1 І=1
П(1 - К,(Уі-1 »^Уо ^.^
уп-1'
І=1
Оценим бю сверху. От (2) перейдём к интегралу :
(3) б10 £ Й0 = П1 II ... I I П(1 - Еег ^г-^УоЛУг.^Уи-! ■
1 =1 Уо > У1 > >Уп-2 >Уп-1 г=1
Оценка снизу:
б10 ^ бо =
(4) п п
= П1 II ... I I £хр[-1У0]Г1(1 - ¥ег (Уг-1))Ф0^-^Уп-^
1=1 У0 > У1 > >Уп-2 > Уп-1 г=1
п
где в качестве X берётся произведение П1.
г=1
Тогда
(5)
0 < Ою - Ою £ Ою - Ос,
0-10 - 010 =
= 11 - I I ( - ЕхР[-1о])П (1 - Евг (Уг-1)) ^Уо ¿У\-ЛУп-\ <
Уо > Уі > > Уп-2 > Уп-1 [=1
< Х\ I ••• I I Уо(1 -Ев1(Уо))^Уо^х^Уп-х =
Уо > Уі > >Уп-2 >Уп-1
Я
(п -1)!
I Уоп (1 - Ев1( Уо))dУо =
о
(и -1)! (п +1)0 и в1 0 (и -1)! (п +1)
Рассмотрим теперь соотношение (5) в предположении, что для среднего времени восстановления и среднего времени работы /-ой подсистемы выполнено условие
(6) Е^восст.1 ^ Е^отк.1 Твосст./ ^ Тотк./ ® 0 ;
для экспоненциальных законов распределения времени отказа и восстановления Х7 /т ® 0.
Данное условие очевидно для элементов корпоративной сети: среднее время восстановления (ремонта) какой-либо подсистемы КС во много раз меньше среднего времени безотказной
работы подсистемы. Тогда из (6) следует, что Ш£ << 1.
¥
Обозначим Е% = | ^(1 - ^(^)) = Т. Рассмотрим (и + 1)-й на-
0
чальный момент:
ЕХ+\ = і гп+\йр ц) =
(7) { ґп-1
= ґп+1 (1 - її(ґ)) |¥ + п(п +1)| (1 - її(х))йх
0
( \
1
1 --
(1 - її(х))іх
I (1 - ¥ (x))dxl
0
¥ ¥
< п(п + 1)Г 1гп-11 (1 - ¥(xУ)dxdt =
0 t
¥ ¥
= п(п + 1)(п - 1)Г21 ^-21 (1 - ¥(x))dxdt =... = (п + 1)!Г”+1.
0 г
Выражение (5) можно оценить с учётом (7):
1ЕХп
< 1пТ
п+1
(п -1)!( п +1) тогда:
00 » 010 = П1 II ... I I П(1 - ¥вг Ьг-^УоФг.-Фп-! ■
■>= Л > У1 > > Уп-2 > Уп-1 г=
С помощью полученного выражения можно найти вероятность безотказной работы 1 - 010 для случаев, когда время восстановления всех подсистем распределено одинаково с различными параметрами для наиболее часто используемых при анализе надёжности сетей распределений.
Теперь рассмотрим траекторию, когда процесс <^(0 делает в некоторый момент времени один скачок вниз (рассмотрим случай, когда только одна подсистема восстанавливается, а затем снова отказывает):
1) в некоторый момент ^ отказывает подсистема 1, затем в какой-то момент времени на интервале (xn - x1) эта подсистема восстанавливается и снова отказывает в момент xn;
0
¥
2) остальные подсистемы последовательно отказывают в моменты времени x2, x3, ..xn и не успевают восстановиться до момента времени xn.
Вероятность отказа по такой траектории находится аналогично вероятности отказа по монотонной траектории:
П
Qii = АПЛ i i ... j j j ExP[-1ixi]Fei(xn -xi)
г =1 0< xi < x2 < < xn-i < xn < xn+i
ExP[-12 (x2 - xi )](1 - Fe2 (xn+i - xi))...
.. ExP[-1n (xn - xn-1 )](1 - Fen (xn+1 - xn-1 ))
ExP[-11( xn+1 - xn )](1 - Fe1( xn+1 - xn ))dxn+1dxndxn-1...dx2 dxi = n n-1
= 1П1 jj... j j j ад-СЛyn + i1 (y-i-У))]
г =1 Уо > У1 > >Уп-2 >Уп-1 >Уп г =1
n
Fi(Уп-1)П (1 - F г (Уг-1))dy0dyi...dyn <
i=2
<CliП1 j j ... j j j Exp\-yo1 + in
г= Уо > У1 > >Уп-2 >Уп-1 > Уп г
П(1 - Кг (Уг-1 )^УоdJi..^Уп <
i=2
<CÂiП1 j j ... j j j Уо(1 -К^Уо^Уо^...Фп =
г=1 Уо > У1 > >Уп-2 >Уп-1 >Уп
(8) п ¥ У п + 1
() = Cli ПЛ j Уо^г(1 - FiU)) =
г =1 о п!
Cli П1 ¥ Cli П1 EXn+2
= j Уоп+2 dFi ( Уо ) =--------г=( 2) ,
п!(п + 2) о п!(п + 2)
где C - некоторая константа (о < С < 1).
Qio Qn Cl EXn+1 Cl EXn+1
Тогда — <—5—2----<—3—t---------------®о,
Q11 П ltl n!(n + 2) :n n!(n + 2)1n
i=1
где 1п =! I ... I I П(1 - ¥вг (Уг-^^У^Фпследова-
У0 > У1 > > Уп-2 > Уп-1 '=
тельно, для оценки вероятности отказа можно использовать формулу (3), где для нагруженного резерва берётся сумма б0 = Ей0 по всем монотонным траекториям. Нетрудно заметить, что данная формула справедлива для случая ненагружен-ного резервирования. В этом случае порядок отказа элементов точно известен, т.е. все подсистемы можно пронумеровать так, что последовательно будут отказывать элементы 1, 2, ..., п. Траектория отказов в этом случае будет единственной. Поэтому расчёт можно осуществлять по формуле (3).
С учётом полученных формул можно определить надёжность подсистем корпоративной сети, которые функционируют параллельно в смысле надёжности или для которых применяется нагруженное резервирование: ЛВС, Сеть доступа, подсистемы ЦВК как 1 - б=
(9)
3
=1-ПЕ П1]- II... I I П(1 -¥еу(Уг-ОМУ)41...4п-1
'=1 Ж0, ^] =1 У0 > У1 > >Уп-2 >Уп-1 ]=1 у
где ' = 1, 2, 3 для ЛВС, Сети доступа и ЦВК соответственно; пг -число параллельных подсистем в каждом блоке; ¥¿0 - функция распределения времени восстановления для ]-ой подсистемы г-го блока; п0г - множество монотонных путей для каждого блока.
4. Выводы
Полученные формулы позволяют аналитическим путем рассчитать надёжность сложной системы (в том числе корпоративных сетей), состоящих из большого количества подсистем с различными характеристиками надёжности, восстанавливаемых в процессе эксплуатации и работающих параллельно в смысле надёжности. Формулы получены для общего случая и позволяют определить коэффициент готовности для подсистем с неэкс-
поненциальным временем восстановления. На основе полученных формул могут быть разработаны алгоритмические процедуры, которые позволят, не прибегая к построению сложной имитационной модели сети, оценить надёжность корпоративной сети на этапе проектирования и значительно сократить время расчётов.
Литература
1. АНАНЬЕВ А. Н. Разработка и исследование методов расчёта надёжности корпоративных сетей региональных операторов связи // Электросвязь. - 2002. - №10. - С. 30-33.
2. АНАНЬЕВ А. Н. Разработка и исследования математических моделей и методик расчета показателей качества функционирования корпоративных сетей региональных операторов связи // Диссертация на соискание учёной степени кандидата технических наук. - М.: МТУСИ, 2002.
3. ВОРОНЦОВ Ю. А., КАЛИМУЛИНА Э. Ю. Обеспечение надежности корпоративных сетей операторов связи // Вестник связи. - 2004. - №10.
4. ПЕРЕГУДА А. И., ТВЕРДОХЛЕБОВ Р. Е. Математическая модель надёжности информационных систем // Методы менеджмента качества. - 2004. - №6.
5. ЧЕРКЕСОВ Г. Н. Надёжность аппаратно-программных комплексов. - Спб.: Питер, 2005.
6. BARLOW R. E., PROSCHAN F. Mathematical theory of reliability. - SIAM, 1996.
7. HARRAS K. A., WITTIE M. P., ALMEROTH K. C., BELDING M. E. ParaNets: A Parallel Network Architecture for Challenged Networks // in Proc. of the 7th IEEE Workshop on Mobile Computing Systems and Applications (Hotmobile), Tucson, AZ, February 2007. - P. 73-78.
ESTIMATION OF THE RELIABILITY OF COMPLEX PARALLEL FULLY REPAIRABLE SYSTEMS
Elmira Y. Kalimulina, Moscow technical university of Communications and Informatics, postgraduate student ([email protected] ).
Abstract: The problem of estimation of complex repairable parallel systems with non-exponential distributed recovery time is considered in this paper. The state graph for such system is presented here. The formula for the probability of no-failure operation is derived here.
Keywords: reliability, corporate networks, repairable systems.
Статья представлена к публикации членом редакционной коллегии В.Н. Лебедевым