ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2011 Управление, вычислительная техника и информатика № 2(15)
УДК 004.272, 519.87, 519.248
В.Г. Хорошевский, В.А. Панский, К.В. Панский
РАСЧЕТ ПОКАЗАТЕЛЕЙ ЖИВУЧЕСТИ РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ1
Предлагается подход к анализу функционирования большемасштабных распределенных вычислительных систем (ВС) в переходном и стационарном режимах. Анализ осуществляется на основе показателей живучести, использующих моменты случайных величин. Использован метод, позволяющий получить систему дифференциальных уравнений, в которой неизвестными функциями являются моменты случайных величин. В качестве основного математического аппарата используются производящие функции. Метод позволяет с единых методологических позиций исследования функционирования ВС получать расчетные формулы для показателей живучести.
Ключевые слова: распределенные вычислительные системы, показатели живучести, моменты, производящая функция.
Современные средства вычислительной индустрии суть системы массового обслуживания, работающие с информационными заданиями. Следовательно, анализ эффективности функционирования вычислительных систем (ВС) должен быть основан на математическом аппарате теории массового обслуживания [1 - 9].
1. Математическая модель функционирования ВС
Любая распределенная вычислительная система [1, 2] может быть представлена композицией N связных элементарных машин (ЭМ). Пусть все ЭМ системы однородны, каждая из них в любой момент времени t е [0, да) может находиться в одном из двух несовместных состояний: работоспособном или отказа; связь между ЭМ будем считать абсолютно надежной.
Время безотказной работы ЭМ является случайной величиной, пусть оно подчиняется экспоненциальному закону распределения, X - интенсивность отказов. В случае отказа элементарная машина восстанавливается одним из m < N восстанавливающих устройств (ВУ). Время восстановления каждой ЭМ подчиняется также экспоненциальному закону, ц - интенсивность восстановления отказавших ЭМ одним ВУ. В любой момент времени t каждое из ВУ может восстанавливать не более одной ЭМ. Требуется проанализировать работоспособность ВС.
При анализе современных вычислительных систем наиболее востребованы показатели живучести, выражаемые через математические ожидания числа исправных ресурсов и другие моменты случайных величин.
Пусть также Mi(t) - среднее число ЭМ вычислительной системы, находящихся в состоянии отказа в момент времени t > 0, при условии, что в начальный момент
времени их было i, Ыг (0) = i, i е EN = {0,1, ..., N}.
1 Работа выполнена в рамках интеграционного проекта № 113 СО РАН, при поддержке РФФИ (гранты № 09-07-00185, 10-07-00157, 09-07-12016, 09-07-90403, 08-08-00300), Совета по грантам Президента РФ для поддержки ведущих научных школ (грант НШ-5176.2010.9) и в рамках государственного контракта № 02.740.11.0006 с Минобрнауки РФ.
Обозначим через Рк (г, /) вероятность того, что в момент времени t е [0, да) ВС имеет к ЭМ в состоянии отказа, к е Е° . В указанных выше условиях функционирование ВС может быть описано процессом «рождения и гибели» [5, 6], то есть для вероятностей Рк (г, t) будет справедлива система линейных дифференциальных уравнений
~^ЦРк (г, ^ = -(Хк + цк )Рк (г, 0 + Хк-1Рк-1(г, 0 + Цк+1Рк+1(г', 0 , (1)
Рг (г,t) = 0, Уг е Е-1 и Е^+1, t е [0, да) с начальными условиями
Р (г, 0) = 1, Рк(г, 0) = 0, г Ф к, г,к е Е0 (2)
и условием нормировки
N
Е Рк (г, t) = 1;
к=0
Хк и цк - интенсивности, выражаемые через X и ц.
Считаем, что восстановительные операции в вычислительной системе осуществляют т однородных устройств (ВУ), т е Е°. «Природа» этих ВУ может быть произвольной: это либо специальные аппараты, либо микропрограммные устройства, либо программы, либо композиции из отмеченных средств [1]. Производительность восстанавливающей системы определяется и числом т, и интенсивностью ц. Будем исследовать потенциальные возможности ВС, положив в системе (1)
Хк = (О - к )Х, Нк =§т-Ц, §т ={к (3)
\т, к > т.
Если известно распределение вероятностей {Рк (г, t)}, г, к е Е°, то не представляет труда рассчитать функцию N (г, t) потенциальной живучести ВС.
2. Вычисление показателей живучести ВС
Процесс расчета {Рк (г,t)}, г, к е Е°, для распределенных ВС обычно осуществляется численными методами, он достаточно трудоемок [2, 8] и мало пригоден для инженерной практики. Здесь воспользуемся методом производящих функций для вывода расчетных формул вероятностей Рк (г, t).
Полагаем в (3) цк = кц, V к е N . Для решения системы (1) введем производящую функцию
N
^(г, ., ^ = Е ?кРк (г, 0, F(г, 1,0) = .
к=0
При сделанных предположениях система уравнений (1), с учетом (3), приводится к следующему уравнению в частных производных:
и _ ад,.+ц) =N4; -1) яг, I, t), (4)
дt д.2
из которого может быть найденаЕ(г, г, t). Далее, замечая, что
имеем, с учетом начальных условий (2),
Гі . гк- і
ф(ґ) = Х/ (Х + ц) + [ц/ (Х + ц)] .ехр[-(Х + ц)/], г (ґ) =Х/ (Х + ц) - [X/ (X + ц)]. ехр[-(Х + ц)ґ].
(5)
Вероятности Рк (г, t) задают ряд распределения состояний системы в момент времени t е [0, да). Далее, используя стандартные формулы, можно найти математическое ожидание ^) и соответствующую дисперсию £>■ ^); по определению
Несмотря на то, что знание производящей функции полностью определяет случайную величину, ее основной недостаток - в трудоемкости вывода и, может быть, избыточности информации, что ограничивает применение в инженерных расчетах. Нас интересуют показатели живучести, для вычисления которых достаточно знать моменты случайных величин, характеризующих функционирование ВС в среднем.
В инженерной практике используют метод под названием «динамика средних» [3], который обеспечивает составление дифференциальных уравнений непосредственно и только для математических ожиданий, по аналогии с составлением уравнений для вероятностей состояний исследуемой системы.
Здесь, используя метод производящих функций, предлагается записывать дифференциальные уравнения непосредственно для моментов, минуя нахождение производящей функции. Метод динамики средних получает формальное обоснование. Такой подход сохраняет единство аппарата исследования функционирования ВС и является продолжением работы [9].
Рассмотрим марковский процесс с конечным или счетным числом состояний. Налагая на уравнения Колмогорова - Чепмена определенные ограничения, получаем их линеаризацию в виде систем дифференциальных уравнений, полностью определяющих вероятности перехода (например, система (1)). Для решения таких систем наиболее общим является метод производящих функций [7], позволяющий свести систему дифференциальных уравнений, где неизвестными функциями являются вероятности, к одному уравнению в частных производных от производящей функции, из которого ее можно найти.
Поскольку нас интересуют моменты случайных величин, то находить явный вид производящей функции нет необходимости. В самом деле, дифференцируя уравнение в частных производных и выражая производящую функцию через математическое ожидание, получаем дифференциальное уравнение первого порядка для нахождения математического ожидания. Дифференцируя уравнение второй раз, получаем уравнение в частных производных третьего порядка, из которого,
Д (0) = 0.
3. Область применения. Описание метода
выражая производящую функцию через математическое ожидание и дисперсию (или второй начальный момент), получаем обыкновенное дифференциальное уравнение первого порядка для нахождения дисперсии (или второго начального момента). Дифференцируя уравнение третий раз, получаем уравнение в частных производных четвертого порядка, из которого можно получить дифференциальное уравнение первого порядка для нахождения моментов третьего порядка (например, асимметрии) и т. д.
Продемонстрируем применение метода на примере уравнения (4), полученного из системы (1) с учетом (3). Дифференцируя последовательно уравнение (4) один, два и три раза по переменной г, после упрощений получаем систему
•Г\2 1—7 ^2 7—7 ^ 7—7
+ (г - 1)(Хг + ц) —г + (-(N - 2)Хх + (N - 1)Х + ц)--= ЫХЕ,
дідх д3 —
дідх2 д4 —
дідх
дх 2
д3 д 2 с
+ (г -1)(Хх + ц) —- + 2(2хХ-Х + ц) —-дх дх
4
+ (г - 1)(Хх + ц) —- + (Х(N - 6)г + (N - 4)Х + 3 ц) ^-3- - 3Х(N - 2)
дх
д—
- 2(N - 1)Х----------= 0,
дх
д3—
д2—
дх
дх3
дх 2
-= 0,
где — = — (І, х, і) .
При х = 1 будем иметь
д2—(І,1, і) {. чд— (І,1, і) ДГ,
+ (Х + ц)—/ = N Х,
дідх д3—(І,1, і)
дідх2
+ 2(Х + ц)
дх
д2—(І,1, і)
дх2
= 2^ - 1)Х
д— (І,1, і)
дх ,
д4—^і) + 3(Х + ц)= 3Х(N - 2)-д2—^і)
дідх
дх3
дх 2
из которой получаем искомую систему дифференциальных уравнений
ё М, (і) + (X + ц)Мі (і) = NX,
Л
^І (і) + 2(Х + ц)бг (і) = 2(N - 1)ХМг (і), аі
О, (і) + 3(Х + ц)Ог (і) = 3(N - 2)ХЙ (і),
(6)
где й (і) = Д (і) + М2 (і) - Мг (і),
О (і) = ц3 (і) + (Мі (і) -1) (3 А (і) - 2М2 (і) - 2М. (і)) ,
ц3 (і) - центральный момент 3-го порядка.
Начальные условия: М, (0) = І, Д (0) = ц3 (0) = 0.
Решая первое уравнение системы (6), находим М. (і); подставляя правую часть Я, (і) во второе уравнение системы (6), находим Д. (і), наконец, подставляя правую часть О. (і) в третье уравнение системы (6), находим ц3 (і).
Случай 1. Для высокопроизводительной ВС решение (6) для первых двух уравнений имеет вид
|Мг (г) = (N-/')• г(г) + г -ф(/),
щ. ( ) = ^-г)г (И1- г ())+лф(/И1-ф(г)), (7)
где г(г), ф(г) удовлетворяют (5).
Для стационарного режима решение системы (6) запишется в виде
М = Ищ Мг (г) = ^ , В = Пт В. (г) = ^^2, ц3 = Итц3(г) = (8)
г Х + ц г (Х + ц)2 í (Х + ц)3
Скорость вхождения распределенной ВС в стационарный режим функционирования при наличии восстанавливающей системы высокой производительности иллюстрирует рис. 1. На этом рисунке представлены зависимости среднего числа М5 (г) отказавших ЭМ вычислительной системы от времени г с учетом дисперсии
В5(г), М5(0) = 5. При N = 104, Х = 10-3 ч-1, ц = 1 ч-1 получаем кривые
^(г) = м5(г)+ст(г), /х(г) = м5(г), где ст2(г) = В5(г). При N = 104, Х = 10~4 ч-1,
ц = 1 ч-1 имеем кривые ¥2 (г) = м5 (г) + ст(г), /2 (г) = м5 (г).
Рис. 1. Среднее число неисправных машин в ВС с высокопроизводительной системой восстановления
Для экспресс-анализа эффективности функционирования ВС можно использовать формулы стационарного режима уже при г > 5 ч:
М ± л/В = NХ /(Х + ц) + 7NХ /(Х + ц) = 104 • 10-3 /(1 +10-3) ±
±4104 -10-3 /(1 +10-3) И10 ± 3,16.
Исследования показывают, что при скрупулезном анализе эффективности функционирования современных ВС требуется учитывать дисперсию числа отказавших ЭМ.
Случай 2. Восстанавливающая система имеет невысокую производительность. Следовательно, в этом случае при длительной эксплуатации ВС все восстанавливающие устройства будут заняты. Как следует из предельных теорем теории восстановления [8, 10], параметр NХ-тц>0 можно принять за интенсивность
входящего потока требований, а за Х - интенсивность обслуживания требований.
Если учесть, что современные ВС являются большемасштабными (характеризуются массовым параллелизмом и числом N ЭМ не менее 104 -106), то отказы ЭМ можно считать независимыми, а N .
Таким образом, имеем систему массового обслуживания с бесконечным числом приборов обслуживания, входящим потоком требований NХ-тц и интенсивностью обслуживания Х .Тогда можно положить в системе (1)
цк = к • Х , Хк = NХ - тц , к е ЕЩ. (8)
Используя введенную производящую функцию и учитывая (8), мы можем систему (1) свести к следующему уравнению в частных производных:
_х(1 - г> ^ — = -(NХ - цт)(1 -х)Е(г, х, г),
дг дх
а из последнего уравнения получить систему уравнений
^мг (г)+Х- мг (г) = NХ- тц,
& (9)
—
. dt
Решение системы (9) имеет вид
—((t) + Mt2 (t) -Mt (t)) + 2X (t) + M 12 (t) -Mг) = 2(NX - |am)M, (t).
N X-mu, ( N X-тиЛ -Xt
Mi (t) =-НЧг--------^1-e ,
X V X J (io)
D (I)=NX-mh+Vi-NX-mh). e->:-г-e-2».
Если i > m, то решение (10) удовлетворяет условию низкой производительности восстанавливающей системы и является точным. Если i < m при длительной эксплуатации ВС (постулируя, что первое событие произойдет при t > 0), то решение (11) можно считать «асимптотически» точным [4, 9, 10].
Например, при i = 0 получаем
Mo(t) = NX-=<1 - Т"), D0(t) = NX-mt(1 _ ).
X X
Для стационарного режима функционирования ВС имеем
M = limM,(t) = N-X-m, D = limDt) = N-X-m^ . (11)
tX tX
Следует заметить, что если в модели функционирования ВС используются простейшие потоки, то все вероятностные характеристики для стационарного режима, как следует из условия эргодичности, будут независимы от начальных условий (что и подтверждается формулами (7) и (11)), а результирующие потоки, являющиеся линейной комбинацией исходных, также будут простейшими [5, 8].
Скорость вхождения распределенной ВС в стационарный режим функционирования при использовании низкопроизводительной восстанавливающей системы иллюстрирует рис. 2.
Рис. 2. Среднее число неисправных машин в ВС с низкопроизводительной системой восстановления
Математическое ожидание м4(г) рассчитано для Х = 10~4 ч-1, ц = 1 ч-1, т = 1. Кривые Е2(г) = м4(г) + ст(г), /2(г) = м4(г) соответствуют N = 104, а кривые Е1(г) = м4(г) + ст(г), /х(г) = м4(г) - значению N = 104 +16, ст(г) = 4б4(г).
Видно, что в этом случае ВС медленно входит в стационарный режим (г и 6 • 104 ч), и влияние дисперсии на м4(г) не столь существенно, чем при наличии высокопроизводительной восстанавливающей системы (рис. 1).
Заключение
Рассмотрены математические модели функционирования восстанавливаемых распределенных вычислительных систем. Предложенный подход к анализу живучести ВС хорошо согласуется с континуальным подходом [1, 2]. Расчетные формулы позволяют повысить точность анализа живучести вычислительных систем. Полученные результаты применимы в инженерной практике большемасштабных распределенных вычислительных систем.
ЛИТЕРАТУРА
1. Хорошевский В.Г. Архитектура вычислительных систем. М.: МГТУ им. Баумана, 2008. 520 с.
2. Евреинов Э.В., Хорошевский В.Г. Однородные вычислительные системы. Новосибирск: Наука, 1978. 319 с.
3. ВентцельЕ.С. Исследование операций. М: Сов. радио, 1972. 552 с.
4. КлейнрокЛ. Теория массового обслуживания. М.: Машиностроение, 1979. 432с.
5. Клейнрок Л. Вычислительные системы с очередями. М.: Мир, 1979. 600 с.
6. Саати Т.Л. Элементы теории массового обслуживания и ее приложения. Изд. 3-е. М.: Либроком, 2010. 520 с.
7. ФеллерВ. Введение в теорию вероятностей и ее приложения. М.: Мир, 1984. В 2 т. Т. 2. 754 с.
8. ГнеденкоБ.В. Математические методы в теории надежности. М.: Наука, 1965. 524 с.
9. Павский В.А., Павский К.В. Оценка показателей осуществимости решения задач на распределенных вычислительных системах // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. 2008. № 4(5). С. 61-68.
10. КоксД.Р. Теория восстановления. М.: Сов. радио. 1967. 312 с.
Хорошевский Виктор Гаврилович
ГОУ ВПО «Сибирский государственный университет телекоммуникаций и информатики»
Павский Валерий Алексеевич
ГОУ ВПО «Кемеровский технологический институт пищевой промышленности»
Павский Кирилл Валерьевич
ГОУ ВПО «Сибирский государственный университет телекоммуникаций и информатики»
E-mail: [email protected]; [email protected]; [email protected]
Поступила в редакцию 17 февраля 2011 г.