Научная статья на тему 'Стохастическое моделирование и оценки размера структурной избыточности масштабируемых распределенных вычислительных систем'

Стохастическое моделирование и оценки размера структурной избыточности масштабируемых распределенных вычислительных систем Текст научной статьи по специальности «Математика»

CC BY
224
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПРЕДЕЛЕННЫЕ ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ / СТРУКТУРНАЯ ИЗБЫТОЧНОСТЬ / МАТЕМАТИЧЕСКИЕ МОДЕЛИ / НАДЕЖНОСТЬ / ОЦЕНКИ ПОКАЗАТЕЛЕЙ / РАСПРЕДЕЛЕНИЕ ВЕЙБУЛЛА / АНАЛИЗ / DISTRIBUTED COMPUTER SYSTEMS / RESERVE / MATHEMATICAL MODELS / RELIABILITY / INDICES ESTIMATIONS / WEIBULL DISTRIBUTION / ANALYSIS

Аннотация научной статьи по математике, автор научной работы — Павский Валерий Алексеевич, Павский Кирилл Валерьевич

В рамках теории массового обслуживания построена математическая модель для оценки надежности функционирования вычислительных систем со структурной избыточностью. Модель формализована системой дифференциальных уравнений. Анализ статистики отказов вычислительных систем показывает, что поток отказов вычислительных узлов (элементарных машин) описывается распределением Вейбулла с параметром формы 0,73 и 0,78. Однако для этих форм математическая модель оказывается громоздка и не допускает аналитического решения. В то же время при форме 1 (экспоненциальное распределение) аналитическое решение может существовать. Получено аналитическое решение, позволяющее рассчитать показатели надежности. Найдена вероятность нахождения вычислительных систем в состоянии низкой производительности в зависимости от размера структурной избыточности. Для этой вероятности приведена оценка и ее погрешность. Предложен расчет математического ожидания и дисперсии числа отказавших машин в зависимости от времени. Обосновано использование экспоненциального распределения. Для расчета моментов использован подход, позволяющий записать систему дифференциальных уравнений непосредственно, минуя нахождение вероятности состояний системы. Полученные формулы и их оценки просты и могут быть использованы в инженерных расчетах. Результаты подтверждены имитационным моделированием.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Павский Валерий Алексеевич, Павский Кирилл Валерьевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

STOCHASTIC SIMULATION AND INDICES ESTIMATIONS OF STRUCTURAL REDUNDANCY OF LARGE-SCALE COMPUTER SYSTEMS

The mathematical model for estimation of reliability of distributed computer systems (CS) functioning with reserve is constructed by using methods of queuing theory. The model is formalized with system of differential equations. Based on the statistics of failure for cluster CSs, it is preferable to assume that the time between failures is Weibull distributed with a shape parameter value 0.73 and 0.78. But the mathematical model with these parameters is laborious and doesn’t have analytical solution. But the analytical solution for shape parameter values of 1 (exponential distribution) is possible. The analytical solution allowing to calculate reliability indices is obtained. The functional dependency of the probability of computer system’s low performance on the reserve size is found. The estimations for this probability are offered. The calculation of mathematical expectation and dispersion of refusal machines numbers is proposed. Formulas derivation is based on methods allowing to get system of equations for moments without finding probabilities states. The formulas and they estimations are suitable to reverse engineering. The results of analytical modeling are confirmed by simulation modeling.

Текст научной работы на тему «Стохастическое моделирование и оценки размера структурной избыточности масштабируемых распределенных вычислительных систем»

Лукин Николай Алексеевич - Институт машиноведения Уральского отделения РАН; e-mail: [email protected]; 620049, г. Екатеринбург, ул. Комсомольская, 34; тел.: +73433788903; с.н.с.

Lookin Nickolay Alexeevich - Institute of Engineering Science, Urals Department of RAS; e-mail: [email protected]; 34, Komsomol street, Yekaterinburg, 620049, Russia; phone: +73433788903; senior scientist.

УДК 681.324, 519.21

В.А. Павский, К.В. Павский

СТОХАСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ И ОЦЕНКИ РАЗМЕРА СТРУКТУРНОЙ ИЗБЫТОЧНОСТИ МАСШТАБИРУЕМЫХ РАСПРЕДЕЛЕННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ*

В рамках теории массового обслуживания построена математическая модель для оценки надежности функционирования вычислительных систем со структурной избыточностью. Модель формализована системой дифференциальных уравнений. Анализ статистики отказов вычислительных систем показывает, что поток отказов вычислительных узлов (элементарных машин) описывается распределением Вейбулла с параметром формы 0,73 и 0,78. Однако для этих форм математическая модель оказывается громоздка и не допускает аналитического решения. В то же время при форме 1 (экспоненциальное распределение) аналитическое решение может существовать. Получено аналитическое решение, позволяющее рассчитать показатели надежности. Найдена вероятность нахождения вычислительных систем в состоянии низкой производительности в зависимости от размера структурной избыточности. Для этой вероятности приведена оценка и ее погрешность. Предложен расчет математического ожидания и дисперсии числа отказавших машин в зависимости от времени. Обосновано использование экспоненциального распределения. Для расчета моментов использован подход, позволяющий записать систему дифференциальных уравнений непосредственно, минуя нахождение вероятности состояний системы. Полученные формулы и их оценки просты и могут быть использованы в инженер-ныхрасчетах. Результаты подтверждены имитационным моделированием.

Распределенные вычислительные системы; структурная избыточность; математические модели; надежность; оценки показателей; распределение Вейбулла; анализ.

V.A. Pavsky, K.V. Pavsky

STOCHASTIC SIMULATION AND INDICES ESTIMATIONS OF STRUCTURAL REDUNDANCY OF LARGE-SCALE COMPUTER SYSTEMS

The mathematical model for estimation of reliability of distributed computer .systems (CS) functioning with reserve is constructed by using methods of queuing theory. The model is formalized with system of differential equations. Based on the statistics of failure for cluster CSs, it is preferable to assume that the time between failures is Weibull distributed with a shape parameter value 0.73 and 0.78. But the mathematical model with these parameters is laborious and doesn't have analytical solution. But the analytical solution for shape parameter values of 1 (exponential distribution) is possible. The analytical solution allowing to calculate reliability indices is obtained. The functional dependency of the probability of computer system's low performance on the reserve size is found. The estimations for this probability are offered. The calculation of mathe-

*

Работа выполнена при поддержке РФФИ (грант №13-07-00160). 66

matical expectation and dispersion of refusal machines numbers is proposed. Formulas derivation is based on methods allowing to get system of equations for moments without finding probabilities states. The formulas and they estimations are suitable to reverse engineering. The results of analytical modeling are confirmed by simulation modeling.

Distributed computer systems; reserve; mathematical models; reliability; indices estimations; Weibull distribution; analysis.

Введение. За последние 10 лет производительность лидеров суперкомпьютеров TOP 500 в среднем каждые 3 года повышалась в 10 раз. Количество ядер в таких ВС может достигать нескольких миллионов (например, в системе IBM BlueGene/Q Sequoia с количеством узлов 98 304, занимающей 3-е место 43-й редакции списка суперкомпьютеров Топ500, число ядер равно 1 572 864) [1]. Sinisa Nicolic - директор IBM - отметил, что за 10 лет эксплуатации суперкомпьютеров в среднем каждые 5 минут фиксировались различного рода сбои [2]. Следовательно, с развитием вычислительных средств высокой производительности актуальность проблемы производительности, надежности, живучести не только сохраняется, но и усиливается. Отказы ЭМ, принимающих участие в решении трудоемких задач, приводят к потере промежуточных результатов вычислений и необходимости перезапуска всей параллельной программы. Последнее снижает технико-экономическую эффективность ВС и осуществимость решения трудоемких задач. Более того, отказ или восстановление элементарной машины должен приводить лишь к изменению производительности ВС и не приводить к аварийному завершению задач пользователей.

Введение в состав распределенных вычислительных систем структурной избыточности позволяет повысить их живучее функционирование.

Итак, объектом исследования являются масштабируемые распределенные вычислительные системы (ВС) со структурной избыточностью [3]. Предложена стохастическая модель функционирования вычислительных систем со структурной избыточностью. Показано, что относительно быстрая замена вышедших из строя ЭМ машинами структурной избыточности позволяет поддерживать необходимую производительность в течение длительного промежутка времени.

1. Модель. Имеется ВС, состоящая из N элементарных машин (ЭМ), n -структурная избыточность (резерв), N — n - основная подсистема (рис. 1). Время работы каждой ЭМ является случайной величиной, подчиненной экспоненциальному закону, с параметром 1 - интенсивностью выхода ЭМ из строя. Вышедшая из строя ЭМ заменяется на ЭМ из структурной избыточности, а сама попадает в восстанавливающую систему (ВУ) и ждет восстановления. Время восстановления является случайной величиной, подчиненной экспоненциальному закону с параметром ¡¡ - интенсивностью восстановления. Предполагается, что независимо от

числа ЭМ, находящихся в ВУ, среднее время восстановления любого числа к < n ЭМ, находящихся на восстановлении, t = 1/ ¡.

2. Вероятности состояний восстанавливающей системы. Требуется вычислить p (t) - вероятность того, что в момент времени t в системе массового

обслуживания (СМО) находится k требований, t е [0,<х>), к = 0,1,...,n, и провести анализ функционирования ВС. В отличие от модели, представленной в работе [4] (где поток отказов 1(t) = N1 ), предполагаем, что для состояния k СМО поток отказов имеет интенсивность ( N — к )1. Итак, получаем

P0(i) = - N -ÄP0(t) + (t),

k=1

Pk (t) = -((N - k) • Я + и) • Pk (t) + (N - (k - 1))Я • Pk-i (t),

k = 1,2,...,и -1, Pn (t) = -и • Pn (t) + (N - (и -1))Я • P„-1 (t)

(1)

с начальными условиями

Po(0) = 1, Pk(0) = 0, k Ф 0.

Вычислительная система

Система восстановления

Рис. 1. Модель функционирования вычислительной системы со структурной

избыточностью

Условие нормировки

n

^Pk(t) = 1, t е[0,х).

k=0

Решение (1) для стационарного режима pk = limP(t) , k = 0,1,...,и, пред-

ставляется в следующем виде:

И

Р0 =

Pk =

(N-Я + И)'

Я

И

(N -0

( (N - k )• Я/и + 1) 1=0 ( (N - 0- Я/и + 1)'

k = 1,2,...,и -1,

Ри =

/ \ и 1

^ Я и-1

П

(N - 0

И J io ( (N - о-Я/И +1)'

(2)

1

Замечаем, что в (2) ри - это вероятность пустоты резерва в стационарном режиме. Соответственно, на основе (2) считаем, что вероятность отказа ВС равна

( п-1 N -г

Ротк Рп

•п

(3)

ц) - г) •Я/ц +1

Зависимость вероятности Ротк от размера структурной избыточности (резерва) приведена на рис. 2. Очевидно, что

( (N - п)Я \" (N - п)Я + ц

< Р

г о

Пусть ф (N) =

N •Я N •Я + ц

)

Л"

N-Я N •Я + ц

Л"

,тогда

(1 - п )(1+—п±

N (N - п) •Я + ц

) Фп (N) < Роткк < фя (N) •

(4)

Из (4) видно, что роиж « ф (N), N >> п, что удобнее использовать для

анализа. Например, для нахождения размера структурной избыточности по заданной доверительной вероятности того, что ВС находится в состоянии высокой производительности [4].

Оценим погрешность такого приближения. Имеем

Фп (Ю - Ротк «5(п)Ф„ (Ю , (5)

где

" пА-) 1 ). (6)

(N - п) • Я + ц )

5(п) = (1 - (1 --)(1 + -

N

Рис. 2. Зависимость вероятности сохранения максимальной производительности от размера структурной избыточности: ц = 0,1 ч"1; Я = 10-4 ч -, N = 2-104 ЭМ

Из рис. 3 видно, что для ц = 0,1 ч"1; Я = 104 ч"1, N = 2 • 104 ЭМ оценка погрешности (см. (5) и (6)) составляет примерно 1 % от ф (N при п = 60 и примерно 10 % при п = 210.

и

Рис. 3. Расчет 8(п) ц = 0,1 ч"1; Я = 10-4 ч"1, N = 2•Ю4ЭМ

На рис. 4,а,б представлен пример расчета разницы Фп (N) - ротгг и р -Фп (N - п) соответственно. Видно, что графики практически совпадают.

Этот пример показывает, что оценка погрешности (5) несколько завышена (примерно в 2 раза).

а б

Рис. 4. Оценка погрешности ц = 0,1 ч-1; Я = 10-4 ч-1, N = 2-104 ЭМ

3. Математическое ожидание числа отказавших машин и соответствующая дисперсия. Для нахождения среднего числа машин М (?), ожидающих восстановления в ВУ, и дисперсии воспользуемся аппаратом производящих функций [5], тогда

^(2, ?) = ц(1 - ^(2, ?)) - NЯ(1 - (2,?) - Рп (?)2п) + Я2(1 - *)(-£ ^(2, ?) - пРп (^ ),

ОТ ОТ

где

F(z, t) = |>k • Pk (t), 0 < z < 1.

k=0

Откуда, используя метод нахождения моментов [6], после соответствующих преобразований получаем

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

аМ (г) + (^ + Х)М (г) = N Х- (N - п)ХРп (г), аг

а

аг

д(г) + (р + 2Х)0(г) = 2Х(N - 1)М(г) - 2ХпРп (г))(N - п),

(7)

0(г) = Б(г) - М (г) + М2 (г).

Решение по (7), например, можно найти численными методами (см. рис. 5), где использовались результаты [4, 7].

В работах [8, 9] проводится исследование анализ отказов в распределенных вычислительных системах. На основе статистики отказов в 20-ти кластерных ВС показано, что предпочтительнее считать, что время между отказами распределено по закону Вейбулла с параметром формы 8 = 0,78.

Для предложенной модели (см. п. 1) была разработана имитационная модель функционирования ВС со структурной избыточностью. На рис. 5-8 приведены графики математического ожидания и дисперсии числа отказавших машин, находящихся на восстановлении и построенных по имитационной модели (при 10 000 экспериментов), в сравнении с решением численными методами для (7). На этих рисунках М(г) и

Мм1 (г) - математические ожидания среднего числа отказавших машин, для которых время работы до отказа любой ЭМ распределено по закону Вейбулла с параметрами формы 8 = 1 и 8 = 0,78 соответственно. Моделирование восстановлений выполнено согласно экспоненциальному закону N = 1.5 • 104, Х = 10 4 1/ч, /л=0,1 1/ч.

Рис. 5. Зависимость среднего числа отказавших ЭМ, находящихся в ВУ, от времени (расчет выполнен согласно формулам (7). Рассматриваются простейшие потоки)

Рис. 6. Зависимость среднего числа отказавших ЭМ, находящихся в ВУ, от времени (расчет выполнен согласно имитационной модели)

Рис. 5, 6 показывают, что результаты моделирования по формулам (7) практически совпадают с имитационным. Рис. 6-8 показывают, как влияет N • X на значение разницы между М(г) и М^(г). При N•Х« 1,5 значения М(г) и

М№ (г) практически совпадают (рис. 6).

Рис. 7. Зависимость среднего числа отказавших ЭМ, находящихся в ВУ, от времени (расчет выполнен согласно

имитационной модели. N = 5 • 103,

2 = 1041/ч, ц = 0,1 1/ч)

Рис. 8. Зависимость среднего числа отказавших ЭМ, находящихся в ВУ, от времени (расчет выполнен согласно имитационной модели. N = 7,5 -104,

2 = 1041/ч, ц = 0,1 1/ч)

Заключение. В работе предложена математическая модель функционирования масштабируемых вычислительных систем со структурной избыточностью. Найдена вероятность нахождения ВС в состоянии низкой производительности в зависимости от размера структурной избыточности. Предложена ее оценка и погрешность, которые более удобны для анализа. Предложен расчет среднего числа отказавших машин в зависимости от времени. Приведены результаты расчета среднего числа отказавших ЭМ в восстанавливающей системе, построенной по формулам (7) и имитационной моделям, где время работы до отказа любой ЭМ является случайной величиной, распределенной по закону Вейбулла, форм 0,78 и 1. Показано, что с точностью до одного стандартного отклонения эти формы взаимозаменяемы.

БИБЛИОГРАФИЧЕСКИМ СПИСОК

1. Top500 Supercomputer sites// http://www.top500.org (дата обращения 10.11.2014).

2. Nikolic S. High Performance Computing Directions: The Drive to ExaScale Computing // Труды Международной научной конференции "Параллельные вычислительные технологии (ПаВТ'2012). - Новосибирск, 2012, URL: http://pavt.susu.ru/2012/talks/Nikolic.pdf (дата обращения 10.11.2014).

3. Хорошевский В.Г. Архитектура вычислительных систем. - М.: МГТУ им. Баумана, 2008. - 520 с.

4. Павский В.А., Павский К.В., Хорошевский В.Г. Математическая модель и расчет показателей функционирования вычислительных систем со структурной избыточностью // Известия ЮФУ. Технические науки. - 2012. - № 5 (130). - С. 37-41.

5. Саати Т.Л. Элементы теории массового обслуживания и ее приложения. -3-е изд. - М.: Книжный дом «ЛИБРОКОМ», 2010. - 520 с.

6. Хорошевский В.Г., Павский В.А., Павский К.В. Расчет показателей живучести распределенных вычислительных систем // Вестник Томского государственного университета. Управление, вычислительная техника и информатика. - 2011. - № 2 (15). - С. 81-88.

7. Овчаров Л.А. Прикладные задачи теории массового обслуживания. - М.: Машиностроение, 1969. - 324 с.

8. Schroeder В., Gibson Garth A. A large-scale study of failures in high-performance computing systems // Proceedings of the International Conference on Dependable Systems and Networks (DSN2006), Philadelphia, PA, USA, June 25-28. - 2006. - 10 р.

9. Analyzing failure data. URL: http://www.pdl.cmu.edu/FailureData/ (дата обращения 10.11.2014).

REFERENCES

1. Available at: Top500 Supercomputer sites// http://www.top500.org (Accessed 10 November 2014).

2. Nikolic S. High Performance Computing Directions: The Drive to ExaScale Computing, Trudy Mezhdunarodnoy nauchnoy konferentsii "Parallel'nye vychislitel'nye tekhnologii (PaVT'2012) [Proceedings of International scientific conference "Parallel computing technologies (Pushchino'2012)]. Novosibirsk, 2012, Available at: http://pavt.susu.ru/2012/talks/Nikolic.pdf (Accessed 10 November 2014).

3. Khoroshevskiy V.G. Arkhitektura vychislitel'nykh system [Architecture of computing systems]. Moscow: MGTU im. Baumana, 2008, 520 p.

4. Pavskiy V.A., Pavskiy K.V. Khoroshevskiy V.G. Matematicheskaya model' i raschet pokazateley funktsionirovaniya vychislitel'nykh sistem so strukturnoy izbytochnost'yu [Mathematical model and of indices calculation of computer systems functioning with structural redundancy], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2012, No. 5 (130), pp. 37-41.

5. Saati T.L. Elementy teorii massovogo obsluzhivaniya i ee prilozheniya [Elements of queueing theory and its applications]. 3rd ed. Moscow: Knizhnyy dom «LIBROKOM», 2010, 520 p.

6. Khoroshevskiy V.G., Pavskiy V.A., Pavskiy K.V.Raschet pokazateley zhivuchesti raspredelennykh vychislitel'nykh sistem [To calculate the survivability of distributed computing systems], Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika [Vestnik of Tomsk state University. Control, computer engineering and Informatics], 2011, No. 2 (15), pp. 81-88.

7. Ovcharov L.A. Prikladnye zadachi teorii massovogo obsluzhivaniya [Applied problems in theory of mass service]. Moscow: Mashinostroenie, 1969, 324 p.

8. Schroeder В., Gibson Garth A. A large-scale study of failures in high-performance computing systems, Proceedings of the International Conference on Dependable Systems and Networks (DSN2006), Philadelphia, PA, USA, June 25-28, 2006, 10 р.

9. Analyzing failure data. Available at: http://www.pdl.cmu.edu/FailureData/ (Accessed 10 November 2014).

Статью рекомендовал к опубликованию д.т.н., профессор А.М. Гудов.

Павский Валерий Алексеевич - Кемеровский технологический институт пищевой промышленности; e-mail: [email protected]; 650056, г. Кемерово, б-р Строителей, 47; тел.: 83842734200; кафедра высшей математики; зав. кафедрой; д.т.н.; профессор.

Павский Кирилл Валерьевич - Федеральное государственное бюджетное учреждение науки Институт физики полупроводников им. А.В. Ржанова СО РАН; e-mail: [email protected]; 630090, г. Новосибирск, пр. Лаврентьева, 13; тел.: 83833332171, 83833305626; лаборатория ВС; д.т.н.; научный сотрудник.

Pavsky Valery Alexeevich - Kemerovo institute of technology of the food-processing industry; email: [email protected]; 47, Stroiteley bulvar, Kemerovo, 650056, Russia; phone: +73842734200; the department of mathematica chair; head of department; dr. of eng. sc.; professor.

Pavsky Kirill Valerievich - A.V. Rzhanov institute of semiconductor physics of Siberian branch of the RAS; e-mail: [email protected]; 13, ak/ Lavrentieva av., Novosibirsk, 630090, Russia; phone: +73833332171, +73833305626; dr. of eng. sc.; researcher.

i Надоели баннеры? Вы всегда можете отключить рекламу.