Модель надежности отказоустойчивых систем хранения данных

Рахман П.А.; Каяшев А.И.; Шарипов М.И.

ISSN 1992-6502 (P ri nt)_

2015. Т. 19, № 1 (67). С. 155-166

Ъыьмт QjrAQnQj

ISSN 2225-2789 (Online) http://journal.ugatu.ac.ru

УДК 004.052.3 + 004.083.72

Модели надежности отказоустойчивых систем хранения данных

12 3

п. а. Рахман , а. и. Каяшев , м. и. Шарипов

1 [email protected], 3 [email protected]

ФГБОУ ВПО «Уфимский государственный нефтяной технический университет» (УГНТУ)

Филиал в г. Стерлитамаке

Поступила в редакцию 6 июня 2014 г.

Аннотация. Рассматриваются специализированные марковские модели надежности и аналитические формулы для расчета показателей надежности систем хранения данных на базе избыточных дисковых массивов и резервной копии данных, частные случае дисковых массивов с чередованием и зеркалиро-ванием данных, а также примеры расчета показателей надежности.

Ключевые слова: избыточные дисковые массивы, среднее время наработки на отказ.

ВВЕДЕНИЕ

Сегодняшний мир сложно представить без технических систем, являющихся неотъемлемой частью как повседневной жизни и профессиональной деятельности человека, так и ключевыми элементами различных предприятий и отраслей экономики.

Помимо основных функциональных возможностей и технических характеристик, которые в первую очередь интересуют конечных потребителей и производителей, таких как: производительность, скорость, емкость и т.п., также не менее важными являются показатели надежности, так как от них напрямую зависит эффективность и безопасность эксплуатации технических систем. В такой ситуации разработка моделей и методов для расчета показателей надежности систем является достаточно важной и актуальной задачей.

В настоящее время имеется множество научных трудов и учебников, как отечественных [1, 2], так и зарубежных [3, 4], посвященных теории надежности, общим и специализированным моделям и методам расчета показателей надежности технических систем. Одной из самых известных моделей восстанавливаемых технических систем является модель на базе цепей Маркова, позволяющих оценить такие показатели надежности системы как: коэффициент готовности, среднее время наработки на отказ, среднее время восстановления. В случае если система состоит из множества идентичных элементов, то в таком случае часто применяется хорошо известная марковская цепь гибели и размножения.

Однако следует особо отметить, что существуют системы, которые при достижении аварийного состояния не могут вернуться в предыдущее работоспособное состояние после замены минимально необходимого одного элемента, и требуют проведения ремонтных работ до исходного полностью исправного состояния. Примером таких систем являются дисковые системы RAID (избыточный массив недорогих дисков), состоящий из n дисков, устойчивый к отказам до s - 1 дисков, и отказывающий вместе с потерей всех данных при отказе s и более дисков, и требующий пересоздания массива «с нуля» и восстановления данных из резервной копии. Более того, «узким местом» надежности таких систем также является схема управления (контроллер) дискового массива, критические ошибки которого могут приводить систему в аварийное состояние из любого работоспособного состояния. Очевидно, что для таких систем традиционная марковская цепь гибели и размножения не совсем подходит, и требуются специализированные марковские модели.

Авторами был проведен ряд исследований в области анализа показателей надежности современных систем хранения, передачи и обработки информации, состоящих из нескольких идентичных элементов [5-7], в которых также использовалась традиционная марковская цепь гибели и размножения. В частности, она использовалась для оценки среднего времени наработки до потери данных для RAID-массивов. Однако, в этом исследовании не учитывалась возможность ошибок контроллера дискового массива и возможность восстановления из ава-

рийного состояния с помощью резервной копии данных.

Соответственно, при работе с КАГО-мас-сивами, требующими ремонта до исходного исправного состояния с восстановлением данных из резервной копии после достижения аварийного состояния после отказа 5 дисков или критической ошибки контроллера, возникла научная задача разработки специальных марковских моделей надежности.

Рассмотрены предложенные авторами специальные марковские модели и выведенные формулы для расчета показателей надежности системы, состоящей из множества идентичных восстанавливаемых элементов, переходящей в состояние аварийного отключения с потерей информации при отказе 5 элементов или критической ошибке схемы управления, и требующей восстановления до исходного полностью исправного состояния.

Также рассмотрены модели отказоустойчивых систем хранения данных на базе КАГО-массивов с резервной копией данных, частные случаи дисковых массивов КАГО-0, КАГО-5, КАГО-6 и КАГО-1, а также примеры расчета показателей надежности.

Следует особо отметить, при разработке моделей был сделан упор на аналитическую разрешимость моделей и выведение расчетных формул, чтобы у специалистов была возможность быстрой оценки показателей надежности систем хранения данных, не прибегая к специальному математическому моделированию и программному обеспечению.

1. СПЕЦИАЛИЗИРОВАННАЯ МОДЕЛЬ ОТКАЗОУСТОЙЧИВОЙ СИСТЕМЫ (ТИП 1)

Пусть задана система, состоящая из множества идентичных элементов. Пусть система сохраняет работоспособность при отказе не более 5 - 1 элементов.

Интенсивности перехода системы из состояния , = 0...5 — 1 в следующее состояние , +1 по причине отказа очередного элемента будем обозначать как X .. Интенсивности перехода системы из состояния , = 1.5 — 1 в предыдущее состояние , — 1 по причине восстановления очередного элемента будем обозначать как ц . .

Кроме того, пусть в системе возможны критические виды ошибок (ошибки схемы управления системы), которые переводят систему из любого работоспособного состояния

j = —1 сразу в аварийное состояние 5. Интенсивности перехода из работоспособных состояний в аварийное состояние по причине критической ошибки будем обозначать o . .

Пусть при отказе s элементов или критической ошибке схемы управления система переходит в аварийное состояние s с потерей информации, и требуется восстановление системы, приводящее ее в исходное полностью исправное состояние 0, включая восстановление информации из резервной копии. Интенсивность восстановления системы из аварийного состояния будем обозначать у.

Тогда, имеем следующую специализированную марковскую модель отказоустойчивой системы первого типа (рис. 1).

Соответственно, математическая модель (система уравнений Колмогорова-Чепмена) для расчета стационарных вероятностей состояний:

Po + р +... + Ps—i + Ps = 1;

— (X o + о o) Po + MP + jPs = 0;

X 0 Po — (ц + X + Oi) P + ц 2 P2 = 0;

X s—3 Ps—3 — s—2 + X s—2 + (1)

+ O s—2) Ps—2 + Ц s—1Ps—1 = 0;

X s—2 Ps—2 — s—1 + X s—1 + O s—1)Ps—1 = 0;

O 0 P0 + . + O s—2 Ps—2 +

. + (X s—1 + O s—1) Ps—1 — YPs = 0.

системы (тип 1)

Тогда, стационарный коэффициент готовности системы:

5—1

К Г = Е г,-

7=0

Далее, учитывая, что система из аварийного состояния может перейти только в начальное состояние с интенсивностью у, имеем среднее время восстановления системы:

Тв = V т -

Наконец, среднее время наработки на отказ системы может быть определено из тождества

К = Ш Т, + Tв):

Т, = Кг/ (у(1 - Кг )).

Отметим, что решение системы для нахождения стационарных вероятностей является трудоемкой задачей, обладающей кубической

вычислительной сложностью

-2(5 +1)3.

Рис. 2. Схема алгоритма вычисления показателей надежности

В результате исследований авторам удалось вывести аналитическое решение системы для общего случая в виде матричной формулы. Формула включает в себя произведение 5 квадратных матриц размерности 3, содержащих все параметры надежности. Матричная формула имеет линейную вычислительную сложность ~1385. В итоге получается матрица, содержащая пять коэффициентов и, V, Ж, М и В, и два из них, Ми В, используются для вычисления

коэффициента готовности системы и среднего времени наработки на отказ:

*=П

1=1

0

1 ц 1 ц.

1

о

1

и 0 0 V 0 ж М 0 В уМ

= * x

Ь 0 1 1

Ь 5-1 + 0 5 0

0

(2)

К Г =

уМ + В

т -М.

То В '

Ь 0 + 0 0

Т = —

У

Теперь заметим, что перемножение матриц можно значительно оптимизировать, учитывая то, что часть ячеек содержат 0 или 1, а также то, что операция умножения матриц обладает свойством ассоциативности (АВ )С = А(ВС) .

Авторами был выведена рекуррентная схема вычисления коэффициентов М и В, также обладающая линейной вычислительной сложностью ~36(5 — 1), но вычисляющая значительно быстрее матричной формулы:

и(1) =к ; V(1) = 1; М(1) = 1;

(1) _ -

г(1) _ -

ъ0 м

Ж(1) =о0; В(1) =Ь0 + 00; г = 1... 5 — 1;

и(г+1) = хг и(г);

V(г+1) =оМ(г) + V(г) + и(г); М(г+1) =ХГ М(г) + V(г+1); Ж(г+1) =о В(г) + Ж(г); В(г+1) =хг В(г) + Ж(г+1); М=М(5); В = В(5);

(3)

К Г =

уМ

уМ + В

т =М.

То В'

Т = —

1 У

Также приведем наглядную схему алгоритма вычисления показателей надежности (рис. 2) на базе рекуррентной схемы вычисления коэффициентов М и В.

Следует особо отметить, что и матричная формула, и рекуррентный алгоритм может использоваться не только для вычисления численных значений, но и для выведения аналитических формул для конкретных частных случаев порога 5.

В частности, при 5 = 1:

| М = 1;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1В = Ь 0 + 0 0.

При 5 = 2:

Г м = X0 + X + ох + ц;

1Б = о + со)(Х1 + О0 + 0 оЦ1-При 5 = 3:

М = x 0 + (х0 + + о1 + ц^) х

x (х 2 + о 2 ) + (х 0 + 01 + ц1)ц 2; Б = ((х0 + О0 )(Х1 + О1) + 00^1) х

х (х2 + 02 ) + ((х0 + 00 К + 00^1 )ц2 .

2. СПЕЦИАЛИЗИРОВАННАЯ МОДЕЛЬ ОТКАЗОУСТОЙЧИВОЙ СИСТЕМЫ (ТИП 2)

Пусть задана система, состоящая из множества идентичных элементов. Пусть система сохраняет работоспособность при отказе не более 5 - 1 элементов.

Интенсивности перехода системы из состояния , = 0.5 — 1 в следующее состояние , +1 по причине отказа очередного элемента будем обозначать X ..

Пусть все отказавшие элементы всегда восстанавливаются совместно в рамках единого восстановительного процесса, который завершается полным восстановлением системы с возвратом в исходное полностью исправное состояние 0. Интенсивности перехода системы из состояния , = 1.5 — 1 в исходное состояние 0

будем обозначать ц ..

Кроме того, пусть в системе возможны критические виды ошибок (ошибки схемы управления системы), которые переводят систему из любого работоспособного состояния , = 0.5 — 1 сразу в аварийное состояние 5. Интенсивности перехода из работоспособных состояний в аварийное состояние по причине критического ошибки будем обозначать о ..

Пусть при отказе 5 элементов или критической ошибке схемы управления система переходит в аварийное состояние 5 с потерей информации, и требуется восстановление системы, приводящее ее в исходное полностью исправное состояние 0, включая восстановление информации из резервной копии. Интенсивность восстановления системы из аварийного состояния будем обозначать у.

Тогда имеем следующую специализированную марковскую модель отказоустойчивой системы второго типа (рис. 3).

Соответственно, математическая модель (система уравнений Колмогорова-Чепмена) для расчета стационарных вероятностей:

р + р + + р + р = 11 0 + р + • • • + 1 5—1 + 1 5 1;

—(X 0 + 00) Р0 + цхр; +

+ . + ц 5—1^ + Ур = 0;

X 0 Р0 — (ц + Х1 + 01) р = 0;

Х 5—2 р5—2 — (Ц 5—1 + X 5—1 + О 5—1)р5—1 = 0; 00 р0 + . + О 5—2 р5—2 +

+ (X 5—1 + О 5—1) р5—1 — Ур5 = 0.

Учтем, что стационарный коэффициент го-

Кг = Р + р + . + р^,

(4)

товности

системы

а также то, что система из аварийного состояния может перейти только в начальное состояние с интенсивностью у , и, соответственно, среднее

время восстановления системы Т = 1У, и, тогда, наконец, среднее время наработки на отказ системы Т0 = Кг/ (у(1 — Кг )).

Рис. 3. Граф состояний отказоустойчивой системы (тип 2)

В результате исследований авторам удалось вывести аналитическое решение системы, и, соответственно, стационарный коэффициент готовности, среднее время наработки на отказ и среднее время восстановления системы определяются следующим образом:

5—1 1 5—1-

м = П

9=0 X 9 1=1

1+Ц 9+ 1 + 0 9+ 1

Л

v

■1—яГ

Б =1П

9=0 X д ,=1

1 +

X 9+ 1

Ц9+1 + 0

9+ 1

v

X

9+1

у

К г =

уМ _ уМ + Б'

Т =М- т =1

ТО = п ; ТВ = .

Б у

<

5—1

3. МОДЕЛИ ОТКАЗОУСТОЙЧИВЫХ систем ХРАНЕНИЯ ДАННЫХ НА БАЗЕ ДИСКОВЫХ МАССИВОВ С ЧЕРЕДОВАНИЕМ ДАННЫХ

Пусть задана некоторая система хранения данных на базе дискового массива RAID избыточного массива недорогих дисков с чередованием данных (технология striping), состоящего из n одинаковых дисков, и резервной копии данных на некотором внешнем хранилище (мы его оставляем за рамками рассматриваемой модели).

На каждом диске (n — s +1) / n часть дискового пространства отводится для хранения пользовательских данных, а (s — 1) / n часть диска - для избыточной информации, вычисляемой по специальным алгоритмам из пользовательских данных других дисков, и позволяющей автоматически рассчитывать «недостающую» информацию при отказе вплоть до s — 1 дисков за счет избыточной информации.

Интенсивность отказов дисков X. Диски могут отказывать независимо друг от друга. Кроме того, пусть при отказе r = 1...s - 1 дисков, помимо базовой интенсивности отказов становится существенной интенсивность ошибок чтения в диска, поскольку для расчета «недостающей» информации требуются все пользовательские и избыточные данные со всех оставшихся n - r дисков.

Интенсивность регенерация информации (процедура rebuild) на замененном диске за счет избыточных данных составляет р. Будем считать, что время замены отказавшего диска несущественно по сравнению со временем регенерации информации за счет использования технологии автоматической горячей замены дисков (hot-spare).

Для систем с s > 3 при отказе нескольких r = 2...s - 1 дисков будем различать два типа регенерации информации на замененных дисках:

• тип 1. Информация на замененных дисках регенерируется последовательно - сначала регенерируется информация на одном диске, после завершения регенерации начинается регенерация на следующем диске и так далее. Соответственно, после завершения регенерации на очередном диске система переходит из состояния r в состояние r - 1. Интенсивность регенерации равна р;

• тип 2. Информация на замененных дисках регенерируется одновременно в рамках единого процесса регенерации и завершается одновременно на всех дисках. Соответственно, после завершения регенерации система переходит

из состояния r в состояние 0. Будем считать, что вычислительные мощности дискового контроллера позволяют рассчитывать регенерируемую информацию и записывать ее на все диски одновременно. Соответственно, интенсивность регенерации равна р независимо от количества регенерируемых дисков.

Особо отметим, что если до завершения регенерации информации происходит отказ очередного диска, то будем считать, что все результаты предыдущей регенерации теряются, и после замены отказавшего диска процесс регенерации начинается заново, при условии, что общее количество дисков, требующих регенерации, меньше критического количества s.

Кроме того, пусть в системе возможны критические виды ошибок контроллера дискового массива, которые переводят систему из любого работоспособного состояния напрямую в аварийное состояние. Интенсивность критических ошибок контроллера о. Более того, при отказе r = 1. s - 1 дисков, на контроллер ложится дополнительная нагрузка в силу необходимости расчета недостающей информации и регенерации данных на замененных дисках, и к базовой интенсивности ошибок добавляется дополнительная интенсивность 5.

Наконец, пусть при отказе s дисков или критической ошибке дискового контроллера система переходит в аварийное состояние, поскольку данных оставшихся дисков становится недостаточным для расчета регенерируемой информации. В этой ситуации требуется замена всех неисправных дисков, повторная инициализация дискового массива (процедура recreate) и восстановление информации из резервного копии внешнего хранилища. Интенсивность восстановления системы из аварийного состояния у .

Тогда с учетом всего вышесказанного имеем следующую марковскую модель (рис. 4) отказоустойчивой дисковой системы с последовательной регенерацией информации на замененных дисках (тип 1).

Модель отказоустойчивой дисковой системы получается из рассмотренной выше специальной модели 1 -го типа путем следующей подстановки параметров надежности:

X 0 = nX; X =(n — j)(X + в);

оо = о;

y = y;

о . = о + 5; р j =р;

(6)

j = 1... s — 1.

Тогда, расчет показателей надежности для модели 1-го типа осуществляется по рассмот-

ренным выше рекуррентным формулам 3 с подстановкой соответствующих исходных параметров надежности системы по формулам (6):

и(1) = nX; V(1) = 1; М(1) = 1; Ж(1) = о ; Б(1) = nX + о ;

г = 1. 5 — 1;

(г) .

и (г+1) = (п — г XX + е)и

V(г+1) = (о + 5)М(г) + цV(г) + и(г);

М

(г+1)

= (п — г)(X + е)М(г) + V(г+1); (7)

Ж (г+1) = (о + 5) Б(г) + цЖ(г);

Б(г+1) = (п — г )(X + е) Б(г) + Ж (г+1); М = М(5); Б = Б(5);

т -М т -1

то = б ' тв = .

К г =

уМ

уМ + Б

У

Рис. 4. граф состояний отказоустойчивой дисковой системы (тип 1)

Аналогично также имеем марковскую модель (рис. 5) отказоустойчивой дисковой системы с регенерацией информации в рамках единого одновременного процесса на всех замененных дисках (тип 2).

Рис. 5. граф состояний отказоустойчивой дисковой системы (тип 2)

Модель отказоустойчивой дисковой системы получается из рассмотренной выше специальной модели 2-го типа путем аналогичной подстановки параметров надежности, как и в модели 1-го типа.

Тогда, расчет показателей надежности для модели 2-го типа осуществляется по рассмотренным выше формулам 5 с подстановкой соот-

ветствующих исходных параметров надежности системы по формулам (6):

П^ + Ц+0+5 )

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

м = $ у=Я (п — Ч — -/XX + е)) . 9=0 (п — Ч)(X + е Шп(1, ч)) '

( гт-|-ЯгтпП лЛ ^

х—1

Б = 1 + ^

9=0

о + 5 шт(1, ч) (п — ч)^ + е шт(1, ч))

х П^ + Ц + 0 + 5 )

v /=1v (п — Ч — / )(X + е))

К г =

Iм . т _м. т _ 1 г . уМ + Б Б у

Рассмотрим теперь подробнее, системы хранения данных на базе распространенных в практике дисковых массивов с чередованием данных RAID-0, RAID-5 и RAID-6.

ИЛГО-О. Дисковый массив RAID-0 c резервной копией данных является частным случаем (5 = 1) рассмотренной выше отказоустойчивой системы хранения данных. Массив RAID-0 собирается из п > 2 дисков, и сам по себе не обладает отказоустойчивостью. При отказе любого одного диска или критической ошибке контроллера система переходит в аварийное состояние, и требуется полное восстановление массива с переносом данных из резервной копии. Марковская модель надежности для такой системы (рис. 6):

пК

Рис. 6. граф состояний системы на базе дискового массива RAID-0

Тогда, используя рассмотренную выше рекуррентную схему вычисления показателей надежности для модели 1-го типа, получаем следующие расчетные формулы:

К г =

Г М = 1;

[б = nX + о;

ум . М т =1

* г тл; то тл ; ТВ .

уМ + Б Б у

(9)

КАГО-5. Дисковый массив RAID-5 c резервной копией данных является частным случаем (5 = 2) рассмотренной выше отказоустойчивой системы хранения данных. Массив RAID-5

ст

собирается из п > 3 дисков, и обладает однодис-ковой отказоустойчивостью. При отказе любого одного диска система сохраняет работоспособность. При отказе любых двух дисков или критической ошибке контроллера система переходит в аварийное состояние, и требуется полное восстановление массива с переносом данных из резервной копии.

Марковская модель надежности такой системы (рис. 7):

Га

У

Рис. 7. Граф состояний системы на базе дискового массива КЛШ-5

Тогда, используя рассмотренную выше рекуррентную схему вычисления показателей надежности для модели 1-го типа, получаем следующие расчетные формулы:

г М = ц + (2п — 1)к + (п —1)8+ о + 5; = цо + (пк + о)((п — 1)(к + 8)+ о + 5);

К Г =

уМ

уМ + В

т =М.

То В'

Т Л У

(10)

яаго-б. Дисковый массив ЯЛГО-6 с резервной копией данных является частным случаем (5 = 3) рассмотренной выше отказоустойчивой системы хранения данных. Массив КЛГО-5 собирается из п > 4 дисков, и обладает двухдисковой отказоустойчивостью. При отказе любого одного или двух дисков система сохраняет работоспособность. При отказе любых трех или критической ошибке контроллера система переходит в аварийное состояние, и требуется полное восстановление массива с переносом данных из резервной копии.

Тогда, марковская модель надежности такой системы 1 -го типа с последовательной регенерацией информации при отказе двух дисков (рис. 8):

пА

Га+5 (п-1)(А+е)

а+5

(п-2)(А+£)

М з

У

Рис. 8. Граф состояний системы на базе дискового массива ЯЛТО-б (тип 1)

Используя рассмотренную выше рекуррентную схему вычисления показателей надежности для модели 1 -го типа, получаем следующие расчетные формулы:

М = ц(ц + пк + о + 5) + (ц + (2п — 1)к + + (п —1)8 + о + 5)((п — 2)(к + 8) + + о + 5) + п(п — 1)к(к + 8); В = ц (цо + (пк + о) (о + 5)) + + (цо + (пк + о)((п — 1)(к + 8) + о + 5)) x x ((п — 2)(к + 8) + о + 5);

(11)

К Г =

уМ =М =1

уМ + В ' О = В ' В = у .

Аналогично, марковская модель надежности такой системы 2-го типа с регенерацией информации в рамках единого одновременного процесса при отказе двух дисков (рис. 9):

Рис. 9. Граф состояний системы на базе дискового массива ЯЛТО-б (тип 2)

Используя рассмотренные выше формулы для вычисления показателей надежности для модели 2-го типа, получаем следующие расчетные формулы (после ряда упрощений, и исключения одного и того же знаменателя п(п — 1)(п — 2)к(к + 8)2 в коэффициентах М и В, поскольку он все равно сокращается в дробиМ/ В при расчете показателей надежности):

М

-<

M = (ц + (n — 2)(X + s) + o + 5) x х (ц + (2n — 1)X + (n — 1)s + о + 5) + + n(n — 1)X(X + s); D = (о(ц + (2n — 1)X + (n — 1)s + о + 5) +

+ пХ5)(ц + (n — 2)(X + s) + о + 5) + + n(n — 1)X(X + s)((n — 2)(X + s) + о + 5);

(12)

K r =

yM _ M. T =1

1 * тл; T0 = J^. ; TB = .

yM + D D у

4. МОДЕЛЬ ОТКАЗОУСТОИЧИВОИ СИСТЕМЫ ХРАНЕНИЯ ДАННЫХ НА БАЗЕ ДИСКОВОГО МАССИВА С ЗЕРКАЛИРОВАНИЕМ ДАННЫХ

Пусть задана некоторая система хранения данных на базе дискового массива RAID-1 -избыточного массива недорогих дисков с зерка-лированием данных (технология mirroring), состоящего из n одинаковых дисков, и резервной копией данных на некотором внешнем хранилище (мы его оставляем за рамками рассматриваемой модели).

Все n дисков хранят одну и ту же информацию, чтение данных может осуществляться с любого диска, запись осуществляется на все диски одновременно. Это позволяет системе хранения данных сохранять работоспособность при отказе вплоть до n - 1 дисков.

Интенсивность отказов дисков X. Диски могут отказывать независимо друг от друга. Кроме того, пусть при отказе r = 1...« - 1 дисков, помимо базовой интенсивности отказов становится существенной интенсивность ошибок чтения s диска, с которого осуществляется чтение данных для регенерации информации на отказавших дисках после их замены. Особо отметим, что для регенерации информации достаточно любого одного работоспособного диска с пользовательскими данными независимо от количества отказавших дисков.

Интенсивность регенерация информации (процедура rebuild) на замененном диске составляет ц. Будем считать, что время замены отказавшего диска несущественно по сравнению со временем регенерации информации за счет использования технологии автоматической горячей замены дисков (hot-spare). При отказе нескольких r = 2. n - 1 будем считать, что информация на замененных дисках регенерируется последовательно - сначала регенерируется информация на одном диске, после завершения регенерации начинается регенерация на следующем диске и так далее. Соответственно, по-

сле завершения регенерации на очередном диске система переходит из состояния r в состояние r - 1.

Кроме того, пусть в системе возможны критические виды ошибок контроллера дискового массива, которые переводят систему из любого работоспособного состояния напрямую в аварийное состояние. Интенсивность критических ошибок контроллера о. Более того, при отказе r = 1. n - 1 дисков, на контроллер ложится дополнительная нагрузка в силу необходимости регенерации данных на замененных дисках, и к базовой интенсивности ошибок добавляется дополнительная интенсивность 5.

Наконец, пусть при отказе всех n дисков или критической ошибке дискового контроллера система переходит в аварийное состояние. В этой ситуации требуется замена всех неисправных дисков, повторная инициализация дискового массива (процедура recreate), и восстановление информации из резервного копии внешнего хранилища. Интенсивность восстановления системы из аварийного состояния у .

Тогда с учетом всего вышесказанного имеем следующую марковскую модель отказоустойчивой дисковой системы на базе массива RAID-1 (рис. 10).

Заметим, что модель системы хранения данных на базе массива RAID-1 может быть получена из рассмотренной выше специальной модели отказоустойчивой системы 1-го типа, полагая s = n и используя следующую подстановку параметров надежности:

j = 1. n — 1;

X o = nX; X = (n — j)X + s;

O 0 = о;

Y = y;

о . = о + 5;

ц j =ц.

(13)

fa

nX M

fa+5

(n-1 )X+£ 2X+£

Рис. 10. граф состояний системы на базе дискового массива НАГО-!

Тогда, расчет показателей надежности для модели 1 -го типа осуществляется по рассмотренным выше рекуррентным формулам (3), полагая 5 = п и используя подстановку соответст-

<

вующих исходных параметров надежности системы по формулам (13):

U(1) = nk ; V (1)=1; M (1)=1; W(1) = g ; D(1) = nx + g ;

r = 1... n -1;

(r) .

U(r+1) = ((n - r + s)U V( r+1) = (g + Ô)M(r ) + pV(r ) + U(r ); M(r+1) = ((n - r + s)M(r) + V(r+1); (14)

(r)

W(r+1) =(g + ô) D(r ) + pW D(r+1) =((n - r+ s)D(r) + W

* Г =

M =M(n); yM

- n(n)-

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

D = D

r(r+1).

1

T_M T_1 yM + D ' О= D' В= 7'

5. ОЦЕНКА ПАРАМЕТРОВ НАДЕЖНОСТИ ДИСКОВ И КОНТРОЛЛЕРА

Для расчета показателей надежности рассмотренной выше отказоустойчивой системы хранения данных требуются шесть исходных параметров надежности к, ц, 8,о, 5, у .

Остановимся на них подробнее.

Интенсивность отказов дисков к нетрудно оценить на основе параметра МТБ¥ (среднего времени наработки на отказ), предоставленного производителем дисков или полученного из практического опыта эксплуатации. Следует отметить, что производители часто завышают МТБ¥, указывая более миллиона часов. Практика же показывает, что МТБ¥ диска лежит в пределах 50-300 тысяч часов. Соответственно, интенсивность отказов:

X = 1/ MTBFa

disk '

(15)

Интенсивность регенерации данных ц для массивов с чередованием данных ЯЛГО-5 и ЯЛГО-6 зависит от емкости диска V (в байтах), средней скорости записи на диск (в байт/с)

и средней скорости расчета гса1с регенерируемых данных (в байт/с) контроллером на основе информации остальных дисков:

Р =

3600 VcalcVite

V (Vcalc + VwriJ

(16)

Например, для диска емкости 1012 байтов, скорости записи =50 х 10б байт/с и скорости расчета регенерируемых данных =15 х10б байт/с дискового контроллера,

ц ~ 1/24 час-1 (в среднем регенерация длится 24 часа).

Интенсивность регенерации данных ц для массивов с зеркалированием КЛГО-1 зависит от емкости диска V (в байтах), средней скорости записи на диск (в байт/с) и средней скорости чтения гса1с данных (в байт/с):

Р =

3600 v .v -f

read write V (Vread + Vwrite )

(17)

интенсивность

регенерации

составит

Например, для диска емкости 1012 байтов, скорости записи = 50 -106 байт/с и скорости чтения Угеаа = 80 -106 байт/с, интенсивность регенерации составит ц ~ 1/9 час-1 (в среднем регенерация длится 9 часов).

Интенсивность ошибок чтения 8 диска можно определить на основе параметра Ршк

(вероятности невосстанавливаемой ошибки чтения бита), предоставленного производителем дисков или полученного из практического опыта эксплуатации, емкости диска V (в байтах) и среднего времени регенерации информации, равного 1/ц (в часах). Для дисков персональных компьютеров параметр Ршк составляет

~10-14, для дисков серверов ~10-15.

Тогда, учитывая, что при регенерации данных требуется считывать весь диск размером 8 V битов, то вероятность ошибки чтения Q = 1 — (1 — Ршк )8У . С другой стороны, полагая,

что время наработки на ошибку - экспоненциально распределенная случайная величина с параметром 8, и регенерация длится в течение

1/ц часов, имеем равенство Q = 1 — в~е 1 ц . Тогда, из двух тождеств получаем 8 = —8^ц 1п(1 — ршя ). Тогда, учитывая, что Ршк

очень малая величина, и 1п(1 — Ршк )--Рщк,

окончательно получаем:

8 = 8КцРиЕК. (18)

Например, для диска емкости V = 1012 байтов, интенсивности регенерации данных ц 1/24 час-1 и вероятности невосстанавли-

ваемой ошибки чтения бита =10—14

интенсивность ошибок чтения составит 8 = 1/300 час-1.

Интенсивность ошибок контроллера о можно оценить на основе параметра МТТЕ (среднее время наработки на ошибку), предоставленного производителем контроллера дисков

<

или полученного из практического опыта эксплуатации. Практика же показывает, что МТТЕ контроллера обычно составляют миллионы часов. Тогда, интенсивность ошибок:

а = 1/ МТТЕ.■

(19)

Дополнительная интенсивность ошибок контроллера 5 в режиме регенерации данных может быть оценена так же, как и базовая интенсивность о. В случае отсутствия сведений можно упрощенно полагать, что дополнительная интенсивность равна базовой: 5 = о.

Наконец, интенсивность полного восстановления системы у из аварийного состояния с восстановлением данных из резервной копии зависит от времени, требуемого для создания дискового массива, размера резервной копии, скорости записи данных, и может быть оценена на основе среднего времени МТТЯ, полученного из практики (может занимать от нескольких часов до нескольких суток):

у = 1/ МТТЯ .

(20)

6. ПРИМЕР РАСЧЕТА ПОКАЗАТЕЛЕЙ НАДЕЖНОСТИ ДИСКОВЫХ МАССИВОВ

Имеется п одинаковых дисков емкости V = 1012 байтов. Среднее время наработки на отказ диска составляет МТБ^^к = 120000 часов. Вероятность невосстанавливаемой ошибки чтения бита = 10 14. Средняя скорость

чтения данных Угеас1 = 80 -106 байт/с. Средняя

скорость записи данных = 50 -106 байт/с.

Имеется дисковый контроллер, поддерживающий дисковые массивы КАГО-0, КАГО-5, ИЛГО-б и КАГО-1. Среднее время наработки на критическую ошибку контроллера составляет МТТЕтп = 1200000 часов. В режиме регенерации информации интенсивность критических ошибок удваивается. Средняя скорость расчета регенерируемой информации в дисковых массивах КАГО-5 и КАГО-6 составляет ^ = 15 -106 байт/с.

При отказе 5 дисков (5 = 1 для КАГО-0, 5 = 2 для КАГО-5, 5 = 3 для КАГО-б, 5 = п для КАГО-1) или при критическом отказе контроллера система переходит в аварийное состояние с потерей всей информации на всех дисках. Для предотвращения безвозвратной потери данных в таких случаях выполняется периодическое резервное копирование данных на внешнее хранилище. Среднее время полного восстановления

дискового массива, включая восстановление данных из резервной копии, составляет МТТЯ8у = 72 часа.

Вычислить и сравнить коэффициенты готовности и средние времена наработки на отказ систем хранения данных на базе КАГО-массивов с резервной копией данных для случая массивов КЛГО-0, КАГО-5, ИЛГО-б и КАГО-1 с количеством дисков п = 2...6. Для массива КАГО-6 рассмотреть два типа регенерации: последовательная регенерация дисков (тип 1) и единый процесс одновременной регенерации всех дисков (тип 2).

Решение. Оценим параметры надежности X, ц, 8,о, 5, у, необходимые для расчета показателей надежности отказоустойчивой системы хранения данных.

Интенсивность отказов диска:

X = 1 / МТБ^к = 1/120000 час-1.

Интенсивность регенерации информации в дисковых массивах КАГО-5 и КАГО-б:

Ц =

3600 ^саЛйе

^1/24

час-1.

V Ка1с +

Интенсивность регенерации информации в дисковом массиве КАГО-1:

Ц =

3600 ^ ..уд

час-1.

V (^еаЧ + ^е)

Интенсивность ошибок чтения данных диска:

8 = 8КцРшк ~ 1/300 час-1.

Интенсивность критических ошибок контроллера:

о = 1 /МТТЕсоп = 1/1200000 час-1.

Далее, по условию примера, при регенерации данных, интенсивность критических ошибок удваивается, следовательно о + 5 = 2а, откуда получаем:

5 = 1/1200000 час-1.

Наконец, интенсивность полного восстановления системы из аварийного состояния с восстановлением данных из резервной копии: у = 1/ МТТЯ8у = 1/72 час-1.

Теперь, имея все исходные параметры надежности и используя формулы 9, 10, 11 и 12 для дисковых массивов КАГО-0, -5, -6 (тип 1 и 2), формулу (14) для дискового массива КАГО-1, вычисляем коэффициент готовности и среднее время наработки на отказ. Результаты вычислений приведены в табл. 1 и 2.

Таблица 1

Коэффициент готовности системы хранения данных

s n = 2 n = 3 n = 4 n = 5 n = 6

RAID-0 1 0,99874159 0,99814345 0,99754603 0,99694933 0,99635335

RAID-5 2 - 0,99969139 0,99947510 0,99921250 0,99891164

RAID-6 (тип 1) 3 - - 0,99986279 0,99976449 0,99962103

RAID-6 (тип 2) 3 - - 0,99987568 0,99979881 0,99969005

RAID-1 n 0,99990497 0,99993841 0,99993992 0,99993998 0,99993998

Таблица 2

Среднее время наработки на отказ системы хранения данных (в часах)

s n = 2 n = 3 n = 4 n = 5 n = 6

RAID-0 1 57142 38709 29268 23529 19672

RAID-5 2 - 233232 137096 91356 66082

RAID-6 (тип 1) 3 - - 524677 305649 189916

RAID-6 (тип 2) 3 - - 579099 357805 232226

RAID-1 n 757580 1168895 1198355 1199488 1199441

Отметим, что для дисковых массивов с чередованием данных ЯЛГО-0, ЯЛГО-5 и КЛГО-6 (обоих типов) средняя наработка на отказ быстро снижается с ростом количества дисков. В пределе средняя наработка на отказ стремится

5к + 8

к нулю по закону--.

пк(к + 8)

Средняя наработка на отказ для дискового массива с зеркалированием данных ЯЛГО-1 с ростом количества дисков увеличивается, но быстро упирается в среднюю наработку на ошибку дискового контроллера ~ 1/о, являющегося «узким местом» надежности.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Полученные в примере численные оценки показателей надежности значительно более реалистичны, нежели чем те, которые могут быть получены по упрощенным формулам при игнорировании ошибок контроллера и ошибок чтения дисков при регенерации данных на замененных дисках. Так, например, среднее время наработки на отказ дискового массива ЯЛГО-5 может быть оценено по известной в литературе [3, 4] простой формуле:

T =

ц + (2n - 1)X X2n(n -1)

В частности, для п = 6 дисков, оценка среднего времени наработки на отказ по этой формуле дает 20044000 часов, что в ~300 раз выше, чем оценка 66082 часов, полученная по рассмотренной в данной статье формуле 10.

ЗАКЛЮЧЕНИЕ

Таким образом, в рамках статьи рассмотрены предложенные авторами специализирован-

ные марковские модели и выведенные формулы для расчета показателей надежности систем, состоящих из множества идентичных восстанавливаемых элементов.

Также рассмотрены модели отказоустойчивых систем хранения данных на базе RAID-массивов с резервной копией данных, частные случаи дисковых массивов RAID-0, RAID-5, RAID-6 и RAID-1, а также примеры расчета показателей надежности.

Полученные теоретические результаты использовались авторами в многолетней практике проектирования и эксплуатации систем хранения, обработки и передачи данных НИУ МЭИ (ТУ), Балаковской АЭС, ОАО «Красный Пролетарий» и ряда других предприятий.

СПИСОК ЛИТЕРАТУРЫ

1. Черкесов Г. Н. Надежность аппаратно-программных комплексов. СПб.: Питер, 2005. [[ G. N. Cherkesov, Reliability of Hardware and Software Systems, (in Russian). Saint-Petersburg: Piter, 2005. ]]

2. Половко А. М., Гуров С. В. Основы теории надежности. 2-е изд. СПб.: БХВ-Петербург, 2006. [[ A. M. Polovko and S. V. Gurov, Basis of Reliability Theory, (in Russian). Saint-Petersburg: BHV-Petersburg, 2006. ]]

3. Shooman M. L. Reliability of computer systems and networks. John Wiley & Sons Inc., 2002. [[ Martin L. Shooman, Reliability of computer systems and networks, John Wiley & Sons Inc., 2002. ]]

4. Elerath J. G. Reliability model and assessment of redundant arrays of inexpensive disks (RAID) incorporating latent defects and non-homogeneous Poisson process events. Ph.D. dissertation, University of Maryland, 2007. [[ J. G. Elerath, Reliability model and assessment of redundant arrays of inexpensive disks (RAID) incorporating latent defects and non-homogeneous Poisson process events, Ph.D. dissertation, University of Maryland, 2007. ]]

5. Каяшев А. И., Рахман П. А., Шарипов М. И. Анализ показателей надежности избыточных дисковых массивов // Вестник УГАТУ. 2013. Т. 17, № 2 (55). С. 163-170. [[ A. I. Kayashev, P.A. Rahman, M.I. Sharipov, "Reliability analysis of redundant disk arrays," (in Russian), Vestnik UGATU, vol. 17, no. 2 (55), pp. 163-170, 2013. ]]

6. Каяшев А. И., Рахман П. А., Шарипов М. И. Анализ показателей надежности локальных компьютерных сетей // Вестник УГАТУ. 2013. Т. 17, № 5 (58). С. 140-149. [[ A. I. Kayashev, P.A. Rahman, M.I. Sharipov, "Reliability analysis of local area networks," (in Russian), Vestnik UGATU, vol. 17, no. 5 (58), pp. 140-149, 2013. ]]

7. Каяшев А. И., Рахман П. А., Шарипов М. И. Анализ показателей надежности двухуровневых магистральных сетей // Вестник УГАТУ. 2014. Т. 18, № 2 (63). С. 197-207. [[ A. I. Kayashev, P. A. Rahman, M. I. Sharipov, "Reliability analysis of two-level backbone networks," (in Russian), Vestnik UGATU, vol. 18, no. 2 (63), pp. 197-207, 2014. ]]

ОБ АВТОРАХ

РАХМАН Павел Азизурович, доц. каф. автоматизир. тех-нол. и информ. систем. М-р техн. и технол. по информатике и выч. технике (МЭИ, 2000). Канд. техн. наук по телеком. системам и комп. сетям (МЭИ, 2005). Иссл. в обл. телекоммуникационных систем и компьютерных сетей.

проф., зав. каф. автома-Дипл. инж. (Рязанск. ра-диотехн. ин-т, 1967). Д-р техн. наук (МГТУ «Станкин», 1996). Иссл. в обл. управления технол. объектами с распр. параметрами.

ШАРИПОВ Марсель Ильгизович, доц. каф. автоматизир. технол. и информ. систем. Дипл. инженер (УГНТУ, 2006). Канд. техн. наук (УГНТУ, 2010). Иссл. в обл. машин, агрегатов и процессов в нефтегазовой отрасли.

METADATA

Title: Reliability models of the fault-tolerant storage systems.

Authors: P. A. Rahman1, A. I. Kayashev2, M. I. Sharipov3.

Affiliation: Sterlitamak branch of Ufa State Petroleum Technological University, Russia.

E-mail: [email protected], [email protected]

Language: Russian.

Source: Vestnik UGATU (scientific journal of Ufa State Aviation Technical University), vol. 19, no. 1 (67), pp. 155-166, 2015. ISSN 2225-2789 (Online), ISSN 1992-6502 (Print).

Abstract: Specialized markov models of fault-tolerant storage systems based on redundant disk arrays with data backup and analytic formulas of reliability factors are discussed. Particular cases for disk arrays with data striping and mirroring, and calculation examples of reliability indicators are also provided.

Key words: redundant array of inexpensive disks (RAID); mean time to failure (MTTF).

About authors:

RAHMAN, Pavel Azizurovich, Associate professor (docent) of Automated Technological and Informational Systems Department, Sterlitamak branch of Ufa State Petroleum Technological University. M.Sc. in Computer Science (Moscow Power Engineering Institute, 2000), Ph.D. in Technical Sciences (Moscow Power Engineering Institute, 2005). KAYASHEV, Alexander Ignatievich, Head of Automated Technological and Informational Systems Department, Sterlitamak branch of Ufa State Petroleum Technological University. Dr. of Tech. Sci. (Moscow State University of Technology «Stankin», 1996).

SHARIPOV, Marsel Ilgizovich, Associate professor (docent) of Automated Technological and Informational Systems Department, Sterlitamak branch of Ufa State Petroleum Technological University. Ph.D. in Technical Sciences (Ufa State Petroleum Technological University, 2010).

КАЯШЕВ Александр Игнатьевич,

тизир. технол. и информ. систем.

Модель надежности отказоустойчивых систем хранения данных Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Рахман П. А., Каяшев А. И., Шарипов М. И.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Рахман П. А., Каяшев А. И., Шарипов М. И.

Reliability models of the fault-tolerant storage systems

Текст научной работы на тему «Модель надежности отказоустойчивых систем хранения данных»