Федеральный портал "Инженерное образование"
Электронный журнал и
ИНЖСНЕРН0Е1
ОБРАЗОВАНИЕ
#1 январь 2006 Ред. совет Специальности Рецензентам Авторам English Koi-8 Win
Найти выделенное
Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов #1 январь 2006
В. А. Богатырев, канд. техн. наук, Гос. НИИ "ТЕСТ"
Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов
Рассмотрено динамическое распределение запросов на использование функциональных ресурсов, рассредоточенных по узлам вычислительной системы. Определены рациональные по отказоустойчивости и производительности варианты размещения этих ресурсов по узлам.
Введение. Основным требованием, предъявляемым к распределенным вычислительным системам (РВС), является их отказоустойчивость. Отказоустойчивость РВС обеспечивается как на уровне компьютеров, так и на уровне всей системы. На уровне компьютеров РВС в настоящее время широко внедряется технология избыточных массивов независимых дисков (RAID), а на уровне системы — кластеризация [1, 2]. Для РВС характерно рассредоточение по узлам (компьютерам) задач и функциональных ресурсов (ФР). В связи с ограниченной кратностью резервирования задач и функциональных ресурсов при обеспечении отказоустойчивости РВС должны решаться задачи распределения задач и ФР между компьютерами и их перераспределения в случае возникновения отказов [3—6].
Устойчивость вычислительных систем к отказам процессорных модулей (ПМ) узлов обеспечивается на основе статических и динамических методов перераспределения задач [3, 4], предполагающих после обнаружения отказов ПМ смену задач, возлагаемых на узлы. При реконфигурации возможно использование многовариантности алгоритмов решения задач [6]. Устойчивость РВК к отказам резервированных ФР, рассредоточенных по узлам, а также балансировка загрузки узлов может обеспечиваться в результате динамического распределения запросов через канал связи [7—12].
Отказоустойчивость и производительность РВС зависит от реализации протоколов динамического распределения запросов через канал связи и от варианта размещения ФР по узлам. Выбор рациональных вариантов размещения резервированных ФР по узлам при распределении запросов, каждый из которых требует доступ к одному ФР, рассмотрены в [13, 14]. Не решенной в настоящее время остается задача выбора рациональных вариантов размещения ФР при формировании запросов, каждый из которых требует использования
ФР нескольких типов. Решение этой задачи сопряжено с разработкой протоколов динамического распределения, обеспечивающих предпочтительность обслуживания каждого запроса на использование ФР нескольких типов в одном узле, характеризующимся размещением всех затребованных ФР. Такое распределение позволит повысить производительность системы в результате снижения дополнительных издержек на межмашинный обмен. Решению указанной задачи с оценкой достигаемого уровня отказоустойчивости вариантов размещения ФР по узлам посвящена предлагаемая статья.
Постановка задачи. Рассмотрим многомашинную вычислительную систему с шинным каналом связи. Каждый из т узлов содержит ПМ и не более d ФР. Кратность резервирования каждого из n типов ФР будем считать одинаковой и равной r, причем r ^ да/2. Все r ФР одного типа размещены в разных узлах. Будем считать, что каждый из m узлов содержит оборудование Q, отказ которого приводит к выходу из строя всего узла (к этому оборудованию относятся, в частности, ПМ) и оборудование ФР, отказ которого связан с потерей только соответствующих функциональных возможностей узла. Условием работоспособности состояний системы является сохранение ФР каждого вида хотя бы в одном узле. Вероятности отказа оборудования Q для всех узлов предположим одинаковыми и равными p^. Вероятности отказа ФР всех видов будем считать
совпадающими и равными pj причем pf ^pq. События отказа оборудования Q и ФР как в
одном, так и в разных узлах предположим независимыми. Требуется определить рациональные варианты размещения ФР по узлам, когда в процессе решения задачи могут формироваться запросы на доступ к нескольким ФР разного типа.
Динамическое распределение запросов. Рассмотрим реализацию динамического распределения запросов, каждый из которых требует использования ФР нескольких типов. Будем считать, что в каждом узле, формирующем перераспределяемые через канал запросы, отображается размещение по всем узлам работоспособных ФР. В этом случае при формировании запроса определяются узлы размещения затребованных ФР и среди них выбирается единственный узел, предназначенный для обслуживания распределяемого запроса. Если узел с размещением всех затребованных ФР не найден, то обслуживание запроса осуществляется несколькими узлами, содержащими в совокупности все запрашиваемые ФР. После назначения узлов для обслуживания запроса подготавливаются соответствующие протокольные блоки данных (кадры), содержащие информацию, необходимую для передачи и выполнения запроса. Передача адресатам подготовленных протокольных блоков данных запросов осуществляется после предоставления узлу полномочий доступа к каналу.
Выбор рациональных вариантов размещения ФР. В качестве критерия эффективности конфигурации (варианта размещения ФР) выберем:
B(a) — вероятность обслуживания запроса на использование а ФР в одном узле; K — минимальное число отказов компонент, при котором возможен отказ системы. Эффективность конфигурации оценим по показателям [15]:
P(K) — условная вероятность сохранения работоспособности системы при условии возникновения K отказов;
Р0(к) — условная вероятность сохранения работоспособности системы при условии возникновения к отказов;
P(k) — вероятность (безусловная) сохранения работоспособности системы при возникновении к отказов;
P — вероятность безотказной работы системы. Размещение ФР по узлам и состояние РВС охарактеризуем матрицей \\sij\n x m, элемент которой s. = 1, если j-м узле размещен
и исправен ФР r-го типа, в противном случае s.. = 0. Для рассматриваемых вариантов
п
Е
I = 1
= г и
т
Е
-1 У
;=1
размещения ФР
Рассмотрим два предельных варианта размещения ФР, представленных соответственно матрицами вида и 2-
га
ш
О
о
ш
О,
1>2
Ос
Подматрицы .01, О^,..., 0с имеют вид
г-1
1«
либо г-1
Ч-
Так, при п = ш = 6иг = 4 эти подматрицы имеют вид
1 * 0 (Л я 1
1 р 0 > я
1 * I4 40 0 >
о4 р чО 0
и о4 ] N ч°
0 0 о4 1 I44
При первом варианте узлы можно разделить на непересекающиеся группы, каждую из которых составляют узлы с одинаковыми функциональными возможностями (с размещением одинаковых типов ФР). Для второго варианта любые два узла различимы по функциональным возможностям.
Следует отметить инвариантность рассматриваемых показателей качества конфигураций к всевозможным перестановкам столбцов и строк матриц и ¿2 (в связи с
чем и даны два эквивалентных варианта представления матриц вида ¿2)- В матрице вида ¿1
через Еу, Е^,..., Е2 обозначены диагонально расположенные подматрицы, содержащие все
единичные элементы. Все элементы матрицы ¿1, не принадлежащие подматрицам
Е^, Е^,..., Е равны нулю. В подматрицах вида Бу, ..., Бс через О обозначено
подмножество элементов матрицы, равных нулю, а через Е — равных единице. В подматрице вида Б каждый столбец (или строка), содержащий г единиц, получается сдвигом на один разряд предыдущего столбца. Бинарные матрицы, формируемые подобным образом, называются циркулярными [16].
При заданных значениях ё и г число узлов, необходимых для размещения резервированных ФР, находится как т = вМ(п/ё)г (оператор вМ(п/ё) означает ближайшее целое, не меньшее п/ё). Число подматриц Е равно 2 = вп1(п/ё), а число подматриц Б находится как с = п/т — ё/г. Будем считать, что п/ё и ё/г — целые.
Минимальное число отказов компонент, при котором возможен отказ системы, для сравниваемых конфигураций одинаково и равно г. Для конфигурации, представленной матрицей вида ¿1 (конфигурация ¿1), отказ происходит при неисправности г ПМ,
соответствующих столбцам расположения подматриц Е^ Еу,..., Е Число комбинаций,
удовлетворяющих этому условию при к = г, равно 2 = п/ё = т/г. Для конфигурации вида ¿2
отказ системы происходит, когда неисправны г ПМ, соответствующие г следующим подряд столбцам. Число комбинаций, удовлетворяющих этому условию при к = г, равно т. Таким образом, условная вероятность сохранения работоспособности системы при возникновении К = г отказов ПМ для конфигураций и ¿2 соответственно равна
Р{К)=\-г!СГ =1 -т!{г!Сг)
т
т
и Р{К)=\-т!СГ
т
Зависимость условной вероятности сохранения работоспособности системы Р(К) от числа узлов т для конфигураций ¿1 и ¿у приведена соответственно кривыми 1 и 2 на рис.
1. Расчет проведен при кратности резервирования ФР г = 4. На графике видна предпочтительность по надежности конфигурации ¿1, причем она существенна только при
небольших т. По мере возрастания т увеличивается влияние на выбор конфигурации ее производительности. Заметим, что конфигурация вида ¿у характеризуется большей
вероятностью В(а) обслуживания запроса на использование а ФР в одном узле и, следовательно, обладает лучшей производительностью. Вероятность В(а) для конфигурации ¿1 и ¿у определяется соответственно формулами
0999775
0.96
о.нж?
^0.94
1 /
/ /
>1
10
20 и
30
40
Рис. 1. Зависимость условной вероятности Р(К) — сохранения работоспособности системы при условии возникновения К отказов от числа узлов т
В частности, при й = г выполняются соотношения т = п и с = 1,а поэтому для конфигураций, представляемых матрицами и ¿2, соответственно имеем:
Зависимость вероятности В(а) от числа типов ФР п при й= г = 4 и а = 3,4 для конфигураций ¿1 и ¿2 представлена на рис. 2 кривыми 1—2 и 3— 4 соответственно. На
рисунке видна предпочтительность по производительности конфигурации, представленной матрицей ¿2. Эффективность конфигурации, помимо проанализированных показателей
производительности, определяется отказоустойчивостью.
о.б
вы
04
0.2
\ 4
V ] — 2 3
10
15
50
25
30
ЗА
Рис. 2. Зависимость вероятности В(а) обслуживания запроса на использование а ФР в
одном узле от числа типов ФР п
Отказоустойчивость конфигурации. Для конфигурации, представленной матрицей ¿2, определим условную вероятность сохранения работоспособности системы
при условии возникновения к отказов. Предполагая безотказность ФР, число состояний, при которых происходит отказ оборудования й. (ПМ) в г и г + Ь следующих подряд узлах,
найдем соответственно как т ^т — г И ^ ^Ш — Г — Ь ■
Таким образом, используя комбинаторный метод включения—исключения [17], число устойчивых к отказам к ПМ состояний находится как
т-г
Ск - У\ (-\)ьтСк
УП , Л т
Ь = О
■г-т-г
. Условная вероятность сохранения работоспособности системы при возникновении К отказов ПМ и безотказности ФР вычислим как
Условная вероятность сохранения работоспособности системы при возникновении k отказов ПМ с учетом ненадежности ФР оценим как
к) узлах с
где Py(k) — условная вероятность сохранения ФР каждого вида в (т исправными ПМ при возникновении отказов к ПМ.
При отказе k ПМ число потерянных ФР равно М, а суммарное число ФР в узлах с исправными ПМ равно (т - к)ё, т. е. средняя кратность резервирования ФР узлов с исправным ПМ равна (т - к)ё/п. Таким образом,
-| п
}(т-к)с1/п
где р^ — вероятность безотказной работы одного ФР.
Определив условную вероятность Р(к) сохранения работоспособности системы при возникновении к отказов ПМ вероятность безотказной работы системы вычисляем как
т-еп(п/с1)
Р =
Скр™~к(1-р„)кР(к)
к = О
т П
где т - вШ(п/ё) — максимально возможное число отказов ПМ, выдерживаемых системой.
Для учета ограничений на допустимое при деградации снижение производительности РВС условную вероятность Р(к) сохранения работоспособности системы при возникновении к отказов ПМ определим как
Р{к)= Р^Р^кЩк),
где
§ — предельно допустимое время пребывания в системе запросов на доступ к ФР;
Т — среднее время пребывания в системе запросов на доступ к ФР при отказе к ПМ.
Модель, представляющая процесс обслуживания запросов, приведена на рис. 3, на котором система массового обслуживания Сд описывает процесс взаимосвязи (включая
распределение запросов) через канал связи (первая фаза обслуживания), а система массового обслуживания С^, Су,.., Ст — процессы обслуживания в узлах размещения ФР
(вторая фаза обслуживания). Запрос на использование ФР с вероятностью В(а) обслуживается одним узлом с размещением всех затребованных ФР, а с вероятностью 1 — В(а) — несколькими (а) узлами, содержащими в совокупности все требуемые ФР. При суммарной интенсивности запросов на использование ФР интенсивность поступления в
каждый узел запросов, для выполнения которых достаточно ресурсов узла, Л = В(а) Л о /(т -
к), а среднее время их обслуживания равно V. Интенсивность поступления в каждый узел запросов, требующих для своего обслуживания ресурсов еще а - 1 узлов, составляет Л1 = а
(1 - В(а)) /(да - к). Каждый из а задействованных в обслуживании запроса узлов
затрачивает на это в среднем время, равное v/a. При обслуживании запроса несколькими узлами следует учитывать дополнительные задержки, связанные с ожиданием доступа к каналу и с обменом информацией между узлами, выполняющими запрос, который требует в среднем время
Рис. 3. Модель, представляющая процесс обслуживания запросов на использование
ФР
При анализе процесса распределения и обслуживания запросов к ФР следует учитывать фоновую (по отношению к этому процессу) нагрузку канала (С0) и узлов (С^,
С2,.., Ст). Будем считать, что интенсивности запросов, составляющих фоновую загрузку
канала и каждого узла, равны Л^ и Л^, а среднее время их выполнения равно VI и V2.
Среднее время пребывания в системе запросов, каждый из которых обслуживается одним узлом, составляет Т = Щ + Щ + VQ + V, а несколькими (а) узлами соответственно Т =
Щ + Щ + v0 + v/a + 5, где v0 — среднее время передачи запроса через канал связи; Щ Щ
— среднее время ожидания в Со ив С^ С2,.., Ст; 5 = Щ + v3 — задержка, связанная с
межмашинным обменом при совместном выполнении запроса несколькими узлами.
В простейшем случае, предполагая, что все потоки пуассоновские, время выполнения всех запросов экспоненциально, длины всех очередей неограниченны, а дисциплина их обслуживания бесприоритетна, получим [18]:
+ (1- B{a))^v2 !{a{m - k))]![l-- ^v !{m - jfer)].
Во время ожидания в очереди системы массового обслуживания Су, С^,-, Cm в
принципе возможен отказ затребованных ресурсов, но вероятность этого события мала, а его влияние на среднее время пребывания запросов в системе пренебрежимо. Рассматриваемая модель не учитывает также издержки на диспетчеризацию и, в частности, на реализацию множественного доступа к каналу (включая приоритетный множественный
доступ при обслуживании запроса несколькими узлами).
* * *
Таким образом, определены рациональные по производительности и надежности варианты размещения ФР по узлам. Проведена оценка отказоустойчивости и производительности сравниваемых конфигураций при реализации динамического распределения запросов через канал РВС, когда в процессе решения задачи могут формироваться запросы, каждый из которых требует доступ к нескольким ФР разного типа. Полученные результаты могут использоваться при решении задачи размещения ФР по узлам РВС.
Список литературы
1. Росляков Д. И., Терехов И. Ф. Новые технологические решения в построении отказоустойчивых систем // Информационные технологии. 1998, № 1. С. 30—36.
2. Гурвиц М. Безотказные сети и системы // LAN. I998. № 3. С. 121-127.
3. Соловьев А. В., Турута Е. Н. Метод обеспечения отказоустойчивости распределенных систем управления со случайным потоком заявок и статическим распределением задач // Управление ресурсами в интегральных сетях. М.: Наука. 1991. С. 109—116.
4. Турута Е. Н. Организация распределения задач в вычислительных системах, обеспечивающая их отказоустойчивость // Автоматика и вычислительная техника. 1985. № 1. С. 5—14.
5. Киселев В. Д. Метод распределения программ в вычислительных системах с отказами // Электронное моделирование. 1993. Т. 15. № 3. С. 34—37.
6. Харченко В. С, Ильина О. А. Выбор дефектоустойчивой архитектуры вычислительной системы с параллельно-последовательным выполнением задач // Электронное моделирование. 1998. Т. 15. № 2. С. 77-90.
7. Богатырев В. А. К повышению надежности вычислительных систем на основе динамического распределения функций // Изв. вузов. Приборостроение. 1981. С. 62—65.
8. Богатырев В. А. Мультипроцессорные системы с динамическим перераспределением запросов через общую магистраль // Изв. вузов. Приборостроение. 1985. № 3. С. 33—38.
9. Богатырев В. А. Отказоустойчивые многомашинные вычислительные системы динамического распределения запросов при дублировании функциональных ресурсов // Изв. вузов. Приборостроение. 1996. № 4. С. 81—84.
10. Богатырев В. А. Счетно-эстафетный децентрализованный метод динамического распределения запросов в многомашинных вычислительных системах // Автоматика и вычислительная техника. 1993. № 1. С. 10—13.
11. Богатырев В. А. Децентрализованный метод динамического распределения запросов в отказоустойчивых многомашинных вычислительных системах // Автоматика и вычислительная техника. 1993. № 3. С. 73—75.
12. Богатырев В. А. Протоколы динамического перераспределения запросов в
распределенных вычислительных системах // Электронное моделирование. 1996. № 3. С.
13 .Богатырев В. А. Децентрализованное динамическое распределение запросов в многомашинных вычислительных системах // Электронное моделирование. 1994. Т. 16. № 3. С. 38—43.
14. Богатырев В. А. Надежность вариантов размещения функциональных ресурсов в однородных вычислительных сетях // Электронное моделирование. 1997. № 3. С. —у9.
15. Черкесов Г. Н. Методы и модели оценки живучести сложных систем. М.: Знание. 1987. 56 с.
16. Тараканов В. Е. Комбинаторные задачи и (0, 1)-матрицы. М.: Наука. 1985. 190 с.
17. Кофман А. Введение в прикладную комбинаторику. М.: Наука. 1975. 480 с.
18. Основы теории вычислительных систем / Под ред. С. А. Майорова. М.: Высш. школа. 1978. 408 с.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, № 5, 1999 ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ И СЕТИ
Ключевые слова: Распределение работ, размещение ресурсов, отказоустойчивость, реконфигурация трафика, матрица конфигурации.
Публикации с ключевыми словами: Распределение работ -размещение ресурсов - отказоустойчивость - реконфигурация трафика -матрица конфигурации
Публикации со словами: Распределение работ - размещение ресурсов - отказоустойчивость - реконфигурация трафика - матрица конфигурации См. также:
■ Характеризация диагностических графов для симметричной модели дешифрации синдрома Написать комментарий >>
24—27.
Журнал | Портал | Раздел Copyright © 2003 «Инженерное образование» E-mail: [email protected] | тел.: +7 (495) 263-68-63
Вход для редакторов