Научная статья на тему 'Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов'

Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
280
91
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Богатырев В. А.

Рассмотрено динамическое распределение запросов на использование функциональных ресурсов, рассредоточенных по узлам вычислительной системы. Определены рациональные по отказоустойчивости и производительности варианты размещения этих ресурсов по узлам.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Богатырев В. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов»

Федеральный портал "Инженерное образование"

Электронный журнал и

ИНЖСНЕРН0Е1

ОБРАЗОВАНИЕ

#1 январь 2006 Ред. совет Специальности Рецензентам Авторам English Koi-8 Win

Найти выделенное

Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов #1 январь 2006

В. А. Богатырев, канд. техн. наук, Гос. НИИ "ТЕСТ"

Отказоустойчивость распределенных вычислительных систем динамического распределения запросов и размещение функциональных ресурсов

Рассмотрено динамическое распределение запросов на использование функциональных ресурсов, рассредоточенных по узлам вычислительной системы. Определены рациональные по отказоустойчивости и производительности варианты размещения этих ресурсов по узлам.

Введение. Основным требованием, предъявляемым к распределенным вычислительным системам (РВС), является их отказоустойчивость. Отказоустойчивость РВС обеспечивается как на уровне компьютеров, так и на уровне всей системы. На уровне компьютеров РВС в настоящее время широко внедряется технология избыточных массивов независимых дисков (RAID), а на уровне системы — кластеризация [1, 2]. Для РВС характерно рассредоточение по узлам (компьютерам) задач и функциональных ресурсов (ФР). В связи с ограниченной кратностью резервирования задач и функциональных ресурсов при обеспечении отказоустойчивости РВС должны решаться задачи распределения задач и ФР между компьютерами и их перераспределения в случае возникновения отказов [3—6].

Устойчивость вычислительных систем к отказам процессорных модулей (ПМ) узлов обеспечивается на основе статических и динамических методов перераспределения задач [3, 4], предполагающих после обнаружения отказов ПМ смену задач, возлагаемых на узлы. При реконфигурации возможно использование многовариантности алгоритмов решения задач [6]. Устойчивость РВК к отказам резервированных ФР, рассредоточенных по узлам, а также балансировка загрузки узлов может обеспечиваться в результате динамического распределения запросов через канал связи [7—12].

Отказоустойчивость и производительность РВС зависит от реализации протоколов динамического распределения запросов через канал связи и от варианта размещения ФР по узлам. Выбор рациональных вариантов размещения резервированных ФР по узлам при распределении запросов, каждый из которых требует доступ к одному ФР, рассмотрены в [13, 14]. Не решенной в настоящее время остается задача выбора рациональных вариантов размещения ФР при формировании запросов, каждый из которых требует использования

ФР нескольких типов. Решение этой задачи сопряжено с разработкой протоколов динамического распределения, обеспечивающих предпочтительность обслуживания каждого запроса на использование ФР нескольких типов в одном узле, характеризующимся размещением всех затребованных ФР. Такое распределение позволит повысить производительность системы в результате снижения дополнительных издержек на межмашинный обмен. Решению указанной задачи с оценкой достигаемого уровня отказоустойчивости вариантов размещения ФР по узлам посвящена предлагаемая статья.

Постановка задачи. Рассмотрим многомашинную вычислительную систему с шинным каналом связи. Каждый из т узлов содержит ПМ и не более d ФР. Кратность резервирования каждого из n типов ФР будем считать одинаковой и равной r, причем r ^ да/2. Все r ФР одного типа размещены в разных узлах. Будем считать, что каждый из m узлов содержит оборудование Q, отказ которого приводит к выходу из строя всего узла (к этому оборудованию относятся, в частности, ПМ) и оборудование ФР, отказ которого связан с потерей только соответствующих функциональных возможностей узла. Условием работоспособности состояний системы является сохранение ФР каждого вида хотя бы в одном узле. Вероятности отказа оборудования Q для всех узлов предположим одинаковыми и равными p^. Вероятности отказа ФР всех видов будем считать

совпадающими и равными pj причем pf ^pq. События отказа оборудования Q и ФР как в

одном, так и в разных узлах предположим независимыми. Требуется определить рациональные варианты размещения ФР по узлам, когда в процессе решения задачи могут формироваться запросы на доступ к нескольким ФР разного типа.

Динамическое распределение запросов. Рассмотрим реализацию динамического распределения запросов, каждый из которых требует использования ФР нескольких типов. Будем считать, что в каждом узле, формирующем перераспределяемые через канал запросы, отображается размещение по всем узлам работоспособных ФР. В этом случае при формировании запроса определяются узлы размещения затребованных ФР и среди них выбирается единственный узел, предназначенный для обслуживания распределяемого запроса. Если узел с размещением всех затребованных ФР не найден, то обслуживание запроса осуществляется несколькими узлами, содержащими в совокупности все запрашиваемые ФР. После назначения узлов для обслуживания запроса подготавливаются соответствующие протокольные блоки данных (кадры), содержащие информацию, необходимую для передачи и выполнения запроса. Передача адресатам подготовленных протокольных блоков данных запросов осуществляется после предоставления узлу полномочий доступа к каналу.

Выбор рациональных вариантов размещения ФР. В качестве критерия эффективности конфигурации (варианта размещения ФР) выберем:

B(a) — вероятность обслуживания запроса на использование а ФР в одном узле; K — минимальное число отказов компонент, при котором возможен отказ системы. Эффективность конфигурации оценим по показателям [15]:

P(K) — условная вероятность сохранения работоспособности системы при условии возникновения K отказов;

Р0(к) — условная вероятность сохранения работоспособности системы при условии возникновения к отказов;

P(k) — вероятность (безусловная) сохранения работоспособности системы при возникновении к отказов;

P — вероятность безотказной работы системы. Размещение ФР по узлам и состояние РВС охарактеризуем матрицей \\sij\n x m, элемент которой s. = 1, если j-м узле размещен

и исправен ФР r-го типа, в противном случае s.. = 0. Для рассматриваемых вариантов

п

Е

I = 1

= г и

т

Е

-1 У

;=1

размещения ФР

Рассмотрим два предельных варианта размещения ФР, представленных соответственно матрицами вида и 2-

га

ш

О

о

ш

О,

1>2

Ос

Подматрицы .01, О^,..., 0с имеют вид

г-1

либо г-1

Ч-

Так, при п = ш = 6иг = 4 эти подматрицы имеют вид

1 * 0 (Л я 1

1 р 0 > я

1 * I4 40 0 >

о4 р чО 0

и о4 ] N ч°

0 0 о4 1 I44

При первом варианте узлы можно разделить на непересекающиеся группы, каждую из которых составляют узлы с одинаковыми функциональными возможностями (с размещением одинаковых типов ФР). Для второго варианта любые два узла различимы по функциональным возможностям.

Следует отметить инвариантность рассматриваемых показателей качества конфигураций к всевозможным перестановкам столбцов и строк матриц и ¿2 (в связи с

чем и даны два эквивалентных варианта представления матриц вида ¿2)- В матрице вида ¿1

через Еу, Е^,..., Е2 обозначены диагонально расположенные подматрицы, содержащие все

единичные элементы. Все элементы матрицы ¿1, не принадлежащие подматрицам

Е^, Е^,..., Е равны нулю. В подматрицах вида Бу, ..., Бс через О обозначено

подмножество элементов матрицы, равных нулю, а через Е — равных единице. В подматрице вида Б каждый столбец (или строка), содержащий г единиц, получается сдвигом на один разряд предыдущего столбца. Бинарные матрицы, формируемые подобным образом, называются циркулярными [16].

При заданных значениях ё и г число узлов, необходимых для размещения резервированных ФР, находится как т = вМ(п/ё)г (оператор вМ(п/ё) означает ближайшее целое, не меньшее п/ё). Число подматриц Е равно 2 = вп1(п/ё), а число подматриц Б находится как с = п/т — ё/г. Будем считать, что п/ё и ё/г — целые.

Минимальное число отказов компонент, при котором возможен отказ системы, для сравниваемых конфигураций одинаково и равно г. Для конфигурации, представленной матрицей вида ¿1 (конфигурация ¿1), отказ происходит при неисправности г ПМ,

соответствующих столбцам расположения подматриц Е^ Еу,..., Е Число комбинаций,

удовлетворяющих этому условию при к = г, равно 2 = п/ё = т/г. Для конфигурации вида ¿2

отказ системы происходит, когда неисправны г ПМ, соответствующие г следующим подряд столбцам. Число комбинаций, удовлетворяющих этому условию при к = г, равно т. Таким образом, условная вероятность сохранения работоспособности системы при возникновении К = г отказов ПМ для конфигураций и ¿2 соответственно равна

Р{К)=\-г!СГ =1 -т!{г!Сг)

т

т

и Р{К)=\-т!СГ

т

Зависимость условной вероятности сохранения работоспособности системы Р(К) от числа узлов т для конфигураций ¿1 и ¿у приведена соответственно кривыми 1 и 2 на рис.

1. Расчет проведен при кратности резервирования ФР г = 4. На графике видна предпочтительность по надежности конфигурации ¿1, причем она существенна только при

небольших т. По мере возрастания т увеличивается влияние на выбор конфигурации ее производительности. Заметим, что конфигурация вида ¿у характеризуется большей

вероятностью В(а) обслуживания запроса на использование а ФР в одном узле и, следовательно, обладает лучшей производительностью. Вероятность В(а) для конфигурации ¿1 и ¿у определяется соответственно формулами

0999775

0.96

о.нж?

^0.94

1 /

/ /

>1

10

20 и

30

40

Рис. 1. Зависимость условной вероятности Р(К) — сохранения работоспособности системы при условии возникновения К отказов от числа узлов т

В частности, при й = г выполняются соотношения т = п и с = 1,а поэтому для конфигураций, представляемых матрицами и ¿2, соответственно имеем:

Зависимость вероятности В(а) от числа типов ФР п при й= г = 4 и а = 3,4 для конфигураций ¿1 и ¿2 представлена на рис. 2 кривыми 1—2 и 3— 4 соответственно. На

рисунке видна предпочтительность по производительности конфигурации, представленной матрицей ¿2. Эффективность конфигурации, помимо проанализированных показателей

производительности, определяется отказоустойчивостью.

о.б

вы

04

0.2

\ 4

V ] — 2 3

10

15

50

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

25

30

ЗА

Рис. 2. Зависимость вероятности В(а) обслуживания запроса на использование а ФР в

одном узле от числа типов ФР п

Отказоустойчивость конфигурации. Для конфигурации, представленной матрицей ¿2, определим условную вероятность сохранения работоспособности системы

при условии возникновения к отказов. Предполагая безотказность ФР, число состояний, при которых происходит отказ оборудования й. (ПМ) в г и г + Ь следующих подряд узлах,

найдем соответственно как т ^т — г И ^ ^Ш — Г — Ь ■

Таким образом, используя комбинаторный метод включения—исключения [17], число устойчивых к отказам к ПМ состояний находится как

т-г

Ск - У\ (-\)ьтСк

УП , Л т

Ь = О

■г-т-г

. Условная вероятность сохранения работоспособности системы при возникновении К отказов ПМ и безотказности ФР вычислим как

Условная вероятность сохранения работоспособности системы при возникновении k отказов ПМ с учетом ненадежности ФР оценим как

к) узлах с

где Py(k) — условная вероятность сохранения ФР каждого вида в (т исправными ПМ при возникновении отказов к ПМ.

При отказе k ПМ число потерянных ФР равно М, а суммарное число ФР в узлах с исправными ПМ равно (т - к)ё, т. е. средняя кратность резервирования ФР узлов с исправным ПМ равна (т - к)ё/п. Таким образом,

-| п

}(т-к)с1/п

где р^ — вероятность безотказной работы одного ФР.

Определив условную вероятность Р(к) сохранения работоспособности системы при возникновении к отказов ПМ вероятность безотказной работы системы вычисляем как

т-еп(п/с1)

Р =

Скр™~к(1-р„)кР(к)

к = О

т П

где т - вШ(п/ё) — максимально возможное число отказов ПМ, выдерживаемых системой.

Для учета ограничений на допустимое при деградации снижение производительности РВС условную вероятность Р(к) сохранения работоспособности системы при возникновении к отказов ПМ определим как

Р{к)= Р^Р^кЩк),

где

§ — предельно допустимое время пребывания в системе запросов на доступ к ФР;

Т — среднее время пребывания в системе запросов на доступ к ФР при отказе к ПМ.

Модель, представляющая процесс обслуживания запросов, приведена на рис. 3, на котором система массового обслуживания Сд описывает процесс взаимосвязи (включая

распределение запросов) через канал связи (первая фаза обслуживания), а система массового обслуживания С^, Су,.., Ст — процессы обслуживания в узлах размещения ФР

(вторая фаза обслуживания). Запрос на использование ФР с вероятностью В(а) обслуживается одним узлом с размещением всех затребованных ФР, а с вероятностью 1 — В(а) — несколькими (а) узлами, содержащими в совокупности все требуемые ФР. При суммарной интенсивности запросов на использование ФР интенсивность поступления в

каждый узел запросов, для выполнения которых достаточно ресурсов узла, Л = В(а) Л о /(т -

к), а среднее время их обслуживания равно V. Интенсивность поступления в каждый узел запросов, требующих для своего обслуживания ресурсов еще а - 1 узлов, составляет Л1 = а

(1 - В(а)) /(да - к). Каждый из а задействованных в обслуживании запроса узлов

затрачивает на это в среднем время, равное v/a. При обслуживании запроса несколькими узлами следует учитывать дополнительные задержки, связанные с ожиданием доступа к каналу и с обменом информацией между узлами, выполняющими запрос, который требует в среднем время

Рис. 3. Модель, представляющая процесс обслуживания запросов на использование

ФР

При анализе процесса распределения и обслуживания запросов к ФР следует учитывать фоновую (по отношению к этому процессу) нагрузку канала (С0) и узлов (С^,

С2,.., Ст). Будем считать, что интенсивности запросов, составляющих фоновую загрузку

канала и каждого узла, равны Л^ и Л^, а среднее время их выполнения равно VI и V2.

Среднее время пребывания в системе запросов, каждый из которых обслуживается одним узлом, составляет Т = Щ + Щ + VQ + V, а несколькими (а) узлами соответственно Т =

Щ + Щ + v0 + v/a + 5, где v0 — среднее время передачи запроса через канал связи; Щ Щ

— среднее время ожидания в Со ив С^ С2,.., Ст; 5 = Щ + v3 — задержка, связанная с

межмашинным обменом при совместном выполнении запроса несколькими узлами.

В простейшем случае, предполагая, что все потоки пуассоновские, время выполнения всех запросов экспоненциально, длины всех очередей неограниченны, а дисциплина их обслуживания бесприоритетна, получим [18]:

+ (1- B{a))^v2 !{a{m - k))]![l-- ^v !{m - jfer)].

Во время ожидания в очереди системы массового обслуживания Су, С^,-, Cm в

принципе возможен отказ затребованных ресурсов, но вероятность этого события мала, а его влияние на среднее время пребывания запросов в системе пренебрежимо. Рассматриваемая модель не учитывает также издержки на диспетчеризацию и, в частности, на реализацию множественного доступа к каналу (включая приоритетный множественный

доступ при обслуживании запроса несколькими узлами).

* * *

Таким образом, определены рациональные по производительности и надежности варианты размещения ФР по узлам. Проведена оценка отказоустойчивости и производительности сравниваемых конфигураций при реализации динамического распределения запросов через канал РВС, когда в процессе решения задачи могут формироваться запросы, каждый из которых требует доступ к нескольким ФР разного типа. Полученные результаты могут использоваться при решении задачи размещения ФР по узлам РВС.

Список литературы

1. Росляков Д. И., Терехов И. Ф. Новые технологические решения в построении отказоустойчивых систем // Информационные технологии. 1998, № 1. С. 30—36.

2. Гурвиц М. Безотказные сети и системы // LAN. I998. № 3. С. 121-127.

3. Соловьев А. В., Турута Е. Н. Метод обеспечения отказоустойчивости распределенных систем управления со случайным потоком заявок и статическим распределением задач // Управление ресурсами в интегральных сетях. М.: Наука. 1991. С. 109—116.

4. Турута Е. Н. Организация распределения задач в вычислительных системах, обеспечивающая их отказоустойчивость // Автоматика и вычислительная техника. 1985. № 1. С. 5—14.

5. Киселев В. Д. Метод распределения программ в вычислительных системах с отказами // Электронное моделирование. 1993. Т. 15. № 3. С. 34—37.

6. Харченко В. С, Ильина О. А. Выбор дефектоустойчивой архитектуры вычислительной системы с параллельно-последовательным выполнением задач // Электронное моделирование. 1998. Т. 15. № 2. С. 77-90.

7. Богатырев В. А. К повышению надежности вычислительных систем на основе динамического распределения функций // Изв. вузов. Приборостроение. 1981. С. 62—65.

8. Богатырев В. А. Мультипроцессорные системы с динамическим перераспределением запросов через общую магистраль // Изв. вузов. Приборостроение. 1985. № 3. С. 33—38.

9. Богатырев В. А. Отказоустойчивые многомашинные вычислительные системы динамического распределения запросов при дублировании функциональных ресурсов // Изв. вузов. Приборостроение. 1996. № 4. С. 81—84.

10. Богатырев В. А. Счетно-эстафетный децентрализованный метод динамического распределения запросов в многомашинных вычислительных системах // Автоматика и вычислительная техника. 1993. № 1. С. 10—13.

11. Богатырев В. А. Децентрализованный метод динамического распределения запросов в отказоустойчивых многомашинных вычислительных системах // Автоматика и вычислительная техника. 1993. № 3. С. 73—75.

12. Богатырев В. А. Протоколы динамического перераспределения запросов в

распределенных вычислительных системах // Электронное моделирование. 1996. № 3. С.

13 .Богатырев В. А. Децентрализованное динамическое распределение запросов в многомашинных вычислительных системах // Электронное моделирование. 1994. Т. 16. № 3. С. 38—43.

14. Богатырев В. А. Надежность вариантов размещения функциональных ресурсов в однородных вычислительных сетях // Электронное моделирование. 1997. № 3. С. —у9.

15. Черкесов Г. Н. Методы и модели оценки живучести сложных систем. М.: Знание. 1987. 56 с.

16. Тараканов В. Е. Комбинаторные задачи и (0, 1)-матрицы. М.: Наука. 1985. 190 с.

17. Кофман А. Введение в прикладную комбинаторику. М.: Наука. 1975. 480 с.

18. Основы теории вычислительных систем / Под ред. С. А. Майорова. М.: Высш. школа. 1978. 408 с.

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ, № 5, 1999 ВЫЧИСЛИТЕЛЬНЫЕ СИСТЕМЫ И СЕТИ

Ключевые слова: Распределение работ, размещение ресурсов, отказоустойчивость, реконфигурация трафика, матрица конфигурации.

Публикации с ключевыми словами: Распределение работ -размещение ресурсов - отказоустойчивость - реконфигурация трафика -матрица конфигурации

Публикации со словами: Распределение работ - размещение ресурсов - отказоустойчивость - реконфигурация трафика - матрица конфигурации См. также:

■ Характеризация диагностических графов для симметричной модели дешифрации синдрома Написать комментарий >>

24—27.

Журнал | Портал | Раздел Copyright © 2003 «Инженерное образование» E-mail: [email protected] | тел.: +7 (495) 263-68-63

Вход для редакторов

i Надоели баннеры? Вы всегда можете отключить рекламу.