ЯК1СТЬ, НАДШШСТЬ I СЕРТИФ1КАЦ1Я ОБЧИСЛЮВАЛЬНОÏ ТЕХН1КИ I ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ
УДК 621.3.019.3
А.В. ФЕДУХИН*, Н.В. СЕСПЕДЕС ГАРСИЯ*, Ар.А. МУХА*
К ВОПРОСУ О СВЯЗИ НАДЕЖНОСТИ И ДОСТОВЕРНОСТИ ФУНКЦИОНИРОВАНИЯ КОМПЬЮТЕРНЫХ СИСТЕМ
Институт проблем математических машин и систем НАН Украины, Киев, Украина_
Анотаця. Розглянуто питания визначення анал^тичног залежност1 docmoeipnocmi функщонуван-ня комп 'ютерних систем eid типу структур та ïx характеристик. Проведено розрахунки показ-нитв достовiрностi та ймовiрностi безвiдмовноïроботирiзниx структур комп'ютерних систем. Ключов1 слова: достовiрнiсть, iмовiрностi безвiдмовноïроботи, класифтащя титв конфiгурацiй систем, розрахунок достовiрностi, стутнь компенсацИ' на^дюв вiдмови.
Аннотация. Рассмотрены вопросы определения аналитической зависимости достоверности функционирования компьютерных систем от типа структур и их характеристик. Проведены расчеты показателей достоверности и вероятности безотказной работы различных структур компьютерных систем.
Ключевые слова: достоверность, вероятности безотказной работы, классификация типов конфигураций систем, расчет достоверности, степень компенсации последствий отказа.
Abstract. The problems of determining the analytical dependence of the reliability of the computer systems functioning on the type of structures and their characteristics are considered. The calculations of reliability and probability offailure-free operation of various structures of computer systems are carried out. Keywords: veracity, probability of failure-free operation, classification of system configurations types, veracity calculation, degree of compensation offailure consequences.
1. Введение
Все более широко на практике используются микропроцессорные цифровые системы или компьютерные системы (КС). Для таких систем характерно наличие как устойчивых отказов, так и неустойчивых отказов - сбоев. Отказы и сбои в процессе функционирования управляющих систем приводят к возникновению ошибок, что влечет за собой нарушение целостности данных, возникновение ошибочных вычислений, снижение готовности системы, а также непредсказуемое поведение системы, которое может повлечь тяжелые последствия.
Особенно это относится к системам критического применения, в составе которых в последнее время находят применение разнообразные КС. Высокая эффективность их функционирования может быть достигнута путем реализации устойчивых алгоритмов вычислений, эффективных методов контроля и восстановления работоспособности наряду с использованием разнообразных методов обеспечения высокой безотказности и отказоустойчивости.
Достоверность функционирования КС определяется вероятностью того, что значение вычисляемого параметра, отражаемое информацией или управляющим воздействием, производимым КС, отличается от истинного значения этого параметра в пределах требуемой точности.
Не требует доказательства тот факт, что чем выше надежность функционирования КС, тем выше достоверность вырабатываемой ею информации или управляющих воздей-
© Федухин А.В., Сеспедес Н.В., Муха Ар.А., 2017 145
ISSN 1028-9763. Математичш машини i системи, 2017, № 2
ствий на управляемые объекты. Однако для избыточных КС, структуры которых характеризуются свойством отказоустойчивости, такой прямой зависимости не наблюдается.
Целью исследования является установление аналитической зависимости достоверности функционирования КС от типа структуры и ее характеристик.
2. Классификация типов конфигураций систем
Перечень типов структур систем приведен в табл. 1. Для каждой из рассмотренных структур поставим в соответствие запись базовой модели безотказности типа вероятность безотказной работы системы в виде .
Продолж. табл. 1
IV
М,
Мажоритарное резервирование
1Я1
V
м,
X
м,
ВО
Мз м3 У
/
М4
М5
Мажоритарное резервирование
1 Я2
3. Вероятность безотказной работы отказоустойчивой системы
Вероятность безотказной работы отказоустойчивой системы вычисляется по формуле [1]
{Щ=с\ 1-^/), (1)
где - функция вероятности отказа с учетом параметров {, д и я ;
^ - количество резервов, изначально доступных для подключения; д - количество модулей, обеспечивающих заданную производительность системы (характеристика актуальна для систем, производительность которых зависит от количества одновременно работающих ресурсов);
с - степень компенсации последствий отказа (условная вероятность того, что при возникновении отказа в работающей системе последняя способна восстановить информацию и продолжить ее обработку без долговременной потери данных);
{ - способность модуля допускать { одиночных отказов до того, как он станет неработоспособным.
Принимая гипотезу о ОЫ -распределении наработки до отказа элементов, модулей и системы в целом, вероятность отказа будем вычислять следующим образом [1]:
(2)
где V - коэффициент вариации наработки до отказа; х - относительная наработка (д- = — );
/ - время эксплуатации (наработки); Т - средняя наработка до отказа (на отказ).
Функция вероятности отказа для БЫ -распределения имеет следующий вид:
ОЩх;у) = Ф
{ 1
х-\
,
■ехр(2\~2)Ф
х + 1
л
11
М2
Мз
У
где Ф(*) - функция нормированного нормального распределения.
Примечание 1. Если любой из параметров базовой модели опускается, то по умолчанию предполагается, что д = 1, с = 1, / = 0, .V = 0. Параметры .V, с и /' являются параметрами, увеличение которых приводит к увеличению общей безотказности системы.
Примечание 2. Если модуль системы является избыточным или спроектирован как / - безотказный автомат, то в пределах / отказов (_/" = 1,2,3...) с = 1.
Пример 1. Вычислить трехканальной (п — 3) невосстанавливаемой системы III класса с нагруженным («горячим») резервом (рис. 1) для следующих исходных данных:
• время эксплуатации (наработки) t = 200ч;
• средняя наработка до отказа функционального модуля Тм - 1000ч ;
• коэффициент вариации наработки до отказа функционального модуля Уи = 1,0.
На рисунке системы (рис. 1) мо-мх _ дуль М условно назовем основным, а
модули М2 и М3 - резервными, изначально доступными для подключения являются 2 модуля, поэтому 5 = 2. Все модули работают одновременно. Работой системы управляет восстанавливающий орган (ВО) с логической функцией ИЛИ, который определяет неисправный модуль и маскирует его, исключая, таким образом, его влияние на достоверность работы системы в целом.
Примечание 3. ВО может иметь следующие логические функции: ИЛИ (дизъюнкция, 1), И (конъюнкция, &) и Мк (мажоритарная функция, « к из п ») (табл. 1).
Производительность рассматриваемой системы не зависит от количества одновременно работающих модулей, поэтому д = 1.
В связи с тем, что замена основного модуля на исправный резервный модуль осуществляется автоматически, без потери данных, то с - 1.
Предположим, что модули системы являются неизбыточными (см. примечание 2), поэтому / = 0.
Оценка базовой модели безотказности для различных классов систем в рамках гипотезы о БЫ -распределении наработки до отказа имеет вид (1):
{Щ= с' (1-^/ ) = с' [1 - БЩх- V, /, д, *)].
Вычислим среднюю наработку до отказа системы ВФ-методом. Предлагаемый метод позволяет производить расчет надежности объектов, имеющих структурные схемы надежности (ССН), представляющие собой последовательное, параллельное и всевозможные сочетания последовательного и параллельного соединений составных частей:
Рис. 1. Структурная схема трехканальной невосстанавливаемой системы с нагруженным резервом
ССН-1 - объект состоит из п параллельно соединенных однотипных элементов (нагруженный, «горячий» резерв), отказ объекта наступает в результате отказа всех п элементов;
ССН-2 - объект содержит г резервных элементов, находящихся в ненагруженном («холодном») резерве до начала выполнения ими функций основного элемента;
ССН-3 - объект состоит из п параллельно соединенных однотипных элементов, при этом минимальное число работоспособных элементов к (структура типа "к из п "), отказ объекта наступает при отказе (п — к +1) элементов.
Таблица 2. Расчетные оценки надежности типовых ССН
Тип структуры Параметр формы ОЖ-распределения, V Средняя наработка до отказа системы, т
ССН-1 V п1'2 у М п т п12 тМ п
ССН-2 VмN г+1 Тм (' + 1)
ССН-3 Vм {п-к +1)"12 Тм (п-к +1) п112
1. Вычислим среднюю наработку до отказа системы со структурой ССН-1 (табл. 2):
Тх =Тм4п= 1000-л/3 = 1730ч.
2. Вычислим величину относительной наработки х :
1 200 пи х = — =-= ОД 1.
Тх 1730
каза:
3. Вычислим параметр формы ОЖ-распределения:
V V 1 г = ^ = = —=0,6. л/3 1,73
4. По таблице ИЫ -распределения для значения (/ = 0,6 вычислим вероятность от-
"Рг1 =0,00001.
5. Вычисляем базовую модель безотказности:
= с'О-Х) = I2 (1-0,00001) = 0,99999.
Пример 2. Вычислить двухканальной дублированной (и = 2) невосстанавлива-
емой системы 11а класса с ненагруженным («холодным») резервом (рис. 2) для следующих исходных данных:
• время эксплуатации (наработки) t = 200ч;
• средняя наработка до отказа функционального модуля Тм = 1000ч ;
• коэффициент вариации наработки до отказа функционального модуля Уи = 1,0. На рисунке системы (рис. 2) модуль М1 условно назовем основным, а модуль М2 -
резервным. Изначально доступным для подключения является 1 модуль, поэтому 5 = 1. Резервный модуль находился в исправном состоянии на момент начала эксплуатации системы и ожидает своей очереди с выключенным электропитанием. Работой системы
Рис. 2. Структурная схема двухканальной невосстанавливаемой системы с ненагруженным резервом
управляет восстанавливающим орган (ВО) с логической функцией ИЛИ, который определяет неисправный модуль и маскирует его, исключая таким образом его влияние на достоверность работы системы в целом.
Производительность рассматриваемой системы не зависит от количества одновременно работающих модулей, поэтому д = 1.
Замена основного модуля на исправный резервный модуль осуществля-
ется автоматически, однако, поскольку резервный модуль находится в ненагруженном резерве, то при замене им вышедшего из строя основного модуля необходимо будет перегрузить данные с основного модуля на резервный, вернув вычисления на шаг назад. В результате этой процедуры возможны потеря некоторых данных и простой в работе системы, поэтому величина с должна быть меньше 1, например, с =0,95.
Модули системы являются также неизбыточными, поэтому / = 0.
1. Вычислим среднюю наработку до отказа системы со структурой ССН-2 (табл. 2):
Тх =Тм(г + \) = 1000-2 = 2000 ч.
2. Вычислим величину относительной наработки х :
г 200
Т, 2000
= 0,1.
3. Вычислим параметр формы БЫ -распределения:
У = ГМ/47Г\=-^ = О,7\.
4. По таблице ИЫ -распределения для ближайшего к расчетному значения 1/ = 0,7 [2] вычислим вероятность отказа:
Х =0,00004.
5. Вычисляем базовую модель безотказности: X = с* О-0^1) = 0,9541 - 0,00004) = 0,949962.
о г>1
0,951
Пример 3. Вычислить СЩ мажоритарно-резервированной невосстанавливаемой системы типа «к из п » IV класса (рис. 3) для следующих исходных данных:
• время эксплуатации (наработки) ? = 200ч;
• средняя наработка до отказа функционального модуля Тм = 1000ч ;
• коэффициент вариации наработки до отказа функционального модуля Уи - 1,0. На рисунке системы (рис. 3) все модули М1 ^М3 условно назовем основными, так
как все они работают по исполнению мажоритарной функции ВО М32. Однако данная функция может выполняться и при 2 модулях, поэтому условно можно считать один из модулей резервным и 5 = 1. Отказ одного из модулей не приводит к потере работоспособности системы. Работой системы управляет восстанавливающий орган с логической
м,
У
функцией М32, который определяет
неисправный модуль и маскирует его, исключая, таким образом, его влияние на достоверность работы системы в целом.
Производительность рассматриваемой системы не зависит от количества одновременно работающих модулей, поэтому д = 1.
Исключение отказавшего модуля осуществляется автоматически, без потери данных, поэтому величина с = 1.
Модули системы также являются неизбыточными, поэтому / = 0.
1. Вычислим среднюю наработку до отказа системы со структурой ССН-3 (табл. 2):
•- ВО
М2 \ мз
Мз /
Рис. 3. Структурная схема мажоритарно-резервированной невосстанавливаемой системы к - 2 из п = 3
Тг =
Тм п-к + 1 1000- 3-2 + 1
п
№
Я
=1155ч
2. Вычислим величину относительной наработки х :
200
Т, 1155
= 0,17.
3. Вычислим параметр формы БЫ -распределения:
у = Ум(п-к + \р2=^= = 0,1\.
4. По таблице /Ж -распределения для ближайшего к расчетному значения V = 0,7 [2] вычислим вероятность отказа:
V/ =0,00352.
5. Вычисляем базовую модель безотказности:
= с* ) = I1 (1 - 0,003 52) = 0,99648.
Пример 4. Вычислить мажоритарно-резервированной невосстанавливаемой системы типа «к из п » V класса (рис. 4) для следующих исходных данных:
• время эксплуатации (наработки) t = 200ч;
• средняя наработка до отказа функционального модуля Тм - 1000ч ;
• коэффициент вариации наработки до отказа функционального модуля Ум = 1,0.
На рисунке системы (рис. 4) все модули М1 ^Ы5 условно являются основными, так
как все они работают по исполнению мажоритарной функции ВО М53. Однако данная функция может выполняться и на 3 модулях, поэтому условно можно считать 2 модуля резервными и 5 = 2. Отказ любых 2 модулей не приводит к потере работоспособности системы. Работой системы управляет восстанавливающий орган с логической функцией М53, который определяет неисправный модуль и маскирует его, исключая, таким образом, его влияние на достоверность работы системы в целом.
г
Рис. 4. Структурная схема мажоритарно-резервированной невосстанавливаемой системы и к = 3 из П — 5
наработки х:
г
Производительность рассматриваемой системы также не зависит от количества одновременно работающих модулей, поэтому д = 1.
Исключение отказавшего модуля осуществляется автоматически, без потери данных, поэтому величина с = 1.
Модули системы являются неизбыточными, поэтому / — 0.
1. Вычислим среднюю наработку до отказа системы со структурой ССН-3 (табл. 2):
Т„ п-к + 1 1000- 5-3+1
1М
п
=1342ч-
200
Т, 1342
2. Вычислим величину относительной
= 0,15.
3. Вычислим параметр формы БЫ -распределения:
у = Ум(п-к + \)~112 =^= = 0,58
УЗ
4. По таблице ИЫ -распределения для ближайшего к расчетному значения у — 0,6 [2] вычислим вероятность отказа:
=0,00023.
5. Вычисляем базовую модель безотказности:
= с* (1-°^22) = I2 (1 - 0,00023) = 0,99977.
1
4. Достоверность работы системы
При рассмотрении функционирования КС различных структур, для которых в качестве показателя достоверности будем использовать вероятность получения достоверного результата в ходе проведения вычислений (обработки данных) [3].
Рассматриваемые КС функционируют по жестким, заранее известным алгоритмам и осуществляют периодическую обработку поступающей (накапливаемой) информации с выдачей требуемой информации.
Допущение 1. Все каналы равнонадежны, моменты возникновения отказов (сбоев) подчиняются БЫ -распределению.
Допущение 2. Органы восстановления абсолютно надежны и их элементоемкость намного меньше элементоемкости канала.
Допущение 3. Сбои, в случае их возникновения, проявляются только в течение времени одного цикла вычислений, например, г =0,001 ч, если сбои проявляются в течение большего количества циклов, то канал считается отказавшим.
Достоверность функционирования КС за время г предлагается вычислять с помощью феноменологической модели:
= (4)
где - достоверность вычислений модуля - условная вероятность того, что значение вычисляемого модулем определяющего параметра п отличается от истинного значения этого параметра в пределах требуемой точности;
п - определяющий параметр - критерий правильного функционирования модуля. {Щ - вероятность безотказной работы системы за время г;
к - коэффициент, учитывающий кратность сравнения информации между каналами в процессе функционирования системы или порог сравнения последовательно включенного сравнивающего устройства.
Для дублированных и троированных структур с ВО, реализующих функцию ИЛИ, сравнение информации между каналами не производится, поэтому к принимаем равным достоверности вычислений неизбыточного модуля к = . Для мажоритарной структуры
Ы1 минимальная кратность сравнения информации между каналами равна 2, поэтому к предлагается вычислять по формуле к = 2с1м - й2м , для мажоритарной структуры М\ минимальная кратность сравнения информации между каналами равна 3, поэтому к, в свою очередь, предлагается вычислять следующим образом: к = Ы^ - Ъйъм .
Результаты вычисления достоверности функционирования КС приведены ниже.
1. Троированную невосстанавливаемую структуру с нагруженным резервом III класса при =0,995 и =0,99999 за время г вычислим по формуле (4). Б = \йм -{Д/ ] • к =0,995-0,99999-0,995=0,990015.
2. Дублированная невосстанавливаемая структура с ненагруженным резервом 11а класса за время г при =0,995 и =0,949962 равна Б = \йм -{Д/ ] • к =0,995-0,949962-0,995=0,940486.
3. Невосстанавливаемую структуру с мажоритарным резервированием IV класса за время г также вычислим по формуле (4). Для мажоритарной структуры М32 -
к = 2ём -й2м =0,999975. При ём =0,995 и {Д® =0,99648 получим
Б = \йм -{Д/ ] • к =0,995-0,99648-0,999975=0,991472.
4. Невосстанавливаемую структуру с мажоритарным резервированием V класса за время г вычислим по формуле (4). Для мажоритарной структуры М53 -
к = йъм -М2м +3с1м =0,999999875. При ём =0,995 и {Щ =0,99977 получим
Б = \йм -{Д/ ] • к =0,995-0,99977-0,999999875=0,994771.
5. Выводы
Наиболее важным свойством гарантоспособных КС является свойство отказоустойчивости. Без этого свойства невозможно создать систему с высоким уровнем гарантоспособности. Отказоустойчивость напрямую или косвенно влияет на такие атрибуты, как безотказность и готовность. Кроме того, отказоустойчивость, основанная, как известно, на структурной избыточности системы, определяет уровень гарантоспособности вычислений, выполняемых программными средствами, а, значит, и достоверность функционирования КС.
Отказоустойчивость гарантоспособных КС - дорогое удовольствие, которое может себе позволить не каждый заказчик. Например, истребитель Миг-35 поколения 4 + имеет 3-канальную электронную систему управления и контроля с 4-кратным резервированием функциональных блоков в каждом канале. Стоимость такого современного самолета составляет порядка $45 млн. Вот такова цена безотказности и высокой достоверности функционирования КС критического применения.
Проанализируем полученные нами результаты оценки достоверности функционирования КС в зависимости от типа структуры системы (табл. 3).
Для начала сравним характеристики структур, имеющих наименьшие вероятности отказа, а именно: дублированную структуру с ненагруженным резервом = 0,00004 и троированную структуру с горячим резервом = 0,00001. Не трудно видеть, что дублированная структура при ее экономичной реализации не намного уступает по вероятности отказа наиболее надежной троированной структуре. А с точки зрения базовой модели отказоустойчивых структур (вероятности безотказной работы) дублированная структура с ненагруженным резервом значительно проигрывает троированной структуре (табл. 3). Это связано с тем, что структура имеет в резерве ненагруженный модуль, подключение которого связано с простоем системы и возможностью потери данных. В троированной системе с нагруженным резервом и в мажоритарных системах резервные модули работают параллельно с основными и при отключении основного модуля системы продолжают функционировать без перерыва. Это и определяет относительно низкую достоверность функционирования дублированной структуры с ненагруженным резервом Б =0,940486.
Таблица 3. Сравнительная характеристика достоверности функционирования различных структур_
Тип структуры Т, ч ГщЧ с 5 с к Б
Дублированная с ненагруженным резервом 2000 0,949962 0,95 0,995 0,940486
Троированная с нагруженным резервом 1730 0,99999 1,0 0,995 0,990015
Мажоритарная «2 из 3» 1155 0,99648 1,0 0,999975 0,991472
Мажоритарная «3 из 5» 1342 0,99977 1,0 0,999999875 0,994771
Причина тому - параметр с , входящий в состав базовой модели {Щ . Степень компенсации с представляет собой условную вероятность того, что при возникновении отказа в работающей системе она (система) способна восстановить утраченную информацию и продолжить ее обработку без длительной потери работоспособности.
В некоторых ситуациях восстановление может означать только выявление, локализацию и автоматическое исправление аппаратного отказа, в других ситуациях оно может включать также очень сложную реставрацию проделанных вычислений и базы данных. Естественно, в первом случае с выше, чем во втором.
Для структур II, III, IV, V классов величина с приближается к 1 и ограничивается лишь диагностическими и коммутационными возможностями ВО и его надежностью. Для структур подклассов На и Ша величина с значительно ниже, так как вероятность потери информации при ненагруженном («холодном») резервировании достаточно высока.
Характеристику с можно изменить путем добавления дополнительного контрольно-диагностического оборудования к каждому модулю и довести до значения, близкого 1, при этом аппаратная надежность модуля, естественно, уменьшится. Для получения более достоверной оценки с необходимо провести анализ диагностических и коммутационных возможностей ВО и вычислить его вероятность безотказной работы Щ . При этом всегда будет иметь место неравенство с < Кво .
Каждый раз, когда степень компенсации оказывается недостаточно высокой, добавление разумного количества дополнительного оборудования для повышения с является в целом эффективным. И тот факт, что каждый индивидуальный модуль становится менее
надежным из-за привлечения дополнительного оборудования, является менее решающим, чем увеличение степени компенсации c .
Для систем, которые должны работать с высоким уровнем безотказности в течение длительного времени, восстановление работоспособности за счет резерва имеет наибольший потенциал. Однако расчеты показывают, что c, определенная как вероятность восстановления системы после отказа, является важнейшей характеристикой безотказной системы. Изменение c от 1 до 0,98 и ниже может привести к снижению безотказности системы на несколько порядков (см. пример 2).
Повышение безотказности системы путем неразумного добавления резервных модулей является менее эффективным по сравнению с направлением, основанным на повышении степени компенсации. Добавление контрольных проверок, диагностик, зеркального копирования, свопинга и т.п. для увеличения степени компенсации является наиболее преобладающим. Точная оценка c затруднена и требует привлечения методов моделирования на всех этапах проектирования системы.
Сравним теперь между собой две трехканальные структуры с одинаковой технической сложностью - троированную с нагруженным резервом и мажоритарную структуру «2 из 3». С точки зрения вероятности отказа троированная структура значительно обыгрывает мажоритарную структуру (соответственно, "/s =0,00001 против "/'¡' =0,00352). С точки зрения базовой модели fRq мажоритарная структура значительно более надежна, чем дублированная с ненагруженным резервом и немного уступает троированной структуре с нагруженным резервом (табл. 3). А с точки зрения достоверности функционирования D мажоритарная структура обыгрывает троированную структуру (рис. 3). Это незначительное преимущество связано с параметром к, характеризующим кратность сравнения информации между каналами в процессе функционирования системы. В троированной структуре сравнения информации не производится, а в мажоритарной структуре «2 из 3» кратность сравнения информации между каналами с помощью ВО с мажоритарной функцией равна минимум 2.
Сравнивая между собой две мажоритарные структуры с позиции вероятности отказа, не трудно видеть, что структура «3 из 5» имеет значительное преимущество против структуры «2 из 3», соответственно, °F22 =0,00023 против "/-j1 =0,00352. С точки зрения базовой модели fRq и достоверности функционирования D, мажоритарная структура «3
из 5» также имеет преимущество.
Анализ полученных результатов сравнения различных структур КС с точки зрения достоверности функционирования на основе простой феноменологической модели (4) показал, что сформулированные нами выводы не противоречат самым общим рассуждениям о надежности и достоверности и предложенную модель можно рекомендовать для анализа самых разнообразных структур КС.
СПИСОК ЛИТЕРАТУРЫ
1. Федухин А.В. К вопросу о количественных характеристиках безотказности избыточных компьютерных систем / А.В. Федухин, В.П. Пасько // Математичш машини i системи. - 2012. - № 1. -С.145 - 156.
2. Стрельников В.П. Оценка и прогнозирование надёжности электронных элементов и систем / В.П. Стрельников, А.В. Федухин. - К.: Логос, 2002. - 486 с.
3. Шербаков Н.С. Достоверность работы цифровых устройств / Шербаков Н.С. - М.: Машиностроение, 1989. - 288 с.
Стаття над1йшла до редакцп 10.05.2017