Научная статья на тему 'Показники надійності кластерів високої доступності як резервованих систем із структурною надлишковістю'

Показники надійності кластерів високої доступності як резервованих систем із структурною надлишковістю Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
272
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
резервування / надійність / кластери / показники. / redundancy / reliability / clusters / indicators.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ю П. Буценко, Ю Г. Савченко

Розглянуто проблему забезпечення надійності електронних систем за умови обмеженої надійності компонентів, використаних при побудові системи. Ця проблема виникла давно і, про що свідчить досвід застосування існуючих методів її вирішення, може бути розв’язана лише на основі введення апаратурної надлишковості. Проведений ретроспективний аналіз характерних реалізацій таких методів свідчить, що в останнє десятиріччя відбулося помітне та суттєве розширення сфери застосування електронних відмовостійких систем. Якщо раніше ця сфера була обмежена, головним чином, апаратурою та системами оборонного й промислового призначення, то сьогодні відмовостійкі системи широко застосовуються в комерційній та банківських сферах, де зникають жорсткі масо-габаритні та навіть вартісні обмеження, а типовими компонентами стають окремі сервери і комп’ютери. Наприклад, термін «High-availalability clusters (HA)» – кластери високої готовності – виник порівняно недавно і використовується для опису банківських систем збереження даних, комп’ютерних систем керування комерційними мережами, телекомунікаційними мережами тощо, хоча у традиційній термінології це, по суті, не що інше, як резервовані структури з навантаженим резервом. Узагальнюючи існуючі процедури відновлення інформації в надлишкових структурах, можна стверджувати, що на сьогодні використовуються лише три алгоритми відновлення: 1) мажоритарний, 2) адаптивний мажоритарний, 3) 2-парної обробки даних із миттєвим відключенням пари, яка відмовила. У статті на основі проведеного аналізу наводяться узагальнюючі розрахункові співвідношення для оцінки основних варіантів структур із апаратурною надлишковістю та алгоритмів відновлення даних при відмові частини компонентів структури. Отримані співвідношення зв’язують імовірність безвідмовної роботи кластера, рівень надлишковості та функції розподілу ймовірності безвідмовної роботи компонентів. Показано, що в залежності від призначення резервованої системи, зокрема, для систем, які працюють у реальному часі, основним показником надійності разом із часом напрацювання до відмови стає ймовірність безпомилкової роботи системи, яка, по суті, визначає рівень безпеки автоматизованого керування.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The problem of ensuring the reliability of electronic systems in conditions of limited reliability of their components is considered. This problem arose long ago and, as experience of application of existing methods for solving it shows, can be solved on the basis of the introduction of hardware redundancy only. A retrospective analysis of the characteristic realizations of such methods shows that in the last decade there has been a very noticeable expansion of the scope of electronic fault-tolerant systems. If earlier this sphere was limited mainly to systems and equipment for defense and industrial purposes, nowadays faulttolerance systems are widely used in spheres of commerce and banking so. In these cases, serious massdimensional and even cost restrictions disappear and computers and servers become typical components of the system. For example, the term “high-availability cluster” has emerged relatively recently and is used to describe banking data storage systems, computer systems for managing commercial networks, telecommunication systems and etc. Moreover, from the point of view of traditional terminology, in all these cases we are dealing with redundant systems with a loaded reserve. Summarizing existing data recovery procedures in redundant structures, it can be stated, that nowadays there are only three types of algorithms for their functioning: 1) majority, 2) adopted majority, 3) double-pair processing with instantaneous disconnections of failed pairs. In the paper, based on analysis carried out, the computational relationships are calculated to estimate the reliability indexes of the basic versions of structures with hardware redundancy and data recovery algorithms for the failure of part of structure components. The relationships obtained allow us to establish connections between the probability of failure-free operation of the cluster, the level of redundancy and probability distribution functions for the components. It is shown that for redundant systems various purposes (in particular-real time control systems), the main indicator of reliability along with time to failure is the probability of error-free operation It is this indicator, in fact, that determines the level of security of automated control.

Текст научной работы на тему «Показники надійності кластерів високої доступності як резервованих систем із структурною надлишковістю»

УДК 081.32-192

Ю.П. БУЦЕНКО*, Ю.Г. САВЧЕНКО*

ПОКАЗНИКИ НАД1ЙНОСТ1 КЛАСТЕР1В ВИСОКО1 ДОСТУПНОСТ1 ЯК РЕЗЕРВОВАНИХ СИСТЕМ 13 СТРУКТУРНОЮ НАДЛИШКОВ1СТЮ

Нацiональний технiчний унiверситет Украши «Кшвський полiтехнiчний iнститут iMeHi 1горя Окорського», м. Ки1в, Украша

Анотаця. Розглянуто проблему забезпечення Hadirnocmi електронних систем за умови обмеже-ног надiйностi компонентiв, використаних при побудовi системи. Ця проблема виникла давно i, про що свiдчить досвiд застосування iснуючих методiв гг виршення, може бути розв 'язана лише на основi введення апаратурног надлишковостi. Проведений ретроспективний аналiз характерних реалiзацiй таких методiв свiдчить, що в останне десятирiччя вiдбулося помтне та суттеве роз-ширення сфери застосування електронних вiдмовостiйких систем. Якщо ранше ця сфера була обмежена, головним чином, апаратурою та системами оборонного й промислового призначення, то сьогодн вiдмовостiйкi системи широко застосовуються в комерцттй та банювських сферах, де зникають жорстю масо-габаритт та навть вартiснi обмеження, а типовими компонентами стають окремi сервери i комп'ютери. Наприклад, термт «High-availalability clusters (HA)» - кла-стери високог готовностi - виник порiвняно недавно i використовуеться для опису банювських систем збереження даних, комп 'ютерних систем керування комерцтними мережами, телекому-ткацтними мережами тощо, хоча у традицтнт термiнологiг це, по сутi, не що iнше, як резерво-ван структури з навантаженим резервом. Узагальнюючи iснуючi процедури вiдновлення тформа-цп в надлишкових структурах, можна стверджувати, що на сьогодн використовуються лише три алгоритми вiдновлення: 1) мажоритарний, 2) адаптивний мажоритарний, 3) 2-парног оброб-ки даних iз миттевим вiдключенням пари, яка вiдмовила. У статтi на основi проведеного аналiзу наводяться узагальнюючi розрахунковi спiввiдношення для оцтки основних варiантiв структур iз апаратурною надлишковiстю та алгоритмiв вiдновлення даних при вiдмовi частини компонентiв структури. Отриман спiввiдношення зв'язують iмовiрнiсть безвiдмовногроботи кластера, рiвень надлишковостi та функцп розподшу ймовiрностi безвiдмовног роботи компонентiв. Показано, що в залежностi вiд призначення резервованог системи, зокрема, для систем, як працюють у реальному чаа, основним показником надiйностi разом iз часом напрацювання до вiдмови стае ймовiр-тсть безпомилковог роботи системи, яка, по сутi, визначае рiвень безпеки автоматизованого керування.

Ключов1 слова: резервування, надттсть, кластери, показники.

Аннотация. Рассматривается проблема обеспечения надежности электронных систем в условиях ограниченной надежности составляющих систему компонентов. Эта проблема возникла давно и, как показывает опыт применения существующих методов ее решения, может быть решена лишь на основе введения аппаратурной избыточности. Проведенный ретроспективный анализ характерных реализаций таких методов показывает, что в последнее десятилетие произошло весьма заметное расширение сферы применения электронных отказоустойчивых систем. Если раньше эта сфера ограничивалась, в основном, системами и аппаратурой промышленного и оборонного назначения, то в настоящее время отказоустойчивые системы повсеместно используются в коммерческой и банковской сферах, где исчезают серьезные масса-габаритные и даже стоимостные ограничения, а типичными компонентами систем становятся отдельные серверы и компьютеры. Например, термин «High-availalability clusters (HA)» - кластеры высокой доступности - возник сравнительно недавно и используется для описания банковских систем сохранения данных, компьютерных систем управления торговыми и коммерческими сетями, телекоммуникационными системами и т.д. В традиционной терминологии это, по сути, резервированные структуры с нагруженным резервом. Обобщая существующие процедуры восстановления информации в избыточных структурах, можно утверждать, что на сегодня существуют только три алгоритма восстановления: 1) мажоритарный, 2) адаптивный мажоритарный и 3) 2-парной обработки данных с моментальным отключением отказавшей пары. В статье на основе проведенного анализа приводятся обобщающие соотношения для оценки показателей надежности основных

© Буценко Ю.П., Савченко Ю.Г., 2018

ISSN 1028-9763. Математичш машини i системи, 2018, № 4

вариантов структур с аппаратной избыточностью и алгоритмов восстановления данных при отказе части компонентов структуры. Полученные соотношения связывают вероятность безотказной работы кластера, уровень избыточности и функции распределения вероятности безотказной работы компонентов. Показано, что в зависимости от назначения резервированной системы, в частности, для систем управления реального времени основным показателем надежности наряду со временем наработки до отказа становится вероятность безошибочной работы, которая, фактически, определяет уровень безопасности автоматизированного управления. Ключевые слова: резервирование, надежность, кластеры, показатели.

Abstract. The problem of ensuring the reliability of electronic systems in conditions of limited reliability of their components is considered. This problem arose long ago and, as experience of application of existing methods for solving it shows, can be solved on the basis of the introduction of hardware redundancy only. A retrospective analysis of the characteristic realizations of such methods shows that in the last decade there has been a very noticeable expansion of the scope of electronic fault-tolerant systems. If earlier this sphere was limited mainly to systems and equipment for defense and industrial purposes, nowadays fault-tolerance systems are widely used in spheres of commerce and banking so. In these cases, serious mass-dimensional and even cost restrictions disappear and computers and servers become typical components of the system. For example, the term "high-availability cluster" has emerged relatively recently and is used to describe banking data storage systems, computer systems for managing commercial networks, telecommunication systems and etc. Moreover, from the point of view of traditional terminology, in all these cases we are dealing with redundant systems with a loaded reserve. Summarizing existing data recovery procedures in redundant structures, it can be stated, that nowadays there are only three types of algorithms for their functioning: 1) majority, 2) adopted majority, 3) double-pair processing with instantaneous disconnections of failed pairs. In the paper, based on analysis carried out, the computational relationships are calculated to estimate the reliability indexes of the basic versions of structures with hardware redundancy and data recovery algorithms for the failure of part of structure components. The relationships obtained allow us to establish connections between the probability of failure-free operation of the cluster, the level of redundancy and probability distribution functions for the components. It is shown that for redundant systems various purposes (in particular-real time control systems), the main indicator of reliability along with time to failure is the probability of error-free operation It is this indicator, in fact, that determines the level of security of automated control. Keywords: redundancy, reliability, clusters, indicators.

1. Вступ

Проблема забезпечення надшносп електронних систем при обмеженш надшносп компонент, з яких складаеться система, виникла одночасно з першими застосуваннями таких систем для керування реальними об'ектами оборонного призначення, в промисловосп, на транспорт тощо. Тобто у вах випадках, коли вщмова системи е надзвичайною подiею, яка потенцшно може призвести до небезпечних наслщюв для персоналу або довкшля та до неприпустимих економiчних втрат. Виршити цю проблему за рахунок використання бшьш надшних (i дорогих) компонент у бшьшосп випадюв неможливо, оскшьки надш-шсть електронних елемешив i пристро'1'в обмежена сучасним станом технологи на фiзич-ному рiвнi (наприклад, наявшсть небажаних домшок у матерiалах), що жорстко визначае межу для надшносп, яка може бути досягнута сьогодш. У такш ситуацп обмеження надшносп компонент е об'ективним i невщворотним фактором при проектуванш електронних систем.

Термш «High-availability clusters (HA)» - кластери високо! доступност - виник по-рiвняно недавно й використовуеться в основному для резервованих комп'ютерних телеко-мушкацшних систем, банювських систем збереження даних (СЗД), комп'ютерних систем керування комерцшними та торговельними мережами. У традицшних термшах це резерво-ваш системи iз апаратною надлишковютю i в бшьшосп випадюв мова йде про використання так званого гарячого резервування (навантаженого резерву). Для електронних сис-

тем класичним прикладом можна вважати мажоритарний метод Дж. фон Неймана [1] та методи, яю широко використовуються фiрмою TANDEM для створення так званих проми-слових комп'ютерiв. У будь-якому варiантi мова йде про замшу одного об'екта (електрон-но'1 схеми, пристрою, комп'ютера, сервера мереж^ n однаковими (однотипними, е^вале-нтними за функщями) об'ектами та утворення результату шляхом оброблення сигнал! в (даних) з п вихсццв. Bapiamn розр1зняються р1внем надлпшковосп (п = 2,3,4,...) та лопч-ними правилами оброблення сигналiв, по сутi, алгоритмом керування кластером.

Метою статп е узагальнення пiдходiв до побудови вiдмовостiйких електронних систем з урахуванням сучасних реалiзацiй та застосувань у нових сферах !х використання.

2. Основна частина

Одним iз широко розповсюджених методiв пiдвищення надiйностi до цього часу залиша-еться мажоритарний метод, який у класичному виглядi передбачае наявшсть деяко'1 кшько-стi n iдентичних за призначенням пристро'1'в, реалiзацiю ними паралельно однакових за-вдань та Buoip як найбшып в1рогщного того результату, який «шдтримуеться» бшышстю

П+1 1 П л ■

к > для непарного п та к > — +1 для парного. У випадку, якщо npncrpoi щентичш за

сво'1'ми показниками надшносп та ймовiрнiсть адекватного виконання кожним iз них пос-тавленого завдання дорiвнюе p , маемо такий вираз для ймовiрностi P формування вказа-но'1 бiльшостi:

^ = (1)

к=р

де р вщповщае мшмальнш бшыпосп з п компоненте структури.

Зауважимо, що аналогiчна процедура використовуеться i у випадках, коли прогно-зуеться функцiонування системи в умовах невизначеносп (пристро'1 обробляють даш вщ-повiдно до варiантiв, яю передбачаються у майбутньому) або при дiагностуваннi складних систем iз великою кшькютю рецепторiв (датчикiв).

Треба зазначити, що на час виникнення, наприклад, мажоритарного методу (1952 р.) його практична реалiзацiя була проблематичною, оскшьки мшмальний рiвень необхщно}.' надлишковостi потребував потроення масогабаритних параметрiв апаратури, що у бшьшо-стi випадкiв виходило за меж1 реальних можливостей, наприклад, для бортово}! апаратури, саме, де вимоги до надшносп в той час були найбшьш критичними.

На сьогодш ситуацiя змiнилася докорiнним чином завдяки досягненням мшро- та наноелектрошки, з одного боку, а з шшого, широкому застосуванню вiдмовостiйких електронних систем у банювськш та комерцшних сферах, для автоматичного керування назем-ними транспортними та технолопчними об'ектами, де немае критичних обмежень на габа-рити та вагу. До того ж, для деяких застосувань навт вартiсть додаткового обладнання не е критичною, оскшьки плата за надшшсть (вщмостшкють) набагато вища за збитки при виникненнi вщмови. Загалом, у будь якому випадку рiвень надлишковостi, прийнятний для реальних застосувань електронних систем, сьогодш не е критичним. Наприклад, досить популярне на даний час обладнання серп NetApp FAS8000, не зважаючи на досить велику вартють таких систем, яке використовуеться в банювськш сферi для створення вщмовос-тiйких СЗД. Важливою е також можливiсть нарощування кластера до 24 вузлiв i 57 ПБайт дискового простору, а додавання або замша компоненпв проводиться без переривання роботи системи, а сам процес розширення не потребуе спещально вiдведеного часу на тех-нiчне обслуговування [2].

Наведеш мiркування спонукають до перегляду та спроби узагальнення юнуючих методiв побудови вщмовостшких електронних систем з точки зору впливу рiвня надлиш-ковост та деяких iнших факторiв на показники надшносп кластерних структур.

Узагальнюючи, можна стверджувати, що будь-яка вщмовостшка система може бути представлена групою (кластером) однакових або однотипних об'ектсв, що виконують од-наковi функцп, та деякими додатковими апаратними або програмними засобами для керу-вання кластером. Функцп цього умовного додатку полягають у прийнятп рiшень у випад-ку вiдмови частини кластера на основi аналiзу сигналiв на виходах об'ектсв, що утворюють кластер. Отже, яку функщю мае виконувати цей додатковий орган? Очевидно, у найзага-льшшому випадку це збереження виконання функцш системою у разi виникнення будь-яких передбачуваних вщмов частини кластера. Цi функцп залежать вщ призначення системи i для кожно1 системи мають конкретне визначення та критерп правильного (безпоми-лкового) '1'х виконання.

Наведемо характеры приклади.

1. Система збереження даних державного або критичного з точки зору безпеки чи економши рiвня.

2. Система керування у реальному час потенцшно небезпечними (для персоналу або довкшля) об'ектами та технолопчними процесами.

Перший приклад е типовим для широкого кола застосувань, де критерiем введення апаратно'1' надлишковостi е вага втрат внаслщок переходу системи в непрацездатний стан. У широкому розумшш непрацездатний стан - це неможливють надати послуги, для яких призначена система. Тобто, наприклад, для банку це вщмова у виконанш транзакцш чи iнших банкiвських операцш. Якщо такий стан не занадто тривалий, то втрати можуть бути некритичними. Але ж непрацездатний стан може бути таким, що система втратить даш, яю збер^ались в п пам'ят^ або вони будуть спотвореш. Очевидно, вага таких втрат стае не-припустимою i зрозумшо, що наслiдки виникнення цих ситуацш суттево рiзнi.

Характерними для другого прикладу е комп'ютерш системи керування технолопчними процесами або потенцшно небезпечними об'ектами, наприклад, атомними станщями чи транспортними мережами. У цих випадках цша виникнення непрацездатного стану може виявитися надто великою, що вимагае застосування спещальних заходiв для уникнення таких ситуацш (наприклад, миттевого блокування керуючих сигнашв, що надходять вщ системи на об'ект керування).

Шсля цих попередшх зауважень перейдемо безпосередньо до вибору показниюв надшносп структур означеного класу. Вщповщно до визначення, сформульованого одним iз фундаторiв теорп вiдмовостiйкостi А.Авiженiсом [3], «надшшсть характеризують на-данням системою послуг, яю визначенi призначенням системи (або, що е^валентно на-працюванню до вщмови), яке вiдраховуеться вщ певного моменту». У свою чергу, напра-цювання до вiдмови у бшьшосп випадкiв це середнiй час або математичне сподiвання часу безвщмовно' роботи вiдповiдного об'екта. Ця величина безпосередньо залежить вщ функцп розподшу ймовiрностi безвщмовно! роботи Р ) для кластерних структур iз апаратною надлишковiстю. У свою чергу, Р (?) залежить вiд функцiй розподiлу складових кластера /?г(7),/'= 1,2....И, р1вня надлишковосп п та способу оргашзацп структури, тобто вщ алгоритму нейтралiзацii вiдмов складових кластера.

Зазначимо, що ймовiрнiсть Р (?) може трактуватись як у апрiорному сенсi (як iмовi-рнiсть того, що система адекватно виконуе поставлену задачу, починаючи п виконання в момент часу I), так i у апостерюрному (до моменту часу I обладнання не зазнавало дегра-дацiйних або руйшвних впливiв).

Алгоритм нейтралiзацii вщмов реалiзуеться деякими додатковими компонентами (апаратними або програмними), що оброблюють сигнали на виходах складових кластера.

У мажоритарних структурах цю функцiю виконують так зваш вiдновлюючi органи, в яких здiйснюeться «голосування» сигналiв. У загальному випадку щ додатковi засоби можна об'еднати термiном «керуючий орган» (КО). Рiзноманiття алгоритмiв функцiонування таких КО насправдi зовсiм невелике.

Мажоритарний алгоритм. Результат оброблення сигналiв (шформацп) утворюеть-ся на основi «голосування» сигналiв n складових кластера, який ствпадае i3 сигналами бшыпосп:

У = У1#У2#--#У ,

де через # позначена так звана мажоритарна лопчна функщя. У найпроспшому випадку для двшкових змшних та п - 3 вона мае вигляд

У = У1У2 v У1У3 V у2у3.

Сигнали, значення яких не ствпадають i3 бшьшютю, iгноруються.

Сьогодш в системах фiрми Tandem (клас Integrity) для маскування (нейтралiзащi) помилок використовують саме 3-кратну апаратну надлишковють, що забезпечуе продов-ження безперервно'1' роботи в умовах збо'1'в. Найчаспше системи цього класу застосовують у телефонних та стiльникових мережах, а також у торговельних закладах та банках. Важ-ливою перевагою систем iз апаратною надлишковiстю е також можливють проведення ремонтно-профiлактичних робiт без переривання системою виконання сво'1'х функцш та розширення (масштабування). Така можливють опосередковано еквiвалентна реальному збiльшенню напрацювання до вiдмови.

1з зрозумiлих причин у обох вказаних вище випадках функщя P(t) е спадною, тоб-

то Р (t) < 0. Запровадивши часовий параметр у формулу (1), дослщимо характер монотонности величини P(t). BiH не е очевидним, оскшьки функщя 1 — p(t) е зростаючою, a P(t) -сума доданкiв, сформованих як добутки спадних та зростаючих функцш. Опускаючи до-сить громiздкi промiжнi перетворення, для похщно'1" P(t), можна записати

Р' (0 = р (0 ^ (рт - p(t))T, (2)

п\п\

тобто можна стверджувати, що величина P(t) також спадна за часом. Варто зазначити також, що у випадку високонадшних складових системи ( p(t) близьке до 1) швидкють спа-дання для невеликих значень n зменшуеться. Асимтотично, при великих значеннях n швидюсть спадання зростае (у найбiльшiй мiрi при p (t) близьких до ^ ).

Слщ зауважити, що не завжди дощльно вибирати мш1мальне значення к -п +1. У випадках, коли необхщно забезпечити максимальну вiрогiднiсть (певнiсть у результатi або гарантш вiдсутностi помилки), керуючий орган повинен утворювати результат не на базi бшьшосп, а консенсусом. Цю вiрогiднiсть можна оцiнити виразом

п

P(t) = pKO(t)npM (3)

к-1

де рко (t) - iмовiрнiсть безвщмовно'1' роботи керуючого органу, який формуе результуючий сигнал роботи п пристрой ( не обов'язково непарно! кшькосп, на вщмшу вщ «чисто» мажоритарного методу), pk(t),k = \,2,...,п - iMOBipHOCTi безвщмовно! роботи вщповщних складових структури, якi в загальному випадку можуть мати рiзнi характеристики надш-ностi.

1з (3) видно, що гарашия безпомилковостi (фактично, у багатьох випадках це рiвень безпеки) не може бути досягнута за рахунок напрацювання до вщмови. Тобто збшьшення

piBra гарантування безпомилковосп веде до зменшення ймовiрностi безвщмовно'1' роботи кластера. Це вщбуваеться внаслiдок того, що при збшьшенш n у фоpмулi (3) збшьшуеться кiлькiсть спiвмножникiв, менших 1 (хоча й близьких до максимуму для високонадшних складових системи).

Розглянемо деяю випадки поповнення комплексу структури деякими шшими скла-довими, можливо, з шшими показниками надшносп, але дешевшими за основних. Цшаво, чи варто це робити з огляду на потенцшну можливють збiльшити надiйнiсть комплексу. Зауважимо спочатку, що метою такого поповнення може бути не лише збшьшення ймовь рност прийняття узгодженого ршення (наявнiсть бiльш нiж половини працездатних скла-дових, наприклад, кластера сеpвеpiв), але й забезпечення достатньо'1' сумарно'1' продуктив-ностi сегмента кластера. Також важливим е випадок доповнення юнуючих пристро'1'в з на-дiйнiстю p iншими (наприклад, дешевшими або бшьш надiйними) з надiйнiстю p2. Мож-ливi такi ваpiанти.

1+1. Цшь - збшьшення ймов1рносп наявносп хоча б одного працездатного пристрою: вщ рх до р,+ р2-рхр2 = р1+р2(\~рг)>р1.

1+2. Цiль - можливють pеалiзацii мажоритарно'1' процедури. Розглянемо piзницю ймовipностi наявностi хоча б двох працездатних iз трьох та ймовipностi единого наявного:

PiPl + О " Pi )PI + 2PiPi С1" Pi) " Pi = 0 " 2Pi )PI + 2PiPi ~ Pi

- квадратична функщя вщносно p2.

а) px< 1 \ 2, тобто маемо 1 - 2px > 0, max виразу досягае при p2= 1 (що нереально), дор1внюе 1 - рг. На практищ це означае, що найбшьший ефект такого поповнення досяга-еться при високонадiйних додаткових пристроях;

Р

б) р1> 1 \ 2, у цьому випадку шах виразу матиме мюце при р2 =-5—, причому

2А-1

Р

це значения, очевидно, не повинно перевищувати 1: -!— <1 та р1<2р1—1, тобто рг > 1,

2Pi "I

що неможливо.

Таким чином, слщ стверджувати, що реального виграшу можна досягти в усiх випа-дках, але за умови, коли ймовipнiсть p2 близька до 1. Аналопчний результат було отри-

мано й при аналiзi iнших ваpiантiв «поповнення» структури. Так, наприклад, у випадку 3+2 тенденщя збер^аеться практично повшстю.

При iншому алгоpитмi [4], коли використовуеться так званий вщновлюючий орган iз пам'яттю, сигнал, значення якого не ствпадае iз бiльшiстю сигнашв у кластеpi, усува-еться з подалыпого анал1зу, що екв1валентно зменшенню п на 1. Таким чином, вираз (1) залишаеться без змш, але для цього випадку г] = 2, що збшыпуе P(t) при п > 3 .

Алгоритм, що використовуеться фipмою Tandem у системах класу NonStop. У цьому випадку кластер утворюеться двома парами об'екпв. Сигнали з виходiв у кожнiй паpi неперервно поpiвнюються. У pазi виникнення нествпадшня пара миттево вимикаеться i на загальний вихщ проходить лише сигнал (даш) вiд пари, де сигнали ствпадають. У системах класу NonStop для забезпечення вщновлення апаратури та помилок ПЗ тсля збо'1'в цi системи використовують механiзм передавання повщомлень мiж складовими системи процесорними парами. Уа апаpатнi компоненти системи NonStop побудоваш на основi принципу «швидкого виявлення неспpавностi (fail fast design), у вщповщносп з якими ко-жен компонент повинен або функцюнувати правильно, або миттево зупинитися, щоб не заважати.

Для тако'1' конфiгуpацii можна записати:

p(t)=pKOmp(t)4+2p{tf[\-p{tf]}

(4)

З (3) та (4) видно, що суттевим фактором, який обмежуе надшшсть KnacrepiB з апа-ратною надлишковiстю, е множник рко(t). Дшсно, при будь-якому piBHi надлишковостi керуючий орган залишаеться «вузьким мюцем». Його вщмова призводить до вiдмови кластера в цшому незалежно вщ технiчного стану його iнших складових. Очевидним шляхом для подолання цього недолшу е резервування не лише основних складових кластера, але й КО, як це було запропоновано ще Дж. фон Нейманом у виглядi так званих багатолшшних структур [1], для яких

п

Pit) = ХсЛр(0ао(0];[1-(^(0ао(0)]" ' • (5)

J

З чого видно, що для таких структур зникае обмеження для зростання надшносп кластера при збшьшенш n . Але й у цьому випадку залишаеться проблема «останньо'1 ланки» струк-тури, тобто необхщносп прийняття кiнцевого рiшення щодо достовiрностi результату.

Таким чином, узагальнюючи, можна стверджувати, що на сьогоднi юнуе лише три процедури вiдновлення шформаци (керування кластером) при вiдмовi частини складових кластера: 1) мажоритарна, 2) адаптована мажоритарна та 3) 2-парна з вщаченням пари, що вщмовила.

У вах випадках, що розглянуп вище, основною змiнною е ймовiрнiсть безвщмовно!' роботи одного компонента кластера в деякий фасований момент часу p(t), тобто цю величину попередньо по^бно обчислити для задано'1 функцп розподшу ймовiрностi безвщ-мовно'1 роботи компонент певного класу. Для електронних компонент за таку функцiю традицiйно приймають експоненцiальний розподiл. Для цього випадку можна показати, що будь-яке збшьшення рiвня надлишковостi (додавання до кластера нових складових навт з вщносно низькою надiйнiстю) завжди гарантовано полшшуе показники надiйностi кластера в цшому. Але у практичнш площиш виникае питання про оптимальний рiвень надлиш-ковостi з точки зору вартосп кластера. Отже, можна сформулювати одну iз двох традицш-них задач оптимiзацii:

1) Знайти мшмальний за вартiстю склад кластера при обмеженш знизу ймовiрностi безвщмовно!' роботи системи за заданий (фшсований) промiжок часу, тобто

2) Визначити склад кластера, що забезпечуе максимальш показники надшносп при обмеженнi зверху сумарно'1 вартостi системи.

В iнших випадках, коли складовi кластера не е виключно електронними пристроя-ми, стае сумшвним припущення щодо обгрунтованостi використання експоненщального розподiлу ймовiрностi безвщмовно!' роботи компонешив кластера. Зазначимо, що насправ-дi майже завжди такi компоненти (комп'ютери, ноутбуки, комутатори тощо) мають у своему складi неелектронш складовi, наприклад, дисководи, клавiатуру, елементи шдикацп та iн., тому функцп розподiлу ймовiрностi безвщмовно!' роботи яких вiдрiзняються вiд експо-ненцiального закону. Очевидно, якщо для складових кластера

р=Ш 7 = 1,2, ...,п,

де функцп f вiдповiдають тому чи шшому конкретному розподiлу, то, наприклад, для

розподшу Вейбулла функщя розподшу для ймовiрностi безвщмовно!' роботи кластера в цшому у випадку мажоритарно'1 процедури вщновлення буде мати шший вигляд.

3. Висновки

Таким чином, на сьогодш застосування електронних i, зокрема, комп'ютерних систем i3 структурною надлишковiстю не е чимось особливим. Це, скорее, природне рiшення для досягнення заданих показниюв надiйностi або продуктивностi. У багатьох випадках надш-нiсть i продуктивнiсть тiсно пов'язанi, а надлишковють можна розглядати як деякий аналог поняття запасу мiцностi у мехашчних системах i конструкцiях. Насправд^ цi два по-няття (надшшсть - запас мiцностi) за своею сутнютю спорiдненi: механiчна система, яка мае великий запас мщносп навт на шту'тивному рiвнi, е бшьш надiйною, нiж механiзм iз меншим запасом мiцностi. Бiльшiсть автомобiлiстiв, мабуть, погодяться, що потужне авто е бшьш надшним транспортним засобом, шж малопотужне. Це ж саме можна сказати й про продуктившсть у широкому сена цього поняття.

З точки зору конкретно показниюв надшносп, основним слщ вважати ймовiрнiсть безвщмовно' роботи за певний час i як параметр цього показника час напрацювання до вiдмови. Такий показник е досить ушверсальним i найбшьш зрозумiлим для користувача. Так, фiрма Tandem презентуе сво'' системи як таю, що мають iмовiрнiсть безвщмовно'' роботи за рiк 0,99999 («п'ять дев'яток»), що еквiвалентно п'яти хвилинам непрацездатносп за рiк (!) неперервно'' роботи.

Але ж це в певному сена «звичайш» системи. 1нша справа, коли мова йде про системи, вщмова яких пов'язана з ризиком для життя людини або масштабною загрозою до-вкiллю. Наприклад, пасажира авiалайнера не дуже, скорiш за все, буде хвилювати показник середнього часу безвщмовно'' роботи приладу з назвою автопiлот 10000 або 20000 год. Його хвилюють, напевне, найближчi 2-4 години польоту. Тому у цьому випадку головним стае ймовiрнiсть безпомилково'' роботи уае'' системи керування польотом, а саме ефектив-нiсть засобiв оперативного контролю технiчного стану складових (апаратних i програм-них) системи в цшому.

I на завершення слiд зауважити, що вже зараз ми починаемо жити у свт систем iз структурною надлишковiстю. Найбшьш сучасш електроннi системи - це типовi резервова-нi системи, по сут^ iз структурною надлишковiстю (Грщ-структури, суперкомп'ютери, рiзноманiтнi кластери, системи, що використовують так зваш «хмарнi» обчислення та пам'ять).

СПИСОК ДЖЕРЕЛ

1. Neumann V.J. Probabilistic Logics and Synthesis of Reliable Organisms from Unreliable Components. in Automata Studies / eds. C. Shannon, J. McCarthy. Princeton: Princeton University Press, 1956. P. 4398.

2. Dubrova E. Fault-Tolerant Design. New York: Springer, 2013. 185 p.

3. Avizienis A. Fault-Tolerant Systems. IEEE Transactions on Computers. 1976. Vol. 25, N 12. P. 13041312.

4. Савченко Ю.Г. Цифровые устройства, нечувствительные к неисправностям элементов. М.: Советское радио, 1977. 169 с.

Стаття над1йшла до редакцп 27.06.2018

i Надоели баннеры? Вы всегда можете отключить рекламу.