Научная статья на тему 'Унифицированный метод обеспечения сбое- и отказоустойчивости в распределенных автоматизированных цифровых системах управления специального назначения'

Унифицированный метод обеспечения сбое- и отказоустойчивости в распределенных автоматизированных цифровых системах управления специального назначения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
271
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕТЕЦЕНТРИЧЕСКОЕ УПРАВЛЕНИЕ / МНОГОПРОЦЕССОРНЫЕ СИСТЕМЫ / РЕПЛИКАЦИЯ ЗАДАЧИ / ОТКАЗОУСТОЙЧИВОСТЬ / ВЗАИМНОЕ ИНФОРМАЦИОННОЕ СОГЛАСОВАНИЕ / ДИНАМИЧЕСКАЯ ИЗБЫТОЧНОСТЬ / NETWORK-CENTRIC MANAGEMENT / MULTIPROCESSOR SYSTEMS / TASK REPLICATION / FAULT-TOLERANCE / MUTUAL INFORMATION APPROVAL / DYNAMIC REDUNDANCY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Лобанов Анатолий Васильевич, Ашарина Ирина Владимировна

Впервые представлен унифицированный метод построения сбоеи отказоустойчивых информационно безопасных распределенных автоматизированных цифровых систем управления специального назначения, параллельно выполняющих множество взаимодействующих целевых задач, осуществляющих автоматическое парирование проявлений допустимых совокупностей враждебных неисправностей на основе репликации каждой целевой задачи (параллельного выполнения копий этой задачи на неизбыточных вычислителях с обменом результатами и выбором из них правильного в предположения, что ошибочными может быть только меньшая часть этих результатов) и использования динамической избыточности, обеспечивающей максимально длительные время активного существования системы и траекторию ее самоуправляемой деградации и состоящей в автоматических самообнаружении и самоидентификации по месту возникновения и по типу проявлений случившихся неисправностей, самовосстановлении целевого вычислительного процесса после программных сбоев, самоизоляции отказавших элементов, в замене их запасными элементами (при их наличии) и самовосстановлении целевого вычислительного процесса с прежним уровнем сбоеи отказоустойчивости, либо, при отсутствии запаса, выполнении самоуправляемой деградации системы с переходом в состояние безопасной остановки системы при полном исчерпании ресурсов. Метод применим на самом верхнем, архитектурном уровне проектирования таких систем, осуществляемого по технологии «сверху-вниз». Предложены обобщенные модели верхнего, архитектурного уровня процесса проектирования подсистем диагностики, сбоеи отказоустойчивости таких многозадачных систем и методы их построения. Показано, что проектирование такой подсистемы диагностики, сбоеи отказоустойчивости для многозадачной системы должно начинаться на самом верхнем, архитектурном уровне процесса проектирования этой системы, контролироваться и оцениваться на всех нижележащих уровнях проектирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Лобанов Анатолий Васильевич, Ашарина Ирина Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Unified method for ensuring failure- and fault-tolerance to resistance in distributed automated digital control systems for special purpose

For the first time, a unified method is presented for constructing failsafe and fault-tolerant information-safe distributed automated digital control systems for special purposes that simultaneously perform a set of interacting target tasks. The proposed systems automatically parry the manifestations of admissible hostile faults based on replication of each target task (parallel execution of copies of this task on non-redundant computers with the exchange of results and the choice of them correct in the assumption that only a smaller part of these results can be erroneous) and use of dynamic redundancy, providing the longest possible time of active existence of the system and the trajectory of its self-managed degradation of. Systems perform automatic self-detection and self-identification based on the place of occurrence and the type of occurrence of faults, self-recovery of the target computational process after software failures, self-isolation of failed elements, replacement with spare elements (if any) and self-recovery of the target computing process with the same level of failure and fault tolerance, or, in the absence of a stock, the implementation of a self-managed degradation of the system with a transition to a safe shutdown state of the system full exhaustion of resources. The method is applicable at the highest, architectural level of design of such systems, carried out according to the “top-down” technology. Generalized models of the upper, architectural level of the process of designing subsystems of diagnostics, failure and fault tolerance of such multitasking systems and methods for their construction are proposed. It is shown that the design of such a subsystem of diagnostics, failureand fault-tolerance for a multitasking system should begin at the highest, architectural level of the design process of this system, be monitored and evaluated at all underlying design levels.

Текст научной работы на тему «Унифицированный метод обеспечения сбое- и отказоустойчивости в распределенных автоматизированных цифровых системах управления специального назначения»

'/¿К

/■''/ /У//

Уо! 11 N0 3-2019, Н&ЕБ РЕБЕАРС !МРОРМАТ!СБ, СОМРиТЕР ЕМС!МЕЕР!МС АШ СОМ

\\\\ у

doi: 10.24411/2409-5419-2018-10272

УНИФИЦИРОВАННЫЙ МЕТОД ОБЕСПЕЧЕНИЯ СБОЕ- И ОТКАЗОУСТОЙЧИВОСТИ В РАСПРЕДЕЛЕННЫХ АВТОМАТИЗИРОВАННЫХ ЦИФРОВЫХ СИСТЕМАХ УПРАВЛЕНИЯ СПЕЦИАЛЬНОГО НАЗНАЧЕНИЯ

ЛОБАНОВ

Анатолий Васильевич1 АШАРИНА

Ирина Владимировна2

Сведения об авторах:

1д.т.н., с.н.с., начальник лаборатории - ученый секретарь акционерного общества «Научно-исследовательский институт «Субмикрон», г. Москва, Зеленоград, Россия, [email protected]

2к.т.н., доцент, старший научный сотрудник акционерного общества «Научно-исследовательский институт «Субмикрон», г. Москва, Зеленоград, Россия, [email protected]

АННОТАЦИЯ

Впервые представлен унифицированный метод построения сбое- и отказоустойчивых информационно безопасных распределенных автоматизированных цифровых систем управления специального назначения, параллельно выполняющих множество взаимодействующих целевых задач, осуществляющих автоматическое парирование проявлений допустимых совокупностей враждебных неисправностей на основе репликации каждой целевой задачи (параллельного выполнения копий этой задачи на неизбыточных вычислителях с обменом результатами и выбором из них правильного в предположения, что ошибочными может быть только меньшая часть этих результатов) и использования динамической избыточности, обеспечивающей максимально длительные время активного существования системы и траекторию ее самоуправляемой деградации и состоящей в автоматических самообнаружении и самоидентификации по месту возникновения и по типу проявлений случившихся неисправностей, самовосстановлении целевого вычислительного процесса после программных сбоев, самоизоляции отказавших элементов, в замене их запасными элементами (при их наличии) и самовосстановлении целевого вычислительного процесса с прежним уровнем сбое- и отказоустойчивости, либо, при отсутствии запаса, выполнении самоуправляемой деградации системы с переходом в состояние безопасной остановки системы при полном исчерпании ресурсов. Метод применим на самом верхнем, архитектурном уровне проектирования таких систем, осуществляемого по технологии «сверху-вниз». Предложены обобщенные модели верхнего, архитектурного уровня процесса проектирования подсистем диагностики, сбое- и отказоустойчивости таких многозадачных систем и методы их построения. Показано, что проектирование такой подсистемы диагностики, сбое- и отказоустойчивости для многозадачной системы должно начинаться на самом верхнем, архитектурном уровне процесса проектирования этой системы, контролироваться и оцениваться на всех нижележащих уровнях проектирования.

КЛЮЧЕВЫЕ СЛОВА: сетецентрическое управление; многопроцессорные системы; репликация задачи; отказоустойчивость; взаимное информационное согласование; динамическая избыточность.

Для цитирования: Лобанов А. В., Ашарина И.В. Унифицированный метод обеспечения сбое- и отказоустойчивости в распределенных автоматизированных цифровых системах управления специального назначения // Наукоемкие технологии в космических исследованиях Земли. 2019. Т. 11. № 3. С. 89-99. do¡: 10.24411/2409-5419-2018-10272

Шд\ Л\\

) НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т 11 № 3-2019 ЮРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

Введение

Современные автоматизированные цифровые системы управления специального назначения (АСУСН) представляют собой распределенные многомашинные вычислительные системы [1] сетевой структуры, выполняющие совокупность взаимодействующих целевых задач.

Критичность условий применения таких систем, очень высокая стоимость ошибок их проектирования и эксплуатации предъявляют самые высокие требования к их надежности, сбое- и отказоустойчивости и информационной безопасности, которые могут быть обеспечены только комплексным научно обоснованным подходом к построению этих систем и применением технологии их проектирования «сверху-вниз», исключающих или значительно снижающих вероятность возникновения дорогостоящих негативных эффектов эмерджентности, состоящих в возникновении в эксплуатируемой системе трудно или вообще необъяснимых ошибок и нештатных ситуаций, вплоть до полной потери предписанных функций управления, в поведении такой системы.

К настоящему моменту определены и исследованы системные механизмы, обеспечивающие заданные уровни сбое- и отказоустойчивости для параллельно выполняемых в АСУСН целевых задач, а также самоуправляемую деградацию проектируемой АСУСН при возникновении допустимых неисправностей и их последовательностей: базовые механизмы организации вычислений (модели АСУСН, сбое- и отказоустойчивая синхронизация в АСУСН, взаимное информационное согласование с обнаружением и идентификацией проявлений неисправностей). Также исследованы основные механизмы организации сбое- и отказоустойчивых вычислений в однокомплексных многомашинных АСУСН: тестовое и системное диагностирование АСУСН, функциональное диагностирование в распределенном системном диагностировании многомашинных АСУСН, метод построения сбое- и отказоустойчивых однокомплексных распределенных многомашинных информационно-управляющих АСУСН, механизмы их самовосстановления и самоуправляемой деградации [2-3].

Унификация — это управление многообразием и приведение проектируемых объектов к единообразной системе или форме. Принципы технической унификации направлены, в первую очередь, на устранение излишнего многообразия изделий, их составных частей и процессов изготовления [4], что положительно влияет как на сам процесс производства изделий, так и на его экономическую составляющую.

Под архитектурной унификацией методов и алгоритмов обеспечения сбое- и отказоустойчивости распределенных АСУСН сетевой структуры будем понимать достижение единообразия в используемых методах и алгоритмах,

начиная с самого высокого архитектурного уровня процесса их проектирования, проводимого по единственно приемлемой для различных типов АСУСН технологии проектирования «сверху-вниз» [5]. Только такая технология может обеспечить процесс проектирования с приемлемой стоимостью в приемлемые сроки и без возникновения отмеченных выше эффектов негативной эмерджентности.

Под сбое- и отказоустойчивостью системы в данной работе понимается способность такой АСУСН осуществлять в процессе ее целевой работы правильное исполнение предписанных алгоритмов управления с формированием правильной выходной информации и правильных предусмотренных действий АСУСН при возникновении в ней каждой допустимой совокупности неисправностей и каждой допустимой последовательности таких совокупностей.

Имеются две принципиальные характеристики, которые определяют область требований к проектированию рассматриваемых сбое- и отказоустойчивых АСУСН [6]: 1) вычислительная целостность, определяющая возможность ошибки в вычислениях или недопустимой их задержки; для рассматриваемых сбое- и отказоустойчивых АСУСН ошибка в вычислениях или их задержка при возникновении допустимых неисправностей и их допустимых совокупностей не допускается; 2) покрытие неисправностей, определяющее меру хорошей работы используемых механизмов отказоустойчивости и означающее условную вероятность правильного восстановления АСУСН при возникновении неисправности. Только использование научно обоснованных и математически доказанных методов построения рассматриваемых сбое-и отказоустойчивых АСУСН, основанных на самой общей модели неисправности, покрывающей все другие известные модели неисправностей, гарантируют их требуемую сбое- и отказоустойчивость.

Вторая характеристика (покрытие неисправностей) непосредственно влияет и на первую характеристику, поскольку, чем меньшее покрытие неисправностей, тем ниже вычислительная целостность АСУСН. Однако покрытие неисправности напрямую зависит от сложности принимаемой в методах проектирования сбое- и отказоустойчивости АСУСН модели неисправности. В исследованиях по построению сбое- и отказоустойчивых вычислительных систем используются следующие классы моделей неисправностей, перечисленных ниже в порядке от менее сложных поведенческих моделей неисправного элемента к более сложным [7-8]: 1) неисправности неправильной остановки (fail-stop faults); 2) неисправность аварийного отказа (crash fault); 3) неисправность пропуска (omission fault); 4) временная неисправность (timing fault); 5) неисправность неправильных вычислений (incorrect computation fault).

Необходимо отметить, что в существующих АСУСН используются самые простые модели неисправности, что пагубно влияет на практическую надежность и долговечность как самих АСУСН, так и управляемых ими объектов. Однако высокие степень интеграции элементной базы и сложность используемых аппаратурных и программных средств АСУСН требует применения только следующих двух моделей неисправностей: 6) удостоверительная враждебная неисправность (authenticated Byzantine fault): ЦВМ посылает соседям в широковещательной посылке удостоверенные сообщения, которые неисправные элементы системы не могут исказить незаметно; 7) самая общая модель «враждебной» (byzantine, rigorous, malicious) неисправности, при которой поведение неисправного элемента ЦВМ допускается полностью произвольным, в том числе и подобным «злонамеренному», включая его неодинаковость по отношению к другим элементам системы. Модель враждебной неисправности покрывает все остальные модели, и методы организации сбое- и отказоустойчивых вычислений в условиях возникновения враждебных неисправностей будут обеспечивать защиту и от неисправностей всех других моделей. Модель враждебной неисправности отражает сложность нахождения причинно-следственной связи между видами проявлений неисправностей и имеющимися в действительности неисправностями таких сложных объектов как современная ЦВМ и их взаимодействующие совокупности. Все другие модели неисправности ЦВМ, исключающие возможность неодинакового поведения неисправной ЦВМ по отношению к другим ЦВМ системы, называются «дружественными».

Требуемая надежность системы может достигаться за счет повышения качества и надежности входящих в нее элементов, качества конструирования, улучшения технологии изготовления, испытаний и т.п. Эти направления находятся в постоянном развитии. Однако, как показывает практика, их недостаточно при построении рассматриваемых АСУСН из-за высокой сложности и критических условий применения таких систем. Другой путь достижения требуемой надежности рассматриваемых АСУСН — введение избыточности с целью обеспечения их сбое-и отказоустойчивости и информационной безопасности. Наиболее полная классификация понятий в области избыточности, соотношение между избыточностью и резервированием приводятся в [9]. В области вычислительной техники различают временную, информационную, аппаратурную и алгоритмическую избыточность [10].

В рассматриваемых многомашинных АСУСН отказоустойчивость по второму пути может достигаться двумя взаимодополняющими способами: во-первых, обеспечением аппаратурной отказоустойчивости входящих в нее ЦВМ (аппаратурная репликация), и, во-вторых, решением одной и той же задачи на нескольких неизбыточных ЦВМ

I 1 пи

Vol 11 No 3-2019, H&ES RESEARC INFORMATICS, COMPUTER ENGINEERING AND CON

с последующим обменом результатами и выбором из них правильного (программная репликация или репликация задачи) [11].

Применение только первого способа сталкивается с ограничением, состоящим в том, что при увеличении числа ЦВМ в системе должен расти уровень избыточности, вводимой в каждую ЦВМ, для сохранения постоянного уровня надежности АСУСН. Поэтому для рассматриваемых БЦВС наиболее приемлемым является второй способ достижения сбое- и отказоустойчивости—репликации задач.

Назовем, как и в [12] комплексом совокупность ЦВМ, осуществляющих репликацию задачи и решающих одновременно одну и ту же задачу с целью обеспечения заданной сбое- и отказоустойчивости. АСУСН может содержать один комплекс (однокомплексная АСУСН), либо несколько комплексов (многокомплексная АСУСН), решающих одновременно различные задачи, которые должны обмениваться информацией. Распределение ЦВМ между комплексами может быть как статическим, сохраняющимся постоянно, так и динамическим, изменяющимся в зависимости от периода работы, технического состояния АСУСН, условий применения и др. Динамическое распределение обеспечивает более высокие надежностные характеристики и более длительную траекторию самоуправляемой деградации АСУСН. Здесь рассматриваются многокомплексные АСУСН с динамическим распределением ЦВМ между комплексами.

Под архитектурой подсистемы диагностики, сбое-и отказоустойчивости, а также информационной безопасности АСУСН будем понимать совокупность методов и механизмов, их самых общих характеристик и параметров, определяющих функционально-логическую и структурную организацию этой подсистемы. Понятие архитектуры охватывает общие наиболее существенные принципы и методы построения и функционирования подсистемы диагностики, сбое- и отказоустойчивости и информационной безопасности, которыми должны руководствоваться разработчики таких АСУСН с целью наиболее эффективного, быстрого и дешевого достижения поставленных целей для каждого из уровней проектирования, начиная с самого верхнего архитектурного уровня процесса проектирования по технологии «сверху-вниз» — формирования технического задания, и учитывающего весь накопленный опыт и наработанные ранее научно-теоретически и технические достижения. Описание архитектуры подсистемы диагностики, сбое- и отказоустойчивости на каждом уровне процесса проектирования АСУСН должно быть достаточно полным и подробным для реализации со стороны разработчиков всего требуемого функционала АСУСН на следующих нижележащих уровнях процесса проектирования этой подсистемы диагностики, сбое- и отказоустойчивости и информационной безопасности. Кроме того,

Шд\ Л\\

) НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т 11 № 3-2019 ЮРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

во избежание глобальных итераций процесса проектирования, когда практическая оценка целевых характеристик проекта АСУСН осуществляется после заключительного этапа этого процесса и при неудовлетворительной оценке осуществляется переход «вверху» на все или несколько уже выполненных уровней, на каждом уровне проектирования, в идеале, должны быть предусмотрены методы прогнозируемой оценки достижения требуемых целевых характеристик проектируемой АСУСН.

Широко распространены определения понятий сбоя и отказа в рассматриваемых системах в следующей трактовке [6]. В цифровой аппаратуре нередко происходят неожиданные изменения физических параметров, выходящие за допустимые пределы. Их принято называть сбоями, если изменения носят временный характер, и отказами, если изменения постоянны. Они вызывают неожиданные неблагоприятные изменения одной или нескольких логических переменных системы, которые называются физической неисправностью или просто неисправностью.

Для систем рассматриваемого класса, в которых обнаружение и идентификация проявлений неисправности некоторой ЦВМ осуществляется автоматически исправными ЦВМ этой системы, введем следующую новую градацию проявлений неисправности по типу, учитывающую необходимость и сложность их обработки в процессе целевой работы АСУСН и определяющую ее последующие действия: 1) сбой ЦВМ, предполагающий, что искажению подверглась информация, не влияющая на ход и последующие результаты ее вычислительного процесса;

2) программный сбой ЦВМ, внешним признаком которого считается проявление заранее оговоренной совокупности сбоев этой ЦВМ (критерий программного сбоя); в случае программного сбоя необходимы специальные действия по информационному восстановлению сбившейся ЦВМ;

3) отказ ЦВМ, объявляемый при проявлении заранее оговоренной совокупности ее программных сбоев (критерий отказа ЦВМ), либо обнаруживаемый при ее тестовом или системном самодиагностировании; при отказе необходима изоляция неисправной ЦВМ и либо включение вместо нее запасной ЦВМ, если она имеется, информационное восстановление этой включенной запасной ЦВМ и втягивания ее в необходимую целевую работу системы, либо выполнение самоуправляемой деградации системы с переходом ее на более низкий уровень задаваемой сбое- и отказоустойчивости, либо переходом к другим видам самоуправляемой деградации АСУСН.

Для элемента АСУСН, отличного от ЦВМ, вводится понятие сбоя как однократно обнаруживаемое проявление его неисправности, выразившееся в искажении транслируемой этим элементом информации, и понятие отказа — как обнаружение заранее оговоренной совокупности его сбоев (критерий отказа этого элемента).

Необходимо заметить, что возможность предусмотренного изменения этих критериев программного сбоя и отказов со стороны самой АСУСН в процессе ее целевой работы в зависимости от изменения ее технического состояния и изменения условий ее применения является весьма важной особенностью предлагаемого метода обеспечения сбое- и отказоустойчивости АСУСН.

В настоящей работе рассматриваются необслуживаемые АСУСН со значительными сроками активного существования, допускающие возможность гибкого изменения степени вычислительной целостности в различные периоды своей работы. В определенные периоды вычислительная целостность и покрытие неисправностей должны быть максимально высокими, в другие периоды — могут быть снижены для повышения суммарной вычислительной мощности системы. Значительная длительность срока активного существования требует наличия в системе запасных элементов и механизмов автоматического управления ими.

Создание сбое- и отказоустойчивых АСУСН рассматриваемого класса, применение в них научно обоснованных формализованных методов обеспечения задаваемой сбое- и отказоустойчивости, гарантирующих получение требуемых результатов, должно быть основано на использовании строгих научно и практически обоснованных моделей как отдельных аппаратно-программных элементов таких АСУСН, так и всей АСУСН в целом, включая управляемую ими внешнюю среду (внешние управляемые целевые объекты и их совокупности).

Существует следующие два вида избыточности, вводимой и используемой в рассматриваемых БЦВС для реализации в них задаваемой сбое- и отказоустойчивости [6, 12]:

1. Статическая избыточность, обеспечивающая только правильность выходной информации проектируемой АСУСН при возникновении допустимых совокупностей неисправностей. При статической избыточности проявления неисправностей «маскируются» и правильный результат получается за счет избыточного числа его копий, например, путем их мажорирования или кворумирования, в предположении, что ошибочными может быть только меньшая часть этих результатов.

2. Требование достижения возможно более длительного срока существования АСУСН и управляемого ею объекта может быть достигнуто только при использовании в проектируемой целевой АСУСН динамической избыточности для обеспечения ее задаваемой сбое- и отказоустойчивости, состоящей, во-первых в парировании проявлений неисправностей (ошибок) в выходной информации системы, а значит, в формировании правильных значений этой выходной информации, во-вторых, в одновременном и согласованном обнаружении случившихся проявлений неисправностей, в третьих, в непрерывной и сквозной идентификации об-

наруженных проявлений неисправностей по месту их возникновения и по типу, в-четвертых, в информационном восстановлении элементов АСУСН, идентифицированных в состоянии программного сбоя, со стороны исправных элементов АСУСН, и втягивания восстановленных элементов в совместную целевую работу с другими исправными элементами АСУСН, в-пятых, в реконфигурации АСУСН, состоящей в изоляции элементов, идентифицированных в состоянии отказа, подключения вместо них запасных элементов, если они имеются, информационном восстановлении подключенных запасных элементов и втягивании их в совместную с другими исправными элементами целевую работу АСУСН, в-шестых, при идентификации отказов и отсутствии соответствующих запасных элементов осуществление предусмотренной самоуправляемой деградации АСУСН со снижением надежностных и/или функциональных характеристик АСУСН, в-седьмых, при невозможности выполнения самоуправляемой деградации АСУСН перевод АСУСН или ее части в состояние безопасного останова, в котором выполняются все необходимые действия по обеспечению безопасности управляемого объекта с переходом АСУСНк ожиданию указаний из внешней среды и последующему выполнению поступивших указаний.

Обобщенные модели верхнего, архитектурного

уровня процесса проектирования по технологии

«сверху-вниз» подсистемы диагностики, сбое-

и отказоустойчивости многокомплексной АСУСН

В процессе выполнения АСУСН целевой работы должен обеспечиваться такой уровень согласованного обнаружения и идентификации всех допустимых неисправностей (неисправностей, на которые рассчитаны используемые механизмы применяемой динамической избыточности), который гарантировал бы принятие всеми исправными вычислителями системы своевременных и согласованных распределенных решений по дальнейшему применению имеющихся механизмов динамической избыточности и необходимым последующим действиям каждого вычислителя и всей системы в целом.

При построении многозадачной многокомплексной сбое- и отказоустойчивой на основе динамической избыточности АСУСН необходимо определять требования по достоверности результатов вычислений для каждой задачи, выраженные или сводимые к терминам допустимых совокупностей неисправностей и их допустимых последовательностей. Также эти требования должны быть определены и для всех предусматриваемых траекторий возможной деградации проектируемой АСУСН.

Предположим, что в проектируемой АСУСН для решения каждой из параллельных целевых задач достаточно применение ЦВМ одного и того же типа с одинаковыми характеристиками по вычислительной мощности и объемам

¿¿к

/■''/ /ТУ/

Уо! 11 N0 3-2019, Н&ЕБ РЕБЕАРС !МРОРМАТ!СБ, СОМРиТЕР ЕМС!МЕЕР!МС АШ СОМТ

\\\\ у \\\\ '

требуемой памяти, а для любого канала связи между задачами (между ЦВМ) — канала связи одного и того же типа.

На основании этих данных и сведений об используемой элементной базе вначале необходимо определить полную исходную функциональную графовую модель структуры АСУСН, вершинами отражающей функциональные целевые подсистемы исправной БЦВС и дугами — связи между функциональными подсистемами. Для этой модели также должны быть разработаны текущие функциональные графовые модели для допустимых траекторий самоуправляемой функциональной деградации АСУСН вплоть до перехода АСУСН в состояние безопасного останова с обеспечением возможности, при необходимости, выполнения последующих действий в АСУСН, находящейся в состоянии безопасного останова, по восприятию указаний из внешней среды о дальнейших действиях АСУСН и возможности последующего выполнения этих указаний.

Полная исходная обобщенная структурная графовая модель АСУСН отображает полностью исправную структуру АСУСН со всеми имеющимися в ней «холодными» и «горячими» запасами, в которой должна быть организована требуемая работающая полностью исправная проектируемая АСУСН в ее исходной функциональной графовой модели.

Текущая исходная обобщенная структурная графовая модель АСУСН — это полная исходная обобщенная структурная графовая модель АСУСН, учитывающая текущее техническое состояние (структурную деградацию) этой АСУСН путем исключения элементов, относящихся к идентифицированным в состоянии отказа. Текущая структурная конфигурация текущей функциональной графовой модели АСУСН — это текущая функциональная графовая модель АСУСН, отображенная на текущую исходную обобщенную структурную графовую модель АСУСН. Текущая реконфигурация АСУСН — это выбор и реализация одной из возможных текущих структурных конфигураций текущей функциональной графовой модели АСУСН.

Для формирования текущей структурной конфигурации проектируемой АСУСН необходимо иметь, во-первых, текущую исходную обобщенную графовую структурную модель проектируемой сбое- и отказоустойчивой саморе-конфигурируемой самовосстанавливаемой АСУСН. Эта текущая исходная обобщенная графовая структурная схема должна иметь полносвязный орподграф, представляющий текущую вычислительную часть АСУСН с вершинами, отображающими текущие исправные ЦВМ и добавленные вершины всех исправных абонентов, и дугами — возможность непосредственной передачи межмашинной информации между каждой парой ЦВМ (вершин), а также между каждой возможной парой (вершина абонента, вершина ЦВМ). Такая обобщенная графовая модель АСУСН обеспечивает свойство ее полной самореконфигурации—воз-

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

можности отображения любой функциональной графовой модели АСУСН текущей деградации и всех требуемых для нее функциональных графовых моделей траекторий возможной последующей деградации на текущую исходную обобщенную структурную графовую модель АСУСН, если это возможно.

Пусть проектируемая АСУСН должна решать множество 2 = {2р 2, ..., 2} взаимодействующих целевых задач, для каждой 2. из которых должен быть сформирован комплекс К,, решающий эту задачу на основе ее репликации. Обозначим через | К. | требуемое для комплекса К. минимальное количество ЦВМ без учета вводимого горячего и холодного запасов, а через | Б. | — количество запасных ЦВМ горячего и холодного запаса, добавляемых к этому комплексу К. в соответствии с техническим заданием на проектирование рассматриваемой АСУСН. Тогда общее количество ЦВМ, включая запасные, в комплексе К. будет составлять сумму | К. | + | Б. |, а общее количество ЦВМ (вершин) в вычислительной части проектируемой АСУСН будет не менее (\К1 + ).

Полная исходная обобщенная графовая структурная модель проектируемой сбое- и отказоустойчивой са-мореконфигурируемой самовосстанавливаемой АСУСН со сбое- и отказоустойчивостью на основе репликации задач и использования динамической избыточности строится в виде полносвязного орподграфа, представляющего вычислительную часть АСУСН с не менее чем ^ (|К;1 + |5г|) вершинами, отображающими ЦВМ, и разнонаправленными дугами, отображающими возможность непосредственной передачи межмашинной информации между каждой парой ЦВМ (вершин), а также вершинами всех абонентов, каждая из которых отображает некоторого абонента, а все вершины абонентов отображают всех абонентов, и каждая вершина абонента связана парой разнонаправленных дуг с каждой вершиной ЦВМ вычислительной части проектируемой АСУСН. Текущее техническое состояние АСУСН учитывается в исходной обобщенной графовой структурной схеме АСУСН через исключение из нее вершин, соответствующих ЦВМ и абонентам, идентифицированных в состоянии отказа, и дуг, соответствующих симплексным или псевдосимплексным каналам связи, идентифицированных в состоянии отказа.

Унифицированный метод построения распределенных сбое- и отказоустойчивых АСУСН должен быть основан на унифицированных моделях таких систем. Самые общие подходы, модели, ключевые определения и понятия, необходимые при проектировании АСУСН, представлены в [13]. Модели разбиты на шесть групп: 1) структурно-диагностические модели, 2) диагностические модели, 3) алгоритмически-диагностические модели, 4) модели процессов идентификации, 5) модель процесса деградации, 6) описание системы.

Архитектурный метод парирования проявлений допустимых совокупностей враждебных неисправностей и их идентификации по месту возникновения и типу в сбое- и отказоустойчивых самореконфигурируемых и самовосстанавливаемых многокомплексных АСУСН Рассмотрим полносвязную систему, управляющую р абонентами А1, Л2,..., Ар внешней среды, с отмеченной выше организацией межмашинных связей посредством передающих широковещательных каналов, содержащую 5 непересекающихся комплексов К1, К,..., К, каждый К{ (. = 1, ..., 5) из которых состоит не менее чем из четырех ЦВМ в соответствии с заданным уровнем сбое- и отказоустойчивости д. = 1 и требуемым количеством ЦВМ, равным + 1, в полносвязном комплексе К.. Каждая ЦВМ имеет собственный межмашинный канал широковещательной передачи сообщений как всем другим ЦВМ, так и всем абонентам внешней среды. Каждый абонент имеет собственный передающий широковещательный канал, обеспечивающий передачу сообщений от этого абонента в каждую ЦВМ системы. То есть, в рассматриваемой структуре передача сообщений из ЦВМ к абоненту осуществляется по тому же широковещательному передающему каналу, по которому передаются сообщения другим ЦВМ системы, а сообщение от каждого абонента всем ЦВМ системы передается по передающему широковещательному каналу связи этого абонента. Полная исходная обобщенная структурная графовая модель рассматриваемой системы, вершинами отображающая ЦВМ и абоненты, а дугами — возможность непосредственной передачи сообщений, содержит полносвязный орподграф из всех вершин, соответствующих ЦВМ (между каждой парой вершин имеется пара разнонаправленных дуг), а также р вершин абонентов, каждая из которых связана парой разнонаправленных дуг с каждой вершиной, соответствующей ЦВМ.

Пусть каждое сообщение, переданное по любому передающему широковещательному каналу связи и поступающее по этому каналу связи в другие элементы системы (ЦВМ или абоненты), содержит все необходимые атрибуты для его идентификации и анализа этими элементами системы, запоминается в этих элементах и становится доступным в них для чтения и анализа непосредственно после его получения. Этим реализуется системный режим всеобщего «подслушивания» передаваемых в системе сообщений, когда общий трафик системы становится доступным для его анализа в каждой ЦВМ системы. Подобное подслушивание может быть реализовано в системе небольшого размера, например, применением протокола MIL-STD-1553B (ГОСТ 26765.52-87) за счет имеющегося в нем режима монитора. Реализация сбое- и отказоустойчивости в такой системе может потребовать значительных ресурсов этой системы, возможно, неприемлемых для некоторых систем

t , /// I ¡¡I [if/

3-2019, H&ES RESEARC

INFORMATICS, COMPUTER ENGINEERING AND CONTROL

Уо!

Nc

реального времени. Однако ее анализ позволяет определить механизмы, требуемые для обеспечения сбое- и отказоустойчивости систем подобной архитектуры, и возможные ограничения, которые могут сделать эти механизмы более практичными.

Предположим, что все время работы рассматриваемой многокомплексной системы разбито на пронумерованные целевые циклы работы. Предлагаемый метод целевой сбое- и отказоустойчивой работы системы состоит в следующем. Предположим, что каждый г-й (г = 1, 2, ...) целевой цикл состоит из трех последовательных периодов: 1) абонентского внутрикомплексного периода, 2) периода межкомплексного взаимообмена, и 3) периода согласования и обработки системной диагностической информации. Пусть каждой исправной ЦВМ системы известна структура этой системы и структура каждого из входящих в систему комплексов.

В абонентском периоде г-го целевого цикла каждая ^я ЦВМ каждого /-го (/ = 1,., 5) комплекса (обозначим ее через Мл), если это требуется, получает посредством алгоритма АРМ-1 [14] необходимую для этого комплекса входную информацию данного целевого цикла от заданных абонентов внешней среды, вычисляет достоверное значение требуемой выходной информации данного целевого цикла и передает эту информацию требуемым абонентам внешней среды, а также формирует одинаковую в каждой исправной ЦВМ Мт комплекса К диагностическую информацию: результат внутрикомплексного функционального диагностирования в виде логического выражения (К)*" подозреваемой области враждебной неисправности, в своих термах отображающего всевозможные одиночные враждебные неисправности данного комплекса, при каждой из которых возможно имеющее место поведение /-го комплекса в абонентском периоде данного г-го целевого цикла. В случае, когда в абонентском периоде проявлений неисправностей выявлено не было, выражение (^= 1.

В периоде межкомплексного взаимообмена г-го целевого цикла каждая исправная /-я ЦВМ каждого /-го комплекса-получателя межкомплексного сообщения применяет метод АРМ-2 межкомплексного взаимообмена г-го целевого цикла, в котором каждая ЦВМ каждого комплекса-получателя принимает межкомплексное сообщение от каждой ЦВМ каждого комплекса-отправителя и посредством мажорирования этих сообщений, полученных от всех ЦВМ одного и того же комплекса-отправителя, вычисляет достоверное значение этого межкомплексного сообщения. Затем аналогично этому в алгоритме АРМ-1, в методе АРМ-2 каждая исправная ЦВМ каждого комплекса-получателя строит на основе построенных заранее выражений подозреваемых неисправностей, подобных таковым выражениям подозреваемых неисправностей в алгоритме АРМ-1, но учитывающих также возмож-

ность допустимых неисправностей ЦВМ из комплексов-отправителей, одинаковое во всех исправных ЦВМ данного комплекса-получателя логическое выражение (К)*е всевозможных подозреваемых допустимых совокупностей враждебных неисправностей этого комплекса-получателя и всех его комплексов-отправителей, при каждой из которых могут иметь место имеющиеся фактические результаты каждого межкомплексного обмена данного /-го комплекса-получателя и всех его комплексов-отправителей в периоде межкомплексного взаимообмена г-го целевого цикла. При этом каждая исправная ЦВМ каждого комплекса-получателя строит конъюнкцию выражений (К)/" и (К)* е, одинаковую во всех исправных ЦВМ этого /-го комплекса-получателя, которую преобразует к виду дизъюнкции конъюнкций, из которой исключает каждый терм, отображающий недопустимую совокупность неисправностей. В результате формируется логическое выражение подозреваемых неисправностей (К)™6, каждый терм которого определяет допустимую совокупность одиночных неисправностей одного или нескольких комплексов, а все термы — всевозможные такие допустимые совокупности, при каждой из которых возможно наблюдаемое поведение данного комплекса системы и в абонентском периоде, и в периоде межкомплексного обмена рассматриваемого г-го целевого цикла. Это выражение является диагностической информацией данного /-го комплекса в г-м целевом цикле для его абонентского периода и периода межкомплексного взаимообмена.

В периоде согласования и обработки системной диагностической информации (СДИ) г-го целевого цикла каждая исправная ЦВМ Мш каждого комплекса-получателя К(/= 1,..., 5) посредством предлагаемого алгоритма АРМ-3 получает от каждого другого д-го комплекса (д=1,..., 5; дф) системы его достоверную диагностическую информацию. Алгоритм АРМ-3 обеспечивает получение в ЦВМ М при помощи алгоритма АРМ-2 копии межзадачного сообщения (СДИ)) с системной диагностической информацией от каждой}-й ЦВМ М/ каждого другого д-го (д = 1,...5; / Ф д) комплекса-отправителя, содержащего логическое выражение ^У^"'" подозреваемых неисправностей, а также логическое выражение ^подозреваемых неисправностей и, во-первых, определяет достоверные значения этих логических выражений в виде логических выражений ^и (Г' , которые будут соответственно одинаковыми во всех исправных ЦВМ М. (/=1,., п) системы, а, во-вторых, строит тем же способом, что и выражение ^в приведенном выше описании алгоритма АРМ-2, логическое выражение ^)г'с подозреваемых неисправностей для периода согласования и обработки системной диагностической информации (СДИ) г-го целевого цикла, одинаковое во всех исправных ЦВМ этого комплекса К. Затем каждая исправная ЦВМ М^ каждого комплекса

ИНФОРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

К{ (. = 1, ..., 5) строит логическое выражение совокупностей подозреваемых враждебных неисправностей в виде конъюнкции выражений ^ 'а'е и выражений ^ ^ 'с для каждого комплекса Кч (4= 1, . ••, 5) системы. Это выражение, приведенное к виду дизъюнкции конъюнкций с исключением из нее каждого терма, отображаемая совокупность неисправностей которого не удовлетворяет принятому критерию допустимости таких совокупностей, будет одинаковым во всех исправных ЦВМ системы и каждый терм этого выражения будет определять допустимую совокупность враждебных неисправностей системы, при которой возможно имеющее место поведение системы в (г-1)-м целевом цикле ее работы, а все термы — всевозможные такие совокупности.

После этого в каждой исправной ЦВМ системы в соответствии с принятыми критерием программного сбоя ЦВМ и отказа передающего УС (например, идентификация сбоев некоторой ЦВМ в двух соседних целевых циклах), строится требуемое критерием логическое выражение всевозможных совокупностей подозреваемых программных сбоев ЦВМ и отказов передающих УС, при каждой из которых возможно имеющее место поведение системы в (г-2)-м и (г-1)-м целевых циклах системы.

В результате всех этих действий каждая исправная ЦВМ системы одновременно, в одном и том же цикле, одинаково и правильно идентифицирует все обнаруженные проявления допустимых враждебных неисправностей.

Организация процессов восстановления

целевой работы в автоматической распределенной

сбое- и отказоустойчивой многомашинной

АСУСН сетевой структуры

В данном разделе рассматривается проблема восстановления целевой работы в АСУСН, возникающая после того, как в этой системе в некотором комплексе (или некотором множестве ¥ комплексов) была обнаружена допустимая совокупность (допустимые совокупности) неисправностей. Причем каждая неисправность была также одновременно и согласованно идентифицирована в каждой исправной ЦВМ системы по месту ее возникновения и по типу как программный сбой или отказ определенной ЦВМ этого комплекса. Отметим, что при этом согласованной во всех исправных ЦВМ системы является информация о техническом состоянии ее элементов, однако индивидуальная целевая информация каждого комплекса по состоянию управления внешними абонентами содержится только в соответствующем комплексе. В то же время согласованные действия всей системы при идентификации в ней программных сбоев и отказов и необходимости дальнейших восстанавливающих действий должны выполняться только с учетом также информационного состояния всех решаемых целевых задач. Такой анализ

и учет должны быть выполнены предварительно на стадии проектирования системы и для каждой возможной ситуации в системе и каждого возможного случая обнаружения и идентификации проявлений допустимых совокупностей неисправностей должен быть предусмотрен соответствующий распределенный алгоритм осуществления требований динамической избыточности. Согласование информационного состояния всех решаемых целевых задач может выполняться в каждом целевом цикле в периоде согласования и обработки системной диагностической информации, когда вместе с диагностической информацией согласуется и информационное состояние всех решаемых в системе целевых задач. Тогда каждая исправная ЦВМ системы на основании всей информации, согласованной в периоде согласования и обработки диагностической информации, собственного порядкового номера и принадлежности определенному комплексу, должна выполнить предусмотренные на этапе проектирования АСУСН восстанавливающие действия для данных конкретных значений диагностической информации и информационного состояния решаемых целевых задач. В качестве таких действий (команд восстановления) из состава необходимых для конкретного комплекса можно определить, например, следующие действия:

- приостановить целевую работу комплекса на определенное количество целевых циклов, либо до появления некоторого события, например, определенного межкомплексного сообщения;

- приступить к процессу внутрикомплексного восстановления ЦВМ данного комплекса, идентифицированной в состоянии программного сбоя;

- выполнить изоляцию ЦВМ данного комплекса, идентифицированную в состоянии отказа, подключить вместо нее запасную ЦВМ заданного номера и выполнить ее информационное восстановление и втягивание в совместную целевую работу с другими ЦВМ данного комплекса.

Процесс внутрикомплексного восстановления в восстанавливаемом комплексе состоит в том, что все исправные ЦВМ этого комплекса согласованно образуют восстанавливающий подкомплекс (ВПК) восстанавливаемого комплекса и переходят к процессу восстановления, состоящему в следующем. Во-первых, предусмотренными аппаратно-программными средствами восстанавливающие ЦВМ из ВПК согласованно и безусловно переводят восстанавливаемые ЦВМ этого комплекса в режим восстановления и блокируют их каналы межмашинной связи от возможности вмешиваться в работу любой исправной ЦВМ из ВПК. В режиме восстановления восстанавливаемая ЦВМ ожидает от ВПК поступления команд собственного восстановления, в состав которых входят, во-первых, команда записи в заданную область памяти этой ЦВМ

S/ZK

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Hi iff,

Vol 11 No 3-2019, H&ES RESEARC INFORMATICS, COMPUTER ENGINEERING AND CON",

V\\\ v \\\\ ■

данных, поступивших в составе этой команды, во вторых, команда чтения данных из заданной области памяти восстанавливаемой ЦВМ и передача этих данных каждой ЦВМ из ВПК, в-третьих, команда синхронного перехода восстанавливаемой ЦВМ к выполнению программы в ее памяти с задаваемого в команде адреса либо к выполнению программы, передаваемой в составе данной команды, в-четвертых, команда пуска восстанавливаемой ЦВМ с указанного адреса синхронно со всеми ЦВМ из ВПК. В составе программ каждой ЦВМ из целевого комплекса должна быть программа восстановления восстанавливаемой ЦВМ из этого комплекса, которая должна завершаться последней из указанных команд, переводящей восстанавливающие и восстанавливаемую ЦВМ восстанавливаемого комплекса к выполнению его целевой задачи. Проявления программных сбоев восстанавливаемой ЦВМ, соответствующие принятому критерию отказа ЦВМ, например, две подряд неудачные попытки восстановления, должны восприниматься со стороны системы как отказ этой ЦВМ с необходимостью ее исключения из восстанавливаемого комплекса и из рабочей конфигурации системы, подключения запасной ЦВМ, если она имеется, и аналогичного восстановления в ней целевой работы восстанавливаемого комплекса. В случае отсутствия запасной ЦВМ данный комплекс должен быть переведен в режим целевой работы с пониженным уровнем сбое и отказоустойчивости. Здесь также возможно использование предусмотренной на этапе проектирования функциональной деградации АСУСН, при которой целевая задача комплекса с неисправностью, не подлежащей восстановлению, исключается из состава выполняемых целевых задач, исправные ЦВМ расформированного комплекса переводятся в запас, и АСУСН продолжает выполнение сокращенного списка целевых задач. При достижении принятого критического уровня сбое-и отказоустойчивости в АСУСН, определенного на этапе ее проектирования, и возникновении в системе следующей неисправности АСУСН должна перейти в режим безопасного останова, индивидуального для системы и зависящего от условий ее применения. В этом режиме система должна сообщить о своем переходе в режиме безопасного останова внешнему пользователю и перейти в режим ожидания от этого пользователя команд ручного управления системой. Содержание этого режима и состав команд, исполняемых в нем, является темой отдельной перспективной научной работы.

Изложенная технология организации сбое- и отказоустойчивой работы в однокомплексной сбое- и отказоустойчивой управляющей системе для модели удостоверительной враждебной неисправности была разработана, апробирована и успешно внедрена на ряде космических объектов и практически показала свою эффективность. Теоретические вопросы и обоснования такой технологии организации сбое- и от-

казоустойчивой целевой работы однокомплексной системы и процессов ее восстановления после программных сбоев и отказов для однокомплексной системы и враждебной модели неисправности изложены в [15].

Заключение

Представлен впервые унифицированный архитектурный метод парирования проявлений допустимых совокупностей враждебных неисправностей, их обнаружения и идентификации в сбое- и отказоустойчивых саморе-конфигурируемых и самовосстанавливаемых многокомплексных БЦВС показывают, что проектирование таких многокомплексных АСУСН должно начинаться на самом верхнем, архитектурном уровне процесса проектирования этой АСУСН, проводимого по технологии «сверху-вниз», и на следующих нижележащих уровнях эти общие представления и предложения должны все более детализироваться и уточняться, чтобы на заключительном уровне процесса проектирования были получены все необходимые обоснованные аппаратно-программные решения. Приведены обобщенные модели архитектурного уровня процесса проектирования по технологии «сверху-вниз» подсистемы диагностики, сбое- и отказоустойчивости многокомплексной АСУСН. Этот метод и модели обеспечивают в АСУСН возможность согласованных одновременных и неодинаковых действий всех исправных ЦВМ, гарантирующих правильность функционирования АСУСН в условиях возникновения допустимых совокупностей враждебных неисправностей.

Открытой областью научных исследований для рассматриваемых систем являются оценки требуемых для них аппаратных и программных ресурсов и методы их снижения. Ближайшей перспективной научно-исследовательской задачей можно также определить создание и исследование макетного образца такой АСУСН.

Литература

1. Таненбаум Э., Уэзеролл Д. Компьютерные сети: пер с англ. 5-е изд. СПб.: Питер. 2012. 960 с.: ил.

2. Гришин В.Ю., Лобанов А. В., Сиренко В. Г. Сете-центрическая война и живучесть системы ее управления // Новый оборонный заказ. Стратегии. 2014. № 2. С. 52-53.

3. Гришин В.Ю., Лобанов А. В., Сиренко В. Г. Сете-центрическая война и живучесть системы ее управления. Стратегии (продолжение) // Новый оборонный заказ. Стратегии. 2014. № 3. С. 46-49.

4. Унификация // Википедия. URL: https://ru.wikipedia. org/ wiki/ %D0%A3%D0%BD%D0%B8%D1%84%D0%B8 %D0%BA%D0%B0%D1%86%D0%B8%D1%8F (дата обращения: 25.04.2019).

5. Барретт С. Ф., Пак Д. Дж. Встраиваемые системы. Проектирование приложений на микроконтроллерах се-

)) НАУКОЕМКИЕ ТЕХНОЛОГИИ В КОСМИЧЕСКИХ ИССЛЕДОВАНИЯХ ЗЕМЛИ, Т 11 № 3-2019 ЮРМАТИКА, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И УПРАВЛЕНИЕ

мейства 68HC12/HCS12 с применением языка С Embedded Systems. Design and Applications with the 68HC12 and HCS12: пер с англ. М.: ДМК-пресс, 2007. Гл. 2.5: Структурное проектирование. С. 49-58. URL: http://programming-lang.com/ru/ comp_hard/barrett/0/j23.html (дата обращения: 25.04.2019).

6. Авиженис А. Отказоустойчивость — свойство, обеспечивающее постоянную работоспособность цифровых систем // ТИИЭР. 1978. Т. 66. № 10. С. 5-25.

7. Barborak M., Malek M. The consensus problem in fault-tolerant computing // ACM Computing Surveys. 1993. Vol. 25. No. 2. Pp. 171-220.

8. Мамедли Э.М., Самедов Р. Я., Соболев Н. А. Метод локализации «дружественных» и «враждебных» неисправностей // Автоматика и телемеханика. 1992. № 5. С. 126-138.

9. Пархоменко П.П. О классификации понятий в области избыточности // Сборник трудов «Принципы обеспечения отказоустойчивости многопроцессорных вычислительных систем» / Отв. ред. П. П. Пархоменко, В. А. Ведешенков. М.: Изд-во ИПУ, 1987. С. 5-7.

10. Каган Б.М., Мкртумян И. Б. Основы эксплуатации ЭВМ. М.: Энергоатомиздат. 1988. 432 с.

11.Kuhl J.G., Reddy S. M. Fault-tolerance considerations in large, multiple-processors systems // Computer. 1986. Vol. 19. No. 3. Pp. 56-67.

12.Мамедли Э.М., Соболев Н.А. Механизмы операционных систем, обеспечивающие отказоустойчивость в управляющих многомашинных вычислительных системах // Автоматика и телемеханика. 1995. № 8. С. 3-63.

13. Лобанов А. В. Модели замкнутых многомашинных вычислительных систем со сбое- и отказоустойчивостью на основе репликации задач в условиях возникновения враждебных неисправностей // Автоматика и телемеханика. 2009. № 2. С. 171-189.

14.Лобанов А. В. Обнаружение и идентификация неисправностей в распределенных управляющих вычислительных системах с программно-управляемой сбое- и отказоустойчивостью // Автоматика и телемеханика. 1998. № 1. С. 155-164.

15.Лобанов А. В. Организация сбое- и отказоустойчивых вычислений в полносвязных многомашинных вычислительных системах // Автоматика и телемеханика. 2000. № 12. С. 138-146.

UNIFIED METHOD FOR ENSURING FAILURE- AND FAULT-TOLERANCE TO RESISTANCE IN DISTRIBUTED AUTOMATED DIGITAL CONTROL SYSTEMS FOR SPECIAL PURPOSE

ANATOLY V. LOBANOV,

Moscow, Russia, [email protected]

IRINA V. ASHARINA,

Moscow, Russia, [email protected]

KEYWORDS: network-centric management; multiprocessor systems; task replication; fault-tolerance; mutual information approval; dynamic redundancy.

ABSTRACT

For the first time, a unified method is presented for constructing failsafe and fault-tolerant information-safe distributed automated digital control systems for special purposes that simultaneously perform a set of interacting target tasks. The proposed systems automatically parry the manifestations of admissible hostile faults based on replication of each target task (parallel execution of copies of this task on non-redundant computers with the exchange of results and the choice of them correct in the assumption that only a smaller part of these results can be erroneous) and use of dynamic redundancy, providing the longest possible time of active existence of the sys-

tem and the trajectory of its self-managed degradation of. Systems perform automatic self-detection and self-identification based on the place of occurrence and the type of occurrence of faults, self-recovery of the target computational process after software failures, self-isolation of failed elements, replacement with spare elements (if any) and self-recovery of the target computing process with the same level of failure and fault tolerance, or, in the absence of a stock, the implementation of a self-managed degradation of the system with a transition to a safe shutdown state of the system full exhaustion of resources. The method is applicable at the highest, architec-

tural level of design of such systems, carried out according to the "top-down" technology. Generalized models of the upper, architectural level of the process of designing subsystems of diagnostics, failure and fault tolerance of such multitasking systems and methods for their construction are proposed. It is shown that the design of such a subsystem of diagnostics, failure- and fault-tolerance for a multitasking system should begin at the highest, architectural level of the design process of this system, be monitored and evaluated at all underlying design levels.

REFERENCES

.1. Tanenbaum EH., Wetherall D. Computer Networks. 5th Edition. Prentice Hall, 2011. 960 p.

2. Grishin V. Yu., Lobanov A. V., Sirenko V. G. Setetsentricheskaya voj-na i zhivuchest' sistemy ee upravleniya [Network-centric war and survivability of its control system]. New defence order. Strategy. 2014. No. 2. Pp. 52-53.

3. Grishin V. Yu., Lobanov A. V., Sirenko V. G. Setetsentricheskaya vo-jna i zhivuchest' sistemy ee upravleniya. Strategii (prodolzhenie)[Net-work-centric war and the survivability of its management system. Strategies (continued)]. New defence order. Strategy. 2014. No. 3. Pp. 46-49.

4. Unifikatsiya [Unification] // Wikipedia. URL: https://ru.wikipedia. org/wiki/%D0%A3%D0%BD%D0%B8%D1%84%D0%B8%D0%BA %D0%B0%D1%86%D0%B8%D1%8F_(date of access: 25.04.2019) (In Russian)

5. Barrett S.F., Pack D. J. Embedded Systems Design and Applications with the 68HC12 and HCS12. Upper Saddle River, New Jersey: Pearson, 2004. 672 p.

6. Avizienis A. Fault-tolerance: The survival attribute of digital systems. Proceedings of the IEEE. 1978. Vol. 66. Issue 10. Pp. 11091125. DOI: 10.1109 / PR0C.1978.11107

7. Barborak M., Malek M. The consensus problem in fault-tolerant computing. ACM Computing Surveys. 1993. Vol. 25. No. 2. Pp. 171-220.

8. Mamedli E. M., Samedov R. Ya., Sobolev N. A. A method for localization of byzantine and nonbyzantine faults. Autom. Remote Control. 1992. Vol. 53. No. 5. Pp. 734-744.

9. Parkhomenko P. P., Vedeshenkov V. A. (Eds.). Sbornik trudov "Prin-cipy obespechenija otkazoustojchivosti mnogoprocessornyh vychis-litel'nyh system" [Proceedings of the Principles of fault tolerance of multiprocessor computer systems]. Moscow: Institute of Control Sciences Publ., 1987. Pp. 5-7. (In Russian)

10. Kagan B.M., Mkrtumyan I. B. Osnovy ehkspluatatsii EVM [Basics of computer operation]. Moscow: Ehnergoatomizdat. 1988. 432 p. (In Russian)

11. Kuhl J.G., Reddy S. M. Fault-tolerance considerations in large, multiple-processors systems. Computer. 1986. Vol. 19. No. 3. Pp. 56-67.

12. Mamedli E. M., Sobolev N. A. Mechanisms of operating systems supporting fault-tolerance of multicomputer control systems. Autom. Remote Control. 1995. Vol. 56. No. 8. Pp. 1065-1105.

13. Lobanov A. V. Models of closed multimachine computer systems with transient-fault-tolerance and fault-tolerance on the basis of replication under byzantine faults. Autom. Remote Control. 2009. Vol. 70. No. 2. Pp. 328-343.

14. Lobanov A. Vtechnical diagnostics: detection and identification of malfunctions in distributed control computer systems with program-controlled fault-and-failure tolerance. Autom. Remote Control. 1998. Vol. 59. No. 1. Pt. 2. Pp. 128-135.

15. Lobanov A. V. Organization of fault- and failure-tolerant computations in completely connected multicomputer systems. Autom. Remote Control. 2000. Vol. 61. No. 12. Pp. 2059-2067.

INFORMATION ABOUT AUTHORS:

Lobanov A. V., PhD, Senior Research Officer, head of laboratory of the Joint-Stock Company "Scientific Research Institute 'Submicron'"; Asharina I. V., PhD, Docent, Senior Research Officer of the Joint-Stock Company "Scientific Research Institute 'Submicron'".

For citation: Lobanov A.V., Asharina I.V. Unified method for ensuring failure- and fault-tolerance to resistance in distributed automated digital control systems for special purpose. H&ES Research. 2019. Vol. 11. No. 3. Pp. 89-99. doi: 10.24411/2409-5419-2018-10272 (In Russian)

i Надоели баннеры? Вы всегда можете отключить рекламу.