^ 10.24411/2409-5419-2018-10019
макетный образец высокоадаптивной распределенной сетецентрической многокомплексной сбое- и отказоустойчивой управляющей системы - актуальная проблема
ЛОБАНОВ
Анатолий Васильевич1 АШАРИНА
Ирина Владимировна2 ГРИШИН
Вячеслав Юрьевич3 СИРЕНКО
Владимир Григорьевич4
Информация об авторах:
1д.т.н., с.н.с., начальник лаборатории - ученый секретарь акционерного общества «Научно-исследовательский институт «Субмикрон», г. Москва, Зеленоград, Россия, [email protected]
2к.т.н., доцент, старший научный сотрудник акционерного общества «Научно-исследовательский институт «Субмикрон», г. Москва, Зеленоград, россия, [email protected]
3к.т.н., первый зам. генерального директора -главный конструктор акционерного общества «Научно-исследовательский институт «Субмикрон», г. Москва, Зеленоград, Россия, [email protected]
4д.т.н., профессор, генеральный директор акционерного общества «Научно-исследовательский институт «Субмикрон», г. Москва, Зеленоград, Россия, [email protected]
АННОТАЦИЯ
Рассматривается автоматизация процесса управления сложным распределенным в пространстве организационно-техническим комплексом, которая состоит в построении высокоадаптивной сетецентрической распределенной многомашинной системы, выполняющей совокупности взаимодействующих целевых задач. Приводится классификация и структура рассматриваемой вычислительной системы, имеющей многоуровневую организацию взаимодействующих между собой аппаратно-программных средств, а также особенности такой организации при построении сбое- и отказоустойчивой распределенной сетецентрической информационно-управляющей системы ответственного применения. Представлены характеристики, принципы построения, особенности рассматриваемых систем и их «философская» сущность с точки зрения сбое- и отказоустойчивости. Приведена классификация механизмов обеспечения сбое- и отказоустойчивости. Выполнен анализ публикаций в области построения сбое- и отказоустойчивых мультиагентных систем, декларируемых в литературе как наиболее перспективный подход к разработке интеллектуальных сложных систем рассматриваемого класса. Показаны существенные недостатки этого подхода, отрывающего алгоритмическую составляющую проектируемой системы от ее технического носителя, являющегося подлинным источником физических неисправностей. Определены факторы сложности при проектировании сбое- и отказоустойчивых систем рассматриваемого класса. Показан типовой подход к проектированию сбое- и отказоустойчивых систем, недостатки этого подхода и необходимые его изменения при построении рассматриваемых систем: необходимость учета вопросов сбое- и отказоустойчивости в процессе разработки архитектурной части проекта, а также важность проектирования «сверху-вниз» с обязательным взаимным участием разработчиков целевых функций системы и разработчиков проблем ее сбое- и отказоустойчивости. Рассматриваются и классифицируются методы реализации механизмов обеспечения сбое- и отказоустойчивости для наиболее общей «враждебной» модели допустимых неисправностей. Показано, что наиболее актуальной проблемой построения рассматриваемых систем является создание, отработка и испытания макетного образца высокоадаптивной распределенной сетецентрической многокомплексной сбое- и отказоустойчивой управляющей системы.
КЛЮЧЕВЫЕ СЛОВА: распределенная многомашинная вычислительная система; сбое- и отказоустойчивость; мультиагентная система; динамическая избыточность; враждебная неисправность.
Для цитирования: Лобанов А. В., Ашарина И. В, Гришин В. Ю., Сиренко В. Г. Макетный образец высокоадаптивной распределенной сетецентрической многокомплексной сбое- и отказоустойчивой управляющей системы - актуальная проблема // Наукоемкие технологии в космических исследованиях Земли. 2018. Т. 10. № 1 С. 48-58. doi 10.24411/24095419-2018-10019
10. N0. 1-2018, Н&ЕБ ЕЕБЕА^Н
!МЕОРМДТ!СБ, СОМРУТЕК ЕЫ^МЕЕтЫС ДЫЭ СОЫТРОЬ
Автоматизация процесса управления сложным распределенным в пространстве организационно-техническим комплексом состоит в создании сетецентрической распределенной в пространстве многомашинной вычислительной системы (МВС) сетевой структуры, параллельно выполняющей совокупности взаимодействующих целевых задач. Самой сложной и актуальной областью применения таких систем являются глобальные системы управления сетецен-трическими войнами [1—2]. По существующей классификации сетей системы рассматриваемого класса относятся к одноранговым, децентрализованным или пиринговым сетям — это оверлейные компьютерные сети, основанные на равноправии участников. В таких сетях отсутствуют выделенные серверы, и каждый узел может выполнять как функции клиента, так и функции сервера.
В отличие от архитектуры клиент-сервер, такая организация позволяет обеспечивать длительный срок активного существования и продолжительную траекторию управляемой деградации.
Эта вычислительная система имеет многоуровневую организацию взаимодействующих между собой аппаратно-программных средств, на нижнем уровне которой (см. рис.) находятся аппаратурные средства такой системы (цифровые вычислительные машины (ЦВМ), сетевые элементы, каналы связи). Следующие уровни представляют программное обеспечение (ПО), которое снизу-вверх включает: 1) базовое ПО, обеспечивающее взаимодействие верхних уровней ПО с аппаратными средствами. 2) общее, системное программное обеспечение (ОПО), включающее, в частности, операционную систему, подсистему ввода-вывода и др. 3) служебный уровень, программы которого взаимодействуют как с ПО базового уровня, так и с ПО системного уровня. Обычно основное
Рис. Многоуровневая организация взаимодействующих между собой аппаратно-программных средств
назначение служебных программ состоит в автоматизации работ по проверке, наладке и настройке компьютерной системы. В разработке и эксплуатации служебных программ существует два альтернативных направления: интеграция с операционной системой и автономное функционирование. В первом случае служебные программы могут изменять потребительские свойства системных программ, делая их более удобными для практической работы. Во втором случае они слабо связаны с системным программным обеспечением, но предоставляют пользователю больше возможностей для персональной настройки их взаимодействия с аппаратным и программным обеспечением. 4) специальное (прикладное, целевое) программное обеспечение (СПО) — предназначено для решения целевых задач пользователя (СПО часто называют программным приложением или просто приложением).
Предстоящее широкое внедрение рассматриваемых сетецентрических распределенных информационно-управляющих систем ответственного и критического применения требует особого внимания к вопросам их информационной безопасности. Одной из составляющих этой безопасности является обеспечение заданной сбое- и отказоустойчивости таких систем.
Сетецентрическая информационно-управляющая система представляет собой распределенную систему, организованную в виде набора независимых компьютеров, соединенных каналами связи, рассматриваемую пользователями в виде единой объединенной системы [3]. Наиболее важные характеристики, которые должна иметь такая система: а) от пользователей скрыты различия между компьютерами и способы связи между ними; Ь) пользователи и приложения единообразно работают в общем информационном пространстве и едином временном поле распределенной системы, независимо от того, где и когда происходит их взаимодействие; с) система относительно легко поддается адаптации, расширению или масштабированию; d) возможно, что в системе некоторые ее части могут временно выходить из строя, при этом пользователи и приложения не уведомляются о том, что эти части заменены или отремонтированы или что добавлены новые части для поддержки дополнительных пользователей или приложений.
Принципы построения распределенной сетецентри-ческой информационно-управляющей системы: 1) открытость (взаимодействие с внешней средой), 2) самоорганизация, 3) слабая иерархия в контуре принятия согласованных решений, 4) параллельное и одновременное решение взаимодействующих целевых задач в режиме реального времени, 6) обеспечение информационной безопасности (заданной достоверности выдаваемой информации, заданной сбое- и отказоустойчивости для каждой из решаемых целевых задач критического применения и сетевых сред их взаимодействия).
Особенностями распределенной сетецентрической информационно-управляющей системы ответственного применения являются: а) автономность ЦВМ, б) отсутствие общей памяти, в) межмашинное взаимодействие по двухточечным и шинным каналам связи; г) многоуровне-вость системы и отсутствие централизованного управляющего органа; д) необходимость самосинхронизации и самоорганизации системы для обеспечения необходимой адаптации, масштабирования, защиты от внешних воздействий, воздействий неисправностей и ошибок проектирования; е) работа в режиме реального времени; ж) большой срок активного существования; з) высокие требования по надежности работы и достоверности результатов.
Уязвимое место идеи сетецентрических информационно-управляющих систем — это вмешательство в процессы самосинхронизации и самоорганизации, разрушение циркулирующих в системах информационных потоков.
«Философской» сущностью рассматриваемых систем с точки зрения сбое- и отказоустойчивости являются: 1) сложность; 2) необходимость синхронизированной и согласованной работы их элементов; 3) практическая невозможность точных выводов о техническом состоянии системы; 4) необходимость самостоятельного формирования этих выводов на основе принимаемых заранее и, возможно, неточных критериев; 5) необходимость уточнения этих критериев со стороны самой системы в процессе ее целевой работы, возможность к самообучению и самоадаптация таких систем к условиям применения; 6) необходимость принимать и выполнять самостоятельные решения о реконфигурации и управляемой деградации системы; 7) необходимость проектирования таких систем «сверху-вниз» в условиях четких определений, понятий и моделей при тесном взаимодействии разработчиков целевых задач и разработчиков проблем обеспечения сбое-и отказоустойчивости.
Процесс проектирования рассматриваемых систем «сверху-вниз» кратко можно представить в виде этапов: 1) определение неформальной цели проекта; 2) системный анализ условий применения проектируемого объекта, определение и анализ существующих ограничений, предположений, гипотез, теорий; 3) формулировка формализованной цели проекта в рамках принятых ограничений, предположений, гипотез, теорий, условий применения; 4) разработка обобщенных, обоснованных методов и алгоритмов реализации формализованной цели проекта, их моделирование и оценка; 5) декомпозиция обобщенных алгоритмов на аппаратурные части и программные части; 6) разработка технических заданий на аппаратурные и программные части; 7) реализация аппаратурных и программных частей; 8) стыковка аппаратурных и программных частей; 9) комплексные испытания проекта; 10) внедрение и сопровождение разработанной системы у за-
казчика. Первые пять этапов определяют разработку архитектурной части проекта.
В соответствии с традиционным подходом к проектированию сбое- и отказоустойчивых систем сперва разрабатывается архитектура целевой системы без учета вопросов обеспечения сбое- и отказоустойчивости. Затем формируются ТЗ на аппаратурные и программные части, в которых требование по сбое- и отказоустойчивости системы часто формулируется в виде требования к продолжению целевой работы при отказе одного или двух электро-радио изделий (ЭРИ). Разработчики аппаратурных и программных средств, исходя из такого требования, вводят в разработанную архитектуру известные им автономные механизмы обеспечения сбое- и отказоустойчивости, которые при последующем анализе результатов такого введения могут потребовать коррекцию архитектуры проектируемой системы. Такие итерации повторяются до тех пор, пока не будет найдено удовлетворительное, с точки зрения проектировщиков, решение при данных предположениях. Однако такой процесс проектирования из-за высокой сложности системы может приводить к возникновению в ней негативных эффектов эмерджентности, состоящих в появлении ошибочного поведения из-за непредусмотренных системных явлений, неадекватности реалиям принятых моделей, ограничений или теорий. Такие эффекты, при их возникновении, чрезвычайно трудно поддаются анализу, если поддаются вообще, и обычно необоснованно «списываются» на еще не исследованные или не отработанные элементы технологии или защиты от внешних воздействий (например, недостаточную радиационную стойкость ЭРИ). Поэтому весьма важно на начальных, архитектурных этапах проектирования также ставить и решать архитектурные проблемы обеспечения сбое- и отказоустойчивости, применять адекватные модели, ограничения, предположения и теории. Сложность этих проблем может значительно превышать сложность решения поставленных целевых задач. Соотношение между этими проблемами обеспечения сбое- и отказоустойчивости и выполняемыми целевыми задачами уместно сравнить с соотношением сложности выполнения некоторым коллективом интеллектуальных роботов в режиме реального времени длительных, возможно, достаточно сложных целевых задач, и сложности проблем поддержания работоспособности этого коллектива с учетом имеющихся еще далеко не изученных механизмов сохранения требуемых внутренних характеристик работоспособности каждого члена коллектива и всего коллектива в целом, а также всех внешних систем поддержания жизнедеятельности как каждого члена коллектива, так и всего коллектива. Подобные исследования проводятся, например, в рамках построения сбое- и отказоустойчивых мультиагентных систем (МАС).
Интеллектуальные мультиагентные системы — одно из новых перспективных направлений искусственного ин-
теллекта, которое сформировалось на основе результатов исследований в области распределенных компьютерных систем, сетевых технологий решения проблем и параллельных вычислений. В мультиагентных технологиях заложен принцип автономности отдельных частей программы, совместно функционирующих в распределенной системе, где одновременно протекает множество процессов. Под агентом подразумевают автономный искусственный объект (компьютерную программу), обладающий активным мотивированным поведением и способный к взаимодействию с другими объектами в динамических виртуальных средах. Каждый агент может принимать сообщения, интерпретировать их содержание и формировать новые сообщения, которые направляются другим агентам [4].
Анализ публикаций в области построения сбое- и отказоустойчивых МАС [5-14] показывает, что предлагаемые методологии не обеспечивают сбое- и отказоустойчивость МАС, разрабатываемой для исходной системы, поскольку:
1) принятая модель неисправности МАС не соответствует возможным реальным физическим неисправностям компонентов МАС;
2) неясны и противоречивы предлагаемые механизмы парирования проявлений допустимых неисправностей, их обнаружения и идентификации по месту возникновения (например, с одной стороны утверждается достаточность однократной репликации агента, с другой стороны предлагаемый механизм согласования мнений реплик требует наличия хотя бы двух дополнительных копий агента; второй пример — наличие памяти, разделяемой реплици-руемыми агентами, возможность неисправности которой не предусматривается);
3) оторванность предлагаемых моделей и методов от физической сущности системы неизбежно приведет к возникновению в реальных системах практически необъяснимых нештатных ситуаций (негативных эффектов эмерджентности), разбор и анализ которых потребует обязательного возврата на физическую аппаратно-программную основу системы, ее компонентов и каналов связи;
4) имеется острая необходимость по созданию методов построения сбое- и отказоустойчивых МАС, основанных на моделях, адекватных реалиям, методах парирования допустимых неисправностей, их обнаружения и идентификации, реконфигурации системы с учетом текущего технического состояния и восстановления целевой работы системы, учитывающих аппаратно-программную сущность элементов таких систем.
Поиск решения проблем обеспечения сбое- и отказоустойчивости рассматриваемых систем и их практические апробации из-за такого соотношения их сложности и сложности решения целевых задач, должны, в лучшем случае, опережать разработку целевых задач, или, по крайней мере, осуществляться одновременно и взаимос-
вязанно. Иначе неизбежно возникновение отмеченных выше негативных эффектов эмерджентности в работе МВС с потерей значительных материальных и временных ресурсов. Эти проблемы, имеющиеся теоретические и частично опробованные практические подходы в их решениях, а также открытые области научных исследований рассматриваются в настоящей работе.
При разработке крупных информационных и управляющих систем происходит концентрация сложности на начальных этапах (анализ условий применения и требований, проектирование спецификаций системы, разработка обоснованных методов и обобщенных алгоритмов), в то время как сложность и трудоемкость последующих этапов снижается. При этом, чем лучше прорабатываются начальные этапы, тем больше снижается трудоемкость последующих этапов, и чем раньше обнаруживается ошибка, совершенная на начальных этапах проектирования, тем дешевле обходится ее исправление. Для преодоления сложностей начальных этапов разработки предназначен структурный анализ, начинающийся с общего обзора системы, который затем все более детализуется, приобретая иерархическую структуру со все большим числом уровней.
Факторами сложности при проектировании сбое-и отказоустойчивых систем рассматриваемого класса являются: а) неприемлемость традиционных (константных, логических, обрывов и коротких замыканий проводников) моделей неисправностей ЦВМ; б) необходимость распределенного, синхронизированного и согласованного принятия решения в различных ЦВМ системы; в) необходимость организации и управления динамической избыточностью системы (самореконфигурация и самоуправляемая деградация системы с переходом в безопасный останов при исчерпании ресурсов) при возникновении неисправностей или манипулировании соотношением «производительность- достоверность» для различных параллельно решаемых взаимодействующих целевых задач.
Из всех используемых в настоящее время моделей неисправностей ЦВМ наиболее общей является модель враждебной (byzantine, rigorous, malicious) неисправности, при которой поведение неисправного процессора или ЦВМ допускается полностью произвольным, в том числе и подобным «злонамеренному», включая его неодинаковость по отношению к другим элементам системы. Эта модель покрывает все остальные модели, и методы организации сбое- и отказоустойчивых вычислений в условиях возникновения враждебных неисправностей будут обеспечивать защиту и от неисправностей всех других моделей. Модель враждебной неисправности отражает сложность нахождения причинно-следственной связи между видами проявлений неисправностей и имеющимися в действительности неисправностями таких сложных объектов как современная ЦВМ и их взаимодействующие совокупности.
Использование модели враждебной неисправности определяет необходимость применения структурной графовой модели системы, в которой вершины отображают ЦВМ и другие сетевые элементы МВС, а ребра и дуги — каналы связи между ними.
Повышение отказоустойчивости сетецентрической распределенной системы может достигаться за счет дорогостоящего обеспечения отказоустойчивости входящих в нее ЦВМ и сетевых элементов путем применения в них N-модульной избыточности (резервирования) каждого узла и мажорирования выходных значений всех избыточных модулей этого узла. Такой подход при увеличении размера системы вызывает необходимость увеличения кратности резервирования каждого ее узла с целью сохранения требуемых значений надежностных характеристик. Другой подход, более учитывающий сетевую особенность рассматриваемых систем (замкнутость системы, наличие большого количества взаимосвязанных распределенных ЦВМ и возможность оперативного формирования из них требуемых вычислительных структур), состоит в репликации задач и введении в систему динамической избыточности, обеспечивающих: 1) парирование проявлений допустимых враждебных неисправностей за счет параллельного выполнения копий одной и той же задачи на нескольких ЦВМ с обменом полученными результатами и выбором из них правильного, 2) обнаружение и идентификацию по месту возникновения и типу (сбой, программный сбой, отказ) возникающих неисправностей, 3) исправления ошибочной информации после сбоев и программных сбоев и восстановление целевой работы, 4) реконфигурацию системы (с использованием запасных элементов) и восстановление целевой работы после отказов, 5) управляемую деградацию системы с возможным допустимым снижением характеристик вплоть до предельно заданной возможной конфигурации, 6) безопасный останов системы при невозможности построения такой конфигурации, 7) возможность перераспределения ресурсов системы для изменения соотношения производительность-достоверность между различными решаемыми задачами. Именно этот подход рассматривается в данной работе.
Группа всех ЦВМ, решающих копии одной и той же задачи, называется комплексом. Система, содержащая один комплекс, называется однокомплексной. В многокомплексной системе имеются несколько пронумерованных комплексов, которые решают разные задачи, обменивающиеся между собой информацией. Практическое применение рассматриваемого подхода должно основываться на принятом всеми участниками проектирования наборе понятий, терминов, определений и моделей. В работе [15] представлены самые общие подходы, модели, ключевые определения и понятия, необходимые при проектирова-
нии систем рассматриваемого вида, которые отражают вышеотмеченную «философскую» сущность таких систем. Модели разбиты на шесть групп: 1) структурно-диагностические модели, 2) диагностические модели 3) алгоритмически-диагностические модели, 4) модели процессов идентификации, 5) модель процесса деградации, 6) описание системы.
Аппаратно-программные механизмы обеспечения сбое- и отказоустойчивости рассматриваемых систем можно разделить на две группы: базовые и основные механизмы. Базовые механизмы гарантируют необходимую синхронность и согласованность действий всех элементов системы в условиях возникновения допустимых враждебных неисправностей. Синхронность обеспечивается путем организации в системе и непрерывной работы подсистемы единого системного времени, включающей средства как начальной, так и промежуточной синхронизации автономных часов в отдельных элементах системы.
Начальная синхронизация [16-17] осуществляется при начальном несинхронном включении различных ЦВМ системы и формирует путем взаимообмена сообщениями между включенными ЦВМ начальную конфигурацию системы в момент, когда эта конфигурация будет содержать достаточное количество исправных ЦВМ при условии, что среди ЦВМ конфигурации может иметься допустимое количество враждебно неисправных ЦВМ. Промежуточная синхронизация обеспечивает на основе межмашинного взаимообмена сообщениями требуемую синхронность внутренних автономных часов различных ЦВМ, расходящихся из-за индивидуальных значений дрейфов этих часов и возникновения допустимых враждебных неисправностей.
Согласованность действий и принимаемых решений в различных ЦВМ и подсистемах гарантируется применением алгоритмов взаимного информационного согласования (ВИС) [18]. Достижимость ВИС составляет концептуальную основу создания отказоустойчивых алгоритмов для решения основных задач организации распределенных вычислений. В настоящее время разработано значительное число алгоритмов, различающихся по постановкам задачи и критериям эффективности. Целью всех этих методов являлось только достижение ВИС, и специальная задача обнаружения и идентификации проявлений неисправностей в процессе ВИС не ставилась. Более того, в [18] утверждалось, что враждебный отказ в процессе ВИС диагностировать невозможно. Однако, исследуемая в настоящей работе задача организации сбое- и отказоустойчивых вычислений в сетецентрических как полносвязных, так и неполносвязных системах на основе динамической избыточности требует разработки алгоритмов ВИС, которые вместе с достижением ВИС обеспечивали бы также обнаружение и идентификацию проявившихся
в процессе ВИС враждебных неисправностей, предотвращающих накопление латентных неисправностей, одновременное проявление которых может привести к отказу всей сетецентрической системы. Такие методы ВИС для одно-комплексных полносвязных систем предложены в работах [19-21]. В [22-23] представлены обоснованные методы ВИС для неполносвязных систем, а в [24] — метод ВИС для неполносвязных систем с обнаружением и идентификацией случившихся в процессе ВИС проявлений враждебных неисправностей. Задачи и их решения, связанные с обеспечением системного ВИС в многокомплексных системах, рассматриваются в [25-26].
Основные механизмы обеспечения сбое- и отказоустойчивости на основе динамической избыточности для рассматриваемых однокомплексных систем при возникновении допустимых по кратности враждебных неисправностей включают механизмы парирования допустимых враждебных неисправностей (гарантирования правильности выходной информации системы при возникновении допустимых неисправностей) [27-31], функционального диагностирования системы с обнаружением и идентификацией возникающих допустимых по кратности враждебных неисправностей в процессе целевой работы и тестового диагностирования однокомплексных системы [27-36] и многокомплексных систем (двухкомплексных систем [37]), тестового диагностирования подсистем и системы в целом [32-35, 38], восстановления целевой работы подсистем и системы в целом при возникновении программных сбоев и отказов, самоуправляемой реконфигурации и деградации комплексов и системы в целом, выполняемых также в условиях возникновения допустимых по кратности враждебных неисправностей [30]. Однако значительный перечень вопросов детального построения основных механизмов обеспечения сбое- и отказоустойчивости в многокомплексных распределенных МВС остаются открытыми.
Общий подход к созданию и организации целевой работы открытых сетецентричеких многокомплексных систем в сети ЦВМ в условиях возникновения допустимых враждебных неисправностей, их парирования на основе репликации задач, обнаружения и идентификации, восстановления после сбоев и программных сбоев, самореконфигурации и самоуправляемой деградации до предельно допустимой конфигурации с переходом к безопасному останову системы при последующем возникновении неисправности, рассматривается в [39]. В случае однокомплексных сбое- и отказоустойчивых распределенных МВС необходима многоуровневая организация аппаратно-программных средств, показанная на рис., в которой между уровнем СПО и уровнем служебного ПО располагается добавочный уровень ПО отказоустойчивости однокомплексной МВС. Для многокомплексных
распределенных МВС между уровнем СПО и уровнем ПО сбое- и отказоустойчивости однокомплексной МВС должен располагаться уровень ПО сбое- и отказоустойчивости многокомплексной МВС, который кроме проблем обеспечения сбое- и отказоустойчивого межкомплексного взаимодействия должен также решать проблемы реализации всех необходимых свойств динамической избыточности при таком взаимодействии.
Организация работы предлагаемых механизмов сбое-и отказоустойчивости должна быть многоуровневой: на нижнем уровне — базовые механизмы (синхронизация и ВИС). На следующем уровне — основные механизмы (парирования проявлений неисправностей, тестового и функционального диагностирования, восстановления, самореконфигурации и самоуправляемой деградации). Все остальные механизмы организации работы системы составляют более высокие уровни. Их основной задачей с точки зрения сбое- и отказоустойчивости является определение места и объема восстанавливаемой информации, а также периода выполнения восстановления при возникновении программных сбоев и отказов. Взаимодействие всех механизмов сбое- и отказоустойчивости составляет сущность интерфейса отказоустойчивости данной системы.
Приведенный список литературы показывает, что для ряда задач по обеспечению сбое- и отказоустойчивости рассматриваемых сетецентрических систем имеется решение. Однако значительно больше проблем и задач остаются открытыми. К ним относятся задачи снижения оценок сложности предлагаемых методов по объемам требуемых аппаратурной, временной и информационной избыточности, разработки приемлемых методов самоорганизации сбое- и отказоустойчивых параллельных взаимосвязанных вычислений на основе использования динамической избыточности, разработки и взаимной увязки всех необходимых архитектурных, аппаратурных и программных механизмов ее реализации, разработки методов моделирования и оценки эффективности таких систем, методов отладки и испытаний (включая инжекцию допустимых неисправностей и преднамеренное создание возможных нештатных ситуаций) как отдельных элементов и подсистем, так и системы в целом.
Особо следует отметить, что из-за высокой математической абстрактности и сложности предлагаемых теоретически обоснованных решений возникает острая необходимость их моделирования, практического макетирования и апробации с целью отработки этих решений и получения оценочных характеристик по используемым ресурсам.
НИИ «Субмикрон» имеет давний успешный опыт разработки и практического внедрения в космической отрасли РФ рассматриваемых однокомплексных распределенных систем [27-28]. К сожалению, имеется также и последу-
ющий весьма дорогостоящий отрицательный опыт, когда отступление от принципов и предлагаемой методологии построения рассматриваемых сбое- и отказоустойчивых распределенных систем привело к появлению в целевой работе системы вышеуказанных эффектов отрицательной эмерджентности, устранение которых, по мнению авторов данной работы, возможно только при перепроектировании уровня ПО сбое- и отказоустойчивости однокомплексной системы на основе предлагаемых принципов и методологии. В настоящее время НИИ «Субмикрон» пока еще сохраняет уникальный на мировом уровне научный потенциал, необходимый для разработки сетецентрических сбое- и отказоустойчивых многокомплексных распределенных систем, о чем свидетельствует совокупность теоретических публикаций в наиболее авторитетном отечественном научном журнале, а также упомянутый выше положительный практический опыт создания однокомплексных сбое- и отказоустойчивых распределенных систем. Наиболее эффективное развитие и теоретических результатов, и практического опыта в области построения сбое- и отказоустойчивых сетецентрических многокомплексных распределенных МВС, может быть достигнуто в приемлемые сроки только в НИИ «Субмикрон» путем адекватного моделирования такой системы (что потребует предварительного создания соответствующей системы моделирования) и/или, что более реально и продуктивно, в процессе построения макетного образца системы, его исследования и оценки. Вот только найдутся ли заказчики?
Литература
1. Гришин В. Ю., Лобанов А. В., Сиренко В. Г. Сете-центрическая война и живучесть системы ее управления. Часть 1 // Новый оборонный заказ. Стратегии. 2014. № 2. С. 34-35.
2. Гришин В. Ю., Лобанов А. В., Сиренко В. Г. Сете-центрическая война и живучесть системы ее управления. Часть 2 // Новый оборонный заказ. Стратегии. 2014. № 3. С. 6-9.
3. Ефремов А. Ю., Максимов Д. Ю. Сетецентрическая система управления — что вкладывается в это понятие? // Технические и программные средства систем управления, контроля и измерения: труды Третьей российской конференции УКИ-2012 с международным участием. М.: ИПУ РАН, 2012. C. 158-161.
4. Городецкий В. И., Карсаев О. В., Самойлов В. В., Серебряков С. В. Прикладные многоагентные системы группового управления // Искусственный интеллект и принятие решений. 2009. № 9. С. 3-24.
5. Padgham L., Winikoff M. Prometheus: A methodology for developing intelligent agents // Agent-Oriented Software
Engineering III. Eds. F. Giunchglia, J. Odell, G. Weiss. New York: Springer, 2003. Vol. 2585 of LNCS. Pp. 174-185.
6. Wooldridge M., Jennings N. R., Kinny D. Developing multiagent systems: The gaia methodology // ACM Transactions on Software Engineering and Methodology. 2004. No. 12(3). Pp. 317-370.
7. Liam C., Wo T., Hu. H. Building a Fault Tolerant Architecture for Internet Robots Using Mobile Agents // Proceedings of the 1st British Workshop on Internet and Online Robots (IORW). University of Reading, 28th May 2003.
8. Fedoruk A., Deters R. Improving fault-tolerance by replicating agents // Proceedings of the First International Joint Conference on Autonomous Agents and Multi-Agent Systems. Bologna, 2002. Pp. 737-744.
9. Kola G., Kosar T., LivnyM. A fully automated fault-tolerant system for distributed video processing and off-site replication // Proceedings of the 14th international workshop on Network and operating systems support for digital audio and video. Cork, Ireland, 2004. Pp.122-126.
10.Kumar S., Cohen P. R. Towards a fault-tolerant multi-agent system architecture // Proceedings of the fourth international conference on Autonomous agents. ACM, Barcelona, 2000. Pp. 459-466.
11. Mishra S. Agent Fault Tolerance Using Group Communication // Proceedings of the 2001 International Conference on Parallel and Distributed Processing Techniques and Applications (PDPTA 2001). Las Vegas, NV, CSREA Press. Pp. 383-389.
12. Pullum L. L. Software fault tolerance techniques and implementation. Boston, London: Artech House, 2001. 360 p. ISBN1580531377.
13.Mellouli S., Mineau G., Moulin B. Laying down the foundations of an agentmodelling methodology for fault-tolerant multi-agent systems // Engineering Societies in the Agents World IV 4th International Workshop, ESAW 2003 (London, October 29-31, 2003). Springer-Verlag Berlin Heidelberg, 2004. Vol. 3071. Pp. 275-293.
14. Mellouli S., Mineau G., Moulin B. Towards an agent modelling methodology for fault-tolerant multi-agent systems // Informatica Journal. 2004. Pp. 31-40. 15. Лобанов А. В. Модели замкнутых многомашинных вычислительных систем со сбое- и отказоустойчивостью на основе репликации задач в условиях возникновения враждебных неисправностей // Автоматика и телемеханика. 2009. № 2. С. 171-189.
16. Лобанов А. В. Синхронизация и взаимное информационное согласование // Программирование. 1997. № 2. С. 76-80.
17. Песикова О. В. Метод начальной синхронизации многомашинной отказоустойчивой вычислительной
системы // Тезисы докладов 2-й Всероссийской научно-технической конференции «Системы управления беспилотными космическими и атмосферными летательными аппаратами» (Москва. 24-26 октября 2012 г.) Москва, 2012. С. 152-154.
18. Генинсон Б. А., Панкова Л. А., Трантенгерц Э. А. Отказоустойчивые методы обеспечения взаимной информационной согласованности в распределенных вычислительных системах // Автоматика и телемеханика. 1989. № 5.С. 3-18.
19. Лобанов А. В. Взаимное информационное согласование с идентификацией неисправностей в распределенных вычислительных системах // Автоматика и телемеханика. 1992. № 4. С. 137-146.
20. Лобанов А. В. Взаимное информационное согласование с идентификацией неисправностей на основе глобального синдрома // Автоматика и телемеханика. 1996. № 5. С. 150-159.
21. Лобанов А. В., Сиренко В. Г., Гришин В. Ю. Взаимное информационное согласование в многомашинных вычислительных системах с обнаружением и идентификацией кратных враждебных неисправностей // Автоматика и телемеханика. 2003. № 4. С. 123-133.
22. Лобанов А. В., Ашарина И. В., Мищенко И. Г. Взаимное информационное согласование в неполносвязных многомашинных вычислительных системах // Автоматика и телемеханика. 2003. № 5. С. 190-198.
23. Ашарина И. В., Лобанов А. В. Взаимное информационное согласование в неполносвязных гетерогенных многомашинных вычислительных системах // Автоматика.и телемеханика.. 2010. № 5. С. 133-146.
24. Лобанов А. В. Взаимное информационное согласование с обнаружением и идентификацией враждебных неисправностей в неполносвязных многомашинных вычислительных системах // Автоматика и телемеханика. 2003. № 6. С. 175-185.
25. Ашарина И. В., Лобанов А. В. Выделение комплексов, обеспечивающих достаточные структурные условия системного взаимного информационного согласования в многокомплексных системах // Автоматика и телемеханика. 2014. № 6. С. 115-131.
26. Ашарина И. В., Лобанов А. В. Выделение структурной среды системного взаимного информационного согласования в многокомплексных системах // Автоматика и телемеханика. 2014. № 8. С. 146-156.
27. Лобанов А. В. Протокол отказоустойчивого обмена // Приборы и системы управления. 1993. № 7. С. 8-11.
28. Лобанов А. В., Нахаев С. А. Обеспечение сбое-и отказоустойчивости в протоколе отказоустойчивого обмена // Приборы и системы управления. 1993. № 7. С. 12-13.
29. Лобанов А. В. Распределенное мажорирование информации с обнаружением и идентификацией неисправностей // Автоматика и телемеханика.1997. № 1. С. 145-149.
30. Лобанов А. В. Организация сбое- и отказоустойчивых вычислений в полносвязных многомашинных вычислительных системах // Автоматика и телемеханика. 2000. № 12. С. 138-146.
31. Лобанов А. В. Обнаружение и идентификация неисправностей в распределенных управляющих вычислительных системах с программно-управляемой сбое- и отказоустойчивостью // Автоматика и телемеханика. 1998. № 1. С. 155-164.
32. Лобанов А. В. Обнаружение и идентификация «враждебных» неисправностей путем одновременного сочетания функционального и тестового диагностирования в многомашинных вычислительных системах // Автоматика и телемеханика.1999. № 1. С. 159-165.
33. Лобанов А. В., Сиренко В. Г., Гришин В. Ю. Функциональное диагностирование в распределенном системном диагностировании многомашинных вычислительных систем // Автоматика и телемеханика. 2002. № 1. С. 152-158.
34. Сиренко В. Г. Функциональное диагностирование процессов посылки информации в вычислительных системах при неизвестном исходном значении передаваемой информации // Автоматика и телемеханика. 2005. № 11. С. 135-154.
35. Сиренко В. Г. Метод локализации «враждебных» неисправностей в многомашинных вычислительных системах // Известия вузов. Электроника. 2006. № 3. С. 38-43.
36. Лобанов В. А., Гришин В. Ю., Сиренко В. Г. Распределенное системное диагностирование враждебных неисправностей в неполносвязных многомашинных вычислительных системах // Автоматика и телемеханика. 2005. № 2. C. 148-157.
37. Лобанов А. В. Организация сбое- и отказоустойчивой работы двухкомплексной многомашинной вычислительной системы // Автоматика и телемеханика. 1998. № 2. С. 143-152.
38. Лобанов А. В., Сиренко В. Г. Распределенные методы системного диагностирования // Автоматика и телемеханика. 2000. № 8. С. 165-172.
39. Лобанов А. В. Стратегические и тактические проблемы и задачи в организации сбое- и отказоустойчивых вычислений на основе репликации задач в многокомплексных многомашинных вычислительных системах и сетях ЦВМ // Информационные технологии в науке, образовании, телекоммуникации и бизнесе: материалы XXXVI Международной конференции и дискуссионного научного клуба IT+SE'10. Майская сессия. Ялта-Гурзуф. Приложение к журналу «Открытое образование». 2010. С. 119-121.
A PROTOTYPE OF A HIGHLY ADAPTIVE, DISTRIBUTED, NET-CENTRIC, MULTICOMPLEX MALFUNCTION- AND A FAULTY-TOLERANT CONTROL SYSTEM - A TOPICAL PROBLEM
ANATOLY V. LOBANOV,
Moscow, Russia, [email protected]
IRINA V. ASHARINA,
Moscow, Russia, [email protected]
KEYWORDS: distributed multi-computer system; malfunction- and fault-tolerance; multiagent system; dynamic redundancy; hostile malfunction.
VYJACHESLAV JU. GRISHIN,
Moscow, Russia, [email protected]
VLADIMIR G. SIRENKO,
Moscow, Russia, [email protected]
ABSTRACT
Discusses the automation of the process of managing complex distributed in the space of organizational and technical complex which is to build high-adaptive, network-centric distributed multicomputer system for set of interacting tasks. Describing Classification and structure of the considered computing system having a multi-level organization of interacting hardware and software, as well as the features of such an organization is when building fault-tolerant distributed network-centric information system of management responsible manner. The characteristics, principles of construction, features of the systems under consideration and their "philosophical" essence are presented in terms of malfunction- and fault tolerance. The classification of mechanisms for ensuring malfunction- and fault-tolerance is given. The analysis of publications in the field of building malfunction- and fault-tolerant multi-agent systems, declared in the literature as the most promising approach to the development of intelligent complex systems of the class under consideration, is performed. Essential drawbacks of this approach are shown, which detaches the algorithmic component of the projected system from its technical carrier, which is the true source of physical malfunctions. The complexity factors in the design of malfunction- and fault-tolerant systems of the class under consideration were determined. A typical approach to designing malfunction- and fault-tolerant systems is shown, the drawbacks of this approach and the necessary changes in the design of the systems under consideration: the need to take into account the issues of fault and fault tolerance in the design of the architectural part of the project, and the importance of designing "top-down" with mandatory mutual participation developers of target tasks of the system and developers of problems of its malfunction- and fault- tolerance. The methods of implementing malfunction- and fault-tolerance mechanisms for the most common "byzantine (hostile)" model of permissible faults are considered and classified. It is shown that the most relevant problem the construction of the systems under consideration is the creation, is testing and
testing of a prototype of a highly adaptable distributed multicom-plex network-centric malfunction- and fault-tolerant control system.
REFERENCES
1. GrishinV.Yu., Lobanov A. V., Sirenko V. G. Setetsentricheskaya voy-na i zhivuchest' sistemy ee upravleniya. Chast' 1 [Network-centric warfare and survivability system of management. Part 1]. Novyy ob-oronnyy zakaz. Strategii [New defence order. Strategy]. 2014. No. 2. Pp. 34-35. (In Russian)
2. GrishinV.Yu., Lobanov A. V., Sirenko V. G. Setetsentricheskaya voy-na i zhivuchest' sistemy ee upravleniya. Chast' 2 [Network-centric warfare and survivability system of management. Part 2]. Novyy ob-oronnyy zakaz. Strategii [New defence order. Strategy]. No. 3. 2014. S. 6-9. (In Russian)
3. Efremov A. Yu., Maksimov D. Yu. Setetsentricheskaya sistema upravleniya - chto vkladyvaetsya v eto ponyatie? [Network-centric control system - what is embedded in this concept?]. Tekhnicheskie i programmnye sredstva system upravleniya, kontrolya i izmereniya: Trudy Tret'ey rossiyskoy konferentsii UKI-2012 s mezhdunarodnym uchastiem.[Network-centric control system - what is embedded in this concept? // Technical and software control systems, control and measurement: proceedings of the Third Russian conference IES-2012 with international participation] Moscow: IPU RAN, 2012. Pp. 158-161. (In Russian)
4. Gorodetskiy V. I., Karsaev O. V., Samoylov V. V., Serebryak-ov S. V. Prikladnye mnogoagentnye sistemy gruppovogo upravleni-ya [Applied multiagent systems of group control]. Iskusstvennyy intellekt i prinyatie resheniy [Artificial intelligence and decision making]. 2009. No. 9. Pp. 3-24. (In Russian)
5. Padgham L., Winikoff M. Prometheus: A methodology for developing intelligent agents. Agent-Oriented Software Engineering III. Eds. F. Giunchglia, J. Odell, G. Weiss. New York: Springer, 2003. Vol. 2585 of LNCS. Pp. 174-185.
6. Wooldridge M., Jennings N. R., Kinny D. Developing multiagent systems: The gaia methodology. ACM Transactions on Software Engineering and Methodology. 2004. No. 12(3). Pp. 317-370.
7. Liam C., Wo T., Hu. H, Building a Fault Tolerant Architecture for Internet Robots Using Mobile Agents. Proceedings of the 1st British Workshop on Internet and Online Robots (IORW). University of Reading, 28th May 2003
8. Fedoruk A., Deters R. Improving fault-tolerance by replicating agents. Proceedings of the First International Joint Conference on Autonomous Agents and Multi-Agent Systems. Bologna, 2002. Pp. 737-744.
9. Kola G., Kosar T., Livny M. A fully automated fault-tolerant system for distributed video processing and off-site replication. Proceedings of the 14th international workshop on Network and operating systems support for digital audio and video. Cork, Ireland, 2004. Pp.122-126.
10. Kumar S., Cohen P. R. Towards a fault-tolerant multi-agent system architecture. Proceedings of the fourth international conference on Autonomous agents. ACM, Barcelona, 2000. Pp. 459-466.
11. Mishra S. Agent Fault Tolerance Using Group Communication. Proceedings of the 2001 International Conference on Parallel and Distributed Processing Techniques and Applications (PDPTA 2001). Las Vegas, NV, CSREA Press. Pp. 383-389.
12. Pullum L. L. Software fault tolerance techniques and implementation. Boston, London: Artech House, 2001. 360 p. ISBN1580531377.
13. Mellouli S., Mineau G., Moulin B. Laying down the foundations of an agentmodelling methodology for fault-tolerant multi-agent systems. Engineering Societies in the Agents World IV 4th International Workshop, ESAW 2003 (London, October 29-31, 2003). Springer-Verlag Berlin Heidelberg, 2004. Vol. 3071. Pp. 275-293.
14. Mellouli S., Mineau G., Moulin B. Towards an agent modelling methodology for fault-tolerant multi-agent systems. Informatica Journal. 2004. Pp. 31-40.
15. Lobanov A. V. Modeli zamknutykh mnogomashinnykh vychisli-tel'nykh system so sboe- i otkazoustoychivost'yu na osnove replikat-sii zadach v usloviyakh vozniknoveniya vrazhdebnykh neispravnos-tey [Models of closed multi-computer systems with faults and fault tolerance based on replication of tasks under conditions of hostile faults]. Avtomatika i telemehanika [Automation and Remote Control]. 2009. No. 2. Pp. 171-189. (In Russian)
16. Lobanov A. V. Sinkhronizatsiya i vzaimnoe informatsionnoe soglas-ovanie [Synchronization and mutual information agreement]. Pro-grammirovanie [Programming]. 1997. No. 2. Pp. 76-80. (In Russian)
17. Pesikova O. V. Metod nachal'noy sinkhronizatsii mnogomashin-noy otkazoustoychivoy vychislitel'noy sistemy [The method of initial synchronization of a multi-machine fault-tolerant computing system]. 2-ya Vserossiyskaya nauchno-tekhnicheskaya konferentsiya «Sistemy upravleniya bespilotnymi kosmicheskimi i atmosfernymi letatel'nymi apparatami». Moskva. 24-26 oktyabrya 2012 g. Tezisy dokladov. [2 nd All-Russian scientific and technical conference "Control systems for unmanned space and atmospheric aircrafts". Moscow. October 24-26, 2012 Abstracts of the reports]. Pp. 152-154. (In Russian)
18. Geninson B. A., Pankova L. A., Trahtengerts E. A. Otkazoustoy-chivye metody obespecheniya vzaimnoy informatsionnoy soglas-
ovannosti v raspredelennykh vychislitel'nykh sistemakh [Fault-tolerant methods for ensuring mutual information consistency in distributed computing systems]. Avtomatika i telemehanika [Automation and Remote Control]. 1989. No.5. Pp. 3-18. (In Russian)
19. Lobanov A. V. Vzaimnoe informatsionnoe soglasovanie s iden-tifikatsiey neispravnostey v raspredelennykh vychislitel'nykh sistemakh [Mutual information agreement with the identification of faults in distributed computing system] Avtomatika i telemehanika. [Automation and Remote Control]. 1992. No. 4. Pp. 137-146. (In Russian)
20. Lobanov A. V. Vzaimnoe informatsionnoe soglasovanie s identi-fikatsiey neispravnostey na osnove global'nogo sindroma [Mutual information agreement with the identification of faults based on the global syndrome]. Avtomatika i telemehanika [Automation and Remote Control]. 1996. No.5. Pp. 150-159. (In Russian)
21. Lobanov A.V., Sirenko V. G., Grishin V. Yu. Vzaimnoe informatsionnoe soglasovanie v mnogomashinnykh vychislitel'nykh sistemakh s obnaruzheniem i identifikatsiey kratnykh vrazhdebnykh neispravnostey [Mutual information agreement in multi-computer systems with the detection and identification of multiple hostile failures]. Avtomatika i telemehanika [Automation and Remote Control]. 2003. No. 4. Pp. 123-133. (In Russian)
22. Lobanov A.V., Asharina I.V., Mishhenko I.G. Vzaimnoe informacion-noe soglasovanie v nepolnosvjaznyh mnogomashinnyh vychislitel'nyh sistemah [Mutual informational coordination in nepolnoglasnyh multi-machine computing systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2003. No. 5. Pp. 190-199. (In Russian)
23. Asharina I. V., Lobanov A. V. Vzaimnoe informacionnoe soglasovanie v nepolnosvjaznyh geterogennyh mnogomashinnyh vychislitel'nyh sistemah [Mutual informational coordination in nepolno-glasnyh heterogeneous multicomputer computational systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2010. No. 5. Pp. 133-146. (In Russian)
24. Lobanov A. V. Vzaimnoe informatsionnoe soglasovanie s ob-naruzheniem i identifikatsiey vrazhdebnykh neispravnostey v nep-olnosvyaznykh mnogomashinnykh vychislitel'nykh sistemakh [Mutual information agreement with the detection and identification of hostile failures in incompletely connected multi-computer systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2003. No. 6. Pp. 175-185. (In Russian)
25. Asharina I. V., Lobanov A. V. Vydelenie kompleksov, obespechiva-jushhih dostatochnye strukturnye uslovija sistemnogo vzaimnogo in-formacionnogo soglasovanija v mnogokompleksnyh sistemah [The formation of complexes, providing sufficient structural conditions of the system mutual information matching in mnogokomponentnyh systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2014. No. 6. Pp. 115-131. (In Russian)
26. Asharina I. V., Lobanov A. V. Vydelenie strukturnoj sredy sistemnogo vzaimnogo informacionnogo soglasovanija v mnogokompleksnyh sistemah [The allocation of the structural environment of the system mutual information matching in mnogokomponentnyh systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2014. No. 8. Pp. 146-156. (In Russian)
27. Lobanov A. V. Protokol otkazoustojchivogo obmena [Protocol for failover exchange]. Pribory i sistemy upravlenija [Devices and control systems]. 1993. No. 7. Pp. 8-11. (In Russian)
28.Lobanov A.V., Nahaev S. A. Obespechenie sboe- i otkazoustoj-chivosti v protokole otkazoustojchivogo obmena [Providing fault and fault tolerance in the fault-tolerant exchange protocol]. Pribory i sistemy upravlenija [Devices and control systems]. 1993. No. 7. Pp. 12-13. (In Russian)
29. Lobanov A. V. Raspredelennoe mazhorirovanie informacii s ob-naruzheniem i identifikaciej neispravnostej [Distributed majorization of information with detection and identification of faults]. Avtomati-ka i telemehanika [Automation and Remote Control]. 1997. No. 1. Pp. 145-149. (In Russian)
30. Лобанов А. В. Lobanov A. V. Organizacija sboe- i otkazoustoj-chivyh vychislenij v polnosvjaznyh mnogomashinnyh vychislitel'nyh sistemah [Organization of fault-tolerant and fault-tolerant computing in fully connected multi-computer systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2000. No. 12. Pp. 138146. (In Russian)
31. Lobanov A. V. Obnaruzhenie i identifikacija neispravnostej v raspre-delennyh upravljajushhih vychislitel'nyh sistemah s programmno-up-ravljaemoj sboe- i otkazoustojchivost'ju [Detection and identification of faults in distributed control computing systems with program-controlled fault and fault tolerance]. Avtomatika i telemehanika [Automation and Remote Control]. 1998. No. 1. Pp. 155-164. (In Russian)
32. Lobanov A. V. Obnaruzhenie i identifikacija "vrazhdebnyh" neispravnostej putem odnovremennogo sochetanija funkcional'nogo i testovogo diagnostirovanija v mnogomashinnyh vychislitel'nyh sistemah [Detection and identification of "hostile" faults by simultaneous combination of functional and test diagnostics in multi-computer systems]. Avtomatika i telemehanika [Automation and Remote Control]. 1999. No. 1. Pp. 159-165. (In Russian)
33. Lobanov A. V., Sirenko V. G., GrishinV.Ju. Funkcional'noe diagnosti-rovanie v raspredelennom sistemnom diagnostirovanii mnogomash-innyh vychislitel'nyh sistem [Functional diagnosis in distributed system diagnostics of multi-computer systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2002. No 1. Pp. 152-158. (In Russian)
34. Sirenko V. G. Funkcional'noe diagnostirovanie processov po-sylki informacii v vychislitel'nyh sistemah pri neizvestnom ishodnom znachenii peredavaemoj informacii [Functional diagnosis of the processes of sending information in computer systems with unknown initial value of transmitted information]. Avtomatika i telemehanika [Automation and Remote Control]. 2005. No. 11. Pp.135-154. (In Russian)
35. Sirenko V. G. Metodlokalizacii "vrazhdebnyh" neispravnostej v
mnogomashinnyh vychislitel'nyh sistemah [Method of localization of "hostile" faults in multi-computer systems]. Izvestija vuzov. Jel-ektronika [Proceedings of high schools. Electronics]. 2006. No. 3. Pp. 38-43. (In Russian)
36. Lobanov V. A., GrishinV.Ju., Sirenko V. G. Raspredelennoe sis-temnoe diagnostirovanie vrazhdebnyh neispravnostej v nepol-nosvjaznyh mnogomashinnyh vychislitel'nyh sistemah [Distributed system diagnostics of hostile faults in incompletely connected multi-computer systems]. Avtomatika i telemehanika [Automation and Remote Control]. 2005. No. 2. Pp. 148-157. (In Russian)
37. Lobanov A. V. Organizacija sboe- i otkazoustojchivoj raboty dvuh-kompleksnoj mnogomashinnoj vychislitel'noj sistemy [Organization of faulty and fault-tolerant operation of a two-complex multi-computer system]. Avtomatika i telemehanika [Automation and Remote Control]. 1998. No. 2. Pp. 143-152. (In Russian)
38. Lobanov A. V., Sirenko V. G. Raspredelennye metody sistemno-go diagnostirovanija [Distributed methods of system diagnosis]. Avtomatika i telemehanika [Automation and Remote Control]. 2000. No. 8. Pp. 165-172. (In Russian)
39. Lobanov A. V. Strategicheskie i takticheskie problemy i zadachi v organizacii sboe- i otkazoustojchivyh vychislenij na osnove replik-acii zadach v mnogokompleksnyh mnogomashinnyh vychislitel'nyh sistemah i setjah CVM [Strategic and tactical problems and tasks in the organization of faulty and fault-tolerant computing on the basis of task replication in multi-computer multi-computer systems and digital computer networks]. Informacionnye tehnologii v nauke, obrazovanii, telekommunikacii i biznese: materialy XXXVI Mezhdun-arodnoj konferencii i diskussionnogo nauchnogo kluba IT+SE'10. Majskaja sessija. Jalta-Gurzuf.- prilozhenie k zhurnalu «Otkrytoe obrazovanie» [Information technologies in science, education, telecommunications and business: materials of the XXXVI International Conference and Discussion Science Club IT + SE'10. May session. Yalta-Gurzuf.- supplement to the journal "Open Education"]. 2010. Pp. 119-121. (In Russian)
INFORMATION ABOUT AUTHORS:
Lobanov A. V., PhD, Senior Research Officer, head of laboratory of the Joint-Stock Company "Scientific Research Institute 'Submicron'"; Asharina I. V., PhD, Docent, Senior Research Officer of the Joint-Stock Company "Scientific Research Institute 'Submicron'"; Grishin V. Ju., PhD, Deputy Director of the Joint-Stock Company "Scientific Research Institute 'Submicron'";
Sirenko V. G., PhD, Full Professor, Director of the Joint-Stock Company "Scientific Research Institute 'Submicron'".
For citation: Lobanov A. V., Asharina I. V., Grishin V. Ju., Sirenko V. G. A prototype of a highly adaptive, distributed, net-centric, multicomplex malfunction- and fault-tolerant control system - a topical problem. H&ES Research. 2018. Vol. 10. No. 1. Pp. 0-00. doi 10.24411/2409-5419-2018-10019 (In Russian)