В дальнейших исследованиях планируется формализация предложенной методики и алгоритма, а также разработка аппаратной схемы устройства переразмещения для систем высокой готовности.
Работа выполнена в рамках программы „Научные и научно-педагогические кадры инновационной России на 2009—2013 годы" (проект 14.B37.21.0598).
список литературы
1. Зотов И. В. Организация и синтез микропрограммных мультимикроконтроллеров. Курск: Изд-во „Курск", 1999. 368 с.
2. Борзов Д. Б. Метод оперативного переразмещения задач в отказоустойчивых логических мультикон-троллерах // Нейрокомпьютеры: разработка, применение. 2010. № 1. С. 29—33.
3. Борзов Д. Б., Соколова Ю. В. Методика переразмещения подпрограмм в отказоустойчивых мультиком-пьютерах // Сб. тр. XVIII Междунар. науч.-техн. конф. „Машиностроение и техносфера XXI века". Донецк, 2011. Т. 1. С. 90—93.
4. Борзов Д. Б., Соколова Ю. В. Переразмещение подпрограмм в отказоустойчивых мультикомпьютерах при отказе связей // Сб. матер. Х Междунар. науч.-техн. конф. „Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание 2012". Курск, 2012. С. 238—240.
Дмитрий Борисович Борзов Юлия Васильевна Соколова Виктор Викторович Минайлов
Рекомендована Юго-Западным государственным университетом
Сведения об авторах
канд. техн. наук, доцент; Юго-Западный государственный университет, кафедра вычислительной техники, Курск; E-mail: [email protected] Юго-Западный государственный университет, кафедра вычислительной техники, Курск; преподаватель; E-mail: [email protected] Юго-Западный государственный университет, кафедра вычислительной техники, Курск; преподаватель; E-mail: [email protected]
Поступила в редакцию 18.02.13 г.
УДК 004.272.3+004.052.2
Р. В. Бредихин, Ньян Лин, И. В. Зотов
ОБ ОРГАНИЗАЦИИ ВСТРОЕННОГО АППАРАТНОГО ВЗАИМОКОНТРОЛЯ В ЛОГИЧЕСКИХ МУЛЬТИКОНТРОЛЛЕРАХ
Сформулированы принципы организации встроенного аппаратного контроля матричных логических мультиконтроллеров с целью оперативного выявления отказавших модулей на основе периодической взаимной проверки соседних модулей и формирования решения об отказе с использованием мажоритарной операции.
Ключевые слова: логические мультиконтроллеры, надежность, отказоустойчивость, аппаратный контроль, взаимный контроль, мажоритарная операция.
Логические мультиконтроллеры (ЛМК) перспективны для реализации параллельных систем логического управления [1]. В условиях стремительного роста сложности ЛМК и выполняемых ими управляющих алгоритмов особую важность приобретает задача обеспечения надежности мультиконтроллеров. В мультиконтроллере, содержащем сотни и тысячи моду-
лей, высока вероятность возникновения локальных отказов, а в случае СБИС-реализации возможны технологические дефекты.
Анализ показывает, что применение известных методов контроля и диагностики вычислительных устройств и повышения надежности за счет введения различных видов избыточности [2—5] в мультиконтроллерах затруднительно. В частности, трудности представляет задача оперативной локализации отказавших модулей. Известные методы ее решения базируются на использовании внешних средств оперативного контроля, которые фактически становятся дополнительным источником ненадежности мультиконтроллера [6—8].
Таким образом, возникает проблемная ситуация, связанная с отсутствием научных подходов к организации контроля ЛМК, позволяющих оперативно получать данные о текущем распределении отказавших модулей в физической структуре мультиконтроллера и учитывать их при передаче данных между работоспособными модулями. Отсутствие оперативных данных о распределении отказов и дефектов в ЛМК делает практически невозможным эффективное использование имеющихся методов и средств реконфигурации логической структуры ЛМК и отказоустойчивого управления передачей данных и координирующих сигналов.
В настоящей статье рассматриваются особенности организации аппаратного контроля логических мультиконтроллеров без использования внешних контролирующих средств (так называемый взаимоконтроль), позволяющие оперативно выявлять отказавшие модули (контроллеры).
Принципы организации аппаратного межмодульного взаимоконтроля мультиконтроллеров. Особенность предлагаемого подхода заключается в использовании схемного контроля коммуникационных средств каждого модуля расположенными рядом модулями (соседями) в топологической структуре мультиконтроллера. Ограничимся ё-мерной матричной топологией (ё > 2). Множество „контролирующих соседей" каждого модуля зависит от значения ё, его мощность должна быть нечетной и составлять не менее 3. К значениям (признакам), полученным всеми контролирующими соседями, применяется мажоритарная операция, формирующая окончательный результат контроля.
Описанная схема контроля позволяет каждому модулю одновременно проверять работоспособность нескольких соседей. Операции взаимного контроля модулей выполняются параллельно во времени, при этом сигнал о переходе модуля в неработоспособное состояние одновременно передается всем его физическим соседям, что позволяет оперативно ввести запрет на передачу данных через отказавший модуль.
Основным преимуществом взаимного контроля перед другими способами локализации отказов в матричном ЛМК является сохранение конструктивной однородности, распределенности и децентрализованности мультиконтроллера. Механизм взаимоконтроля позволяет косвенно проверять работоспособность самих схем контроля. Если, например, одна из схем выдает некорректные результаты, то контролируемый модуль не будет ошибочно признан дефектным, поскольку результирующий сигнал об отказе формируется мажоритарной операцией по большинству совпадений на множестве контролирующих соседей. Еще одно преимущество заключается в отсутствии необходимости обмена признаками состояния контролируемых модулей через коммуникационную среду, что положительно сказывается на ее пропускной способности, а следовательно, и на производительности мультиконтроллера.
Формирование множеств контролируемых и контролирующих соседей. Одной из основных задач организации межмодульного взаимоконтроля в ЛМК является выбор множеств контролируемых и контролирующих соседей для каждого модуля.
Определим правила формирования указанных множеств для случая двумерной матричной топологии и затем обобщим результаты на ё-мерный случай. Пусть и = \иху} — множество модулей мультиконтроллера, где х и у — координаты (индексы) модуля в матрице
соответственно по горизонтали и вертикали, отсчитываемые от ее левого нижнего угла, х = 0, п -1, у = 0, т -1, т и п — число строк и столбцов матрицы соответственно. Обозначим через СХу и КХу множества контролируемых и контролирующих соседей модуля иху соответственно. Тогда для произвольных х е{0,1,..., п -1}, у = {0,1,..., т -1} будут справедливы следующие правила:
и0у, их0, и00 } при (х = п - 1)л^.у = т -1);
и0у, и0(у+1), их(у+1) } при (х = п -1)л (у < т -1);
С=
^ху
Кху =
и(х+1)у,и(х+1)0, их0 } при (х < п - 1) л (у = т -1);
и(х+1)у, и(х+1)(у+1), их(у+1) } иначе
(1)
х( т-1
(2)
l),и(п-1)(т-1), и(п-1)у } при (х = 0)Л(у = 0); их(т-1), и(х-1)(т-1), и(х-1)у } при (х > 0) Л (у = 0);
их^-1), и„-1)(у-1), и(„-1)у} пРи (х = 0)л (у > 0);
их(у-1), и(х-1)(у-1), и(х-1)у } иначе.
Рис. 1 и 2 иллюстрируют правила формирования множеств Сху и Кху согласно формулам (1) и (2). Модули ЛМК изображены в виде квадратов (связи между ними не показаны), множества Сху и Кху выделены жирными линиями и показаны штриховкой, сплошной заливкой выделены модули, для которых формируются множества контролируемых и контролирующих соседей.
С
(я-1)(т-1)
С
т-1 т-2 т-3 т-4
х(т 1.1
С,
п-1)(т-1)
у+1 ... \ Сху | ...
у ш
С
1)у
К0(
т-1 т-2 т-3 т-4
у
у-1
Кх(
К0
К
П"~| и
0у
С(я-1)(т-1)
1 2 3 4
п х х+1 Рис. 1
С(я-1)(т-1)
п-2 п-1
0 t
К00
К0
0у
Кх0 К0
1 2 3 4
Кх0
х-1 х Рис. 2
п-1 п
Правила (1) и (2) легко обобщаются на ё-мерные матричные топологии. Так, для трехмерной матрицы (учитывая очевидные соотношения между координатами модулей, расположенных на краях матрицы) правила (1) и (2) можно записать так:
С =
(х+1)то(!п,у,z' Ux,(y+1)modm,z, их,у,(2+1)modр, и(х+1)то(1 n,(y+1)modга,.
П(
х+1)хж^п,у,(+l)modр' Ux,(y+l)modm,(z+l)modр, u(x+l)modn,(y+l)modm,(z+l)modр'
П(
(3)
К =
xyz ~
U(x+(l-sign(х))п-1),у,z ' Ux,(y+(l-sign(у))т-1),^ ' Ux,y,(z+(l-sign(z) )р-1) ' М(х+(1^п(х))n-l),(y+(l-sign(у))т-1),^ ' и(х+(1^щ;х))п-1),y,(z+(1^п(z))р-1)'
и
х,(+(1^п( у) )m-l),(z+(l-sign( z ))р-1)) (х+(1 -sign( х))п-1),(у+(1-^щ; y))m-l),(z+(l-sign( z ))р -1)
(4)
где m, п, р — размерность матрицы в направлениях X, У и 2 соответственно.
Аналогичным образом можно получить выражения для формирования множеств контролируемых и контролирующих соседей в случае ё-мерной матрицы (Схх х и Кхх х ).
При этом необходимо учесть количество простых (х, у, z) и сложных ((х + 1)пюё п, (х + (1 - sign(х))п -1)) индексов и их возможные сочетания в нумерации модулей. Можно
показать, что
Сх
Л1Л2-
кх
= ё (ё -1) +1.
(5)
Согласно формуле (5), у каждого модуля нечетное число контролирующих соседей, что позволяет вне зависимости от размерности матрицы с помощью мажоритарной операции над сигналами от контролирующих модулей формировать результирующий сигнал об отказе мо-
дуля. В двумерной матрице число контролирующих соседей минимально:
К
ху
= 3, в трех-
мерной
К
xyz
= 7.
Определение межмодульных связей для организации взаимоконтроля. Определение множества связей, обеспечивающих межмодульный взаимоконтроль, осуществляется в
соответствии с правилами (1)—(4). Каждый модуль и
хх ...х должен иметь
Сх
двуна-
правленных связей для передачи команд тестирования контролируемым соседям и получения
результатов,
Кх
двунаправленных связей для приема таких команд от контролирую-
щих соседей и передачи им результатов,
Кх
Л1Л2.
входных связей для приема признаков ра-
ботоспособности от контролирующих соседей и 2ё выходных связей для передачи обобщенного признака работоспособности данного модуля всем соседним модулям.
На рис. 3 представлена конфигурация указанных связей для двумерного матричного
ЛМК. Здесь через Т^у, обозначены потоки команд тестирования и результатов, передаваемых между модулями иху и и^у (иху в данном случае является контролирующим, а и^у — кон-
ху
ху
тролируемым); фх, — признак работоспособности модуля и^у, формируемый модулем и;
гху
ху
ху
Фху — обобщенный признак работоспособности модуля иху; БКС — блок контроля соседей, обеспечивающий выдачу команд тестирования, анализ результатов и формирование призна-
ху ху
ков фху . Значения признаков фху и ф определяются следующим образом:
ху
ху
г ху
ху
фх,, = 1, если модуль и „считает" модуль и^у работоспособным, и фх^у = 0 иначе;
ху
г ху
ф ху = #1 ф
ху
ху
г ху
# \ ( х+(1-^п(х ))п-1), у ( х+(1-^п(х ))п-1),( у+(1-^п(у ))»г-1) х,( y+(l-sign(y))-!)
# I ф ху ,ф ху ,ф ху
где # — символ мажоритарной операции; при фху = 1 модуль иху рассматривается как работоспособный, а при ф^ = 0 — как отказавший.
-rxy (Л ХУ
x,(y+l)mod ^X,(y+l)mod т „ ,(y+1)mod
m xy
т (x+l)modn, (y+1)mod m
Tx
(x+(l-sign(x))n l),y^
xy
m
( x+(l—sign(x))n—l),
xy
m
( x+(l—sign(x ))n—1),( y+(l—sign(y ))m—l)
xy
(x+(l—sign(x ))n—l),(y+(l—sign(y ))m—l) , 7xy rj-i xy +(l—signl
xy
7 xy (x+l)mod n, y
xy
(x+l)mod n, y
п(у ))и-1)" ~ ху х,(y+(l-sign(y))т-1)
ф ху
Рис. 3
Заключение. Описанная организация аппаратного взаимного контроля обеспечивает возможность оперативного выявления отказавших модулей в матричных мультиконтролле-рах произвольной размерности без использования внешних средств контроля. Полученные данные о распределении отказов в ЛМК могут быть использованы при выполнении процедур реконфигурации мультиконтроллера с целью логического отключения отказавших модулей, а также при работе алгоритмов отказоустойчивого управления межмодульным обменом для поиска альтернативных маршрутов передачи данных. Ряд вопросов организации взаимоконтроля требует дальнейшего тщательного исследования, в частности, разработки алгоритмов и структуры средств контроля соседних модулей, а также принципов определения множества контрольных точек в алгоритмах логического управления.
список литературы
1. Емельянов С. Г., Зотов И. В., Титов В. С. Архитектура параллельных логических мультиконтроллеров. М.: Высш. школа, 2009. 233 с.
2. ДиановВ. Н. Диагностика и надежность автоматических систем. М.: МГИУ, 2005. l60 с.
3. Черкесов Г. Н. Надежность аппаратно-программных комплексов. СПб: Питер, 2005. 478 с.
4. Иыуду К. А., Кривощеков С. А. Математические модели отказоустойчивых вычислительных систем. М.: МАИ, l989. l44 с.
5. Кун С. Матричные процессоры на СБИС / Пер. с англ. под ред. Ю. Г. Дадаева. М.: Мир, l99l. 672 с.
6. Лаходынова Н. В., Воробьев В. А., Еремина Н. Л. Отказоустойчивость однородных процессорных матриц. Томск: Изд-во Томского архит.-строит. ун-та, 2002. l53 с.
7. Колоскова Г. П. Модели и алгоритмы реконфигурации многопроцессорных систем. Курск: Курский гос. техн. ун-т, 2004. 257 с.
8. Takanami I. Built-in self-reconfiguring systems for fault tolerant mesh-connected processor arrays by direct spare replacement // Proc. IEEE Intern. Symp. Defect and Fault Tolerance in VLSI Systems. 200l. P. l34—142.
Руслан Владимирович Бредихин Лин Ньян
Игорь Валерьевич Зотов
Рекомендована Юго-Западным государственным университетом
Сведения об авторах аспирант; Юго-Западный государственный университет, кафедра информационных систем и технологий, Курск
аспирант; Юго-Западный государственный университет, кафедра информационных систем и технологий, Курск; E-mail: [email protected] д-р техн. наук, профессор; Юго-Западный государственный университет, кафедра информационных систем и технологий, Курск; E-mail: [email protected]
Поступила в редакцию 18.02.13 г.