Научная статья на тему 'Оценка нахождения реконфигурируемой вычислительной системы в состояниях эффективного функционирования'

Оценка нахождения реконфигурируемой вычислительной системы в состояниях эффективного функционирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
114
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕКОНФИГУРИРУЕМАЯ ВЫЧИСЛИТЕЛЬНАЯ СИСТЕМА / МАРКОВСКИЕ ПРОЦЕССЫ / ТЕОРЕТИКО-ИГРОВАЯ ОПТИМИЗАЦИЯ / СТРУКТУРА ПРОБЛЕМНО-ОРИЕНТИРОВАННЫХ ВЫЧИСЛИТЕЛЕЙ / RECONFIGURABLE COMPUTING SYSTEM / MARKOV PROCESSES / METHODS OF GAME-THEORETIC OPTIMIZATION / STRUCTURE OF TASK-ORIENTED CALCULATORS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Строцев Андрей Анатольевич, Андреев Александр Александрович

Рассматривается методика оценки реконфигурируемой вычислительной системы в состояниях эффективного функционирования, учитывающая структуру проблемно-ориентированных вычислителей. В качестве основного математического аппарата использованы теория дискретных марковских процессов и методы теоретико-игровой оптимизации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Строцев Андрей Анатольевич, Андреев Александр Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Evaluation of finding reconfigurable computing system is able to effectively function

The methods of evaluation of reconfigurable computing system is able to effectively function, which takes into account the structure of the problem-oriented calculators. The main mathematical tool used in the theory of discrete Markov processes and methods of game-theoretic optimization.

Текст научной работы на тему «Оценка нахождения реконфигурируемой вычислительной системы в состояниях эффективного функционирования»

Оценка нахождения реконфигурируемой вычислительной системы в состояниях эффективного функционирования А.А. Строцев, А.А. Андреев

Южный Федеральный университет, г. Ростов-на-Дону

По состоянию на июнь 2012 года в соответствии с рейтингом и описанием 500 самых мощных общественно известных компьютерных систем мира около 80% суперЭВМ реализованы в рамках архитектуры кластерных вычислительных систем (КВС). Поскольку для обеспечения требуемой вычислительной производительности кластерная архитектура вычислительных систем подразумевает наличие в своём составе достаточно большого числа кластеров (а тем более их узлов), то одним из недостатков таких систем является относительно их невысокая надёжность [1] по показателю вероятности нахождения в состоянии, при котором они соответствуют всем требованиям нормативно-технической и (или) конструкторской (проектной) документации. Поскольку закреплённой в ГОСТ [2] основой для оценки сложных технических систем в условиях риска является аппарат дискретных марковских случайных процессов, а ряд факторов (причин неисправностей) могут не иметь вероятностного описания, то в [3] разработана методика теоретико-игровой оценки нахождения КВС в состояниях эффективного функционирования на основе марковской модели.

С другой стороны, тенденцией развития КВС является постепенный переход от их применения для решения в основном исследовательских и проектировочных задач к применению в различных системах управления реального времени. В таких системах совокупность решаемых задач требует интенсивного информационного обмена, что делает их «сильносвязанными». При этом для этого класса задач реальная производительность КВС существенно снижается и не превышает 5-10% от декларируемой пиковой производительности системы [4]. Как показано в [5] - [7], причинами этого является несоответствие архитектуры суперкомпьютера структуре решаемых задач. Для преодоления этого несоответствия в НИИ МВС ЮФУ разработана концепция создания реконфигурируемых вычислительных систем (РВС), т.е. систем с динамически перестраиваемой (перепрограммируемой) архитектурой, позволяющей создавать на её базе структуру проблемно-ориентированных вычислителей, соответствующую структуре решаемой задачи [7], [8]. Поскольку РВС, как и КВС, состоят из большого числа элементов, то задача оценки их надёжности в рамках создания отказоустойчивых вычислительных систем [9], [10] также является важной. Однако непосредственное применение известных методик, например, представленной в [3], невозможно, т.к. они не учитывают структуру проблемно-ориентированных вычислителей, реализуемых в РВС.

Таким образом, разработка методики теоретико-игровой оценки нахождения реконфигурируемой вычислительной системы в состояниях эффективного функционирования на основе марковской модели, учитывающей структуру проблемноориентированных вычислителей, является актуальной задачей.

Пусть РВС состоит из базовых модулей , і = 1,1, каждый из которых включает

проблемно-ориентированные вычислители Cj , і = 1,1, ji = 1, Ji (описание базовых модулей

семейства РВС, состоящих из элементов, в частности, из ПЛИС, модулей памяти SDRAM, подсистемы питания, LVDS-каналов и пр., представлено в [4]).

В соответствие с ГОСТ [2] для описания сложной технической системы в классе марковских процессов необходимо ввести понятие состояния и перечислить все возможные состояния системы. Для этого, как и в [3], обозначим наборы двоичных чисел

разрядности Я = 2 J¡ в виде пк ( к = 0, К , К = 2Я -1), где каждый г-й разряд ( г = 0, Я -1)

характеризует состояние соответствующего элемента базового модуля РВС: разряд (Я-1)

- состояние элемента С11,..., разряд ( Я - J1) - состояние элемента Си^ , разряд (Я - J1 -1) -

состояние элемента С21,., 0 разряд - состояние элемента Сц^ . При этом нулевое

значение в разряде обозначает неисправность соответствующего элемента базового модуля РВС, а единичное - его работоспособное состояние.

Однако в отличие от методики, рассмотренной в [3] для КВС, под состоянием РВС нельзя понимать совокупность состояний её любых отдельных элементов, и представить конечное множество состояний РВС выражением

Я =&. V-. ^}.

поскольку такая формализация не будет отражать учёт структуры РВС.

Для такого учёта: 1) под элементами базовых модулей будем понимать их конструктивные элементы, которые при поиске и устранении неисправности базового модуля подлежат оперативной замене; 2) положим, что для решения задачи в РВС формируется V проблемно-ориентированных вычислителей - ПОВу, V = \,У; 3) введём в

рассмотрение множества Ь = ^ :(/, ji) , 1Ч = 1, \ , С ц е ПОВv}, V = \у, где С\к е ПОВу

означает принадлежность j ¡ -го элемента базового модуля М 1 v-му проблемноориентированному вычислителю.

Тогда можно определить наборы двоичных чисел разрядности V в виде р2,

г = 0,2 ,2 = 2V -1, где каждый Ь -й разряд ( Ь = 0У -1) характеризует состояние соответствующего проблемно-ориентированного вычислителя РВС: 0 разряд - состояние вычислителя ПОВх,..., разряд (Р-1) - состояние вычислителя ПОВV. При этом нулевое

значение в разряде обозначает неисправность соответствующего проблемноориентированного вычислителя, а единичное - его работоспособное состояние.

Тогда под состоянием РВС, учитывающим структуру проблемно-ориентированных вычислителей, можно понимать совокупность их состояний, каждое из которых определяется состоянием элементов из соответствующего множества , V = 1, V. В свою очередь, конечное множество состояний РВС определяется выражением

Состояния 8р , г = 0,2 образуют Я групп с признаком принадлежности к группе

, g = 0, Я -1 по общему числу единиц в двоичном числе р2, равном g . Группы,

отличающиеся по номеру на единицу, являются соседними. Множество, образованное парами соседних состояний, обозначим .

На основе анализа функционирования РВС может быть получен граф состояний (диаграмма состояний-переходов) Г = (£,и), и - множество дуг графа, с интенсивностями

переходов Лг^ , (г, г1) е 2 = [г,):^Рг,£Рг1 е8с,г=0,2,г1 =0,2}, учитывающими действие случайных

факторов.

Во множестве Б можно выделить подмножество состояний £э, обеспечивающих эффективное функционирование РВС в системе управления реального времени с учётом отказоустойчивости, т.е. состояний, обеспечивающих удовлетворения требований к ней с заданными количественными характеристиками. В этом случае показателем эффективности РВС может являться стационарная (предельная) вероятность нахождения системы в одном из состояний из множества £э.

¡-=1

(1)

Тогда в условиях, определяющих возможность существования стационарных вероятностей нахождения системы в соответствующих состояниях Pz = P(Sp ), z = 0, Z (представленных, например, в [11]), искомая оценка может быть получена по выражению

P{S,) =£ Pz , (2)

а для нахождения Р2 = Р(5р ), г = 0, Z необходимо решение системы алгебраических уравнений вида:

-Р IX, + ТРЛ = 0. г = 0,Z; ^Р = 1- (3)

г =0 -1=0 г=0

(: ,-1 )еZ (-1,-)еZ

Для получения оценки стационарной вероятности нахождения РВС в одном из состояний её эффективного функционирования по выражениям (2), (3) необходимо знание

интенсивностей Л .

--1

Однако, при переходе из состояний, входящих в группу Оё , в состояния из группы Оё-1 возможны ситуации, для которых неисправность соответствующего проблемноориентированного вычислителя связана с несколькими причинами, определяемыми неисправностью элементов из соответствующего ему множества . V = 1. V . При этом

локализация неисправности (действия, направленные на идентификацию неисправной составной части или нескольких составных частей на соответствующем уровне разукрупнения [12]) однозначно влечёт и устранение этой неисправности. Например, локализация неисправности проблемно-ориентированного вычислителя осуществляется путём последовательной замены обеспечивающих его работу элементов базовых модулей (из соответствующего ему множества Lv, V = 1. V), рассматриваемых в качестве причин неисправности, на достоверно работоспособные. Обозначим множество пар таких состояний через 5сн. Тогда, если 5р^ е , я е ое и ^ е а?-1, то интенсивность перехода

из состояния в состояние неизвестна, т.к. зависит от стратегии локализации-

устранения неисправности и её причины. Если вероятности появления этих причин неизвестны или их оценки статистически не достоверны, то можно воспользоваться теоретико-игровым подходом, который является гарантированным в смысле достижения ситуации равновесия в антагонистической игре с матрицей выигрышей первого игрока

- (4)

p

Решение игры в чистых стратегиях (при наличии седловой точки в матрице (4)) позволяет определить искомую интенсивность в виде:

Л?2'Pz1 = max min 4Pz2'Pz1 j

Pz2’ Pz, jpz, ' Pz2 iPz2' Pz, jPz,' Pz2 PZ1’ PZ1 PZ1’ P'2

= min max Лр2'р . (5)

jP P iP P ‘Pz2 ' Pz1 1 Pz1' Pz2

J Pz1 ' Pz2 Pz2 ' Pz1

Если равенство (5) не выполняется, то решение игры X* = arg max (min H р2'p (X, Y)), Y* = arg min(max H p2'p (X, Y)),

^ P2 ' Pz1 Jpz1 ' Pz2

H = V V Лр2 'Pz1 . E n. может быть получено на множествах смешанных

pz2 ' pz1 jpz1 ' pz2 pz2 ' pz1 jpz1 ' pz2

iPz2' Pz1 1 jPz1' Pz2 1

стратегий M#' M, ( X eM^ ' Y eM,' X = (£&... En )T ' Ei ^ 0' i = 1' n, Y = (шт-Пт )

T

Spz eSэ

п ¡> 0, j = 1, т, = 1, ТП]= 1) как результат решения прямой и двойственной задач

¿=1 j=l

линейного программирования [4].

При этом в качестве оценки неизвестной интенсивности Л принимается её

математическое ожидание Н Рг’р (X *, У *).

Тогда методика может быть представлена в виде следующей последовательности операций:

1. Формирование множества 5 состояний РВС (1).

2. Оценка состояний по эффективности функционирования РВС в системе управления реального времени, учитывающая структуру проблемно-ориентированных вычислителей, и определение множества .

3. Формирование диаграммы состояний-переходов и определение множества я™

пар состояний с неизвестными интенсивностями переходов.

4. Решение теоретико-игровых задач, определяемых матрицами (4) для всех пар индексов из множества я™, с получением оценок неизвестных интенсивностей переходов

в виде значений интенсивностей (5) или их математических ожиданий НРп’р (х *, У *).

6. Решение системы линейных алгебраических уравнений (3) относительно предельных вероятностей нахождения системы в состояниях из множества 5.

7. Определение оценки вероятности нахождения кластерной вычислительной системы в состояниях эффективного функционирования по выражению (2).

Таким образом, разработанная методика позволяет получить гарантированную в теоретико-игровом смысле оценку нахождения реконфигурируемой вычислительной системы в состояниях эффективного функционирования в системах управления реального времени, учитывающей структуру проблемно-ориентированных вычислителей, при деградации её структуры в результате отказов отдельных элементов базовых модулей.

Кроме того, на основе полученных оценок могут быть реализованы алгоритмы оптимизации процессов поиска и устранения дефектов РВС. Для малого числа реализаций игровой ситуации применимы модели и методы решения смешанного расширения матричных игр неклассического типа, представленные в [13].

Литература:

1. Наумов А. Блейд-система T-Blade 2 // Суперкомпьютеры, 2010. - № 1. - С. 46,

47.

2. ГОСТ Р 51901.15-2005 Менеджмент риска. Применение марковских методов. -М.: Стандартинформ, 2005.

3. Строцев А.А. Методика теоретико-игровой оценки нахождения кластерной вычислительной системы в состояниях эффективного функционирования на основе марковской модели // В сб. «Суперкомпьютерные технологии (СКТ-2012) // Материалы 2й Всероссийской научно-технической конференции. - Ростов-на-Дону: Издательство Южного федерального университета, 2012. - 410 с». - С. 192 - 196.

4. Дмитренко Н.Н., Каляев И.А., Левин И.И., Семерников Е.А. Реконфигурируемые вычислительные системы для решения вычислительно трудоёмких задач // В сб. «Труды Всероссийской научной конференции (22-27 сентября 2008 г., г. Новороссийск).- М.: Изд-во МГУ, 2008. - 468 с. ISBN 978-5-211-05616-9» . - С. 265 - 270.

5.Алдышев О.С., Дикарев Н.И., Овсянников А.П. и др. СуперЭВМ: области применения и требования к производительности // Известия ВУЗов. Электроника, 2004. -№1. - С.13-17.

6. Воеводин В.В., Воеводин Вл.В. Параллельные вычисления. -С.-Пб.: «БХВ-Петербург», 2002. -599 с.

7. Каляев И.А., Левин И.И. Модульно-наращиваемые многопроцессорные системы со структурно-процедурной организацией. - М.: Янус-К, 2003. - 380 с.

8. Каляев И.А., Левин И.И. Семерников Е.А., Шмойлов В.И. Реконфигурируемые мультиконвейерные вычислительные структуры / Под ред. И.А. Каляева. - Ростов-на-Дону: Издательство ЮНЦ РАН, 2008. - 320 с.

9. Авиженис А. Отказоустойчивость - свойство, обеспечивающее постоянную работу цифровых устройств // ТИИЭР, 1978. - Т.66. - №10. - С. 5-25.

10. Катаев О. В. Методология проектирования отказоустойчивых вычислительных систем // В сб. «Суперкомпьютерные технологии (СКТ-2012) // Материалы 2-й Всероссийской научно-технической конференции. - Ростов-на-Дону: Издательство Южного федерального университета, 2012. - 410 с». - С. 220 - 224.

11. Макаров Ю.Н., Строцев А.А. Методология исследования сложных организационно-технических систем, функционирующих в конкурентной среде при ограниченных ресурсах. Монография. Ростов-на-Дону: Изд-во ЮФУ, 2010. - 132 с.

12. ГОСТ Р 27.002-2009 (Р 53480-2009). Надёжность в технике. Основные понятия. Термины и определения. - М.: Стандартинформ, 2011.

13. Строцев А.А. Построение смешанного расширения матричной игры «неклассического» типа // Изв. РАН. Теория и системы управления. - 1998. - № 3. - С. 119-124.

i Надоели баннеры? Вы всегда можете отключить рекламу.