Научная статья на тему 'Разбиение графов микродоменов'

Разбиение графов микродоменов Текст научной статьи по специальности «Математика»

CC BY
251
62
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ДЕКОМПОЗИЦИЯ СЕТОК / РАЗБИЕНИЕ ГРАФОВ / GRAPH PARTITIONING / ПАРАЛЛЕЛЬНЫЕ ВЫЧИСЛЕНИЯ / PARALLEL ALGORITHMS / МЕТОД СЕТОК / MESH-BASED METHOD / ЧИСЛЕННЫЙ ЭКСПЕРИМЕНТ / NUMERICAL SIMULATION / ГАЗОВАЯ ДИНАМИКА / МЕХАНИКА СПЛОШНЫХ СРЕД / CONTINUUM MECHANICS / БАЛАНСИРОВКА ЗАГРУЗКИ / LOAD BALANCING / ДОМЕНЫ / DOMAINS / МИКРОДОМЕНЫ / ПАРАЛЛЕЛЬНЫЕ АЛГОРИТМЫ / MESH PARTITIONING / HIGH-PERFORMANCE COMPUTING / GASDYNAMICS / MICRODOMAINS

Аннотация научной статьи по математике, автор научной работы — Головченко Е. Н., Дорофеева Е. Ю.

Задача рациональной декомпозиции расчетных сеток возникает при численном моделировании на высокопроизводительных вычислительных системах проблем механики сплошных сред, импульсной энергетики, электродинамики и многих других. Число процессоров, на которых будет считаться вычислительная задача, как правило, заранее неизвестно, поэтому имеет смысл предварительно однократно разбить сетку на большое число микродоменов, а потом формировать из них домены. Задача сбалансированного разбиения сетки на домены сводится к более общей задаче разбиения графа на домены. Методы разбиения графов параллельных пакетов PARMETIS, JOSTLE, PT-SCOTCH и ZOLTAN основываются на иерархических алгоритмах, недостатком которых является образование доменов, границы которых состоят из неоптимальных наборов сегментов, в частности несвязных доменов. Другим недостатком указанных пакетов является получение сильно несбалансированных разбиений. Разработан комплекс программ GRIDSPIDERPAR декомпозиции больших сеток, алгоритмы которого поддерживают два основных этапа декомпозиции больших сеток: предварительную декомпозицию сетки по процессорам и параллельную декомпозицию сетки высокого качества. Проведены вычислительные эксперименты по сравнению различных разбиений графов микродоменов на домены, а также разбиений сразу на домены четырех тетраэдральных сеток (10 8 вершин, 10 9 тетраэдров), полученных методами созданного комплекса программ GRIDSPIDERPAR, пакета PARMETIS, пакета ZOLTAN и пакетом PT-SCOTCH. На задаче моделирования распространения ударной волны от приземного взрыва проведено тестирование различных разбиений графов микродоменов и разбиения сразу на домены, полученных параллельным инкрементным алгоритмом созданного комплекса программ GRIDSPIDERPAR. Результаты позволяют сделать вывод, что при достаточном количестве микродоменов в доменах разбиения графов микродоменов не уступают по качеству разбиению сразу на домены.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Головченко Е. Н., Дорофеева Е. Ю.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MICRODOMAIN GRAPH PARTITION

The problem of load balancing arises in parallel mesh-based numerical solution of problems of continuum mechanics, pulsed-power energetics, electrodynamics etc. on high-performance computing systems. The number of processors to run a computational problem is often unknown. It makes sense, therefore, to partition a mesh into a great number of microdomains which then are used to create domains. The problem of load balancing is connected with the graph partitioning problem. Methods of graph partitioning implemented in state-of-the-art parallel partitioning tools PARMETIS, JOSTLE, PT-SCOTCH and ZOLTAN are based on multilevel algorithms, which have a shortcoming of making domains with longer frontiers or irregular shapes. In particular these methods can form unconnected domains. Another shortcoming of present graph partitioning methods is generation of strongly imbalanced partitions. Partitioning tool GRIDSPIDERPAR for large mesh decomposition was developed. Devised parallel algorithms support two main stages of large mesh partitioning: preliminary mesh partitioning among processors and parallel mesh partitioning of high quality. Different microdomain graphs partitions and partitions into domains of four tetrahedral meshes (10 8 vertices, 10 9 tetrahedrons) obtained by means of the partitioning tool GRIDSPIDERPAR and the packages PARMETIS, ZOLTAN and PT-SCOTCH were compared. Different microdomain graphs partitions and partition into domains obtained by the parallel incremental algorithm from the partitioning tool GRIDSPIDERPAR were tested on the near-earth explosion simulation problem run on different partitions. The obtained results allow to state that microdomain graphs partitions with sufficient number of microdomains are of the same quality as partition into domains.

Текст научной работы на тему «Разбиение графов микродоменов»

Вестник ПНИПУ. Аэрокосмическая техника. 2014. № 39

УДК 004.021

Е.Н. Головченко, Е.Ю. Дорофеева

Институт прикладной математики им. М.В. Келдыша РАН, Москва, Россия

РАЗБИЕНИЕ ГРАФОВ МИКРОДОМЕНОВ

Задача рациональной декомпозиции расчетных сеток возникает при численном моделировании на высокопроизводительных вычислительных системах проблем механики сплошных сред, импульсной энергетики, электродинамики и многих других. Число процессоров, на которых будет считаться вычислительная задача, как правило, заранее неизвестно, поэтому имеет смысл предварительно однократно разбить сетку на большое число микродоменов, а потом формировать из них домены. Задача сбалансированного разбиения сетки на домены сводится к более общей задаче разбиения графа на домены. Методы разбиения графов параллельных пакетов PARMETIS, JOSTLE, PT-SCOTCH и ZOLTAN основываются на иерархических алгоритмах, недостатком которых является образование доменов, границы которых состоят из неоптимальных наборов сегментов, в частности несвязных доменов. Другим недостатком указанных пакетов является получение сильно несбалансированных разбиений. Разработан комплекс программ GRIDSPIDERPAR декомпозиции больших сеток, алгоритмы которого поддерживают два основных этапа декомпозиции больших сеток: предварительную декомпозицию сетки по процессорам и параллельную декомпозицию сетки высокого качества. Проведены вычислительные эксперименты по сравнению различных разбиений графов микродоменов на домены, а также разбиений сразу на домены четырех тетраэдральных сеток (108 вершин, 109 тетраэдров), полученных методами созданного комплекса программ GRIDSPIDERPAR, пакета PARMETIS, пакета ZOLTAN и пакетом PT-SCOTCH. На задаче моделирования распространения ударной волны от приземного взрыва проведено тестирование различных разбиений графов микродоменов и разбиения сразу на домены, полученных параллельным инкрементным алгоритмом созданного комплекса программ GRIDSPIDERPAR. Результаты позволяют сделать вывод, что при достаточном количестве микродоменов в доменах разбиения графов микродоменов не уступают по качеству разбиению сразу на домены.

Ключевые слова: декомпозиция сеток, разбиение графов, параллельные вычисления, метод сеток, численный эксперимент, газовая динамика, механика сплошных сред, балансировка загрузки, домены, микродомены, параллельные алгоритмы.

E.N. Golovchenko, E.Yu. Dorofeeva

Keldysh Institute of Applied Mathematics (Russian Academy of Sciences), Moscow, Russian Federation

MICRODOMAIN GRAPH PARTITION

The problem of load balancing arises in parallel mesh-based numerical solution of problems of continuum mechanics, pulsed-power energetics, electrodynamics etc. on high-performance computing systems. The number of processors to run a computational problem is often unknown. It makes sense, therefore, to partition a mesh into a great number of microdomains which then are used to create domains. The problem of load balancing is connected with the graph partitioning problem. Methods of graph partitioning implemented in state-of-the-art parallel partitioning tools PARMETIS, JOSTLE,

PT-SCOTCH and ZOLTAN are based on multilevel algorithms, which have a shortcoming of making domains with longer frontiers or irregular shapes. In particular these methods can form unconnected domains. Another shortcoming of present graph partitioning methods is generation of strongly imbal-anced partitions. Partitioning tool GRIDSPIDERPAR for large mesh decomposition was developed. Devised parallel algorithms support two main stages of large mesh partitioning: preliminary mesh partitioning among processors and parallel mesh partitioning of high quality. Different microdomain graphs partitions and partitions into domains of four tetrahedral meshes (108 vertices, 109 tetrahedrons) obtained by means of the partitioning tool GRIDSPIDERPAR and the packages PARMETIS, ZOLTAN and PT-SCOTCH were compared. Different microdomain graphs partitions and partition into domains obtained by the parallel incremental algorithm from the partitioning tool GRIDSPIDERPAR were tested on the near-earth explosion simulation problem run on different partitions. The obtained results allow to state that microdomain graphs partitions with sufficient number of microdomains are of the same quality as partition into domains.

Keywords: mesh partitioning, graph partitioning, high-performance computing, mesh-based method, numerical simulation, gasdynamics, continuum mechanics, load balancing, domains, microdomains, parallel algorithms.

Введение

Задача рациональной декомпозиции расчетных сеток возникает при численном моделировании на высокопроизводительных вычислительных системах проблем механики сплошных сред, импульсной энергетики, электродинамики и многих других. При распараллеливании подобных вычислительных приложений используется метод геометрического параллелизма, при котором сетка, аппроксимирующая расчетную область, распределяется между процессорами по геометрическому признаку. В ходе расчета каждый процессор обрабатывает свою часть сетки. Эффективность работы многопроцессорной вычислительной системы определяется тем, насколько равномерно распределена сетка по процессорам и насколько минимизированы затраты на передачу данных между процессорами. Объем передаваемых между процессорами данных зависит от числа связей между распределенными по процессорам доменами (частями сеток).

Декомпозиция регулярных сеток намного проще декомпозиции нерегулярных сеток, однако нерегулярные сетки, в частности треугольные и тетраэдральные, лучше аппроксимируют области сложной геометрической формы. Под областями сложной геометрической формы подразумеваются, например, области с внутренними полостями, декомпозиция которых приводит к возникновению несвязных доменов.

В данной работе сделан акцент на статической декомпозиции сеток. Статическая декомпозиция сетки проводится один раз перед началом расчета задачи. В отличие от нее динамическая декомпозиция выполняется периодически в ходе расчета для балансировки загрузки

и используется в задачах, вычислительная структура которых меняется в процессе счета.

Задача сбалансированного разбиения сетки на домены сводится к более общей задаче разбиения графа на домены. В этом случае выполняется разбиение графа, аппроксимирующего вычислительные и коммуникационные нагрузки сетки. Существует несколько моделей декомпозиции графов [1], отличающихся видом графа и критериями сбалансированного разбиения. В случае разбиения сеток хорошо себя зарекомендовал наиболее распространенный подход, использующий стандартную модель графа. В нем сетка аппроксимируется неориентированным графом G = (V,E), где V - множество вершин; E - множество ребер. И вершины, и ребра имеют вес. Оптимальным считается разбиение на домены, при котором выровнен суммарный вес вершин в доменах и минимизирован суммарный вес разрезанных ребер (разрезанное ребро - ребро, соединяющее вершины из разных доменов). В данной модели суммарный вес вершин в доменах отвечает за равномерность распределения вычислительной нагрузки по процессорам, которые будут обрабатывать эти домены, а суммарный вес разрезанных ребер - за коммуникационную нагрузку между процессорами. Как известно, поставленная задача декомпозиции графа является NP-полной, поэтому для ее решения используются различные эвристические методы. К геометрическим методам относятся алгоритмы рекурсивных координатной и инерциальной бисекций и декомпозиция с использованием кривой Гильберта. К методам разбиения графов относятся алгоритм спектральной бисекции, алгоритм Kernighan-Lin (KL) и Fiduccia-Mattheyses (FM), иерархические алгоритмы, диффузионные и генетические алгоритмы, используемые в рамках иерархического подхода, алгоритмы, оптимизирующие характеристические отношения доменов, «жадные» алгоритмы (greedy methods), или алгоритмы наращивания доменов, и инкрементный алгоритм декомпозиции графов. Эти алгоритмы, за исключением инкрементного, реализованы в следующих последовательных пакетах декомпозиции графов: METIS, JOSTLE, SCOTCH, CHACO и PARTY. К параллельным пакетам относятся PARMETIS (параллельная версия пакета METIS), JOSTLE, PT-SCOTCH (параллельная версия пакета SCOTCH) и ZOLTAN.

Число процессоров, на которых будет считаться вычислительная задача, как правило, заранее неизвестно, поэтому имеет смысл предварительно однократно разбить сетку на большое число микродоменов,

а потом формировать из них домены. Количество микродоменов на несколько порядков меньше числа вершин, поэтому многократное разбиение микродоменов на домены быстрее многократного разбиения всей сетки.

Широко известны методы декомпозиции областей, используемые для решения линейных и нелинейных систем уравнений, возникающих при дискретизации дифференциальных уравнений с частными производными, например метод Шварца [2]. В нем геометрическая область разбивается на множество микродоменов, что позволяет организовать эффективные параллельные вычисления.

Еще одной областью использования разбиения сеток на микродомены является хранение больших сеток. Разбиение сеток на микродомены позволяет увеличить коэффициент компрессии сеточных данных.

Областью данного исследования являются нерегулярные сетки, содержащие 109 и более вершин. В настоящее время такие сетки невозможно разместить в памяти одного процессора (на гексаэдральную сетку, состоящую из 1,2 • 108 ячеек, требуется порядка 200 Гбайт), поэтому для декомпозиции нужен параллельный алгоритм. Методы разбиения графов параллельных пакетов PARMETIS, JOSTLE, PT-SCOTCH и ZOLTAN основываются на иерархических алгоритмах, состоящих из следующих частей: поэтапное огрубление графа, декомпозиция самого маленького из полученных графов и отображение разбиения на предыдущие графы с периодическим локальным уточнением границ доменов. Недостатком таких алгоритмов является образование доменов, границы которых состоят из неоптимальных наборов сегментов [3, 4]. В частности, домены могут оказаться несвязными. Такое ухудшение качества доменов для некоторых задач является критичным. На доменах с длинными границами или сложной конфигурацией алгоритмы решения систем линейных уравнений сходятся за большее число итераций. Связность микродоменов важна при хранении больших сеток, поскольку на связных микродоменах коэффициент сжатия информации о сеточных данных, как правило, будет больше. В алгоритме композиции подобластей [5] у несвязных подобластей длиннее приграничные полосы, в которых требуется повторное вычисление значений, а на узких приграничных полосах возникают проблемы с применимостью метода. Несвязные домены с оторванными ячейками являются неприемлемыми, например, для распараллеливания методики ТИМ-2Б решения задач механики сплошной среды [6] на нерегулярных многоугольных сетках произвольной структуры.

Другим недостатком указанных пакетов является получение сильно несбалансированных разбиений. В частности, в разбиениях, получаемых пакетом РАКМЕПБ, числа вершин в доменах могут отличаться в два раза. К тому же разбиения больших сеток на большое число микродоменов не всегда удается получить методами существующих пакетов разбиения графов.

Вышесказанное обусловило разработку комплекса программ ОКГОБРЮЕКРАВ. декомпозиции больших сеток, в который вошли два алгоритма: параллельный алгоритм геометрической декомпозиции сеточных данных и параллельный инкрементный алгоритм декомпозиции графов. Разработанные алгоритмы поддерживают два основных этапа декомпозиции больших сеток: предварительную декомпозицию сетки по процессорам и параллельную декомпозицию сетки высокого качества.

Алгоритмы комплекса программ ОКГО8РГОЕКРАК

Параллельный алгоритм геометрической декомпозиции сеточных данных (ОеотПееотр) основан на методе рекурсивной координатной бисекции [7, 8]. На каждом этапе рекурсивной координатной бисекции окаймляющий сетку параллелепипед разбивается на две части. Выбирается координатная ось, вдоль которой параллелепипед имеет наибольшую протяженность. Параллелепипед разрезается перпендикулярно выбранной оси. Достоинством данного метода является то, что при разбиении на равные домены числа вершин в получаемых доменах отличаются не больше, чем на единицу. Другими достоинствами являются экономичное использование памяти и относительная быстрота работы. Подобный алгоритм реализован в пакете 20ЬТАК. Отличие рекурсивной координатной бисекции созданного алгоритма от аналогичного алгоритма в пакете 20ЬТАК состоит в том, что в нем секущая плоскость (медиана) при необходимости разрезается по нескольким координатам, что позволяет обрабатывать ситуации наличия на одной плоскости множества узлов с одинаковым значением координаты. В пакете 20ЬТАК вершины из медианы распределяются по областям произвольным образом, что увеличивает число разрезанных ребер.

Параллельный инкрементный алгоритм декомпозиции графов (1пегПееотр) основан на последовательном инкрементном алгоритме декомпозиции графов [9]. Достоинством инкрементного алгоритма яв-

ляется формирование преимущественно связных доменов. Инкремент-ный алгоритм не основывается на иерархическом подходе. Наиболее близкими к нему являются алгоритмы пузырькового роста и диффузионные. Однако алгоритм пузырькового роста, в отличие от инкремент-ного алгоритма, не гарантирует получение сбалансированного разбиения. А существенным отличием инкрементного алгоритма от диффузионных алгоритмов является то, что в инкрементном алгоритме в случае получения разбиения низкого качества происходит освобождение части вершин из плохих доменов, после чего повторяется этап роста доменов. Другим отличием инкрементного алгоритма от известных алгоритмов является новый критерий оценки качества доменов, в соответствии с которым проверяется связность оболочек доменов. Параллельный инкрементный алгоритм комплекса программ GRIDSPIDERPAR является расширенной параллельной версией последовательного инкрементного алгоритма декомпозиции графов. Следует отметить следующие отличия. В параллельный алгоритм декомпозиции графов добавлена возможность выделения групп плохих доменов и отдельная работа с ними. Еще одним отличием является то, что в параллельном инкрементном алгоритме рост доменов происходит не просто поиском в ширину, но с учетом минимизации суммарного веса разрезанных ребер. Изменен критерий оценки качества доменов. Учитывается не только связность оболочек, но и количество плохих доменов и суммарный вес разрезанных ребер. Предложенные решения позволили ускорить нахождение разбиений высокого качества.

Результаты разбиения графов микродоменов на домены различными методами

Вычисления проводились на кластере МВС-100К (227,94 TFlop/s).

Проведены вычислительные эксперименты по сравнению различных разбиений графов микродоменов на домены, а также разбиений сразу на домены (рис. 1-3). По разбиениям четырех тетраэдральных сеток (108...2,7 • 108 вершин, 7 • 108...1.6 • 109 тетраэдров, 8 • 108...1,9 • 109 ребер) на 25 600 микродоменов методами пакета PARMETIS и созданного комплекса программ GRIDSPIDERPAR были составлены графы связей между микродоменами с весами вершин, соответствующими количеству вершин в микродоменах. Графы связей были разбиты на 512 доменов на одном процессоре методами PartGraph-Recursive (PGR) и PartGraphKway (PGrK) пакета METIS, методом PartKway (PK) пакета PARMETIS и методом IncrDecomp (I) созданного

комплекса программ GRIDSPIDERPAR, запущенными на одном процессоре. Проведено сравнение различных вариантов разбиений микродоменов на домены между собой и с разбиениями сразу на домены методами PartKway (PK), PartGeomKway (PGK) и PartGeom (PG) пакета PARMETIS, GeomDecomp (G) созданного комплекса программ GRIDSPIDERPAR, диффузионным алгоритмом пакета PT-SCOTCH и методами RCB, RIB и HSFC пакета ZOLTAN.

□ Макс. откл. 1 □ Макс. откл. 2 □ Макс. откл. 3 □ Макс, откл, 4

Рис. 1. Процентное отношение максимального модуля отклонения от среднего арифметического числа вершин в домене в разбиениях тетраэдральных сеток на 512 доменов (слева приведены разбиения сразу на домены, справа - разбиения графов микродоменов, методы разбиения на микродомены и разбиения графов

на домены объединены знаком '+')

Рис. 2. Число разрезанных ребер в разбиениях тетраэдральных сеток на 512 доменов

Рис. 3. Число несвязных доменов в разбиениях тетраэдральных сеток на 512 доменов (фрагмент)

Результаты показали, что дисбаланс числа вершин в доменах, сформированных из микродоменов, не зависит от дисбаланса числа вершин в микродоменах. Видимо, это связано с недостаточной чувствительностью алгоритмов разбиения графов к весам вершин. Лучшие разбиения графов микродоменов на домены получены пакетом METIS. Наиболее качественные разбиения на домены получены методами GeomDecomp (параллельный алгоритм геометрической декомпозиции) созданного комплекса программ GRIDSPIDERPAR, RCB пакета ZOLTAN и пакетом PT-SCOTCH. Оценивались дисбаланс числа вершин в доменах, число разрезанных ребер и число несвязных доменов.

Моделирование распространения ударной волны от приземного источника энергии взрывного типа

Для моделирования приземного взрыва была выбрана кубическая область, которая аппроксимировалась гексаэдральной сеткой,

о

содержащей порядка 1,2 • 10 ячеек со сгущением в области взрыва (рис. 4).

В соответствии с математической моделью решалась полная система уравнений газовой динамики в однотемпературном приближении с табличными уравнениями состояния:

д

—р + У(р^) = 0, д7

д д

37 № + Е 6—Пк = 0, Пк = р^ + РЪ1к, 61 к дх,

(1)

ддт' р | ре + 2 р™21 + = 0, д = | ре+-2 рм>2 + Р1 ж

Рис. 4. Гексаэдральная сетка для моделирования приземного взрыва

Задача считалась с учетом диссипативных процессов: д

д7 (ре) = ^гаёт) + .

(2)

Турбулентные потоки не учитывались.

Начальную стадию взрыва в рамках газодинамической модели описать невозможно, поэтому в качестве начальных данных использованы справочные данные по взрывам.

Расчет процесса формирования и распространения ударной волны от приземного взрыва производился на суперкомпьютере «Ломоносов» на 3072 ядрах. На рис. 5 представлены результаты моделирования.

Рис. 5. Аппроксимация изоповерхностей давления на расчетную сетку Р, 1011 Па, в момент времени ^ = 1000 мс с шагом dP = 691 Па (слева) и dP = 518 Па (справа)

Результаты тестирования разбиений графов микродоменов на физической задаче

Вычисления проводились на кластерах МВС-100К (227,94 ТЬ1ор/8) и «Ломоносов» (1700 ТЬ1ор8).

На задаче моделирования распространения ударной волны от приземного источника энергии взрывного типа проведено тестирование различных разбиений графов микродоменов и разбиения сразу на домены, полученных параллельным инкрементным алгоритмом (1псгБесотр) созданного комплекса программ ОКГО8РГОЕКРАК Сравнивалась эффективность параллельного счета рассматриваемой физической задачи пакетом МАЯРЬЕЗБ при распределении сетки по ядрам в соответствии с различными разбиениями. Параллельный программный комплекс МАЯРЬЕЗБ создан в Институте прикладной математики им. М.В. Келдыша РАН, и его предметной областью являются задачи двухтемпературной радиационной магнитной гидродинамики [10].

8 9

Дуальный граф ЬоотЬ, содержащий 1,2 • 10 вершин и 1,0 • 10 ребер, был разбит на различное число микродоменов (от 24 576 до 196 608) и сразу на 3072 домена алгоритмом 1псгБесотр. Составлены графы связей микродоменов с весами вершин, соответствующими количеству вершин в микродоменах. Графы микродоменов были разбиты алгоритмом 1псгБесотр на 3072 домена.

В соответствии с разбиениями дуального графа ЬоотЬ были получены разбиения вершин сетки. Для расчета физической задачи на всех разбиениях выделялось одинаковое машинное время (5 ч). Были получены числа шагов по времени, до которых досчитала задача.

В таблице представлены результаты тестирования разбиений. Под дисбалансом подразумевается процентное отношение максимального модуля отклонения от среднего арифметического числа вершин в домене.

Результаты тестирования разбиений графа ЬоошЬ на 3072 домена, полученных алгоритмом ТпсгБесошр

Информация о сетке Микродомены Микродомены в домене Дисбаланс, % Разрезанные ребра Соседние домены (макс.) Несвязные домены Шаги по времени

Имя БоошЬ 116 214 272 гексаэдров 3 072 1 9,1 53 140 207 28 0 1107

24 576 8 62,5 64 611 859 25 0 833

49 152 16 37,5 66 566 874 25 0 880

98 304 32 18,7 68 841 339 23 0 949

196 608 64 7,9 68 207 798 21 0 999

Как видно из таблицы, чем больше микродоменов, тем меньше дисбаланс получаемых разбиений, тем меньше максимальное число соседних доменов, но тем больше общее число разрезанных ребер. Увеличение общего числа разрезанных ребер объясняется тем, что при составлении графов микродоменов не учитывались веса ребер между доменами. Максимальное число соседних доменов влияет на количество обменов между процессорами, обрабатывающими данные домены. С увеличением числа микродоменов увеличивается также число шагов по времени, полученных на разбиениях, что говорит о том, что для задачи моделирования распространения ударной волны от приземного взрыва равномерность распределения вычислительной нагрузки по процессорам и количество обменов между процессорами критичнее, чем объем передаваемых данных. При сравнении разбиения сразу на 3072 домена и разбиений графов микродоменов заметно, что в разбиении, составленном из 196 608 микродоменов, дисбаланс числа вершин в доменах меньше, чем в разбиении сразу на домены, и меньше максимальное число соседних доменов. Результат объясняется тем, что при разбиении на определенное количество доменов не всегда удается получить требуемый дисбаланс. Например, при разбиении данного графа на 4096 доменов получаемый дисбаланс составлял 0,03 %, что значительно меньше 9,1 %, полученных при разбиении на 3072 домена. Число шагов по времени, полученных на разбиении, составленном из 196 608 микродоменов, не намного меньше, чем полученных на разбиении сразу на домены.

Таким образом, можно сделать вывод, что при достаточном количестве микродоменов в доменах разбиения графов микродоменов не уступают по качеству разбиению сразу на домены, что подтверждается

малым уменьшением скорости счета рассматриваемой физической задачи. К тому же на декомпозицию графа микродоменов при массовых расчетах требуется меньше процессоро-часов.

Выводы

Создан комплекс программ ОКГОБРГОЕКРАВ. параллельной декомпозиции больших сеток на большое число микродоменов, включающий в себя параллельные алгоритмы, поддерживающие два основных этапа декомпозиции больших сеток: предварительную декомпозицию сетки по процессорам и параллельную декомпозицию сетки высокого качества.

Проведены вычислительные эксперименты по сравнению различных разбиений графов микродоменов на домены, а также разбиений сразу на домены четырех тетраэдральных сеток (порядка 108 вершин, 109 тетраэдров), полученных методами созданного комплекса программ ОЫББРГОЕКР АЯ, пакета РАЯМЕТК, пакета 20ЬТАК и пакетом РТ-БСОТСИ. Результаты показали, что дисбаланс числа вершин в доменах, сформированных из одинакового количества микродоменов, не зависит от дисбаланса числа вершин в микродоменах. Также результаты выявили методы, которыми были получены наиболее качественные разбиения на домены, в частности параллельный алгоритм геометрической декомпозиции (ОеотБесотр) созданного комплекса программ аШБЗРГОЕКРАК

На задаче моделирования распространения ударной волны от приземного взрыва проведено тестирование различных разбиений графов микродоменов и разбиения сразу на домены, полученных параллельным инкрементным алгоритмом (1псгБесотр) созданного комплекса программ GR.ro БРГОЕЯРАК Результаты позволяют сделать вывод, что при достаточном количестве микродоменов в доменах разбиения графов микродоменов не уступают по качеству разбиению сразу на домены, что подтверждается малым уменьшением скорости счета рассматриваемой физической задачи. Стоит также отметить, что на декомпозицию графа микродоменов при массовых расчетах требуется меньше процессоро-часов.

Работа выполнена при поддержке РФФИ (гранты 13-01-12073 офи м, 14-01-00663 А, 14-07-00712 А, 14-01-31154мол а).

Библиографический список

1. Hendrickson B., Kolda T.G. Graph partitioning models for parallel computing // Parallel Computing. - 2000. - Vol. 26. - Р. 1519-1534.

2. Smith B., Bjorstad P., Gropp W. Domain decomposition: parallel multilevel methods for elliptic partial differential equations. - Cambridge University Press, 1996. - 225 p.

3. Aspect Ratio for Mesh Partitioning / R. Diekmann, R. Preis, F. Schlimbach, C. Walshaw // Euro-Par'98, LNCS 1470. - 1998. - Р. 347-351.

4. Pelegrini F. A parallelizable multi-level banded diffusion scheme for computing balanced partitions with smooth boundaries / ENSEIRB, LaBRI and INRIA Futurs, Universite Bordeaux I. - Springer-Verlag, 2007. -P. 191-200.

5. Илюшин А.И., Колмаков А. А., Меньшов И. С. Построение параллельной вычислительной модели путем композиции вычислительных объектов // Математическое моделирование. - 2011. - T. 23, № 7 -С. 97-113.

6. Воропинов А.А. Декомпозиция данных для распараллеливания методики ТИМ-2D и критерии оценки ее качества // Вестник ЮУрГУ. Математическое моделирование и программирование. - 2009. - Вып. 4, № 37(170) - С. 40-50.

7. Головченко Е.Н. Параллельный пакет декомпозиции больших сеток // Математическое моделирование. - 2011. - Т. 23, № 10. - С. 3-18.

8. Numerical Experiments with New Algorithms for Parallel Decomposition of Large Computational Meshes / E. Golovchenko, E. Dorofeeva, I. Gasilova, A. Boldarev // Parallel Computing. Accelerating Computational Science and Engineering (CSE). - IOS Press, 2014. - Vol. 25. - Р. 441450.

9. Якобовский М.В. Инкрементный алгоритм декомпозиции графов // Вестник Нижегородского университета им. Н.И. Лобачевского. Математическое моделирование и оптимальное управление. - 2005. -Вып. 1(28). - С. 243-250.

10. Пакет прикладных программ MARPLE3D для моделирования на высокопроизводительных ЭВМ импульсной магнитоускоренной плазмы / В.А. Гасилов [и др.] // Математическое моделирование. -2012. - Т. 24, № 1. - С. 55-87.

References

1. Hendrickson B., Kolda T.G. Graph partitioning models for parallel computing. Parallel Computing, 2000, vol. 26, pp. 1519-1534.

2. Smith B., Bjorstad P., Gropp W. Domain decomposition: parallel multilevel methods for elliptic partial differential equations. Cambridge University Press, 1996. 225 p.

3. Diekmann R., Preis R., Schlimbach F., Walshaw C. Aspect Ratio for Mesh Partitioning. Euro-Par'98, LNCS1470, 1998, pp. 347-351.

4. Pelegrini F. A parallelizable multi-level banded diffusion scheme for computing balanced partitions with smooth boundaries. ENSEIRB, LaBRI and INRIA Futurs. Universite Bordeaux I. - Springer-Verlag, 2007, pp. 191-200.

5. Ilyushin A.I., Kolmakov A.A., Menshov I.S. Postroenie parallelnoy vychislitelnoy modeli putem kompozitsii vychislitelnykh obektov [Construction of a parallel computational model by composition of computational facilities]. Matematicheskoe modelirovanie, 2011, vol. 23, no. 7, pp. 97-113.

6. Voropinov A.A. Dekompozitsiya dannykh dlya rasparallelivaniya metodiki TIM-2D i kriterii otsenki ee kachestva [Data decomposition for tim-2d code parallelizing method and its quality evaluation criteria]. Vestnik Yuzhno-Ural'skogo gosudarstvennogo universiteta. Matematicheskoe modelirovanie iprogrammirovanie, 2009, vol. 4, no. 37(170), pp. 40-50.

7. Golovchenko E.N. Parallelnyy paket dekompozitsii bolshikh setok [Parallel partitioning tool for large mesh decomposition]. Matematicheskoe modelirovanie, 2011, vol. 23, no. 10, pp. 3-18.

8. Golovchenko E., Dorofeeva E., Gasilova I., Boldarev A. Numerical Experiments with New Algorithms for Parallel Decomposition of Large Computational Meshes. Parallel Computing. Accelerating Computational Science and Engineering (CSE). IOS Press, 2014, vol. 25, pp. 441-450.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

9. Iakobovski M.V. [et al.]. Inkrementnyy algoritm dekompozitsii gra-fov [Incremental algorithm of the graph decomposition]. Vestnik Nizhe-gorodskogo universiteta imeni N.I. Lobachevskogo. Matematicheskoe modelirovanie i optimalnoe upravlenie, 2005, vol. 1(28), pp. 243-250.

10. Gasilov V.A. [et al.]. Paket prikladnykh programm MARPLE3D dlya modelirovaniya na vysokoproizvoditelnykh EVM impul'snoy magni-touskorennoy plazmy [Software package MARPLE3D for magnetically accelerated pulsed plasma modeling on high-performance systems]. Matematicheskoe modelirovanie, 2012, vol. 24, iss. 1, pp. 55-87.

Об авторах

Головченко Евдокия Николаевна (Москва, Россия) - кандидат физико-математических наук, младший научный сотрудник Института прикладной математики им. М.В. Келдыша Российской академии наук (125047, г. Москва, Миусская пл., 4, e-mail: [email protected]).

Дорофеева Елизавета Юрьевна (Москва, Россия) - младший научный сотрудник Института прикладной математики им. М.В. Келдыша Российской академии наук (125047, г. Москва, Миусская пл., 4, e-mail: [email protected]).

About the authors

Evdokia N. Golovchenko (Moscow, Russian Federation) - Ph. D. in Physics and Mathematical Sciences, Junior Research Fellow, Keldysh Institute of Applied Mathematics (Russian Academy of Sciences) (4, Miusskaya sq., Moscow, 125047, Russian Federation, e-mail: [email protected]).

Elizaveta Yu. Dorofeeva (Moscow, Russian Federation) - Junior Research Fellow, Keldysh Institute of Applied Mathematics (Russian Academy of Sciences) (4, Miusskaya sq., Moscow, 125047, Russian Federation, e-mail: [email protected]).

Получено 1.10.2014

i Надоели баннеры? Вы всегда можете отключить рекламу.