ПАРАЛЛЕЛЬНЫЕ АЛГОРИТМЫ МЕТОДА ЦИКЛИЧЕСКОЙ ПРОГОНКИ
Головашкин Д.Л), Филатов М. В2
1 Институт систем обработки изображений РАН 2 Самарский государственный аэрокосмический университет
Аннотация
Работа посвящена построению параллельных алгоритмов метода циклической прогонки для решения сеточных уравнений ленточного вида. Рассмотрены два подхода к разбиению сеточной области: линейная и циклическая декомпозиции. Каждый подход применен к построению алгоритмов с использованием правой и встречных циклических прогонок. Произведено аналитическое и экспериментальное сравнение предложенных алгоритмов, выявлены их достоинства и недостатки.
Введение
Математическое моделирование находит все большее применение в различных отраслях науки. Это связано как с развитием математического аппарата в соответствующих отраслях, так и с совершенствованием вычислительной техники. В свою очередь, новые модели и вычислительные ресурсы нуждаются в новых алгоритмах, среди которых наиболее популярными в настоящее время следует признать параллельные.
В частности, многие задачи математической физики с помощью разностного и проекционного методов сводятся к набору сеточных уравнений, записывающихся для многомерных областей в виде совокупности систем линейных алгебраических уравнений (СЛАУ) ленточного вида. При этом круговые, сферические и цилиндрические подобласти характеризуются матрицей СЛАУ, содержащей, кроме ленты на центральных диагоналях, ненулевые элементы в верхнем правом и нижнем левом углах. Для решения таких СЛАУ традиционно применяется метод циклической прогонки [1] (различные итерационные методы остаются за рамками настоящей работы).
Задавшись целью синтезировать параллельные алгоритмы этого метода, авторы обратились к параллельным алгоритмам решения ленточных СЛАУ без ненулевых элементов вне ленты, как к примерам решения аналогичной задачи. Из алгоритмов, основанных на декомпозиции области [2], циклической редукции [3] и функциональной декомпозиции [4,5], наиболее эффективными [3] были признаны последние. Их развитию для метода циклической прогонки и посвящена настоящая работа.
1. Параллельный алгоритм для одномерной сеточной области
Иллюстрируя основные идей работы рассмотрим параллельный алгоритм для одномерной области, основанный на применении встречных циклических прогонок. Не обладая свойством масштабируемости [6] он полезен при составлении алгоритмов для многомерных областей.
Функциональная декомпозиция метода циклической прогонки задается спецификой использования в ней метода обычных встречных прогонок [1].
Произведем разбиение одномерной области данных ю1 на равные подобласти ю1 и ю2 между двумя
задачами параллельного алгоритма. Пусть первая задача вычисляет прогоночные коэффициенты а,, в, у,- и и, при 1 < і < g , вторая С, , П; , V; и V, при §+1<г<^, где g - номер последнего узла подобласти ю1, N - номер последнего узла областей ю1 и ю,.
Вычисления по алгоритму разделим на семь шагов: прямой ход прогонок, обмен данными, обратный ход, пересылка дополнительных данных, вычисление коэффициента у0 [1], пересылка коэффициента и нахождение окончательного решения.
Задача 1 а, Р, У Задача 2 С> Л. V
1 Задача 1 а, Р, У 1 Ю2 Задача 2
1 ^ Задача 1 и, V С. П> V Задача 2 и, V
1 Задача 1 1 (02 Задача 2 Мм-1, Уц-!
і «і Задача 1 Уо 1 <й2 Задача 2
і Задача 1 Уо Щ Задача 2
ю/ Задача 1 У „ Ю2‘ Задача 2 < У
1 1 ю2
Рис. 1 Этапы вычислений по двухзадачному параллельному алгоритму, реализующему метод встречных циклических прогонок (а-в - встречный ход прогонок, г - обмен крайними коэффициентами, д - вычисление у0, е - обмен коэффициентами, ж - вычисление окончательного решения).
Во время прямого хода (рис. 1а) прогоночные коэффициенты вычисляются одновременно с двух сторон по направлению к центру области: первая задача находит а , в, у, вторая - £ , П , V
Обмен коэффициентами (рис. 1б) необходим для запуска обратного хода, при этом первая задача передает второй тройку коэффициентов 0^ , вг+1, Уг+1, получая С,&+1 , %+; , ¥я+1.
Обратный ход прогонок (рис. 1в) реализуется обеими задачами одновременно.
На следующем шаге (рис. 1г) вторая задача пересылает в первую коэффициенты ы^.1 и [1].
Пятый шаг (рис. 1д) характеризуется вычислением у0 первой задачей (вторая задача простаивает).
Затем полученное значение пересылается второй задаче (рис. 1е).
Вычисление окончательного решения производится обеими задачами одновременно (рис. 1ж) на последнем шаге алгоритма.
Ускорение [3] приведенного двухзадачного алгоритма оценивается величиной
14Ша
Б = -
Задача 1 Задача 2
Задача 1
'-ар
(7 N+9)т ар + 4тп
где 14Шар - длительность вычислений по последовательному алгоритму (тар - время производства одной арифметической операции с плавающей точкой), (7^9)тар - длительность арифметических операций для одной задачи параллельного алгоритма, тя - время пересылки одного пакета по сети. При пакетной модели передачи данных время передачи разного объема информации остается константой до тех пор, пока объем передаваемого массива не превысит размер пакета. Здесь это условие соблюдается, в дальнейшем также будем полагать его верным.
2. Параллельные алгоритмы для двумерной области, основанные на методе правой циклической прогонки
В отличие от предыдущего случая, на двумерной сеточной области возможно построение параллельных алгоритмов на основе метода правой циклической прогонки, как это было предложено в [4] для ленточных СЛАУ без ненулевых элементов вне ленты.
2.1 Алгоритм правой циклической прогонки с линейным разбиением сеточной области
Записывая двухзадачный алгоритм, разобьем область ю2 так (рис. 2), что вычисления циклических прогонок по столбцам области не будут требовать пересылки данных, которая останется необходимой только при работе со строками.
Первый этап вычислений по алгоритму состоит из 1+1 шагов (рис. 2а-2г), где I - это число строк сеточной области. На первом шаге первая задача начинает прямой ход прогонки для первой строки (рис. 2а), вторая задача простаивает в ожидании прогоночных коэффициентов этой строки области.
Задача 2 ------►
со,
со,
СО,
га,
Задача 1 Задача 2
Задача 1 Задача 2
1-2
1-1
I
Ю,
ю,
ю,
(0,
Задача 1 Задача 2
Задача 1 Задача 2
Ш,
со,
ю,
(О,
Задача 1 Задача 2
Задача 1 Задача 2
У У
ж з —► <—
2 і 2 2
“і щ ®1 С02
Рис. 2 Этапы вычислений по двухзадачному параллельному алгоритму, реализующему метод правой циклической прогонки на двумерной области с линейным разбиением (а-е - начальные шаги, ж - обмен крайними коэффициентами и вычисление у0, з - обмен коэффициентами у0 и вычисление окончательного решения). Звездочками обозначены простои задач.
Второй шаг обе задачи производят одновременно (рис. 2б), осуществляя прямой ход прогонки для разных строк: вторая задача для первой, первая для второй (функциональная декомпозиция: одновременно решаются разные СЛАУ). Аналогично происходит перебор строк области вплоть да шага I, когда вторая задача производит прямой ход для строки для строки 1-1, первая для I. На 1+1 шаге первая задача простаивает, вторая завершает прямой ход правой циклической прогонки для последней строки области.
На втором этапе (рис. 2д, е) вычислений аналогично выполняется обратный ход прогонки для всех строк области. Теперь на первом шаге простаивает первая задача алгоритма, на последнем - вторая.
Третий этап заключается в обмене коэффициентами и и V (для каждой строки) между задачами (рис. 2ж) с последующим вычислением задачей 1 коэффициента у0 (своего для каждой строки). Найденное значение у0 пересылается второй задаче.
Четвертый этап - нахождение искомых сеточных функций (рис. 2з). Все вычисления независимы, простои исключены.
Обратим внимание на последнюю задачу. На первом и втором этапах она простаивает. Общая длительность простоев составляет 5№ар, где N -
б
а
в
г
д
е
размерность сеточной области по горизонтали. Длительность простоев при обратном ходе прогонки составляет 2Ытар.
Простои также присущи третьему этапу при вычислении коэффициента у0, их длительность - 61тар. Простои, связанные с коммуникациями характеризуются величиной (3Г+1)х„ - общим временем приема и передачи задачей коэффициентов на первом, втором, третьем и четвертом этапах.
С учетом этого ускорение двухзадачного алгоритма оценивается величиной
5 =____________28Ж Тар______________
14Ж Тар + 61 Тар + 6М Тар + (31 + 1)т/
Распространим идею предлагаемого подхода на произвольное количество задач Ь с линейным разбиением сеточной области по одному направлению. На первом этапе многозадачного алгоритма в течении 1+Ь-1 шагов производится прямой ход прогонки. На первом шаге задача 1 работает со строкой 1 (остальные задачи простаивают), на втором задача 1 работает со своей частью строки 2, задача 2 с частью строки 1 (простаивают задачи 3,..,Ь). Шаг і (Ь<і<Г) характеризуется отсутствием простоев; причем задача I (1<1<Ь) производит прямой ход правой циклической прогонки для строки і-1+1 подобласти
. С шага Г+1 начинают простаивать задачи с меньшими номерами.
На втором этапе вычислений аналогично выполняется обратный ход прогонки для всех строк области. Так, на шаге і (Ь<і<Г) задача I (1<1<Ь) производит обратный ход правой циклической прогонки для строки і-Ь+1 подобласти . Первые шаги этапа характеризуются простоями задач с меньшими номерами, последние - с большими.
Третий этап заключается в обмене коэффициентами и и V (каждой строки) между задачами 1 и Ь с последующим вычислением первой задачей коэффициента у0 (своего для каждой строки). Задачи 2,..,Ь-1 простаивают до получения у0.
На четвертом этапе в течении Ь-1 шагов производится передача вектора значений у0 и вычисление у. На первом шаге задача 1 передает вектор значений у0 задаче 2 и начинает вычисление у. На втором шаге задача 2 передает вектор значений у0 задаче 3 и начинает вычисление у. На шаге Ь-1 задача Ь-1 передает задаче Ь вектор значений у0 и обе задачи начинают вычисление у. Для данного алгоритма характерна топология коммуникаций - кольцо.
Изучая длительность простоев Ь - задачного алгоритма, обратим внимание на последнюю задачу. На первом этапе она простаивает первые Ь-1 шагов, после которых работает без остановок. Длительность этих шагов составляет
8Ж ь тар + (Ь — 2) ,
где N - размерность сеточной области по горизонтали; (Ь - 2) тп - время пересылок, в которых последняя задача не принимает участия; 8М:ар - длительность прямого хода прогонки.
На втором этапе задача Ь простаивает заключительные Ь - 1 шагов. Время этого простоя:
4N Ь хар + (Ь — 2)тп ,
где 4М:ар - длительность обратного хода прогонки.
На четвертом этапе задача Ь простаивает первые Ь - 2 шагов. Время этого простоя:
(Ь - 2) Тп.
Простои также присущи третьему этапу при вычислении коэффициента у0, их длительность - 6/тар. С учетом этого ускорение Ь - задачного алгоритма оценивается величиной
е=_____________________28/^________________________
28/N Ь —1 ’
—Тр + 61Тар +12^-Г Тар + 3(Ь — 2)хи +(3/ +1)тя
где (3/+1)тп - общее время приема и передачи задачей коэффициентов на первом, втором, третьем и четвертом этапах.
2.2 Алгоритм правой циклической прогонки с циклическим разбиением сеточной области
Стремясь избежать простоев, циклически разобьем ю2 на блоки в шахматном порядке (рис. 3), ведя далее их нумерацию по блочным строкам и столбцам. Пусть задаче 1 принадлежат блоки на главной диагонали блочной области, задаче 2 - блоки, циклически смещенные на одну позицию влево от главной диагонали, задаче Ь - циклически смещенные на Ь-1 позицию влево.
1 2 3 4 Ь
2 2 2 2 2
1 <*>Ы ®і-2 ... ю2
2 2 2 2 2
2 ш2 ю, 0)х <%, ■ ■ ■ со3
2 2 2 2 2
3 ю3 (02 (»! Шх ... со4
2 2 2 2 2
4 Ш4 ш3 И)2 ... ш5
... ... ... ... ... ...
2 2 2 2 2
Ь <%2 ... 0)!
Рис. 3 Разбиение двумерной области в случае Ь-задачного алгоритма правой циклической прогонки
Двухзадачный вариант алгоритма характеризуется циклическим разбиением, представленным на рис. 4. На первом этапе такого алгоритма первая задача производит прямой ход прогонки для всех строк блока
(1, 1), вторая задача для (2, 1). На втором шаге она работает с блоком (1, 2) (предварительно получив необходимые прогоночные коэффициенты от другой задачи), вторая задача закончит прямой ход прогонки для второй блочной строки (блок (2, 2)).
1 2
1
2
Рис. 4. Разбиение двумерной области в случае двухзадачного алгоритма правой циклической прогонки
Обратный ход прогонки (второй этап) задачи проведут с теми же блоками в обратной последовательности: первая задача начнет с (2,2), завершит с
(1.1); вторая начнет с (1,2), завершит с (2,1).
Третий этап вычислений характеризуется обменом коэффициентами u и v между задачами 1 и 2 с последующим вычислением коэффициентов y0. А именно: первая задача получает из второй для блока
(1.2) крайние значения u и v, вторая из первой - для блока (2,2) крайние значения u и v. Затем в каждой задаче вычисляется y0.
Четвертый этап алгоритма. Первая задача производит вычисление y для всех строк блока (1, 1), вторая задача для (2, 1). На втором шаге она работает с блоком (1, 2) (предварительно получив вектор коэффициентов y0 от задачи 2), вторая задача с блоком (2, 2) (предварительно получив вектор коэффициентов y0 от задачи 1).
Циклическая прогонка по блочным столбцам выполняется аналогично.
Исследуя длительность пересылок, найдем 6тп как общее время пересылок на первом, втором и четвертом этапах (по строкам и столбцам), 2тп -время пересылки коэффициента y0.
Ускорение алгоритма
S = 28IN Tap
14INTap + 8t n ■
Идея циклического разбиения легко обобщается на случай L задач. На первом этапе алгоритма (прямой ход по блочным строкам) задача l (1<l<L) начинает вычисления с блока (l, 1) и продолжает их, циклически смещаясь по своей диагонали на одну блочную позицию вниз и влево. Обратный ход производится по тем же подобластям с возвращением к блоку (l, 1) в конце второго этапа алгоритма.
Третий этап вычислений для задачи l характеризуется обменом коэффициентов u и v с задачей l-1 (первая задача обменивается с последней), последующим вычислением y0 и их пересылкой. А именно: первая задача получает из последней крайние значения u и v для блока (1,L), вторая из L-l крайние значения u и v для блока (2,L-1). Затем в каждой за-
2 2
ю2
2 2
(02 ©і
даче вычисляется у0. Далее производится одновременное нахождение искомых сеточных функций обеими задачами алгоритма.
На следующем этапе алгоритма задача I начинает вычисления у с блока (1, 1) и продолжает их в течении Ь шагов, циклически смещаясь по своей диагонали на одну блочную позицию вниз и влево, при этом пересылая вектор коэффициентов у0 задаче 1-1 (в случае когда 1=1 пересылаем задаче Ь).
Для данного алгоритма характерна топология коммуникаций - кольцо.
Хотя предложенный алгоритм в отличии от предыдущего (пункт 2.1) лишен простоев, длительность пересылок возросла в два раза.
Получим 6(Ь-1) как общий объем пересылок на первом, втором и четвертом этапах (по строкам и столбцам), 2тп - время пересылки коэффициента у0. Учитывая, что пересылки пакетные, найдем ускорение равным:
28 Шх ар
С* _
= 28 N , л "
Ь т ар + 6(Ь п + 2т п
3. Параллельные алгоритмы для двумерной
области, основанные на методе встречных циклических прогонок
Сравнение методов правой и встречных прогонок при составлении параллельных алгоритмов для решения ленточных СЛАУ без ненулевых элементов вне ленты показывает [5] превосходство метода встречных прогонок, что побудило авторов к записи алгоритмов на его основе.
3.1 Алгоритм встречных циклических прогонок с линейным разбиением сеточной области
Составляя четырехзадачный алгоритм (двухза-дачный случай аналогичен алгоритму из пункта 1) осуществим линейное разбиение области ю2, как показано на рис. 5a.
Первый этап состоит из 1+1 шага прямого хода встречных прогонок (рис. 5a-5в). На первом шаге задачи 1 и 4 начинают встречный ход для первой строки области (рис. 5a), задачи 2 и 3 простаивают в ожидании прогоночных коэффициентов этой строки. Второй шаг все задачи производят вместе (рис. 5б), осуществляя прямой ход встречных прогонок для разных строк: вторая и третья задача - для первой строки, первая и четвертая - для второй. Шаг I связан с прямым ходом прогонок для последней (исполняют задачи 1 и 4) и предпоследней (исполняют задачи 2 и 3) строки. Шаг I +1 завершают задачи 2 и 3, задачи 1 и 4 простаивают.
Второй этап алгоритма (рис. 5г, д) связан с производством обратного хода встречных прогонок. Начиная с последней строки, области задачи 2 и 3 поднимаются по строкам вверх, простаивая последний шаг этапа. Задачи 1, 4 вступают в вычисления по второму этапу с задержкой на один шаг, вызнанной ожиданием прогоночных коэффициентов для строки I.
12б
Задача 1 Задача 2 Задача 3 Задача 4
Ю,
(0,
■*1 ш2 ®3 ш4
Задача 1 Задача 2 Задача 3 Задача 4
С0,
(В,
са.
■>! Ш; ш4
Задача 1 Задача 2 Задача 3 Задача 4
й,
С0,
(В,
са.
•>! Ш; ш4
Задача 1 Задача 2 Задача 3 Задача 4
<0,
С02 Ш3
Задача 1 Задача 2 Задача 3 Задача 4
(В,
со.
(0,
(02 Ш3
Задача 1 Задача 2 Задача 3 Задача 4
(Й,
со.
Ю,
Ю,
ш.
о.
Задача 1 Задача 2 Задача 3 Задача 4
Ю,
%
2
СО,
со.
Уо
2
Рис. 5. Этапы вычислений по четырехзадачному параллельному алгоритму, реализующему метод встречных циклических прогонок на двумерной области с линейным разбиением (а-д - начальные шаги алгоритма, е - обмен крайними коэффициентами и вычисление у0, ж - обмен коэффициентами у0 и вычисление окончательного решения). Звездочками обозначены простои задач
Третий этап алгоритма связан с обменом коэффициентами и и V между первой и четвертой задачами (рис. 5е) и последующим вычислением первой
и четвертой задачей коэффициента у0, своего для каждой строки (при этом остальные задачи простаивают).
Четвертый этап - рассылка найденных значений у0 из крайних задач и вычисление значений искомых сеточных функций (рис. 5ж).
Обратим внимание на последнюю задачу. На первом и четвертом этапах она простаивает. Общая длительность простоев составляет 5Ытар/2
Длительность простоев при обратном ходе прогонки составляет Ытар. Длительность вычислений на четвертом этапе Ытар/2.
Простои также присущи третьему этапу при вычислении коэффициента у0, их длительность - 61тар. (31+1)тп - общее время приема и передачи задачей коэффициентов на первом, втором, третьем и четвертом этапах. С учетом этого ускорение 4-задач-ного алгоритма оценивается величиной
28Ж тар
£ = ■
14/Ж
2
V + 6/ Тар + 3Ы Тар +(3/ + 1)т я
Распространим идею этого подхода на четное количество задач Ь. На первом этапе такого алгоритма производится /+Ь/2-1 шагов встречных циклических прогонок. Максимальными простоями на первых шагах этапа характеризуются задачи Ь/2 и Ь/2+1, которые не участвуют в вычислениях вплоть до Ь/2 шага. Затем до шага /+1 простоев нет, задача I (пусть 1</<Ь/2) производит прямой ход для своей подобласти строки і-1+1 (номер шага і меняется от Ь/2 до /). Аналогично проводятся рассуждения для задач Ь/2+1<1<Ь. На заключительных Ь/2-1 шагах в простои вовлекаются задачи 1,Ь; 2,Ь-1; ...Ь/2-1, Ь/2+2: по паре задач за один шаг.
Вычисления по второму этапу (обратный ход встречных прогонок) выполняются в обратной последовательности шагов.
Третий этап - обмен коэффициентами и и V между первой и последней задачами, с последующим вычислением первой и последней задачей значений у0 для каждой строки области.
На четвертом этапе в течении Ь/2-1 шагов производится передача вектора значений у0 и вычисление у. На первом шаге задача 1 передает вектор значений у0 задаче 2, задача Ь задаче Ь-1 и начинают вычисление у. На втором шаге задача 2 передает вектор значений у0 задаче 3, задача Ь-1 -задаче Ь-2 и начинает вычисление у. На шаге Ь/21 задача Ь/2-1 передает вектор значений у0 задаче Ь/2, , задача Ь/2+2 - задаче Ь/2+1 и все четыре задачи участвовавшие на этом шаге в обмене начинают вычисление у.
Для данного алгоритма характерна топология коммуникаций - кольцо.
Изучая длительность простоев, обратимся к анализу работы задачи Ь/2. На первом этапе она простаивает первые Ь/2-1 шагов, длительность которых
а
б
в
г
д
4тар -2 - 2^ .
Простои исследуемой задачи на втором этапе (заключительные Ь/2-1 шагов) оцениваются как
2^ Ь тap +^"2 — 2)Тп .
Простой на третьем этапе связан с вычислением и ожиданием приема у0. Длительность такого простоя составит 61тар.
На четвертом этапе простаивает Ь/2-2 шагов, длительность которых
I— 2}п
Следовательно, ускорение Ь-задачного алгоритма оценивается величиной
28Жт
2Ш ,ЛТЬ - 2 (Ь Л < -
—Ь~ Тар + Тар + 6Ж~ Тр + 3[д - +(3/ + 1К
где (3/+1)тп - общее время приема и передачи задачей коэффициентов на первом, втором, третьем и четвертом этапах.
3.2 Алгоритм встречных циклических прогонок с циклическим рразбиением сеточной области Записывая восьмизадачный алгоритм, разобьем сеточную область ю2 на блоки в шахматном порядке (рис. 6). В отличие от циклического разбиения, свойственного алгоритму из пункта 2.2, в данном случае сеточная область делится на четверти, дальнейшее разбиение которых происходит аналогично разбиению из пункта 2.2.
12 3 4
2 2 2 2
1 0)! ы4 0)8 0)5
2 2 2 2
2 Ю2 СО! 0)6
2 2 2 2
3 ш3 С02 С07
2 2 2 2
4 ш4 (03 со7 0)8
Рис. 6. Циклическое разбиение двумерной области для восьмизадачного алгоритма метода встречных циклических прогонок
Вычисления по восьмизадачному алгоритму разобьем на три этапа. На первом этапе такого алгоритма первая задача производит прямой ход прогонки для всех строк блока (1, 1), вторая задача -для (2, 1), третья - для блока (3, 1) и четвертая - для (4, 1). Восьмая производит вычисления над блоком (1, 4), седьмая - над (2, 4), шестая - над (3, 4), пятая
- над (4, 4). На втором шаге, задачи обмениваются коэффициентами и продолжают вычисления над следующими блоками: первая - для блока (1, 2), вто-
вторая - для (2, 2), третья - для (3, 2), четвертая -для (4, 2), восьмая производит вычисления над блоком (1, 3), седьмая - над (2, 3), шестая - над (3, 3), пятая - над (4, 3). Третий шаг - это обмен коэффициентами между следующими задачами: 4 и 8, 1 и 5,
2 и 6, 3 и 7.
Обратный ход прогонки (второй этап) задачи проведут с теми же блоками, но в обратной последовательности.
Третий этап вычислений характеризуется обменом коэффициентами и и V между задачами: 4 и 8, 1 и 5, 2 и 6, 3 и 7; с последующим вычислением у0 для каждой строки каждого блока во всех задачах.
На четвертом этапе первая задача производит вычисление у для всех строк блока (1, 1), вторая задача -для (2, 1), третья - для блока (3, 1) и четвертая - для (4, 1). Восьмая производит вычисления над блоком (1, 4), седьмая - над (2, 4), шестая - над (3, 4), пятая - над (4, 4). На втором шаге, задачи обмениваются векторами коэффициентов у0 и продолжают вычисления над следующими блоками, первая - для блока (1, 2), вторая -для (2, 2), третья - для (3, 2), четвертая - для (4, 2), восьмая производит вычисления над блоком (1, 3), седьмая -над (2, 3), шестая - над (3, 3), пятая - над (4, 3).
Исследуя коммуникации алгоритма, отметим, что 12тп - общее время пересылок на первом, втором и четвертом этапах (по строкам и столбцам), 2т„
- время пересылки коэффициента у0.
Ускорение алгоритма
28/Ж т
Б =■
7/Ж
------т +14т
2 ар п
Идея циклического разбиения легко обобщается на случай Ь задач, когда ^2Ь - целое число. На первом этапе алгоритма (прямой ход по блочным строкам) задача I (1<1<Ь/2) начинает вычисления с блока (1, 1) и продолжает их в течение Ь/4 шагов, циклически смещаясь по своей диагонали на одну блочную позицию вниз и влево. Для задачи I (Ь/2<1<Ь) вычисления начинаются с блока (1-Ь/2, Ь) и продолжаются в течении Ь/4 шагов, циклически смещаясь по диагонали на одну блочную позицию вниз и вправо. Обратный ход производится по тем же подобластям с возвращением к блоку (I, 1) и (I, Ь) в конце второго этапа алгоритма.
Третий этап вычислений для задачи I характеризуется обменом коэффициентов и и V с задачей 1-Ь/2, с последующим вычислением у0. Далее производится одновременное нахождение искомых сеточных функций всеми задачами алгоритма. На этом этапе алгоритма задача I (1<<Ь/2) начинает вычисления у с блока (1, 1) и продолжает их в течение Ь/4 шагов, циклически смещаясь по своей диагонали на одну блочную позицию вниз и влево, при этом пересылая вектор коэффициентов у0 задаче 1-1 (в случае когда 1=1 пересылаем задаче Ь/2). Для задачи I (Ь/2<1<Ь) вычисления начи-
наются с блока (1-Ь/2, Ь) и продолжаются в течении Ь/4 шагов, циклически смещаясь по диагонали на одну блочную позицию вниз и вправо, при этом вектор коэффициентов у0 пересылается задаче 1-1 (в случае, когда /=Ь/2+1 пересылаем задаче Ь).
Для данного алгоритма характерна топология коммуникаций - гиперкуб.
Найдем 3Ь/2 как общий объем пересылок на первом, втором и четвертом этапах (по строкам и столбцам), 2тп - время пересылки коэффициента у0.
Учитывая, что пересылки рассчитывались в рамках пакетной модели коммуникаций, получим искомое ускорение равным
28/Ж Та
28Ж,
Ь
3Ь
, +— Тп + 2тп
4. Сравнение предложенных алгоритмов
Произведем сравнение четырех подходов к записи алгоритмов для двумерной области.
Очевидно, на вытянутых прямоугольных областях (1>>Ы) предпочтение следует отдавать алгоритмам с одномерным (линейным) разбиением, характеризующимся в этом случае меньшим объемом пересылаемых данных, а для квадратных областей выгоднее алгоритмы с циклическим разбиением. Следовательно, уместно сравнивать алгоритмы внутри данной классификации.
Среди алгоритмов, характеризующихся одномерным разбиением, наибольшим ускорением и эффективностью обладает алгоритм, сформулированный в пункте 3.1 настоящей работы. Будучи равен по объему вычислений и количеству пересылаемых данных с алгоритмом, использующим правую прогонку (пункт 2.1), он характеризуется вдвое меньшей длительностью простоев. К недостаткам обсуждаемого алгоритма из 3.1 можно отнести наличие простоев (впрочем, не играющее существенной роли в приведенном сравнении в силу их кратковременности по сравнению с длительностью арифметических операций и коммуникаций) и требование на четность к числу процессоров вычислительной системы (также несущественное, учитывая, что современные кластеры, как правило, составляются из двухпроцессорных ЭВМ).
Проводя изучение алгоритмов с циклическим разбиением, для простоты положим 1=Ы. Тогда алгоритм из 3.2 будет отличать от алгоритма из 2.2 вчетверо меньший объем коммуникаций. Недостатками синтезированного алгоритма из 3.2 следует признать ограничение на количество требуемых процессоров (степень двойки) и высокое требование к топологии коммуникаций вычислительной системы (гиперкуб). Однако большинство современных кластеров удовлетворяют таким требованиям.
0
5
1
0)
а
о
К
£
4
4* — . __
800 1000 1200 1400 1600 1000 2000
Размерность области
------------1--------------2
3---------4
3.5 3
2.5 2
1.5 1
600 800 1000 1200 1400 1600 1800 2000
Размерность области
ф
5
I
ф
а
о
Размерность области
а
о
Размерность области
Рис. 7. Результаты вычислительных экспериментов: а - для восьмизадачных алгоритмов на квадратной области, б - для четырехзадачных алгоритмов на квадратной области, в - для восьмизадачных алгоритмов на вытянутой прямоугольной области, г - для четырехзадачных алгоритмов на вытянутой прямоугольной области.
Линии на графике: 1 - параллельный алгоритм правой циклической прогонки с линейным разбиением,
2 - встречных циклических прогонок с линейным разбиением,3 - правой циклической прогонки с циклическим разбиением и 4 - встречных циклических прогонок с циклическим разбиением
а
400
б
в
Переходя к сравнению параллельных вычислительных процессов, порожденных представленными алгоритмами, отметим, что благодаря отсутствию простоев и меньшему объему коммуникаций (данные передаются блоками), наилучшие результаты на квадратных областях продемонстрировали алгоритмы с циклическим разбиением области. При небольшом количестве задач на сильно вытянутых прямоугольных областях, большую эффективность показывает параллельный алгоритм встречной циклической прогонки с линейным разбиением области.
Заключение
Применение функциональной декомпозиции к синтезу параллельных алгоритмов, основанных на методах правой и встречных прогонок для решения сеточных уравнений трехдиагонального вида, оправдано и приводит при указанных условиях к алгоритмам, обладающим высоким ускорением и эффективностью.
Представляется целесообразным развитие данного подхода к синтезу алгоритмов для решения ленточных систем с большим количеством диагоналей.
Благодарность
Работа выполнена при поддержке Российско-американской программы “Фундаментальные исследования и высшее образование” (BRHE), а также Фонда содействию отечественной науке, гранта Президента РФ (N НШ - 1007.2003.01) и гранта РФФИ (N 04-07-90149).
Литература
1. Самарский А.А., Николаев Е.С. Методы решения сеточных уравнений. - М.:Наука, 1978. - 561 с.
2. Голуб Дж., Ван Лоун Ч. Матричные вычисления М.: Мир, 1999, 548 с.
3. Ортега Джеймс М. Введение в параллельные и векторные методы решения линейных систем/ Перевод с англ. Х.Д. Икрамова, И.Е. Капорина; под ред. Х.Д. Икрамова. - М.: Мир, 1991. - 364 с.
4. Миренков Н.Н. Параллельные алгоритмы для решения задач на однородных вычислительных системах// Вычислительные системы/ ИМ СО АН СССР. -Новосибирск. -1973. -Вып. 57. -С. 3-32
5. Головашкин Д.Л. Применение метода встречных прогонок для синтеза параллельного алгоритма решения сеточных уравнений трехдиагонального вида// Компьютерная оптика N24 2002 г. стр. 33-39
6. Braunl T. The art of parallel programming. - Prentice Hall International (UK) Limited, 1993. - 378p.