Суперкомпьютерное моделирование УДК 519.63, 524.3 DOI: 10.14529/cmsel60406
ЧИСЛЕННОЕ ГИДРОДИНАМИЧЕСКОЕ МОДЕЛИРОВАНИЕ АСТРОФИЗИЧЕСКИХ ТЕЧЕНИЙ НА ГИБРИДНЫХ СУПЕРЭВМ, ОСНАЩЕННЫХ УСКОРИТЕЛЯМИ INTEL XEON
PHI*
© 2016 г. И.М. Куликов1, И.Г. Черных2, Э.И. Воробьев3, А.В. Снытников1, Д.В. Вине2, А.А. Московский4, А.Б. Шмелёв4, В.А. Протасов0, А.А. Серенко5, В.Е. Ненашев0, В.А. Вшивков1, А.С. Родионов6, Б.М. Глинский2, А.В. Тутуков'
1 Лаборатория параллельных алгоритмов решения больших задач, Институт вычислительной математики и математической геофизики
Сибирского отделения РАН (630090 Новосибирск, пр. Академика Лаврентьева, д. 6), 2 Сибирский суперкомпьютерный центр, Институт вычислительной математики и математической геофизики
Сибирского отделения РАН (630090 Новосибирск, пр. Академика Лаврентьева, д. 6), 3Лаборатория космических исследований, Южный федеральный университет (344090 Ростов-на-Дону, пр. Стачки, д. 194), 4ЗАО «РСК Технологии» (121170 Москва, Кутузовский пр., д. 36, стр. 23), 5 Новосибирский государственный технический университет (630073 Новосибирск, пр. К. Маркса, д. 20), 6Лаборатория моделирования динамических процессов в информационных сетях, Институт вычислительной математики и математической геофизики
Сибирского отделения РАН (630090 Новосибирск, пр. Академика Лаврентьева, д. 6), 7 Отдел физики и эволюции звезд, Институт Астрономии РАН (119017 Москва, ул. Пятницкая, д. 48) E-mail: [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected],
[email protected]. ru, atutukov@inasan. ги Поступила в редакцию: 13.04.2016
""Статья рекомендована к публикации программным комитетом Международной научной конференции «Параллельные вычислительные технологии — 2016»
В работе представлены исследования кода AstroPhi для численного моделирования астрофизических течений на гибридных суперЭВМ, оснащенных ускорителями Intel Xeon Phi. Описан со-дизайн вычислительной модели для описания астрофизических объектов. Детально описаны особенности параллельной реализации и исследования производительности кода AstroPhi. Представлены результаты моделирования взаимодействия межгалактического ветра и дисковой галактики. Для кода AstroPhi было достигнуто 134-кратное ускорение в рамках одного ускорителя Intel Xeon Phi, 75-процентная масштабируемость при использовании 224 ускорителей Intel Xeon Phi. На расчетной сетке 7168 х 1024 х 1024 было достигнуто 47 процентов от пиковой скалярной производительности ускорителя Intel Xeon Phi при использовании 53760 нитей.
Ключевые слова: Высокопроизводительные вычисления, вычислительная астрофизика, ускорители Intel Xeon Phi.
ОБРАЗЕЦ ЦИТИРОВАНИЯ
Куликов И.М., Черных И.Г., Воробьев Э.И., Снытников А.В., Вине Д.В., Московский А.А., Шмелёв А.Б., Протасов В.А., Серенко А.А., Ненашев В.Е., Вшивков В.А., Родионов А.С., Глинский Б.М., Тутуков А.В. Численное гидродинамическое моделирование астрофизических течений на гибридных суперЭВМ, оснащенных ускорителями Intel Xeon Phi // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2016. Т. 5, № 4. С. 77-97. DOI: 10.14529/cmsel60406.
Введение
Математическое моделирование играет ключевую роль в современной астрофизике. Оно является универсальным инструментом для исследования нелинейных эволюционных процессов во Вселенной. Одними из важнейших задач, решаемых вычислительной астрофизикой, являются задачи столкновения [1J и эволюции галактик [2], процессы коллапса звезд [3], химокинетические процессы в галактиках [4]. При конструировании математической модели следует учитывать достижения современной астрономии. Так актуальным является учет магнитного поля в галактиках, так как его наличие обнаружено в рукавах галактики М51 [5] и влияет на процесс звездообразования. Таким образом, изучение астрофизических процессов усложняется необходимостью учета большого числа подсеточных физических процессов. Кроме того, состав астрофизических объектов состоит из нескольких ингридиентов, для описания которых используются различные математические модели. Данное обстоятельство усложняет разработку эффективных кодов для исследования астрофизических проблем на суперкомпьютерах.
Для моделирования сложных астрофизических процессов в высоком разрешении необходимо использовать наиболее мощные суперкомпьютеры. Два из Тор-3 (четыре из Тор-10) суперкомпьютера в ноябрьской версии 2015 года списка Тор-500 оснащены графическими ускорителями и ускорителями Intel Xeon Phi. Ожидается, что первый суперкомпьютер эк-зафлопеной производительности будет построен на основе гибридного подхода. Разработка кодов для гибридных суперкомпьютеров не сугубо техническая задача, а отдельная сложная научная задача, требующая со-дизайна алгоритмов на всех стадиях решения задачи -от физической постановки до инструментов разработки.
Несмотря на большое число разработанных кодов для решения астрофизических задач [6] остается большое число нерешенных проблем в области математических моделей, численных методов и программных реализаций для изучения астрофизических течений. Авторским коллективом уже на протяжении нескольких лет развивается гибридный эйлерово-лаграижевый подход для решения астрофизических задач. В настоящей статье будет при-
ведено краткое описание и подробное исследование оригинального кода AstroPhi [7) для моделирования динамики астрофизических объектов.
В первом разделе будут описаны основные компоненты со-дизайна вычислительной схемы, второй раздел посвящен описанию новой версии кода AstroPhi, которая была основана на работе 2013 года [8] и представляет собой расширение кода на большее число математических моделей при использовании native режима ускорителя Intel Xeon Phi. В третьем разделе приведены результаты исследования производительности кода, четвертый раздел посвящен вычислительным экспериментам по изучению астрофизических течений на различных масштабах. В заключении приведены основные результаты работы и перспективы дальнейшего развития вычислительной модели.
1. Концепция со-дизайна вычислительной схемы
Главный фокус наших исследований направлен на моделирование динамики галактик. Поэтому численная модель астрофизических течений ориентирована в основном на описание компонент галактик и подсеточных процессов. В работе [9] были исследованы вопросы со-дизайна численных моделей астрофизики и физики плазмы. Расссмотрим основные этапы со-дизайна численных моделей для решения астрофизических проблем.
1. Этап формулировки физической задачи. Главными ингридиентами галактик является газовая компонента, которая описывает межзвездный газ и равномерно распределенную пыль, и бесстолкновительная компоненты, которая используется для описания звездной компоненты и темной материи. Основными подсеточными физическими процессами являются процессы звездообразования, эффект от взрыва сверхновых, функции охлаждения и нагревания, а также химические реакции [10].
2. Этап математической формализации. Для описания газовой компоненты используются уравнения гравитационной газовой динамики, которые расширяются на уравнения односкоростной многокмопнентной гравитационной газовой динамики с эффективным показателем адиабаты в случае учета химических реакций. Для описания бесстолкнови-тельной компоненты используются уравнения для первых моментов бесстолкновитель-ного уравнения Больцмана. Такой подход был исследован и успешно использован для решения задач эволюции [2, 10] и столкновения галактик [6, 11]. Такой способ описания бесстолкновительиой компоненты позволяет позволяет сформулировать термодинамически согласованную модель звездообразования и эффекта от взрыва сверхновых.
3. Эт,ап построения численного мет,ода решения. Особенностью математической формализации является описание газовой и бесстолкновительиой компонент галактик с помощью системы гиперболических уравнений. Таким образом, мы можем сформулировать единый численный метод решения гиперболических уравнений. В следующем разделе численный метод будет описан более подробно. Использование единого численного метода позволяет записать единый параллельный алгоритм. В основе такого алгоритма лежит локальность вычислений, что достаточно эффективно проецируется на современные архитектуры суперкомпьютеров.
4. Эт,ап выбора структур данных. Используемые структуры данных в случае решения гиперболических уравнений полностью согласуются с выбором расчетных сеток. В оригинальном подходе используются регулярные сетки, что позволяет сформулировать простой подход к организации параллельных вычислений [12]. Основным из трендов современного численного решения гиперболических уравнений является технология по-
движных сеток. В случае использования регулярных структур данных может быть описана технология комфорных подвижных сеток, которая позволяет эффективно моделировать большое число задач механики сплошной среды. При этом сохраняются параллельные алгоритмы, используемые для вычислений на регулярных сетках. В настоящее время, такая технология подвижных сеток не реализована в коде AstroPhi, но в перспективе такая реализация планируется.
5. Этап учета архитектуры суперкомпьютера. В наших исследованиях используются гибридные суперкомпьютеры с ускорителями Intel Xeon Phi. Логическая архитектуры такого суперкомпьютера представляется в виде линейки ускорителей, взаимодействующих напрямую (в случае использования native режима) или через CPU (в случае использования offload режима). В рамках одного ускорителя вычисления разбиваются на большое (несколько сотен) нитей. Организация вычислений в оригинальном методе позволяет исключить взаимодействие между нитями в рамках одного ускорителя на основных этапах метода, либо сводить такие вычисления к минимуму. Такое взаимодействие возникает в случае вычисления шага по времени из условия Куранта.
6. Эт,ап использования средств разработки. Организация вычислений оригинального численного метода и архитектуры используемых суперкомпьютеров позволяют нам ограничиться библиотекой MPI для организации межпроцессных взаимодействий и технологией ОрепМР для организации многопоточных вычислений.
В следующем разделе будет подробнее описана реализация каждого этапа.
2. Код AstroPhi
Для описания газовой компоненты будем использовать систему уравнений односкорост-ной многокомпонентной гравитационной газовой динамики, записанную в эйлеровых координатах:
^ + V • {piu) = -Sij + S— - Р—, dl 9 9
-J^p + V • (рйй) = -Vp - рУ(Ф) + vS - uD,
+ V • (рЕй) = -V • (pv) - (рУ(Ф),й) - A + Г + e- -dl 9 9
+ V • (рей) = -(7 - l)ptV u-A + T + e- -dl 9 p
1 9
рЕ = 2рй + p6'
p = (<y-l)pe,
Для описания бесстолкповительной компоненты будем использовать систему уравнений для первых моментов бесстолкновительного уравнения Больцмана, записанную также в эйлеровых координатах:
л
+ V • (nv) = V - S.
дт)
+ V • (nvv) = -VII - пУ(Ф) + uD - vS, 80 Вестник ЮУрГУ. Серия «Вычислительная математика и информатика»
^- + V • (pWv) = - V • {№) - (nV(Ф),t?) + е--е~, dl р р
2 2
Уравнение Пуассона для обеих компонент записывается в виде:
ДФ = 4тгС(р + п),
где р — давление газа, pi — плотность г компоненты смеси газа, S{j — скорость прохождения химических реакций, р = ]Г\ pi — плотность смеси газа, п — плотность бесстол кновитель-ной компоненты, й — скорость газовой компоненты, v — скорость бесстолкновительной компоненты, рЕ — плотность полной механической энергии газа, pW — плотность полной механической энергии бесстол кновительной компоненты, Ф — гравитационный потенциал, е — плотность внутренней энергии газа, 7 — эффективный показатель адиабаты, П^ = (YLxx.Uyy.Ilzz) — диагональный тензор дисперсии скоростей бесстолкновительной компоненты, S — скорость образования сверхновых звезд, V — скорость звездообразования, А — функция охлаждения, Г — функция нагревания от взрыва сверхновых звезд. Мы не будем вводить подробности описания каждого терма для описания подсеточной физики, так как подробности их применения могут быть найдены в работах [4, 10, 13].
2.1. Описание численного метода
Для численного решения уравнений гравитационной газовой динамики был использован оригинальный численный метод, основанный на комбинации метода Годунова, метода разделения операторов и кусочно-параболического метода на локальном шаблоне для обеспечения высокого порядка точности [14, 15].
Система уравнений решается в два этапа: эйлеров, на котором решаются уравнения без адвективных членов, и лагранжев, на котором происходит адвективный перенос гидродинамических величин. На эйлеровом этапе гидродинамические уравнения для обеих компонент записываются в неконсервитивной форме и исключаются адвективные члены. В результате такая система на интерфейсе двух ячеек имеет аналитическое решение, которое используется для записи потоков через интерфейс двух ячеек [16]. Для повышения порядка точности используется кусочно-параболический метод на локальном шаблоне (PPML), который состоит в построении локальных парабол внутри ячеек для каждой гидродинамической величины. Главное отличие PPML от классического РРМ метода состоит в использовании локального шаблона для вычислений. Это позволяет на этапе параллельной реализации, в основе которой геометрическая декомпозиция расчетной области, использовать только один слой перекрытия подобластей, что упрощает реализацию граничных условий и уменьшает количество пересылок, следовательно способствует росту эффективности параллельной реализации. На лагранжевом этапе используется аналогичный численный подход.
На данный момент решение уравнения Пуассона основано на Fast Fourier Transform методе. Это связано с тем, что решение уравнения Пуассона занимает несколько процентов от времени счета, но в дальнейшем мы планируем перейти к итерационным методам решения таким как SOR и CGM. После решения уравнения Пуассона и гидродинамических уравнений происходит корректировка решения переопределенной системы уравнений, для этого
используется оригинальная процедура для сохранения полной энергии системы и гарантии неубывания энтропии [17, 18].
В результате разработанный численный метод решения обладает следующими свойствами: высокий порядок точности на гладких решениях и малая диссипация в случае разрывных решений; отсутствие необходимости введения члена искусственной вязкости или ограничителей; инвариантность получаемого численного решения относительно поворота и отсутствие карбункул-эффектов; гарантированное неубывание энтропии; возможность расширения на более сложные гидродинамические модели; простота программной реализации; потенциально бесконечная масштабируемость. Последний пункт нам наиболее важен и основан на том факте, что все вычисления в ячейках происходят независимо, регулярно и на локальном шаблоне.
Численный метод был протестирован на следующих задачах:
1. Одномерные тесты Годунова о распаде разрыва.
2. Одномерный тест Аксенова с непрерывным периодическим решением.
3. Задача Седова о точечном взрыве.
4. Двумерная неустойчивость Релея-Тейлора.
5. Двумерная неустойчивость Кельвина-Гельмгольца.
6. Задача коллапса Эврарда.
Подробное описание численного метода и его верификация приведена в работе [19]. Также разработано расширение численного метода на решение МГД уравнений [20].
2.2. Декомпозиция расчетной области
Со-дизайн [9] физико-математической модели, численного метода и структур данных позволяет использовать геометрическую декомпозицию расчетной области с одним слоем перекрытия подобластей. Такую возможность мы имеем за счет построения парабол на предыдущем шаге, что требует только локального взаимодействия между ячейками. На рис. 1 приведены процентные соотношения между этапами.
The Lagrangian Stage 80%
4%
Poisson Solver
6%
10%
The Eulerian Stage
Other
Рис. 1. Процентное соотношение между этапами в коде AstroPhi
Для решения уравнения Пуассона, в основе которого быстрое преобразование Фурье для суперЭВМ с распределенной памятью была использована библиотека FFTW [21]. В основе этой библиотеки лежит процедура ALLTOALL, которая «транспонирует» трехмерный массив, перераспределяя значительные объемы памяти между всеми процессами. Безусловно, это дорогая сетевая операция, которая требует отказа от всего алгоритма в случае использовании сколь либо значительного количества вычислителей. Однако, эта процедура в случае использования сетевой инфраструктуры InfiniBand не занимает критическое время и, по всей видимости, оптимизирована на низком сетевом уровне [22].
Основными этапами вычислительной схемы являются эйлеров и лагранжев этапы. Мы сосредоточимся именно на этих этапах, как на наиболее затратных. Также вне нашего рассмотрения в плане ускорения останутся процедуры, в которых «деление» импульса на функцию плотности и перезапись массивов. В этих процедурах фактически происходит копирование памяти из одной области в другую, в дальнейшем мы также рассмотрим эти операции отдельно с точки зрения обобщенной функции MEMCPY.
Отдельно остановимся на процедуре вычисления шага по времени, исходя из условия Куранта. В случае использования графических ускорителей данная процедура была реализована только иа CPU [6] (также было сделано и в коде GAMER [23]). Причина этого -отсутствие эффективной реализации редуцирующей операцией тгп в технологии CUDA. В то время как в ОрепМР такая операция эффективно реализована. Стоимость этой процедуры составляет порядка одного процента от общего времени вычислений и практически не влияет иа эффективность параллельной реализации. Однако, при увеличении количества графических ядер до нескольких тысяч и стократного ускорения в рамках одного графического процессора суммарно всех остальных процедур, может возникнуть курьезная ситуация, когда процедура вычисления шага по времени будет выполняться дольше всех остальных. При том, что авторами уже было достигнуто 55-кратное ускорение в рамках одного GPU [6] и количество графических ядер в одном ускорителе увеличивается, то такая ситуация может быть достигнута в ближайшие пару лет. Стоит отметить, что такая проблема в принципе невозможна иа ускорителях Intel Xeon Phi.
Использование равномерной сетки в декартовых координатах для решения уравнений гидродинамики позволяет использовать произвольную декартову топологию для декомпозиции расчетной области. Такая организация вычислений имеет потенциально бесконечную масштабируемость. В коде AstroPhi используется многоуровневая одномерная декомпозиция расчетной области. По одной координате внешнее одномерное разрезание происходит средствами технологии MPI, внутри каждой подобласти разрезание происходит средствами ОрепМР, адаптированного для MIC-архитектур (рис. 2).
Такой подход использовался также и в первой версии программного кода AstroPhi [7] с учетом использования offload режима. Такая декомпозиция связана с топологией и архитектурой гибридного суперЭВМ RSC PetaStream, который был использован для вычислительных экспериментов.
2.3. Шаблоны программирования для Intel Xeon Phi
Для использования Intel Xeon Phi использован регулярный шаблон вычислений, который следует из схемы декомпозиции расчетной области и состоит в распределении работ по нитям (см. рис. 3).
z
/
/
MPI
>
#pragma omp parallel
for ... {
И
/
Рис. 2. Схема геометрической декомпозиции в коде AstroPhi
В листинге приведена заготовка для использования offload режима использования ускорителя Intel Xeon Phi, аналогичный подходу используемому в работе [7].
2.4. Шаблоны сетевых взаимодействий
Межпроцессное взаимодействие средствами MPI осуществляется с помощью шаблона передачи по двунаправленному списку (см. рис. 4) крайних элементов одномерного массива размером N элементов.
Указанный шаблон является очень простым, однако именно на нем построены более сложные межпроцессные взаимодействия обмена срезами трехмерных массивов.
3. Исследование производительности
Для экспериментов были использованы два гибридных суперкомпьютера на основе архитектуры RSC PetaStream: МВС-10П МСЦ РАН (64 ускорителя Intel Xeon Phi 7120 D) и Политехник RSC PetaStream СПбПУ (256 ускорителя Intel Xeon Phi 5120 D). Далее приведем исследования производительности различных подсистем кода: исследование ускорения, масштабируемости, имитационного моделирования масштабируемости, пропускной способности памяти и скорость сетевых коммуникаций. В наших исследованиях вопросы масштабируемости и ускорения были исследованы на обеих архитектурах, вопросы связанные с организацией вычислений были проведены на суперкомпьютере МВС-10П МСЦ РАН.
В силу разного объема памяти на ускорителях Intel Xeon Phi 7120 D исследование ускорения проводилось на сетке 512 , на ускорителях Intel Xeon Phi 5120 D была использована сетка 512 х2562. Это максимальные размеры сеток, которые могут поместиться в один ускоритель. Для измерения ускорения замерялось время каждого этапа численного метода, в секундах, а затем вычислялась их сумма при различном числе используемых логических
// Offload/Native mode #define NATIVE /* OFFLOAD */ // Number of MIC-threads #define MIC.NUM.THREADS 240
#ifdef OFFLOAD
#pragma offload.attribute (push,target(mic)) #endif
double foo(double *a, double x, int index) {
return a[index] * x ;
}
#ifdef OFFLOAD
#pragma offload_attribute (pop) #endif
#ifdef OFFLOAD
#pragma offload target (mic) in (a: length(N)) \ out(c:length(N))
#endif {
#pragma omp parallel for default(none) shared(a,x,с) \
num.threads(MIC.NUM.THREADS) for(i=0;i<N;i++) c[i] = foo(a,x,i);
}
Рис. 3. Шаблон работы с процедурами на Intel Xeon Phi
ядер (Threads). Ускорение Р (SpeedUp) вычислялось по формуле 1:
Total i Total*;'
где То Lali — время вычислений на одном логическом ядре, Total к — время вычислений при использовании К логических ядер. Результаты исследований ускорения для суперкомпьютера МВС-10П МСЦ РАН (JSCC) и Политехник RSC PetaStream СПбПУ (SPb) приведены на рис. 5.
Таким образом, было получено 134-кратное ускорение (масштабируемость в сильном смысле) в рамках одного ускорителя Intel Xeon Phi 7120 D и 84-кратиое ускорение в рамках одного ускорителя Intel Xeon Phi 5120 D. Такие значения ускорения по всей видимости напрямую связаны с производительностью каждого ускорителя. Так исследования ускорения (и дальнейшей масштабируемости) на суперкомпьютере МВС-10П МСЦ РАН было сделано в апреле 2015 года, а исследования на суперкомпьютере Политехник RSC PetaStream СПбПУ было сделано в ноябре 2015 года.
#define СОММ MPI_C0MM_W0RLD #define STATUS MPI.STATUS.IGNORE #define TR 1 // "to right" communications #define TL 2 // "to left" communications
if(rank == 0) { buffer [0] = a[N-2] ;
MPI.Send(buffer,1,MPI.DOUBLE,rank+1,TR,COMM); MPI.Recv(buffer,1,MPI.DOUBLE,rank+1,TL,COMM,STATUS); a[N-l] = buffer[0]; } if(rank == size-1)
{ MPI_Recv(buffer,l,MPI.DOUBLE,rank-l,TR,COMM,STATUS); a[0] = buffer[0]; buffer[0] = a[l] ;
MPI.Send(buffer,1,MPI.DOUBLE,rank-1,TL,COMM); > if(rank!=0 && rank!=size-l)
{ MPI_Recv(buffer,l,MPI.DOUBLE,rank-l,TR,COMM,STATUS); a[0] = buffer[0]; buffer [0] = a[N-2] ;
MPI.Send(buffer,1,MPI.DOUBLE,rank+1,TR,COMM); MPI.Recv(buffer,1,MPI.DOUBLE,rank+1,TL,COMM,STATUS); a[N-l] = buffer[0]; buffer[0] = a[l] ;
MPI.Send(buffer,1,MPI.DOUBLE,rank-1,TL,COMM); >
Рис. 4. Шаблон сетевых взаимоедйствий средствами MPI
140 120 100
3 80 I
"О
ф 60
CD
£ 40
20 О
1 2 4 8 16 32 64 128 256
Threads
Рис. 5. Исследование ускорения кода AstroPhi
Проводилось исследование масштабируемости кода AstroPhi на ускорителях Intel Xeon Phi 7120 D па сетке 512р х 512 х 512, на ускорителях Intel Xeon Phi 5120 D была использована сетка 512р х 256 х 256 в обеих случаях использовались четыре логических ядра на каждый ускоритель, где р — число используемых ускорителей. Таким образом, на каждый ускоритель приходится одинаковый размер подобласти при любом числе исследуемых уско-
рнтелей. Для исследования масштабируемости замерялось время каждого этапа численного метода, в секундах, а затем вычислялась их сумма (Total) при различном числе используемых ускорителей Intel Xeon Phi (MIC). Масштабируемость T (Scalability) вычислялось по формуле
_ Т0Ш1
- тййд [Z)
где Totali — время вычислений па одном ускорителе при использовании одного ускорителя, Totalp — время вычислений па одном ускорителей при использовании р ускорителей. Результаты исследований масштабируемости приведены па рис. 6.
1,1 1,0 0,9
-4—'
'Б га
га 0.8 о со
0,7 0,6
1 2 4 8 16 32 64 128 256
MICS
Рис. 6. Исследование масштабируемости кода AstroPhi
Таким образом, была получена 92-процентная эффективность (масштабируемость в слабом смысле) на 64 ускорителях Intel Xeon Phi 7120 D и 75-процептпая эффективность па 224 ускорителях Intel Xeon Phi 5120 D. Заметим, что эффективность быстрее просаживается на суперкомпьютере СПбПУ, что вероятно связано со сложностью сетевой инфраструктуры и дополнительными сетевыми расходами па организацию обменов.
Особенностью оригинального подхода является возможность простой геометрической декомпозиции расчетной области и последующим обменом граничных значений между только соседними вычислительными узлами. Имитационная модель организации вычислений строится из следующих предположений:
1) для нахождения общего времени выполнения вычислений па каждом этапе будем предполагать, что нам известно среднее время вычислений па одну ячейку, таким образом, предполагая однородность вычислений по всей расчетной области;
2) в качестве вычислительного узла выбирается ускоритель Intel Xeon Phi полностью, тем самым не моделируется масштабируемость вычислений внутри одного устройства;
3) время выполнения коммуникаций будем считать линейной функцией от числа передаваемых элементов с учетом латептпости;
4) количество передаваемых элементов, а, следовательно, и время передачи, после каждого из этапов численного метода одинаково;
5) используется сетевая инфраструктура ССКЦ ИВМнМГ СО РАН;
6) используется одномерная декомпозиция расчетной области;
............................ ■ 1 1 .........................................
-
• fi - --.
о
о.
о
\л
°Q
—■— JSCC
-О SPb
7) рассматривается только экстенсивность вычислительной системы при сохранении производительности отдельного устройства.
Построенная на таких допущениях имитационная модель кода AstroPhi была смоделирована с помощью комплекса AGNES [24] на различном числе модельных ускорителей. Вычислительные эксперимены показали, что программный комплекс AstroPhi может быть с 70-процентной эффективностью масштабируем до одного миллиона вычислительных устройств. Такое число ускорителей соответствует экзафлопсному уровню вычислений.
4. Вычислительные эксперименты
4.1. Моделирование образования крупномасштабных космологических
С момента времени, соответствующему z = 99 будем рассматривать расширяющуюся кубическую область с длиной куба L = 100/1г Мрс = 3 х 1023//i m, и периодическими граничными условиями по каждому измерению. В качестве характерного значения плотности взято значение р = 1,88 х 10~26/г2 kg/m3. Доля темной энергии Од = 0,73, темной материи Hq = 0,226, видимой барионной материи = 0,044 (в начальный момент времени предполагается отсутствие звезд). Температура газовой компоненты Т = 10 К. Постоянная Хаббла Н = 67, 8 км/сек/мпс. Для задания начальных данных задаются малые флуктуации равномерно распределенной плотности. Для задания случайных возмущений формируется нормальное распределение с амплитудой, соответствующей энергетическому космологическому спектру. Затем выполняется обратное преобразование Фурье. В рамках двухфазной многокомпонентной гидродинамической модели с учетом космологического расширения и подсеточпых процессов было смоделировано (см. рис. 7) образование крупномасштабных космологических структур — волос (филаменты в зарубежной литературе), стен (блинчики Я.Б. Зельдовича в российской литературе), скоплений (кластеры в зарубежной литературе) галактик, пустот (войды в зарубежной литературе).
В результате вычислительного эксперимента было показано качественное соответствие структуры смоделированного и наблюдаемых скоплений, количественное соответствие масс смоделированных галактик и расстояний между ними с наблюдаемыми значениями.
структур
-40 -20 0 20 40 Mpc/h
Рис. 7. Плотность темной материи в момент z = 0
И.М. Куликов, И.Г. Черных, Э.И. Воробьев, А.В. Снытников, Д.В. Вине и др. 4.2. Моделирование образования спиральных рукавов галактик
Объяснен механизм образования спиральных неустойчивостей в галактическом диске в модели изотермической гидродинамики, приводящий к образованию многорукавных галактик (двух-, четырех- и семирукавная структура) в ходе развития гравитационной неустойчивости. Определены параметры для образования каждого вида галактик (см. рис. 8).
М рс
М рс
М рс
-2 0 2 4 6 8
Х(крс)
Рис. 8. Столбцевая плотность (в М^рс 2) двухрукавной (слева), четырехрукавной (посередине) и семирукавной (справа) галактик
4.3. Моделирование образования спиральных рукавов галактик
Исследована задача образования молекулярных облаков в ходе развития МГД турбулентности (см. рис. 9).
-0,5 0,0 0,5 [100 рс]
Рис. 9. Задача развития МГД турбулентности межзвездной среды. Концентрация газа в см"3 в момент времени t = 15 млн. лет
После процесса ионизации водорода происходит процесс образования облачных структур. Для вычислительного эксперимента использовалась сетка 5123 ячеек, для которой также была проанализирована зависимость альфвеновской скорости от плотности газа (см. рис. 10 слева) и косинуса угла колииеарности между векторами скорости и магнитного поля от плотности газа (см. рис 10 справа).
-0,2 0,0 0,2 1од1Пп [cm 3]
-0,4 -0,2 0,0
log. n [cm
Рис. 10. Задача развития МГД турбулентности межзвездной среды. Зависимость альфве-новской скорости от плотности газа (слева) и косинуса угла колинеарности между векторами скорости и магнитного поля от плотности газа (справа)
Из рисунков видно, что для альфвеновского числа Маха прослеживается корреляция Л4 ~ п2, показанная белой линией, и большая часть облака п > 10 см-3 попадают в сверхальфвеновскую область (см. рис. 10 слева). Причина возникновения такого режима связано с самоорганизацией в замагниченной турбулентной межзвездной среде в трансаль-феновском режиме М. ~ 1 при п ~ 1. При таких плотностях (см. рис 10 справа) контуры косинуса угла колинеарности между векторами скорости и магнитного поля образуют седловидную структуру, что говорит о том, что сжатие происходит вдоль силовых линий магнитного поля. Затем за счет влияния самогравитации происходит дальнейшее увеличение массы и плотности облаков. В свою очередь, в полученных плотных облаках турбулентность является только сверхальфвеновской с числом Маха М. > 100.
4.4. Задача высоко-скоростного столкновения дисковой галактики с межгалактическим ветром
В качестве одного из вычислительных экспериментов выбрана задача высокоскоростного столкновения дисковой галактики с межгалактическим ветром в гидродинамической модели. В результате такого взаимодействия образуется механизм набегающего потока и происходит обтекание с образованием неустойчивостью за галактикой. Образование подобных неустойчивостей и хвостов важны для изучения механизма образования пекулярных галактик и процесса звездообразования [25, 26]. Дисковая галактика задается равновесной конфигурацией сферического гало с NFW-профилем плотности и равновесным экспонециальным профилем плотности с дифференциальным вращением. Общая масса галактики составляет М = 1013Mq. Скорость набегающего потока составляет v = 600 км/с. Постановка задачи изображена на рис. 11.
Рис. 11. Постановка задачи набегания газа на галактику
Результаты моделирования представлены на рис. 12, которые согласуются с результатами аналогичного моделирования [26] и наблюдениями [27]. Расчеты были проведены на последовательности сеток от 896 х 128 х 128 до 7168 х 1024 х 1024. На последней сетке было достигнуто 47 процентов от пиковой скалярной производительности ускорителя Intel Xeon Phi при использовании 53760 нитей.
[10 кре]
Рис. 12. Результаты моделирования. Столбцевая плотность в Мфрс~2
На рис. 12 видно образование хвоста за фронтом галактики, который образуется вследствие набегания газа на галактику.
Заключение
В работе были представлены исследования кода AstroPhi для численного моделирования астрофизических течений на гибридных суперЭВМ, оснащенных ускорителями Intel Xeon Phi. Подробно описан со-дизайн вычислительной модели для описания астрофизических объектов. Детально описаны особенности параллельной реализации и исследования производительности кода AstroPhi. Для кода AstroPhi было достигнуто 134-кратное ускорение в рамках одного ускорителя Intel Xeon Phi, 75-процентная масштабируемость при использовании 224 ускорителей Intel Xeon Phi. Представлены результаты моделирования взаимодействия межгалактического ветра и дисковой галактики. На расчетной сетке 7168 х 1024 х 1024 было достигнуто 47 процентов от пиковой скалярной производительности ускорителя Intel Xeon Phi при использовании 53760 нитей. В будущем планируется разработка векторизованного варианта кода AstroPhi, что позволит получить сверхвысокую производительность вплоть до 1 терафлопса на один ускоритель Intel Xeon Phi.
Работа поддержана грантом Российского фонда фундаментальных исследований 15-
31-20150 мол-а-вед, 15-01-00508 и 16-07-00Щ, грантом Президента РФ МК - 6648.2015.9.
Работа выполнена при частичной поддержке проектной части госзадания Л8 3.961.20Ц/К
Министерства образования и науки Российской Федерации (Э.И. Воробьев).
Литература
1. Tutukov A., Lazareva G., Kulikov I. Gas Dynamics of a Central Collision of Two Galaxies: Merger, Disruption, Passage, and the Formation of a New Galaxy // Astronomy Reports. 2011. Vol. 55, No. 9. P. 770-783.
2. Mitchell N., Vorobyov E., Hensler G. Collisionless Stellar Hydrodynamics as an Efficient Alternative to N-body Methods // Monthly Notices of the Royal Astronomical Society. 2013. Vol. 428, No. 3. P. 2674-2687.
3. Ardeljan N.V., Bisnovatyi-Kogan G.S., Kosmachevskii G.S., Moiseenko S.G. An implicit Lagrangian code for the treatment of nonstationary problems in rotating astrophysical bodies // Astronomy and Astrophysics Supplement Series. 1996. Vol. 115. P. 573-594.
4. Khoperskov S.A, Vasiliev E.O., Sobolev A.M., Khoperskov A.V. The simulation of molecular clouds formation in the Milky Way // Monthly Notices of the Royal Astronomical Society. 2013. Vol. 428. P. 2311-2320.
5. Fletcher A., Beck R., Shukurov A., Berkhuijsen E., Horellou C. Magnetic fields and spiral arms in the galaxy M51 // Monthly Notices of the Royal Astronomical Society. 2014. Vol. 412. P. 2396-2416.
6. Kulikov I. GPUPEGAS: A New GPU-accelerated Hydrodynamic Code for Numerical Simulations of Interacting Galaxies // The Astrophysical Journal Supplement Series. 2014. Vol. 214, Id. 12.
7. Kulikov I.M., Chernykh I.G., Snytnikov A.V., Glinskiy B.M., Tutukov A.V. AstroPhi: A code for complex simulation of dynamics of astrophywsical objects using hybrid supercomputers // Computer Physics Communications. 2015. Vol. 186. P. 71-80.
8. Куликов И.М., Черных И.Г., Глинский Б.М. AstroPhi: программный комплекс для моделирования динамики астрофизических объектов на гибридных суперэвм, оснащенных ускорителями Intel Xeon Phi // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. 2013. Т. 2, № 4. С. 57-79.
9. Glinskiy В., Kulikov I., Snytnikov A., Romanenko A., Chernykh I., Vshivkov V. Co-design of Parallel Numerical Methods for Plasma Physics and Astrophysics // Supercomputing frontiers and innovations. 2015. Vol. 1, No. 3. P. 88-98.
10. Vorobyov E., Recchi S., Hensler G. Stellar hydrodynamical modeling of dwarf galaxies: simulation methodology, tests, and first results // Astronomy & Astrophysics. 2015. Vol. 579, Id. A9.
11. Kulikov I., Chernykh I. Glinskiy В., Weins D., Shmelev A. Astrophysics simulation on RSC massively parallel architecture // Proceedings - 2015 IEEE/ACM 15th International Symposium on Cluster, Cloud, and Grid Computing, CCGrid 2015. 2015. P. 1131-1134.
12. Vshivkov V., Lazareva G., Snytnikov A., Kulikov I. Supercomputer Simulation of an Astrophysical Object Collapse by the Fluids-in-Cell Method // Lecture Notes of Computer Science. 2009. Vol. 5698. P. 414-422.
13. Kulikov I., Chernykh I., Katysheva E., Protasov A., Serenko A. The numerical simulation of interacting galaxies by means of hybrid supercomputers // Bulletin NCC: Numerical analysis. 2015. Vol. 17. P. 17-33.
14. Popov M., Ustyugov S. Piecewise parabolic method on local stencil for gasdynamic simulations // Computational Mathematics and Mathematical Physics. 2007. Vol. 47, No. 12. P. 1970-1989.
15. Popov M., Ustyugov S. Piecewise parabolic method on a local stencil for ideal magnetohydrodynamics // Computational Mathematics and Mathematical Physics. 2008. Vol. 48, No. 3. P. 477-499.
16. Vshivkov V., Lazareva G., Snytnikov A., Kulikov I., Tutukov A. Hydrodynamical code for numerical simulation of the gas components of colliding galaxies // The Astrophysical Journal Supplement Series. 2011. Vol. 194, Id. 47.
17. Godunov S., Kulikov I. Computation of Discontinuous Solutions of Fluid Dynamics Equations with Entropy Nondecrease Guarantee // Computational Mathematics and Mathematical Physics. 2014. Vol. 54. P. 1012-1024.
18. Vshivkov V., Lazareva G., Snytnikov A., Kulikov I., Tutukov A. Computational methods for ill-posed problems of gravitational gasodynamics // Journal of Inverse and Ill-posed Problems. Vol. 19, No. 1. P. 151-166.
19. Kulikov I., Vorobyov E. Using the PPML approach for constructing a low-dissipation, operator-splitting scheme for numerical simulations of hydrodynamic flowrs // The Journal of Computational Physics. 2016. Vol. 317. P. 318-346.
20. Kulikov I., Chernykh I., Snytnikov A., Protasov V., Tutukov A., Glinsky B. Numerical Modelling of Astrophysical Flow on Hybrid Architecture Supercomputers //In Parallel Programming: Practical Aspects, Models and Current Limitations (ed. M. Tarkov). 2015. P. 71-116.
21. Frigo M., Johnson S. The Design and Implementation of FFTW3 // Proceedings of the IEEE. 2005. Vol. 93, No. 2. P. 216-231.
22. Kalinkin A., Laevsky Y., Gololobov S. 2D Fast Poisson Solver for High-Performance Computing // Lecture Notes in Computer Science. 2009. Vol. 5698. P. 112-120.
23. Schive H., Tsai Y., Chiueh T. GAMER: a GPU-accelerated Adaptive-Mesh-Refinement Code for Astrophysics // The Astrophysical Journal. 2010. Vol. 186. P. 457-484.
24. Podkorytov D., Rodionov A., Sokolova O., Yurgenson A. Using Agent-Oriented Simulation System AGNES for Evaluation of Sensor Networks // Lecture Notes of Computer Science. 2010. Vol. 6235. P. 247-250.
25. Jaffe Y.L., Smith R., Candlish G., Poggianti B.M., Sheen Y.-K., Verheijen M.A.W. BUDHIES II: A phase-space view of HI gas stripping and star-formation quenching in cluster galaxies // Monthly Notices of the Royal Astronomical Society. 2015. Vol. 448. P. 1715-1728.
26. Vollmer В., Cayatte V., Balkowski C., Duschl W.J. Ram pressure stripping and galaxy orbits: The case of the Virgo cluster // The Astrophysical Journal. 2001. Vol. 561. P. 708-726.
27. Cayatte V., Kotanyi C., Balkowski C., van Gorkom J.H. A very large array survey of neutral hydrogen in Virgo Cluster spirals. 3: Surface density profiles of the gas // The Astronomical Journal. 1994. Vol. 107, No. 3. P. 1003-1017.
DOI: 10.14529/cmsel60406
NUMERICAL HYDRODYNAMICS SIMULATION OF ASTROPHYSICAL FLOWS AT INTEL XEON PHI SUPERCOMPUTERS
© 2016 I.M. Kulikov1, I.G. Chernykh2, E.I. Vorobyov3, A.V. Snytnikov1, D.V. Weins2, A.A. Moskovsky4, A.B. Shmelev4, V.A. Protasov5, A.A. Serenko5, V.E. Nenashev5, V.A. Vshivkov1, A.S. Rodionov6, B.M. Glinsky2, A.V. Tutukov7
1 Laboratory of Parallel Algorithms for Solving Large Problems, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (pr. Ac. Lavryenteva 6, Novosibirsk. 630090 Russia), 2Siberian Supercomputer Center, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (pr. Ac. Lavryenteva 6, Novosibirsk, 630090 Russia), 3Laboratory of Space Research, Southern Federal University (pr. Stachki 194>
Rostov-on-Don, 344090 Russia), 4ZAO RSC Technologies (Kutuzovskiy pr. 36, building 23, Moscow, 121170 Russia), 5Novosibirsk State Technical University (pr. K. Marksa 20, Novosibirsk, 630073 Russia), 6Laboratory of Dynamic Processes Simulation in Information Networks, Institute of Computational Mathematics and Mathematical Geophysics SB RAS (pr. Ac. Lavryenteva 6, Novosibirsk, 630090 Russia), 7Department of Stellar Physics and Evolution, Institute of Astronomy RAS (Pyatnitskaya St. 48, Moscow, 119017 Russia) E-mail: [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected], [email protected],
gbmMopg.sscc.ru, [email protected] Received: 13.04.2016
In this paper we propose a research of AstroPhi code for numerical simulation of astrophysical flows at Intel Xeon Phi supercomputers. The co-design of a computational astrophysics model are described. The parallel implementation and scalability tests of the AstroPhi code are presented. The results of simulation of interaction between intergalactic wind and a disk galaxy are provided. For AstroPhi code a 134x speed-up with one Intel Xeon Phi accelerator and 75% weak scaling efficiency on 224x Intel Xeon Phi accelerators was obtained. We got peak of performance on a 7168 x 1024 x 1024 mesh size by means 53760 RSC PetaStream threads. Keywords: high performance computing, numerical astrophysics, Intel Xeon Phi accelerators.
FOR CITATION
Kulikov I.M., Chernykh I.G., Vorobyov E.I., Snytnikov A.V., Weins D.V., Moskovsky A.A., Shmelev A.В., Protasov V.A., Serenko A.A., Nenashev V.E., Vshivkov V.A., Rodionov A.S., Glinsky B.M., Tutukov A.V. Numerical Hydrodynamics Simulation of Astrophysical Flows at Intel Xeon Phi Supercomputers. Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering. 2016. vol. 5, no. 4. pp. 77-97. (in Russian) DOI: 10.14529/cmsel60406.
References
1. Tutukov A., Lazareva G., Kulikov I. Gas Dynamics of a Central Collision of Two Galaxies: Merger, Disruption, Passage, and the Formation of a New Galaxy. Astronomy Reports. 2011. vol. 55, no. 9. pp. 770-783. DOI: 10.1134/S1063772911090083.
2. Mitchell N., Vorobyov E., Hensler G. Collisionless Stellar Hydrodynamics as an Efficient Alternative to N-body Methods. Monthly Notices of the Royal Astronomical Society. 2013. vol. 428, no. 3. pp. 2674-2687. DOI: 10.1093/mnras/sts228.
3. Ardeljan N.V., Bisnovatyi-Kogan G.S., Kosmachevskii G.S., Moiseenko S.G. An Implicit Lagrangian Code for the Treatment of Nonstationary Problems in Rotating Astrophysical Bodies. Astronomy and Astrophysics Supplement Series. 1996. vol. 115. pp. 573-594.
4. Khoperskov S.A, Vasiliev E.O., Sobolev A.M., Khoperskov A.V. The Simulation of Molecular Clouds Formation in the Milky Way. Monthly Notices of the Royal Astronomical Society. 2013. vol. 428. pp. 2311-2320. DOI: 10.1093/mnras/stsl95.
5. Fletcher A., Beck R., Shukurov A., Berkhuijsen E., Horellou C. Magnetic Fields and Spiral Arms in the Galaxy M51. Monthly Notices of the Royal Astronomical Society. 2014. vol. 412. pp. 2396-2416. DOI: 10.1111/j.l365-2966.2010.18065.x.
6. Kulikov I. GPUPEGAS: A New GPU-accelerated Hydrodynamic Code for Numerical Simulations of Interacting Galaxies. The Astrophysical Journal Supplement Series. 2014. vol. 214, id. 12. DOI: 10.1088/0067-0049/214/1/12.
7. Kulikov I.M., Chernykh I.G., Snytnikov A.V., Glinskiy B.M., Tutukov A.V. AstroPhi: A Code for Complex Simulation of Dynamics of Astrophysical Objects Using Hybrid Supercomputers. Computer Physics Communications. 2015. vol. 186. pp. 71-80. DOI: 10.1016/j.cpc.2014.09.004.
8. Kulikov I.M., Chernykh I.G., Glinskiy B.M. AstroPhi: a Hydrodynamical Code for Complex Modelling of Astrophysical Objects Dynamics by Means of Hybrid Architecture Supercomputers on Intel Xeon Phi Base. Vestnik Yuzhno-Uralskogo gosudarstvennogo universiteta. Serija: Vychislitelnaja matematika г informatika [Bulletin of the South Ural State University. Series: Computational Mathematics and Software Engineering]. 2013. vol. 2, i. 4. pp. 57-79. DOI: 10.14529/cmsel30405. (in Russian)
9. Glinskiy В., Kulikov I., Snytnikov A., Romanenko A., Chernykh I., Vshivkov V. Co-design of Parallel Numerical Methods for Plasma Physics and Astrophysics. Supercom,puting Frontiers and Innovations. 2015. vol. 1, no. 3. pp. 88-98.
10. Vorobyov E., Recchi S., Hensler G. Stellar Hydrodynamical Modeling of Dwarf Galaxies: Simulation Methodology, Tests, and First Results. Astronomy & Astrophysics. 2015. vol. 579, id. A9. DOI: 10.1051/0004-6361/201425587.
11. Kulikov I., Chernykh I. Glinskiy В., Weins D., Shmelev A. Astrophysics Simulation on RSC Massively Parallel Architecture. Proceedings - 2015 IEEE/ACM 15t,h International Symposium, on Cluster, Cloud, and Grid Computing, CCGrid 2015. 2015. pp. 1131-1134. DOI: 10.1109/ccgrid.2015.102.
12. Vshivkov V., Lazareva G., Snytnikov A., Kulikov I. Supercomputer Simulation of an Astrophysical Object Collapse by the Fluids-in-Cell Method. Lecture Notes of Computer Science. 2009. vol. 5698. pp. 414-422. DOI: 10.1007/978-3-642-03275-2_41.
13. Kulikov I., Chernykh I., Katysheva E., Protasov A., Serenko A. The Numerical Simulation of Interacting Galaxies by Means of Hybrid Supercomputers. Bulletin NCC: Numerical Analysis. 2015. vol. 17. pp. 17-33.
14. Popov M., Ustyugov S. Piecewise Parabolic Method on Local Stencil for Gasdynamic Simulations. Computational Mathematics and Mathematical Physics. 2007. vol. 47, no. 12. pp. 1970-1989. DOI: 10.1134/s0965542507120081.
15. Popov M., Ustyugov S. Piecewise Parabolic Method on a Local Stencil for Ideal Magnetohydrodynamics. Computational Mathematics and Mathematical Physics. 2008. vol. 48, no. 3. pp. 477-499. DOI: 10.1134/s0965542508030111.
16. Vshivkov V., Lazareva G., Snytnikov A., Kulikov I., Tutukov A. Hydrodynamical Code for Numerical Simulation of the Gas Components of Colliding Galaxies. The Astrophysical Journal Supplement Series. 2011. vol. 194, id. 47. DOI: 10.1088/0067-0049/194/2/47.
17. Godunov S., Kulikov I. Computation of Discontinuous Solutions of Fluid Dynamics Equations with Entropy Nondecrease Guarantee. Computational Mathematics and Mathematical Physics. 2014. vol. 54. pp. 1012-1024. DOI: 10.1134/s0965542514060086.
18. Vshivkov V., Lazareva G., Snytnikov A., Kulikov I., Tutukov A. Computational Methods for Ill-posed Problems of Gravitational Gasodynamics. Journal of Inverse and Ill-posed Problems. vol. 19, no. 1. pp. 151-166. DOI: 10.1515/jiip.2011.027.
19. Kulikov I., Vorobyov E. Using the PPML Approach for Constructing a Low-Dissipation, Operator-Splitting Scheme for Numerical Simulations of Hydrodynamic Flows. The Journal of Computational Physics. 2016. vol. 317. pp. 318-346. DOI: 10.1016/j.jcp.2016.04.057.
20. Kulikov I., Chernykh I., Snytnikov A., Protasov V., Tutukov A., Glinsky B. Numerical Modelling of Astrophysical Flow on Hybrid Architecture Supercomputers. In Parallel Programming: Practical Aspects, Models and Current Limitations (ed. M. Tarkov). 2015. pp. 71-116.
21. Frigo M., Johnson S. The Design and Implementation of FFTW3. Proceedings of the IEEE. 2005. vol. 93, no. 2. pp. 216-231. DOI: 10.1109/jproc.2004.840301.
22. Kalinkin A., Laevsky Y., Gololobov S. 2D Fast Poisson Solver for High-Performance Computing. Lecture Notes in Computer Science. 2009. vol. 5698. pp. 112-120. DOI: 10.1007/978-3-642-03275-2_ll.
23. Schive H., Tsai Y., Chiueh T. GAMER: a GPU-accelerated Adaptive-Mesh-Refinement Code for Astrophysics. The Astrophysical Journal. 2010. vol. 186. pp. 457-484. DOI: 10.1088/0067-0049/186/2/457.
24. Podkorytov D., Rodionov A., Sokolova O., Yurgenson A. Using Agent-Oriented Simulation System AGNES for Evaluation of Sensor Networks. Lecture Notes of Computer Science. 2010. vol. 6235. pp. 247-250. DOI: 10.1007/978-3-642-15428-7_24.
25. Jaffe Y.L., Smith R., Candlish G., Poggianti B.M., Sheen Y.-K., Verheijen M.A.W. BUDHIES II: A Phase-Space View of HI Gas Stripping and Star-Formation Quenching in Cluster Galaxies. Monthly Notices of the Royal Astronomical Society. 2015. vol. 448. pp. 1715-1728. DOI: 10.1093/'mnras/stvl00.
26. Vollmer В., Cayatte V., Balkowski С., Duschl W.J. Ram Pressure Stripping and Galaxy Orbits: The Case of the Virgo Cluster. The Astrophysical Journal. 2001. vol. 561. pp. 708726. DOI: 10.1086/323368.
27. Cayatte V.. Kotanyi C., Balkowski C., van Gorkom J.H. A Very Large Array Survey of Neutral Hydrogen in Virgo Cluster Spirals. 3: Surface Density Profiles of the Gas. The Astronomical Journal. Ш)4. vol. 107, no. 3. pp. 1003-1017. DOI: 10.1086/116913.