Научная статья на тему 'Исследование производительности суперкомпьютеров семейства «СКИФ Аврора» на индустриальных задачах'

Исследование производительности суперкомпьютеров семейства «СКИФ Аврора» на индустриальных задачах Текст научной статьи по специальности «Математика»

CC BY
185
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СУПЕРКОМПЬЮТЕР / ПРОИЗВОДИТЕЛЬНОСТЬ / ИНДУСТРИАЛЬНЫЕ ЗАДАЧИ / МАСШТАБИРУЕМОСТЬ ПРИЛОЖЕНИЙ / SUPERCOMPUTER / PERFORMANCE / INDUSTRIAL PROBLEMS / SCALABILITY OF APPLICATIONS

Аннотация научной статьи по математике, автор научной работы — Московский Александр Александрович, Перминов Максим Павлович, Соколинский Леонид Борисович, Черепенников Валерий Владимирович, Шамакина Анастасия Валерьевна

В работе проведено сравнительное исследование производительности ряда приложений численного моделирования на суперЭВМ «СКИФ»: «СКИФ Аврора» и «СКИФ Урал», установленных в Южно-Уральском государственном университете (Челябинск), а также на кластере «Endeavor» компании Intel (DuPont, США). В качестве приложений были выбраны задача газовой динамики, задачи конечно-элементного анализа и задача конденсации наночастиц. В результате анализа результатов показано, что в большинстве случаев суперЭВМ «СКИФ Аврора» демонстрирует наилучшую производительность, в особенности в задачах, требовательных к пропускной способности подсистемы памяти.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Московский Александр Александрович, Перминов Максим Павлович, Соколинский Леонид Борисович, Черепенников Валерий Владимирович, Шамакина Анастасия Валерьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

RESEARCH PERFORMANCE FAMILY SUPERCOMPUTERS «SKIF AURORA» ON INDUSTRIAL PROBLEMS

In a comparative study of the performance of applications of numerical simulation on the supercomputer SKIF: «SKIF Aurora» and «SKIF Ural», set in the South Ural State University (Chelyabinsk), as well as on a cluster of «Endeavor» Company Intel (DuPont, USA ). As applications, we chose the problem of gas dynamics, the problem of finite-element analysis and the problem of condensation of nanoparticles. The analysis results show that in most cases, the supercomputer «SKIF Aurora» demonstrates the best performance, especially in tasks demanding memory bandwidth.

Текст научной работы на тему «Исследование производительности суперкомпьютеров семейства «СКИФ Аврора» на индустриальных задачах»

УДК 004.45

ИССЛЕДОВАНИЕ ПРОИЗВОДИТЕЛЬНОСТИ СУПЕРКОМПЬЮТЕРОВ СЕМЕЙСТВА «СКИФ АВРОРА» НА ИНДУСТРИАЛЬНЫХ ЗАДАЧАХ

А.А. Московский, М.П. Перминов, Л.Б. Соколинский,

В. В. Черепенников, А.В. Шамакина

RESEARCH PERFORMANCE FAMILY SUPERCOMPUTERS «SKIF AURORA» ON INDUSTRIAL PROBLEMS

A.A. Moskovsky, M.P. Perminov, L.B. Sokolinsky,

V. V. Cherepennikov, A. V. Shamakina

В работе проведено сравнительное исследование производительности ряда приложений численного моделирования на суперЭВМ «СКИФ»: «СКИФ Аврора» и «СКИФ Урал», установленных в Южно-Уральском государственном университете (Челябинск), а также на кластере «Endeavor» компании Intel (DuPont, США). В качестве приложений были выбраны задача газовой динамики, задачи конечно-элементного анализа и задача конденсации наночастиц. В результате анализа результатов показано, что в большинстве случаев суперЭВМ «СКИФ Аврора» демонстрирует наилучшую производительность, в особенности в задачах, требовательных к пропускной способности подсистемы памяти.

Ключевые слова: суперкомпьютер, производительность, индустриальные задачи, масштабируемость приложений

In a comparative study of the performance of applications of numerical simulation on the supercomputer SKIF: «SKIF Aurora» and «SKIF Ural», set in the South Ural State University (Chelyabinsk), as well as on a cluster of «Endeavor» Company Intel (DuPont, USA ). As applications, we chose the problem of gas dynamics, the problem of finite-element analysis and the problem of condensation of nanoparticles. The analysis results show that in most cases, the supercomputer «SKIF Aurora» demonstrates the best performance, especially in tasks demanding memory bandwidth.

Keywords: supercomputer, performance, industrial problems, scalability of applications

Введение

Сравнительное исследование производительности и масштабируемости различных приложений крайне важно для суперкомпьютерных центров, как с точки зрения оптимизации нагрузки на существующие машины, так и с точки зрения политики закупки новых платформ. В Южно-Уральском государственном университете установлены две машины семейства «СКЙФ>: «СКИФ Урал> (2008 г.) и «СКИФ Аврора> (2010 г.) В качестве задач были выбраны не стандартные наборы тестов производительности, а несколько приложений пользователей суперкомпьютерного центра ЮУрГУ. Такой выбор позволяет получить более адекватную оценку возможностей вычислительных систем. Дополнительно, при помощи специализированных инструментальных средств, нами проведен анализ особенностей приложений, обуславливающих характеристики производительности приложений.

1. Архитектура суперкомпьютера «СКИФ Аврора»

Платформа «СКИФ Аврора» изначально разрабатывалась как основа для высокопроизводительных систем большого масштаба. Целый ряд технических решений, использованных в «СКИФ» ряда 4, сдвигает баланс свойств в сторону специализации для применения именно в суперкомпьютерах. Подробно характеристики решения рассмотрены в работе [1]. Установка «СКИФ Аврора» в Южно-Уральском государственном университете является первым пилотным проектом по развертыванию системы такого класса. В данном разделе кратко описываются особенности «СКИФ Аврора» с учетом ее конфигурации в ЮУрГУ.

Проект системы, включая ресурсы систем охлаждения и бесперебойного электропитания, позволяет установить до 8 вычислительных шасси «СКИФ Аврора». Каждое шасси включает 64 двухпроцессорных узла с четырехядерными процессорами Intel Xeon Х5570 (Nehalem), с рабочей частотой 2,93 ГГц. Таким образом, в рамках одного монтажного шкафа удалось собрать 2048 процессорных ядер. Максимальная теоретическая производительность системы, состоящей из одного шкафа, составляет 24 ТФлопс.

Рис. 1. Шкаф вычислителя «СКИФ Аврора»

1.1. Вычислительная часть

Высокая плотность упаковки процессоров в вычислителе диктует необходимость использования жидкостной системы охлаждения. Вычислительные узлы выполнены в виде печатных плат, с интегрированными на материнской плате коммуникационными, сервисными микросхемами, модулями памяти. Тестирование плат проводится на заводе-изготовителе, что уменьшает число отказов компонент при инсталляции и первичной настройке системы. Каждый узел-плата накрыт плотно прилегающей пластиной охлаждения. Пластины охлаждения оснащены быстроразъемными муфтами, что позволяет демонтировать отдельный вычислительный узел без демонтажа системы охлаждения корзины (шасси) в целом.

Каждый узел оснащен твердотельным накопителем объемом 80 Гбайт. Использование твердотельных накопителей также направлено на повышение надежности вычислителя - отказы шпиндельных дисковых накопителей составляют львиную долю причин отказов узлов в кластерных установках и вычислительных фермах.

1.2. Коммуникационные сети

Ключевым компонентом любого суперкомпьютера является его коммуникационная среда. Узлы «СКИФ Аврора» обладают суммарным каналом пропускания до 100 Гбит/с, учитывая как системную и вспомогательную коммуникационные сети. Если во вспомогательной сети используются стандартные решения Infiniband QDR, то системная сеть является оригинальной разработкой.

Системная сеть имеет топологию трехмерного тора, маршрутизаторы сети реализованы на уровне адаптеров. Суммарная пропускная способность сети в пересчете на один узел составляет 60 Гбит/с. Сеть позволяет обойтись без использования дополнительного оборудования (маршрутизаторов) и задействовать при монтаже кабели одинаковой длины, вне зависимости от размера системы. Соединения на уровне половины шасси (корзины) выполнены на соединительной плате. Трехмерная организация сети позволяет легче распределить задачи между узлами кластера при моделировании объектов реального мира (трехмерных) и распараллеливании методом декомпозиции области. Для системной сети создана реализация MPI на основе MPICH2, удовлетворяющая спецификации версии MPI 2.0.

Вспомогательная сеть - сеть Infiniband QDR (40 Гбит/с) с полной бисекционной пропускной способностью. Адаптеры сети интегрированы на платах-узлах. Маршрутизаторы первого уровня интегрированы на уровне корзин (шасси) на так называемых «корневых платах». Соединения между узлами и маршрутизатором первого уровня выполнены на соединительной плате (backplane), что существенно уменьшает количество кабелей Infiniband, подключаемых вручную при установке системы. Поскольку маршутизаторы первого уровня уже присутствуют в системе, на втором уровне сети можно использовать относительно недорогие 36-портовые маршрутизаторы - количество Infiniband кабелей и их длина от этого не меняется.

1.3. Подсистема мониторинга и управления

Подсистема мониторинга и управления обеспечивает надежное выполнение всех функций по удаленному обслуживанию установки, за исключением функций, требующих физических манипуляций. Подсистема использует как возможности стандартных IPMI средств мониторинга, так и оригинальную разработку - сеть Servnet. Компоненты Servnet присутствуют во всех основных модулях «СКИФ Аврора»:

1) на уровне узлов интегрированы контроллер и датчики температуры и влажности;

2) на уровне «корневой» платы интегрированы датчики и контроллер управления;

3) на плате блока питания интегрированы датчики и контроллер управления питанием;

4) соединительная плата обеспечивает связь сети Servnet на уровне половины шасси.

Отличительной особенностью Servnet является возможность осуществления мониторинга даже в случае полного отключения электропитания всех основных систем - питание Servnet осуществляется независимо.

«Корневые» платы играют важную роль в системе управления установкой. Именно программное обеспечение, работающее на корневой плате, позволяет отключать и включать электропитание отдельных узлов, осуществлять мониторинг характеристик системы во время работы. Программное обеспечение «корневой платы» осуществляет вывод информации на сенсорные дисплеи, установленные в торцах шасси.

Программное обеспечение мониторинга интегрирует информацию из различных источников, включая подсистемы электропитания, охлаждения, хранения данных, отображает и хранит архив данных. Поскольку установка «СКИФ Аврора» носит экспериментальный характер, под нужды управления и мониторинга выделен отдельный сервер.

ш ' Ä

USB

: с—L

ОС for each node . DC for nodes

Штй

- .?г "'c » 00------

С ter «a«¡ by loge

DGfor Senrf#ijl

EH"~~...

DC for root

,tJLE

DC for nodes #8...#15

Management

Station

Рис. 2. Сети системы управления и мониторинга

1.4. Подсистема электропитания

Подсистема электропитания вычислителя «СКИФ Аврора» осуществляется постоянным током с напряжением 48В. За счет использования постоянного тока подсистема бесперебойного электроснабжения оказывается проще - содержит лишь выпрямитель и аккумуляторные батареи. Преобразователь постоянного тока в переменный оказывается не нужен.

Бесперебойное питание сервера мониторинга дополнительно резервировано - для обеспечения автономной работы в течение полутора часов. Таким образом, система мониторинга вполне в состоянии исполнять роль «черного ящика» вычислительной системы.

Подсистема хранения данных реализована на основе параллельной файловой системы Lustre. Общий объем подсистемы - более 50 терабайт. Теоретически подсистема должна обеспечивать производительность более 4000 операций ввода-вывода (IOPS) и пропускную способность более 500 Мбайт/с. Узлы вычислителя имеют доступ к хранилищу данных по вспомогательной сети - Infiniband QDR.

2. Описание задач

Для исследования эффективности выполнения приложений на вычислителе «СКИФ Аврора» группой сотрудников ЮУрГУ были отобраны несколько задач. Данные задачи анализировались с точки зрения их масштабирования и оптимизации группой специалистов компании Интел (Нижний Новгород), работающей с НРС проектами. Среди приложений можно выделить задачи инженерного проектирования и анализа, решаемые с использова-

нием стандартных инженерных пакетов, а также программный комплекс, реализованный на языке Фортран с использованием библиотеки MPI для решения задачи моделирования процессов формирования металлических наночастиц методом газофазной конденсации. Ниже представлены описания приложений.

2.1. Задача вычислительной гидродинамики тонких турбулентных слоев в щелевых уплотнениях питательных насосов электрических станций

Надежность питательного насоса определяется его вибрационным состоянием. Основным источником вибрации является неуравновешенный ротор, динамика которого в значительной мере зависит от упругих, демпфирующих и инерционных свойств турбулентной жидкости, дросселируемой в щелевых уплотнениях [2].

Щелевые уплотнения характеризуются малым зазором (0,1 - 0,5 мм) по сравнению с линейными размерами (для цилиндрических уплотнений - длина ~ 200 мм, диаметр ~ 200 мм, для радиальных - внутренний радиус ~ 140 мм, длина ~ 40 мм), а также наличием перекоса и эксцентриситета.

Традиционно при расчетах гидродинамики тонких турбулентных слоев в щелевых уплотнениях используются укороченные уравнения Навье — Стокса (уравнения тонкого слоя), которые принципиально не позволяют определить падение давления на входном участке тонкой щели.

Использование численных методов расчета полных уравнений Навье - Стокса с Рей-нольдсовым осреднением позволяет в общем виде решить задачу формирования тонкого слоя на начальном участке и течения жидкости в щели при нестационарном движении твердой стенки. Определение гидродинамических сил в тонких слоях щелевых уплотнений мощных питательных насосов требует решения системы уравнений с числом неизвестных 50 - 100 млн. Решение подобных задач возможно только с использованием высокопроизводительных вычислительных систем и мощных пакетов CFD.

2.2. Деформирование и разрушение тканевых бронежилетов при локальных ударах

Основной задачей при проектировании бронежилетов является минимизация их массы при сохранении заданного уровня защиты. Проверка качества бронежилета, не находящегося в контакте с защищаемым объектом, проводится с определением баллистического предела. А если бронежилет контактирует с защищаемым объектом (тело человека), то в этом случае существует критерий определения тупой травмы, который применяется для сравнения бронежилетов различных классов [3].

В экспериментах в качестве тела человека используют либо технический пластилин (при этом довольно сложно оценить степень травмирования тела человека), либо дорогостоящие экспериментальные модели грудной клетки. Экспериментально-аналитический путь оптимизации конструкции многослойных тканевых преград позволяет достаточно быстро определить оптимальное соотношение параметров для фиксированного воздействия (конкретных формы индентора и скорости нагружения), однако этот метод весьма затратный.

Чисто аналитических моделей, точно описывающих процесс динамического взаимодействия пули и бронежилета с учетом разрушения, на данный момент не существует и, очевидно, их получение невозможно из-за сложности физических явлений, происходящих в этом процессе: большие перемещения, скольжение, фрикционные контакты, повышение температуры. Для того, чтобы учесть эти сложные физические явления, необходимо учитывать структуру баллистической ткани.

Вычислительные возможности кластеров позволяют решать сложные контактные за-

дачи, в которых нельзя использовать механику сплошной среды. Полученные результаты и методы исследования сопротивления тканевых преград ударам огнестрельного оружия используются при разработке новых средств защиты тела человека, значительно сокращая этап предварительной оценки служебных свойств такого рода изделий.

2.3. Моделирование механического поведения грудной клетки человека при локальных ударах

При разработке персональной защитной брони минимальной массы необходимо иметь представление о механизме повреждений, которые возникают в теле человека при локальных ударных воздействиях. Поэтому учеными разных стран ведется работа по созданию теоретических и экспериментальных моделей тела человека, которые в точности повторяют форму человеческого тела и обладают такими же свойствами. Учеными Университета имени Джона Хопкинса в США (Вашингтон) были созданы конечно-элементная и экспериментальная модели грудной клетки человека, были построены ребра, грудина, хрящи, позвоночник, сердце, легкие, печень, желудок, мышцы и кожа. Если значения ускорений, полученные экспериментально и с помощью расчета, близки, то отличие давлений существенно. Таким образом, разработки теоретических и экспериментальных моделей грудной клетки человека активно продолжаются, однако какие-либо достоверные данные пока получены не были. К тому же были созданы только модели деформирования тела человека без учета степени травмирования [3].

Для того, чтобы использовать численную модель грудной клетки человека для проектирования бронежилетов, необходимо знать механические свойства всех ее элементов. Идентификацию параметров грудной клетки можно провести, сопоставив экспериментальные и расчетные перемещения при статическом нагружении, и ускорений, спектра собственных частот колебаний при динамическом нагружении. При этом динамическое нагружение грудной клетки реального человека должно быть низкоскоростным, чтобы не нанести травм человеку.

Экспериментальные модели грудной клетки человека имеют высокую стоимость, поэтому численное решение данной задачи является актуальной проблемой. При численном исследовании задачи возможно оценить степень травмирования грудной клетки человека.

2.4. Деформационные изменения структуры трикотажных полотен на различных участках фигуры человека

Сегодня изделия из трикотажного полотна имеют широкое распространение, поэтому актуальным является вопрос быстрого и качественного проектирования новых моделей. Трикотажные изделия значительно растягиваются при эксплуатации, причем не одинаково на разных участках тела человека, к тому же в изделии присутствуют различные виды швов (стачные, окантовочные, в подгибку с открытым срезом), которые имеют другие механические свойства. Поэтому при разработке трикотажных изделий использование геометрического метода является некорректным [4].

В настоящее время используют параллельные алгоритмы для изучения поведения тканей. Проектирование с использованием суперкомпьютеров позволяет значительно сократить материальные затраты и время на разработку нового изделия. В виртуальной модели можно легко менять различные параметры: механические свойства ткани и швов, геометрию тела человека и изделия.

2.5. Моделирование процессов газофазной конденсации металлических наночастиц

В производстве микро- и наночастиц различных веществ часто используется метод «самосборки» частиц при их конденсации в пересыщенном паре в атмосфере инертного газа. При этом для дальнейшего использования полученного наноразмерного порошка необходимо соблюдение определенных требований к размеру частиц. Для этого необходимо задать определенный температурный режим в рабочей камере реактора, давление и вид инертного газа, геометрию установки, а также длительность производственного цикла. В настоящее время все эти параметры подбираются экспериментально, методом «проб и ошибок». В таких условиях очень сложно осуществлять управление технологическим процессом и прогнозировать выходное распределение частиц по размерам. Разрабатываемые математическая модель и программный комплекс направлены на решения данных задач [5].

Обычная схема формирования металлических наночастиц конденсацией из газовой фазы выглядит следующим образом: в камеру с охлаждаемыми стенками накачивается инертный газ, вблизи дна камеры помещается нагреваемый сосуд с кипящим жидким металлом, который служит источником атомов металла - мономеров. Испаряясь с поверхности жидкости, металлический пар распространяется в объеме камеры, где, по мере его охлаждения, могут возникнуть высокие степени пересыщения, являющиеся необходимым условием нук-леации.

Задача математического моделирования заключается в численном анализе процессов образования металлических наночастиц с целью прогнозирования размеров этих частиц, полученных при различных условиях: перепадах температуры в камере, давлении инертного газа, вида инертного газа, геометрических размеров рабочей камеры и испарителя и, возможно, расположения в камере охлаждаемых поверхностей, на которых будет происходить инерционное осаждение наночастиц. Решение задачи состоит из двух частей: первая заключается в моделировании конвективных течений в камере и расчете распределения температуры, плотности и концентрации мономеров в газовой смеси, вторая состоит в численной симуляции образования кластеров при их объемной конденсации в атмосфере инертного газа.

3. Анализ вычислительных экспериментов

Исследования эффективности выполнения приложений проводились на трех вычислительных системах: «СКИФ Урал», «СКИФ Аврора» и «Endeavor»(DuPont, США). Характеристики данных систем:

1. «СКИФ Урал»: Intel Xeon Е5472 (Harpertown) 4 ядра на сокет, 2 процессора на узел, тактовая частота 3.00 ГГц.

2. «СКИФ Аврора»: Intel Xeon Х5570 (Nehalem) 4 ядра на сокет, 2 процессора на узел, тактовая частота 2.93 ГГц

3. «Endeavor»: Intel Xeon Х5670 (Westmere) 6 ядер на сокет, 2 процессора на узел, тактовая частота 2.93 ГГц.

Рассмотрим более подробно результаты запусков задач на данных вычислителях.

3.1. Задача вычислительной гидродинамики тонких турбулентных слоев в щелевых уплотнениях питательных насосов электрических станций

Для задачи вычислительной гидродинамики тонких турбулентных слоев в щелевых уплотнениях питательных насосов электрических станций приведены графики ускорений на рис. 3, 4. Исходный файл для решателя инженерного пакета СРХ содержит 29

тыс. элементов сетки.

1 2 4 6 8 ' 12

Количестве ядер

Рис. 3. График ускорений задачи гидродинамики тонких турбулентных слоев в пределах одного узла

I 2 4 8 12 16 24 32 36 46 60 64

Колжество «дер

Рис. 4. График ускорений задачи гидродинамики тонких турбулентных слоев в пределах вычислительной системы

Отметим, что исследуемое приложение имеет небольшие размеры, и насыщение шкали-руемости на вычислительных системах происходит достаточно быстро (рис. 4).

Основным достоинством процессоров поколения Nehalem н Westmere является многократно увеличенная пропускная способность подсистемы памяти. Если проводить сравнение с помощью теста Stream, то заметим, что пропускная способность увеличилась с типичных 10.5 Гбайт/с для систем Harpertown до 38 Гбайт/с для системы Nehalem (с памятью DDR3-1333). Соответственно, в предельных случаях на некоторых задачах вполне возможен прирост производительности в 3,5 раза. В свою очередь, увеличение пропускной способности в Nehalem вызвано несколькими причинами:

1) отказом от шинной архитектуры в пользу решения типа NUMA;

2) интегрированием контроллера памяти в сам процессор;

3) увеличением числа поддерживаемых каналов обмена с памятью с 4 до 6 (на систему из 2-х процессоров);

4) переходом на технологию памяти DDR3.

Первые два пункта увеличили реальную эффективность (40% - 60%), а последние два

- ее теоретическую пропускную способность с 25,6 Гбайт/с до 64 Гбайт/с. В процессоре Westmere эффективность была еще улучшена, это дало пропускную способность около 42,5 Гбит/с на тесте Stream (эффективность уже 66% от теоретического значения).

Принимая во внимание то обстоятельство, что средний поток данных в этой задаче ~ 20 Гбайт/с легко объяснить полученные результаты производительности. Для всех систем мы наблюдаем неидеальную шкалируемость внутри одного узла, которая объясняется тем, что некоторые ядра простаивают в ожидании необходимых данных из памяти. В то же время если для «СКИФ Урал» насыщение масштабируемости происходит довольно быстро (10,5 Гбайт/с < 20 Гбайт/с), то на «СКИФ Аврора» (38 Гбайт/с > 20 Гбайт/с) и «Endeavor» (42,5 Гбайт/с > 20 Гбайт/с) производительность продолжает расти с ростом числа задействованных ядер.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3.2. Деформирование и разрушение тканевых бронежилетов при локальных ударах

Задача деформирования и разрушения тканевых бронежилетов при локальных ударах рассчитывалась для пакета размером 5x5 см из 5 слоев баллистических тканей.

1 8 12 16 24 32 40 48 64 ' 112

Количество ядер

Рис. 5. График ускорений задачи деформирования и разрушения тканевых бронежилетов при локальных ударах

Данная задача относится к задачам другого типа - в ней превалируют вычисления, а взаимодействие с памятью не столь заметно. В силу этих обстоятельств, «СКИФ Урал» показывает результаты сравнимые со «СКИФ Аврора» за счет более высокой тактовой частоты. Однако «Endeavor» показывает несколько более высокие результаты за счет большего количества ядер на сокет (6 против 4). Стоит отметить, что в этом случае имеют место вычисления с одинарной точностью. При использовании двойной точности ситуация выглядела бы иначе, за счет возросшего в два раза объема взаимодействий с памятью. Обратим внимание на еще один момент, связанный с насыщением масштабируемости этой задачи. Дело в том, что исходный файл для решателя инженерного пакета LS-Dyna имеет небольшие размеры, и время, затрачиваемое на коммуникации между узлами, быстро становится сравнимым со временем вычислений.

3.3. Задачи моделирования механического поведения грудной клетки человека при локальных ударах и деформационных изменений структуры трикотажных полотен на различных участках фигуры человека

Графики ускорений для обеих задач приведены на рис. 6, 7.

Рис. 6. График ускорений для задачи моделирования механического поведения грудной клетки человека

Задача моделирования механического поведения грудной клетки человека при локальных ударах и задача деформационных изменений структуры демонстрируют сходное поведение, в целом типичное для НРС приложений. Производительность систем определяется правильным балансом между их вычислительной способностью и скоростью взаимодействия с памятью. За счет улучшения этого баланса системы нового поколения показывают лучшую производительность, нежели «СКИФ Урал». Стоит также отметить, что при почти одинаковой производительности в расчете на одно ядро, «Endeavor» показывает более высокие результаты в расчете на один узел, так как имеет большее количество ядер - б.

О— СКИФ Урал

*•*€)■*• СКИФ Аврора —Д— Endeavor

1 4 12 24 40 64 92 112 12S 224

Количество ядер

25С*

1150

ЭБ

&

«S*

О

8 юо >.

"“О— скиф Урал СКИФ Аврора

• Enckavor

/

а ОС

i 4 12 24 40 64 96 123 224 256

Количество ядер

Рис. 7. График ускорений для задачи деформационных изменений структуры

3.4. Моделирование процессов газофазной конденсации металлических наночастиц

График ускорений для задачи моделирования процессов газофазной конденсации металлических наночастиц приведен на рис. 8.

Коянчестео *д<н>

Рис. 8. График ускорений для задачи моделирования процессов газофазной конденсации металлических наночастиц

Данная задача в целом очень сходна с задачей деформирования и разрушения тканевых бронежилетов при локальных ударах, поскольку в ней зависимость от скорости общения с памятью не так велика. И все же она сказывается, хотя и достаточно неочевидным способом. На кластере «СКИФ Урал» производился запуск на меньшем количестве процессов на один узел с целью исключить конфликты обращения в память, исходящих от различных ядер внутри одного узла. Это приводит к росту числа задействованных узлов кластера, а соответственно и увеличению объема коммуникаций между ними. Увеличение объема ком-

муникаций в свою очередь приводит к более быстрому насыщению шкалируемостн, которое наблюдается на «СКИФ Урал». Таким образом, производительность подсистемы процессор-память внутри одного узла ограничивает кластерную масштабируемость задачи.

Заключение

В данной работе рассмотрены несколько НРС приложений, обладающих различными свойствами: первая задача главным образом зависит от пропускной способности системы процессор-память, вторая задача - от вычислительной мощности системы, пятая задача чувствительна к объемам коммуникаций, а остальные сочетают в себе все вышеперечисленные свойства. Подводя общий итог, можно сделать следующий вывод. При работе с вышеперечисленными приложениями сталкиваемся с достаточно типичной ситуацией для НРС вычислений - производительность зависит не только от частоты процессоров и количества ядер на чипе, не менее важными факторами являются производительность системы процессор-память, коммуникации в распределенной системе и иногда скорость файлового ввода-вывода. Для обеспечения максимальной производительности требуется нахождение оптимального баланса этих факторов. Системы типа «СКИФ Аврора», построенная на процессорах с архитектурой Nehalem, делает значительный шаг вперед по сравнению с системой «СКИФ Урал» (архитектура процессора Harpertown), обеспечивая улучшение баланса между вычислительной мощностью процессора и пропускной способностью подсистемы процессор-память. Система «Endeavor» (архитектура процессора Westmere) является следующим шагом на этом пути развития, улучшая как вычислительную способность (6 ядер на чипе вместо 4), так и скорость взаимодействия с памятью (42.5 Гбайт/с против 38 Гбайт/с). Все эти технологические новшества позволяют исследователям расширять «область поис-ка»и производить более глубокий анализ интересующих явлений за счет увеличения уровня детализации, принятия во внимание эффектов, которые прежде игнорировались.

Авторы выражают благодарность сотруднику корпорации Intel Николаю Местеру за организационную и методическую помощь при выполнении исследований, представленных в данной работе.

Работа выполнена при финансовой поддержке Программы СКИФ-ГРИД (контракт с 2009-СГ-03), ФЦП «Научные и научно-педагогические кадры инновационной России»(контракт е П2036) и РФФИ (проекты 10-07-96001-р_урал_а и 10-07-96007-р_урал_а).

Статья рекомендована к печати программным комитетом международной научной конференции « Параллельные вычислительные технологии 2010» http://agora.guru.ru/pavt.

Литература

1. Абрамов, С.М. СуперЭВМ Ряда 4 семейства СКИФ: штурм вершины суперкомпью-терных технологий / С.М. Абрамов // Параллельные вычислительные технологии (ПаВТ’2009): тр. Междунар. науч. конф. (Нижний Новгород, 30 марта - 3 апр. 2009 г.).

- Челябинск, 2009. - С. 5 - 16.

2. Васильев, В.А. Сравнительный анализ области применения тестовых задач оценки вычислительной мощности НРС систем / В.А. Васильев, А.Ю. Ницкий // Параллельные вычислительные технологии (ПаВТ’2010): тр. Междунар. науч. конф. (Уфа, 29 март. -

2 апр. 2010 г.). - Челябинск, 2010. - С. 431 - 441.

3. Долганина, Н.Ю. Моделирование ударных процессов в тканевых бронежилетах и теле человека на вычислительном кластере СКИФ Урал / Н.Ю. Долганина, С.Б. Сапожников

// Параллельные вычислительные технологии (ПаВТ’2010): тр. Междунар. науч. конф. (Уфа, 29 марта - 2 апр. 2010 г.). - Челябинск, 2010. - С. 141 - 152.

4. Долганина, Н.Ю. Суперкомпьютерное моделирование деформационных изменений трикотажных полотен на фигуре человека / Н.Ю. Долганина, А.Ю. Персидская, И.Н. Усен-ко // Параллельные вычислительные технологии (ПаВТ’2010): тр. Междунар. науч. конф. (Уфа, 29 марта - 2 апр. 2010 г.). - Челябинск, 2010. - С. 606 - 610.

5. Терзи, Д.В. Моделирование процессов газофазной конденсации металлических наночастиц на вычислительном кластере «СКИФ Урал»/ Д.В. Терзи // Параллельные вычислительные технологии (ПаВТ’2010): тр. Междунар. науч. конф. (Уфа, 29 марта - 2 апр. 2010 г.). - Челябинск, 2010. - С. 600 - 605.

Александр Александрович Московский, кандидат химических наук, с.н.с., Институт программных систем РАН (Переяславль-Залесский), [email protected].

Максим Павлович Перминов, ведущий инженер программного обеспечения, Интел Тек-нолоджис, Инк. (Нижний Новгород), [email protected].

Леонид Борисович Соколинский, доктор физико-математических наук, профессор, директор Суперкомпьютерного центра ЮУрГУ (Челябинск), [email protected].

Валерий Владимирович Черепенников, кандидат физико-математических наук, руководитель НРС-проектов, Интел Текнолоджис, Инк. (Нижний Новгород), Valery. Cher epennikov@int el. com.

Анастасия Валерьевна Шамакина, аспирант, начальник отдела прикладных задач Суперкомпьютерного центра ЮУрГУ (Челябинск), [email protected].

Поступила в редакцию 20 июля 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.