Интернет-журнал «Науковедение» ISSN 2223-5167 http ://naukovedenie.ru/
Том 9, №2 (2017) http://naukovedenie.ru/vol9-2.php
URL статьи: http://naukovedenie.ru/PDF/77TVN217.pdf
Статья опубликована 18.04.2017
Ссылка для цитирования этой статьи:
Башкирев А.М., Шеин А.Г. Численное моделирование релятивистского электронного потока в газонаполненном пространстве взаимодействия на графическом процессоре // Интернет-журнал «НАУКОВЕДЕНИЕ» Том 9, №2 (2017) http://naukovedenie.ru/PDF/77TVN217.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ.
УДК 519.684
Башкирев Александр Михайлович
ФГБОУ ВО «Волгоградский государственный технический университет», Россия, Волгоград1
Аспирант
E-mail: alexander.bashkirev@gmail. com РИНЦ: http://elibrary.ru/author profile.asp?id=887149
Шеин Александр Георгиевич
ФГБОУ ВО «Волгоградский государственный технический университет», Россия, Волгоград
Профессор
Доктор физико-математических наук E-mail: [email protected] РИНЦ: http://elibrary.ru/author items.asp?id=179579
Численное моделирование релятивистского электронного потока в газонаполненном пространстве взаимодействия
на графическом процессоре
Аннотация. Целью работы является повышение производительности численного моделирования релятивистских электронных потоков с помощью параллельных вычислений на графическом процессоре. Приведено обоснование актуальности как изучения процессов в интенсивных электронных потоках, так и разработки параллельных методов численного моделирования таких систем. Описана численная модель релятивистского электронного потока. Указаны основные проблемы, с которыми приходиться сталкиваться при численном моделировании релятивистских электронных потоков. Предложены методы решения данных проблем для случая ограниченного в пространстве электронного потока. Предложен метод организации хранения данных в памяти графического процессора с помощью текстур и с учетом оптимальной производительности алгоритма численного моделирования электронного потока с учетом эффекта запаздывания и процессов ионизации нейтрального газа. Предложенный алгоритм реализован на языке программирования OpenCL для проведения расчетов на графическом процессоре, а также с помощью технологии OpenMP для проведения расчетов на центральном процессоре. Проведено сравнительное тестирование реализованного алгоритма на графическом и центральном процессорах. Сделан вывод о целесообразности использования графического процессора в целях моделирования релятивистского электронного потока в связи с полученным многократным приростом производительности.
1 400005, Россия, Волгоград, пр. им. Ленина 28, к. 327
Ключевые слова: релятивистский электронный поток; пространственный заряд; эффект запаздывания; численное моделирование; метод крупных частиц; графический процессор; параллельные вычисления; OpenCL
Введение
Изучение колебательных и волновых процессов в интенсивных потоках заряженных частиц на сегодняшний день является важной и актуальной задачей физики плазмы и электроники больших мощностей. Это, в первую очередь, связано с широким спектром возможного применения электронных потоков и плазменных систем, таких как электронно-волновых генераторов и усилителей [1], систем для ускорения ионов и нагрева плазмы [2, 3, 4], ионных двигателей [5] и др.
Особый интерес представляет изучение влияния процессов ионизации нейтрального газа на динамику электронного потока. Дело в том, что скорости электронов в интенсивном, а тем более в релятивистском потоке существенно превосходят скорости максимума коэффициента ионизации. Однако при возникновении виртуального катода скорости электронов в области виртуального катода существенно снижаются и могут совпадать с максимумом коэффициента ионизации. Распределение ионизированного газа оказывается существенно неоднородным как в пространстве, так и во времени, что оказывает существенное влияние на процессы, происходящие в системе.
Учет процессов ионизации накладывает дополнительные требования на алгоритмы численного моделирования. В частности, необходимо учитывать различные типы частиц, а так же вводить дополнительное моделирование процессов ионизации.
Исследование интенсивных потоков электронов сопряжено с рядом трудностей. Применение аналитических методов в большинстве случаев либо не представляется возможным, либо сопряжено с огромными трудностями. В связи с этим на первый план выходят численные методы исследования, хотя и в этом случае существует множество проблем. В частности, численное моделирование затрудняется огромной вычислительной сложностью численных моделей электронных потоков. Это, прежде всего, обусловлено огромным количеством частиц в реальных потоках. К примеру, в пространстве взаимодействия типичного магнетронного прибора содержится более 1020 электронов. Практическое решение системы уравнений движения для такого количества частиц даже на самых современных суперЭВМ нереально.
Частично данную проблему удается решить применением метода крупных частиц [6, 7]. Однако, даже с применением данной методологии, во многих задачах для получения адекватных результатов требуется слишком большое количество крупных частиц [8]. В таких случаях, как и при моделировании длительных во времени процессов, вычислительная сложность численной модели играет большую роль. В связи с этим актуальной задачей является разработка параллельных алгоритмов численного моделирования электронных потоков.
Наиболее подходящим процессором для распараллеливания на сегодняшний день является графический процессор. Это связано, прежде всего, с особенностями архитектурой таких процессоров, которая сильно отличается от архитектуры центрального процессора. Однако отличия в архитектуре также приводят и к дополнительным проблемам при адаптации алгоритмов к ней. В случае моделирования релятивистских электронных потоков основную сложность представляет необходимость учитывать эффект запаздывания, возникающий из-за конечности скорости света.
1. Модель потока
Модель потока, на основе которой проводится моделирование, представлена на рисунке 1.
В качестве пространства взаимодействия электронного потока в работе рассматривается область, ограниченная с двух сторон сеточными электродами, расположенными в плоскостях
% — 0 и % — ^ - рисунок 1. Моноскоростной (на входе) сплошной электронный пучок радиуса
г и плотностью пространственного заряда распространяется вдоль оси % со скоростью
. Вдоль осей область ограничена цилиндром радиуса К, на который оседают частицы. Пространство взаимодействия предполагается равномерно заполненным нейтральным газом с
Рисунок 1. Геометрия пространства взаимодействия (разработано автором)
Для снижения вычислительной сложности используется метод крупных частиц. В основе данного метода лежит подход, основанный на том, что любая непрерывная материальная среда (например, жидкость, твердое тело, поток частиц и тому подобное) рассматривается как конечная система укрупненных точечных частиц. При этом вводиться
к
коэффициент укрупнения частицы:
с помощью которого определяется заряд и масса крупной
ек,
тк = тек >
где: е , т<е - заряд и масса покоя электрона, к - коэффициент укрупнения.
Приведенный заряд крупных частиц, равный отношению их заряда к массе, остается неизменным, что позволяет сохранить идентичность решения уравнения движения для модельных и реальных частиц.
Движение каждой частицы описывается дифференциальным уравнением движения релятивистского электрона:
— _ 1 _ £
dt т
е,- +[ у,-, В ]-\у,- (у,-, Е,-)
(1)
е
к
Здесь Е/ " Е0 + Ес
ВI - В 0 + В
и - электрическое и магнитное поля в точке
нахождения /-ой макрочастицы и представляющие собой сумму внешних постоянных полей
ЕВ Е В
(о и 0 ) и полей пространственного заряда ( и ).
Поле пространственного заряда в точке нахождения частицы определяется суперпозицией полей отдельных движущихся с ускорением релятивистских частиц, составляющих поток. Поле, создаваемое отдельной частицей - поле Лиенара-Вихерта, вычисляется по выражениям
Е„„. - ■
4пеп
V,2' 1 -,
п.
В„
п,. Ес,
Г
п п ,
1 г 1 \ с) ' ]
К2 Г (П 1 • У, )
2 2 с Я
]
! (п,•У,)
(2)
Я,
Здесь 7
Г (г) - г ,{т,)
п
_К7
Я
где
Г« )
величины, характеризующие координату
взяты в предшествующий момент времени условия запаздывания поля:
скорость
, г)
- *4
с
- 0
координата точки нахождения поля; а V,-
и ускорение 7 макрочастицы, который определяется численно из
(3)
Пространство взаимодействия предполагается равномерно заполненным нейтральным
газом с давлением Р . Электроны пучка вызывают ударную ионизацию молекул газа с образованием положительного молекулярного иона и вторичного электрона. Для расчета сечения ионизации используется квазиклассическая формула Дравина [9, 10]:
и -1
а(п) - 4^2 (^) 1п(1.25ДД,)
и
(4)
и- Е
где:
тн
Е - £211
п2 .
Рп -1 +
£-1
Z + 1. Ее
- энергия налетающего
электрона; п - число эквивалентных электронов на п-м уровне.
Непосредственно для расчетов используется не сечение рассеяния, полученное по
формуле (4), а вероятность столкновения Ж, характеризующая число столкновений, испытываемых падающей частицей при прохождении ею расстояния 1 см в газе при температуре 00С и давлении 133,3 Па. Сечение столкновения связано с ней формулой
Ж-а / 2.83*10-17
е
1
с
2. Метод решения
На каждом шаге моделирования в пространство взаимодействия добавляются новые частицы, количество которых определяется по формуле:
N - ^• (5)
вк
? V т
где: ° - площадь катода, г - продольная скорость потока на влете, 1 - шаг
интегрирования по времени, Р - плотность пространственного заряда, в - заряд электрона, к - коэффициент укрупнения.
Следующим этапом является нахождение полей пространственного заряда согласно формулам (2). По классическим представлениям, как электрическое, так и магнитное поле в месте расположения частицы является суперпозицией двух составляющих: статического поля
ЕВ ЕВ
0 ( 0) и поля пространственного заряда с"-> ( с"->), характеризующего взаимодействие
между частицами.
Е В
Расчет су и су осуществляется методом «частица-частица», который, в отличие от сеточных методов, обеспечивает лучшую точность расчета объемного заряда. При учёте эффекта запаздывания поля для каждой пары частица-частица следует решать уравнение (3). Таким образом, для расчета полей пространственного заряда с учетом эффекта запаздывания
необходимо хранить историю движения каждой частицы, т.е. сложность алгоритма ^С^ М),
где N - количество частиц, М - количество шагов по времени, для которых нужно хранить историю. Вычислительную сложность задачи можно существенно снизить введением ограничения пространства взаимодействия. При этом нужно хранить не всю историю потока, а только за тот промежуток времени, за которое электромагнитная волна проходит между максимально удаленными точками пространства взаимодействия. Количество шагов, которое необходимо при этом хранить, рассчитывается по формуле:
Ь„
М-■
тах
сТ
где: ^тах - максимальный размер пространства взаимодействия, с - скорость света, Т - шаг интегрирования по времени.
После нахождения полей пространственного заряда производится интегрирование уравнения (1) которое осуществляется методом Рунге-Кутта 4-го порядка с фиксированным
шагом по времени ^ . Предполагается, что интервал ^ настолько мал, что можно пренебречь движением частиц за этот промежуток времени.
Последним этапом шага численного моделирования является учет процессов ионизации.
На этом шаге для каждой частицы вычисляется пробег частицы за текущий шаг времени ^ , а также значение сечения по функции (4). На основе этих данных вычисляется вероятность ионизации атома нейтрального газа данным электроном. После чего, в случае необходимости, в расчет добавляются новые частицы - ион и вторичный электрон.
Реализация данного алгоритма на центральном процессоре тривиальна и не заслуживает отдельного внимания. Стоит только заметить, что распараллеливание осуществлялось с помощью технологии ОрепМР.
3. Моделирование потока на графическом процессоре
Описанный выше алгоритм обладает большой вычислительной сложностью даже при использовании метода крупных частиц. Необходимость распараллеливания вычислений, обусловленная вычислительной сложностью задачи, показана в [11, 12]. Данный подход использует для распараллеливания GPU с помощью технологии OpenCL (от английского Open Computing Language - по-русски - открытый язык вычислений). Выбор данной технологии обусловлен тем, что она поддерживается производителями всех видеокарт и процессоров.
Как известно, по вычислительной мощности GPU давно обогнал CPU. К примеру, AMD HD7970 имеет пиковую производительность 3.8 TFLOPS для чисел с одинарной точностью и 947 GFLOPS для чисел с двойной точностью, против 113,5 GFLOPS у Core i7 6700 при существенно большей цене. Стоит отметить, что пиковая производительность на GPU достигается значительно проще, нежели на CPU. Получение 70% от пиковой производительности на CPU является нетривиальной задачей и в большинстве случаев это практически недостижимо, в то время как получение 90% от пиковой производительности на GPU вполне достижимо в большинстве задач, решаемых на GPU. Стоит, однако, отметить, что графический процессор обладает специфической архитектурой, на которой решение многих задач сопряжено с большими сложностями.
Моделирование потока с учетом эффекта запаздывания на графическом процессоре существенно отличается от моделирования такого потока на центральном процессоре. Это связано, прежде всего, с тем, что графический процессор обладает специфической архитектурой, и, хотя, как уже говорилось, решение задачи N тел может быть успешно реализовано на графическом процессоре, но решение уравнения (2.3) сопряжено с определенными трудностями. Это связано с двумя особенностями.
Во-первых, ограниченность графического процессора по памяти. Для решения условия запаздывания вычислительному устройству требуется доступ к данным каждой частицы на протяжении всего времени моделирования, объём этих данных может достигать десятки гигабайт. Видеоплата не обладает таким объёмом памяти.
Во-вторых, при решении условия запаздывания применяются условные переходы, которые не могут корректно обрабатываться графическим процессором из-за особенностей архитектуры. Связано это с тем, что графический процессор является мультипроцессором, вычисления, на котором происходят по принципу SIMD (single instruction, multiple data -одиночный поток команд, множественный поток данных) т.е. все ядра из одной группы, количество которых достигает 1600 штук, могут в один момент времени выполнять только одну команду, но над разными данными. Т.е. при обработке условных переходов всегда будут выполнены обе ветки этого ветвления, но результаты из ветки, не прошедшей условие, не будут никуда записаны.
Однако, при моделировании ограниченного пространства взаимодействия обе эти проблемы могут быть решены.
Как уже говорилось ранее, для расчета полей пространственного заряда необходимо иметь состояния для всех N частиц в М моментов времени. Оценим объем этих данных.
Состояние каждой частицы представляет собой вектора ^ - скорость, R - координата, ^ -
ускорение, и скаляры, q - заряд, m - масса, a - флаг состояния частицы. Заряд и масса для каждой частицы нужны для введения различных сортов частиц. Предназначение состояния частицы будет рассмотрено в дальнейшем. Суммарно для хранения состояния частицы нужно 12 чисел, которые занимают 48 байта в случае float чисел и 96 для случая double чисел. В дальнейшем, для примера будем использовать float числа. Предположим, что на некотором
шаге поток состоит из N =105 частиц. Так же возьмем следующие параметры расчета: максимальный размер пространства взаимодействия ^тах =5 см, шаг по времени Т =10-12 с,
тогда М =166. При таких параметрах будем иметь максимум -0=1650000 состояний
частиц, которые суммарно занимают 755 МБ. Такой объем памяти на сегодняшний день доступен даже на бюджетных видеокартах.
Оптимальным способом передачи данных на графический процессор являются текстуры. Текстура - это, фактически, двумерный массив, в каждой ячейки которого содержится структура. Тип этой структуры определяет тип текстуры. Не все типы текстур подходят для вычислений общего назначения. В нашем случае наиболее предпочтительны текстуры с форматом пикселя 4£, либо 4ё для двойной точности, т.е. текстуры, в которых каждый пиксель хранит четыре числа с плавающей запятой. На сегодняшний день поддержка таких текстур есть на всех современных видеокартах.
Для передачи всего набора данных, состоящего из двенадцати чисел, понадобиться три
текстуры. Размерность каждой текстуры будет равна [N 'М] где N — N , при этом каждый
столбец содержит историю одной частицы. Количество частиц N в системе не постоянно, и для того, чтобы на каждом шаге не пересоздавать текстуру с актуальным размером, выбирается
заведомо большее количество столбцов N . При этом в пустых столбцах выставляется соответствующий флаг состояния частицы а, о котором говорилось ранее. Для учета истории полей частиц, вышедших из расчета, например, упавших на границы пространства взаимодействия, такие частицы помечаются специальным флагом. В таком случае при решении уравнения запаздывания начальный момент времени является моментом в прошлом. Если
частица исчезла через М шагов по времени в прошлом, столбец, который она занимала, освобождается и помечается, как свободный для записи данных новой частицы.
Для того чтобы не переписывать всю текстуру на каждом шаге, используется курсор
строки к, которая соответствует текущему моменту времени. В начальный момент времени
к — м. При расчете шага по времени новые данные частиц будут записаны в строку к ~1, после чего курсор будет сдвигаться на строку выше. При достижении курсором первой строки данные будут записываться в последнюю строку, и таким образом цикл замкнется.
На рисунке 2 показан примерный вид текстур во время расчета. Курсор строки в данном
примере К — 2, т.е. на предстоящем шаге интегрирования запись новых состояний частиц будет произведена в первую строку текстуры. Штрихом показаны ячейки, в которых хранятся
данные об активных частицах. Например, в столбце * — 4 данные отсутствуют. Такое может
произойти, если частица М шагов назад упала на границу пространства взаимодействия. Серый цвет ячейки указывает на то, что данная частица вышла из расчета. В данном примере
частица в столбце * — 3 упала на границу пространства взаимодействия два шага назад. Однако поле, созданное ей в предыдущий момент времени, все еще находится в пространстве взаимодействия и должно учитывается при расчете.
1 - Л'
=_ 1
г I 1 Г"- ¿Н I 1_
Рисунок 2. Структура данных для передачи на графический процессор
(разработано автором)
Таким образом, каждое вычислительное ядро графического процессора работает над вычислением нового состояния одной частицы. Так как количество частиц при моделировании, как минимум, на порядок больше количества ядер в графическом процессоре, достигается высокая степень параллелизма.
Удаление частиц, вышедших за границы пространства взаимодействия, и добавление новых частиц после каждого шага интегрирования выполняется на центральном процессоре. Это связанно с возможностью более быстрого поиска свободных столбцов центральным процессором за счет оптимальной работы условных операторов.
4. Тестирование программы
На основе разработанной программы произведен ряд численных экспериментов по моделированию релятивистского электронного потока в газонаполненном пространстве взаимодействия. Количество частиц при расчетах выбиралось до 1.6*104. На основе полученных данных проведен анализ режимов генерации в релятивистском электронном потоке с учетом процессов ионизации нейтрального газа в зависимости от ряда параметров [13]. График потенциала на границе пространства взаимодействия показан на рисунке 3.
Рисунок 3. График потенциала на границе пространства взаимодействия. Нейтральный газ -
азот, Р ~ 5 10 мм. рт. ст., 1 = 5 кА, ~ с (разработано автором)
Для анализа эффективности разработанного алгоритма, проведено сравнение времени расчета с центральным процессором. Результаты представлены на рисунке 4. Расчет на центральном процессоре выполнен с меньшим количеством шагов в связи со слишком большим временем расчета. Прирост производительности составил 1423%. При этом загрузка графического процессора не превышает 40-50%. Это связано с простоями, вызванными передачей данных между центральным и графическим процессорами для добавления новых и удаления вышедших из пространства взаимодействия частиц. Перенос этих действий на графический процессор может существенно увеличить производительность.
600000 500000
g 400000
<D СЗ
а
<D
а m
200000 100000 0
i7 3770
HD7970
10000 20000 30000 40000 Шаг по времени
50000 60000
0
Рисунок 3. Графики времени расчета на графическом процессоре HD7970 и центральном процессоре Intel Core i7 3770 (разработано автором)
Заключение
Применение графического процессора для численного моделирования релятивистского электронного потока позволяет снизить время расчета более чем в 14 раз по отношению к параллельной версии на центральном процессоре. Таким образом, применение графического процессора для моделирования физических процессов является во многих случаях практически необходимым в виду того, что вычисления на центральном процессоре занимают неприемлемо больше время. Технология OpenCL идеально подходит для этих задач, так как поддерживает
графические процессоры разных производителей, кроме того имеет возможность запуска и отладки кода на центральном процессоре.
ЛИТЕРАТУРА
1. Слепков А.И., Галлямова О.В. Взаимодействие релятивистского электронного потока, фокусируемого постоянным магнитным полем, с полем релятивистского генератора на сверхразмерном периодическом волноводе // Учен. зап. физ. факта Моск. ун-та. - 2016., №5.
2. Benford J., Swegle J.A., and Schamiloglu E. High Power Microwaves. CRC Press, Taylor and Francis, 2007.
3. Biswas D. // Physics of Plasmas. 2009. Vol. 16. 063104.
4. Filatov R.A., Hramov A.E., Bliokh Y.P., Koronovskii A.A., and Felsteiner J. // Physics of Plasmas. 2009. Vol. 16. 033106.
5. Кравченко Д.А. Кинетическая модель плазмы в газоразрядной камере ионного двигателя // Прикладная физика. 2015. №5. С. 26-32.
6. Хокни, Р. Численное моделирование методом частиц: пер. с англ. Р. Хокни, Дж. Иствуд- М.: Мир, 1987. - 640 с.
7. Минаев, В.С. Численное моделирование интенсивных электронных пучков методом крупных частиц / В.С. Минаев // Инженерная физика - 2008. - №3. - С. 913.
8. Месяц Е.А. О выборе числа частиц в методе частиц в ячейках для моделирования задач физики плазмы / Е.А. Месяц, А.В. Снытников, К.В. Лотов // Вычислительные технологии. - 2013. Т.18, №6.
9. Андреев Г.В. Расчёт сечения ионизации электронным ударом для атомов водорода и азота // Физико-химическая кинетика в газовой динамике. 2010. Т. 9. №1. С. 263-264.
10. М. Митчнер, Ч. Кругер. Частично ионизованные газы. М.: Мир, 1976. 496 с.
11. Лебедев, И.В. Техника и приборы СВЧ / И.В. Лебедев; под. ред. Н.Д. Девяткова. - М.: Высшая школа, 1970. - Т. 2. - 376 с.
12. Пирс, Дж. Теория и расчет электронных пучков: пер. с англ. Дж. Пирс; под ред. М.В. Цехановича; - М.: Сов. радио, 1956. - 356 с.
13. Башкирев А.М., Шеин А.Г. Ковтун Д.Г. Режим импульсной генерации релятивистского электронного потока в газонаполненном пространстве взаимодействия // Электромагнитные волны и электронные системы. 2016. Т. 21. №9. С. 32-36.
Bashkirev Aleksandr Mihailovich
Volgograd state technical university, Russia, Volgograd E-mail: [email protected]
Shein Alexandr Georgievich
Volgograd state technical university, Russia, Volgograd E-mail: [email protected]
Numerical simulation of a relativistic electron beam in a gas-filled interaction space using a graphics processor
Abstract. The purpose of the paper is to increase productivity of the numerical simulation of relativistic electronic beams by means of parallel computations using a graphics processor. The relevance of both the study of processes in intense electronic beams and development of parallel methods for the numerical simulation of such systems are justified. A numerical model of the relativistic electron beams is described. The main problems encountered in the numerical simulation of relativistic electron beams are given. Methods for solving these problems are proposed for the case of the electron beam bounded in space. A method is proposed to organize data storage in the graphics processor memory using textures and taking into account optimal performance of the algorithm for the numerical simulation of the electron beam, taking into account the delay effect and neutral gas ionization processes. The proposed algorithm is implemented in OpenCL programming language for performing calculations using a graphics processor, as well as using OpenMP technology to perform calculations on a central processor. Comparative testing of the implemented algorithm on graphic and central processors is performed. A conclusion is made about feasibility of using a graphics processor to simulate a relativistic electron beam in connection with the resulting multiple increase in performance.
Keywords: relativistic electron beam; space charge; delay effect; numerical simulation; coarse particle method; graphics processor; parallel computing; OpenCL