19. Levin I.I., Doronchenko Yu.I., Mel'nikov A.K. Effektivnaya realizatsiya algoritmov s glubokimi tsiklami na rekonfiguriruemykh vychislitel'nykh sistemakh [Efficient implementation of algorithms with a deep cycle for reconfigurable computing systems], Materialy XI Mezhdunarodnoy nauchnoy i prakticheskoy konferentsii «Sovremennaya evropeyskaya nauka (Modern european science - 2015)», 30 iyunya - 7 iyulya 2015, Sheffild, Angliya [proceedings of the XI International scientific and practical conference "Modern European science (Modern european science - 2015)", 30 June - 7 July 2015, Sheffield, England], pp. 10-14. ISBN 978966-8736-05-6.
20. Levin I.I., Dordopulo A.I., Kalyaev I.A., Gudkov V.A., Gulenok A.A. Programmirovanie vychislitel'nykh sistem gibridnogo tipa na osnove metoda reduktsii proizvoditel'nosti [Programming the computing system of the hybrid type based on the method of reduction performance], Trudy Mezhdunarodnoy nauchnoy konferentsii «Parallel'nye vychislitel'nye tekhnologii (PaVT'2016)», g. Arkhangelsk, 28 marta - 1 aprelya 2016 g. [Proceedings of International scientific conference "Parallel computational technologies (PCT' '2016)", Arkhangelsk, March 28 - April 1, 2016]. Chelyabinsk: Izdatel'skiy tsentr YuUrGU, 2016, pp. 131-140. ISBN 978-5-696-04663-1.
Статью рекомендовал к опубликованию д.т.н., профессор И.И. Левин.
Мельников Андрей Кимович - НТЦ ЗАО «ИнформИнвестГрупп»; e-mail: [email protected];
117587, Москва, Варшавское шоссе, 125, стр. 17; тел.: 84952870035; к.т.н.; доцент ВАК;
г.н.с.
Melnikov Andrey Kimovitch - STC CLSC «InfoimlnvestGroup»; e-mail: [email protected]; 125,
Varshavskoye road, build. 17, Moscow, 117587, Russia; phone: +74952870035; cand. of eng. sc.;
associate professor of SAC; chief research officer.
УДК 004.382.2 DOI 10.18522/2311-3103-2016-12-1628
Д.А. Сорокин, А.Ю. Матросов, Е.Е. Семерникова, К.Н. Алексеев
СТРУКТУРНО-ПРОЦЕДУРНАЯ РЕАЛИЗАЦИЯ АЛГОРИТМА ПРОГНОЗИРОВАНИЯ КРАТНЫХ ВОЛН НА ПЛИС*
Рассматриваются особенности решения на высокопроизводительных вычислительных системах задачи прогнозирования кратных волн-помех с помощью алгоритма БЕМР. Данный алгоритм относится к классу вычислительно трудоемких сильносвязанных задач, в которых число информационных межпроцессорных обменов и обменов между процессорами и элементами памяти сравнимо или превышает число выполняемых операций. Для эффективной реализации данной задачи требуется обеспечение многоканальности в сочетании с нелинейным доступом к данным, что практически неосуществимо на вычислительных системах традиционной архитектуры. В связи с этим представлен альтернативный подход к решению задачи БЕМР, основанный на идее построения единого вычислительного контура на реконфигури-руемых вычислительных системах (РВС). Особенность РВС заключается в том, что данные вычислительные системы используют программируемые логические интегральные схемы (ПЛИС) в качестве основного вычислительного компонента и способны адаптироваться под вычислительную структуру решаемой задачи. Структурно-процедурная организацией вычислений, одна из самых эффективных для РВС, предполагает непосредственное отображение базового информационного графа задачи на вычислительное поле системы. Для такой реализации задачи БЕМР требуется наличие вычислительного ресурса, которым современные РВС на данный момент не обладают. Принимая во внимание особенности алгоритма, был предложен подход, позволивший преобразовать базовый информационный граф задачи и разработать структуру вычислительного конвейера, так что в каждой вычислительной ПЛИС
*
Работа выполнена при финансовой поддержке из бюджета Союзного государства в рамках реализации государственного контракта Министерства образования и науки Российской Федерации от 17 июня 2015г. № 14.964.11.0001.
появляется возможность синтезировать несколько конвейеров, в зависимости от доступного вычислительного ресурса. При этом в связи с нелинейным доступом к исходным данным, предложена особая организация вычислений, позволяющая каждому конвейеру работать независимо друг от друга. Предложенная структурно-процедурная реализация задачи SRMP c использованием единого вычислительного контура может быть легко масштабируема, позволяет обрабатывать данные в темпе их поступления, не требует скоростного межкристального обмена и хранения результатов промежуточных вычислений. Из этого следует, что при увеличении доступного вычислительного ресурса производительность задачи будет расти практически линейно.
Реконфигурируемые вычислительные системы; ПЛИС; прогнозирование кратных волн-помех; алгоритм SRMP; структурно-процедурная организация вычислений.
D.A. Sorokin, A.Yu. Matrosov, E.E. Semernikova, K.N. Alekseev
STRUCTURAL PROCEDURAL IMPLEMENTATION OF SURFACE RELATED MULTIPLE PREDICTION ALGORITHM ON FPGA
The paper covers peculiarities of implementation of the multiple prediction problem on high-performance computer systems with the help of the SRMP algorithm. The algorithm belongs to the class of computationally laborious tightly coupled tasks. For such tasks the number of data interprocessor exchange, and the number of data exchange between processors and memory units are similar or even exceed the number of operations. Effective implementation of this task requires combination of multiple channels and non-linear data access. Such requirements cannot be fulfilled if we use computer systems with traditional (cluster) architecture. Therefore we suggest an alternative approach to the SRMP problem, based on an idea of design of a single computational circuit on the base of reconfigurable computer systems (RCS). The principal feature of the RCS is the use of FPGAs as the main computational component capable to adapt to the computational structure of the solving task. Structural procedural organization of calculations is one of the most effective for RCS, and it implies direct mapping of the basic information graph of the task on the computational field of the system. Such implementation of the SRMP problem requires computational resource, which is not available in modern RCS. Taking into account all peculiarities of the algorithm, we have suggested a method, owing to which it is possible to transform the basic information graph of the task and to develop the structure of the computational pipeline. In this case it is possible to synthesize several pipelines in each computational FPGA according to its available computational resource. Besides, due to non-linear access to initial data we suggest a specific organization of calculations which allows each pipeline to operate independently. The suggested structural procedural single computational circuit implementation of the SRMP problem can be easily scaled. It provides real-time data processing, does not require high-rate inter-chip exchange and keeping intermediate results of calculations. As a result, when the available computational resource grows, the performance of the task will grow practically linearly.
Reconfigurable computer systems; FPGA; prediction of ringing interfering waves (multiple prediction); SRMP-algorithm; structural procedural organization of calculations.
Введение. В геолого-геофизических исследованиях по обнаружению новых шельфовых и морских месторождений ископаемого углеводородного сырья вместо данных непосредственных наблюдений используется полученная путем сейсмической разведки геофизическая информация. Качественная её интерпретация позволяет более точно определить все необходимые параметры изучаемой среды [1]. Однако в процессе накопления первичных данных на полезную информацию накладываются помеховые искажения, затрудняющие или делающие полностью невозможным дальнейший геофизический анализ. Зачастую это связано с многократными переотражениями акустического сигнала от границы соприкосновения двух сред, отличающихся по температуре или плотности, например, границы вода-воздух [2-5]. Поэтому, для получения достоверной геофизической информации за приемлемое время необходимо снижать влияние кратных волн-помех на процесс обработки сейсмограмм.
Одним из распространенных методов исключения кратных волн-помех из анализа является двухшаговый метод SRME (Surface Related Multiple Elimination), предложенный Беркхаутом и Вершуром [6, 7]. На первом шаге данного метода производится моделирование поля переотраженных волн, а на втором - его адаптивное вычитание из исходных данных. Если мощность водного слоя достигает 100 м и более, то для построения модели на первом шаге применяется алгоритм SRMP (Surface Related Multiple Prediction), который не требует информации о глубинно скоростном строении среды. Расчёт кратных волн осуществляется посредством перебора всех возможных точек отражения в пределах некоторого интервала и суммирования результатов взаимных свёрток [8-14].
Задача прогнозирования помех с помощью алгоритма SRMP относится к классу вычислительно трудоемких задач, для которых получить приемлемое время решения возможно лишь при условии использования суперкомпьютерных вычислителей. Кроме того, данная задача является сильносвязанной, то есть число информационных обменов сравнимо с числом выполняемых операций, а объемы обрабатываемых входных данных, результатов промежуточных вычислений и выходных данных достигают уровней в несколько терабайт. Так же многие фрагменты алгоритма SRMP предполагают нелинейный доступ к массиву данных. В условиях высокой вычислительной сложности, нелинейного доступа к памяти и большого количества обрабатываемых данных, применение традиционных кластерных многопроцессорных вычислительных систем в силу особенностей жестких архитектур не позволяет получать эффективное решение данной задачи с требуемой точностью на ограниченном интервале времени. При этом увеличение числа процессорных элементов, с целью повышения производительности решения задач данного класса, лишь усугубляет проблемы организации скоростных межпроцессорных обменов, что приводит к существенному снижению эффективности вычислений [4-6].
При решении трудоемких сильносвязанных задач большую эффективность демонстрируют реконфигурируемые вычислительные системы (РВС), основным вычислительным элементом которых являются программируемые логические интегральные схемы (ПЛИС). Данные системы имеют возможность адаптации под структуру решаемой задачи и способны обеспечивать практически линейный рост производительности с увеличением доступного аппаратного ресурса [15, 16]. Архитектура РВС позволяет линейно масштабировать вычислительные фрагменты задачи без временных затрат на организацию информационных обменов как внутри ПЛИС, так и между иерархическими вычислительными структурами более высокого ранга: между модулями, блоками и стойками [17, 18].
Целью данной работы является исследование возможности реализации программно-вычислительного комплекса, предназначенного для сокращения времени прогнозирования кратных волн-помех при фиксированной точности результатов. В работе представлен альтернативный подход к решению задачи SRMP, который заключается в реализации алгоритма на РВС в едином вычислительном контуре с обеспечением обработки данных в темпе поступления при распараллеливании по итерациям. Это позволяет существенно повысить эффективность используемого оборудования за счет минимизации времени накладных расходов в работе вычислительного конвейера и исключения аппаратных затрат на хранение результатов промежуточных вычислений.
Анализ задачи SRMP. Процесс получения сейсмограммы связан с распространением акустического сигнала в среде от источника S, отражением этого сигнала от глубинного горизонта и его регистрации с помощью сейсмоприемника R. Кратные волны-помехи возникают когда исходная волна имеет точку переотраже-
ния сигнала Z, в результате чего наблюдается дополнительное распространение энергии колебаний вглубь среды и её повторное отражение от глубинных горизонтов [2-5]. На рис. 1 показан процесс возбуждения и регистрации кратных волн, приводящих к появлению помех в сейсмограмме.
Рис. 1. Процесс возбуждения и регистрации кратных волн
Волна (s, z, r) представляет собой помеху первого порядка кратности, лучевая траектория которой состоит из двух сегментов - пути, пройденного волной от источника S до точки переотражения Z, и пути из Z к приемнику R. Каждому из этих сегментов соответствует волна, зарегистрированная в исходных данных: первому сегменту - волна на сейсмограмме источника (s, z), а второму - волна на сейсмограмме приёмника (z, r).
В этом случае можно получить кратную волну (s, z, r) первого порядка кратности из волн (s, z) и (z, r) путём взаимной свёртки трасс, на которых зарегистрированы волны. Точка выхода луча на поверхность Z неизвестна, так как неизвестна глубинно-скоростная модель среды, поэтому для корректного моделирования необходимо перебрать все возможные точки отражения в пределах некоторого интервала A, и просуммировать результаты взаимных свёрток. При этом, для моделирования помех порядка кратности к, требуется к итераций алгоритма, где на место входных данных следует подставить результат прогнозирования, полученный на предыдущей итерации [2].
Прогнозирование трассы кратных волн M(xr,t;xs) осуществляется согласно формуле, записанной в виде:
М(xr, t;xs) = Го £R(xr, t;xz )* D(xz, t;xs),
xz
где символом * обозначена процедура свёртки по времени t; R(xr,t;xz) и D(xk,t;xz) -полученные в результате сейсморазведки трассы, отсортированные по источникам и приемникам соответственно; r0 - поверхностный коэффициент отражения [14].
С точки зрения организации вычислительного процесса алгоритм SRMP предполагает последовательное выполнение над исходными данными прямого БПФ (быстрое преобразование Фурье), количество точек которого определяется количеством отсчетов по времени регистрации сигнала, свертки и обратного БПФ. Исходными данными является последовательность сейсмических трасс, образующих трёхмерный массив, все элементы которого представлены в стандарте IEEE 754 одинарной точности. Объем исходных данных определяется параметрами регистрирующей эхолокационной системы, важнейшими характеристиками которой являются количество источников и приемников сигнала, а также количество временных отсчетов [4, 5].
В реальных системах количество источников п варьируется в диапазоне от 100 до 1000, количество приемников т - от 1000 до 100000, а количество временных отсчетов 5 - от 1000 до 4500. При этом обработка сейсмограмм алгоритмом 8ИМР подразумевает, что количество источников и приемников одинаково. В связи с этим эхолокационные данные предварительно обрабатываются алгоритмами регуляризации и интерполяции. Объем данных, прошедших предварительную обработку, может достигать уровней в несколько терабайт [4, 5].
Для оценки возможности реализации на РВС вычислительной структуры, способной эффективно решать задачу прогнозирования волн-помех, необходимо оценить аппаратные затраты с учетом параметров близких к максимальным. Для простоты рассуждений будем считать, что количество источников сигнала п и приемников т равно 8192, а количество временных отсчетов 5 равно 4096. В этом случае объем входных данных будет равен одному терабайту, что близко к предельным значениям, получаемым на практике.
Рассмотрим базовый информационный граф 08РМР задачи 8ИМР, представленный на рис. 2.
£1 W¡
£ £ •" £
<D/,D/.....Dsm>i
<МДМ,.....М.'>
Рис. 2. Базовый информационный граф GSRMP
GSM1P = U G состоит из двух подзадач Gi и G2 прямого БПФ, подзадачи
j=i J
свертки спектров трасс G3 и подзадачи G4 обратного БПФ, причем:
2048 12
Gj = U gJNS , g^1-2-4 = и БОБПФ, gJ=3 = ОС ,
Ng=1 Nop=1
где g - базовый подграф Gj, БОБПФ - базовая операция БПФ[21], ОС - операция свертки спектров трасс, Ng - число базовых подграфов в подзадаче, Nop - число выполняемых операций.
Кортежи векторов трасс входных данных <{Ri,...,Rs}i,...,{R1,...,Rs}">t и <{D1,...,Ds}i,...,{D1,...,Ds}m>i подаются в соответствии с правилами выполнения ОС по временной координате в подзадаче G3. В результате обработки i=n*m соче-
<R,1,R22.....R2n>
<М11,М12,^,М1'>
<М2,М22,...,М2'>
тании кортежей входных данных вычислительной структурой, реализующей информационный граф задачи 8ЯМР, формируется модель кратных волн <{МЬ...,М11}1,...,{М1,...,М11}1>.
Эффективная для РВС структурно-процедурная организация вычислений предполагает потоковую обработку данных на структурно реализованном базовом информационном графе задачи. Для решения задачи 8ЯМР с заданными выше параметрами потребуется вычислительная система, аппаратный ресурс которой позволит разместить 73 728 БОБПФ и 2048 ОС. Исходя из того, что каждая БОБПФ содержит по 8 операций умножения и суммирования, а каждая ОС - по 4 операции умножения и суммирования, то общий вычислительный ресурс, необходимый для структурной реализации задачи составит 598 016 умножителей и столько же сумматоров. Помимо этого, исходя из параметров выполняемого БПФ, необходимо обеспечить 4096 каналов входных 64-разрядных данных на каждую подзадачу О1 и О2, и 49152 канала для коэффициентов W.
В настоящее время, соответствующим вычислительным ресурсом не обладает ни одна современная РВС, поэтому для обеспечения возможности решения задачи 8ЯМР необходимо выполнить такие преобразования её базового информационного графа, которые приведут к снижению требований к аппаратному ресурсу вычислительной системы.
Синтез вычислительного конвейера 8ЯМР. Затраты на аппаратную реализацию 05ШР можно сократить с помощью операции редукции Я, методика выполнения которой подробно описана в [19, 20]. Для подзадач ОгО4 коэффициент редукции по числу базовых подграфов будет равен 2048, для подзадач О] и О2 коэффициент редукции по разрядности обрабатываемых входных данных будет равен 2, а для О4 еще и по числу выполняемых операций - 12.
После выполнения редукции над О8ШР получим:
Я и оЯ и о*.
с = с
где ОГ7 = Я
12 Ыр
я о и яо7
ы? 1 Ы? 2
V 2048
Я С?1 и ?2)= ? и 5 = ( и БОБПФ | и 5,
Ыр 2
о* = я о = ?3 = ос,
3 Ы? 3 Й
о* = Я
4 Ыор 12
= Я I и БОБПФ | = БОБПФ,
Ы°Р1 Ыор=1
|
Я в4
Ы? 4 V2048 ,
8 - операция разделения потока данных, выполняемая по алгоритму, описанному в [21-24].
Кроме того, операцию БОБПФ можно заменить модифицированной БОБПФ (МБОБПФ), реализация которой требует меньше аппаратных затрат на арифметические операции в 1,6 раза, а каналов данных - в 1,2 раза.
Таким образом, СЯШР имеет вид, представленный на рисунке 3:
№..........<...>"]
[< .....э^1.....<...>"]
^ ^ ' ^_
Ш1.1
.,я*>1.....<...>']
Рис. 3. Редуцированный информационный граф задачи БЕМР
2
2048
При решении задачи на вычислительной структуре, соответствующей О^^р, входные данные должны быть сформированы в виде массивов кортежей трасс [<Я1 ,.. .Д^1,...,<Я1,...Дз>4г и [<Б1,_,Б8>1 ,..,А>т]i с учетом особенностей
выполнения свертки в подзадаче Ок3. В результате обработки г=п*ш сочетаний массивов, формируется модель кратных волн [<М1,... ,М8>1 ,.. ,,<М1 ,.,М8>1].
Для реализации на ПЛИС вычислительной структуры О^^р необходимо задействовать 60 умножителей, 86 сумматоров, два 32-разрядных канала входных данных и 13 каналов входных коэффициентов Такой объем аппаратных затрат на реализацию О^^р позволит решать задачу на любой современной РВС, а при необ-
ходимости увеличения производительности вычислений и наличии доступного аппаратного ресурса вычислительная структура может быть легко масштабирована.
В соответствии с О^^р синтезирован вычислительный конвейер, представленный на рис. 4:
АП1 АП2
Re in Im in
П1
mul k
□
conv АП14
sum
buf14
k
мбо бпф13 buf15
мбо бпф1 мбо бпф12 D1
buf1 buf2 buf13 s D2
Г Г
-O Re out -O Im out
Рис. 4. Вычислительный конвейер G
SRMP
Вычислительный конвейер состоит из 13 блоков МБОБПФ^
МБОБПФ13; 12 блоков ПЗУ П1-П12 и одного блока О, хранящих коэффициенты прямого и обратного БПФ соответственно; 15 буферных элементов BUF1-BUF15 и адресных процессоров АП1-АП15; блока разделения спектров трасс S; блока свертки CONV, состоящего из блоков комплексного умножения MUL K и комплексного суммирования SUM K.
Синтезированная структура в виде конвейера предполагает обработку данных в темпе их поступления. В отличие от реализации на традиционных вычислительных системах, все операции над входными данными в процессе получения модели кратных волн выполняются последовательно в едином вычислительном контуре. Благодаря этому не требуются как аппаратные затраты на хранение результатов промежуточных вычислений, так и дополнительные информационные обмены с внешней памятью.
Организация потоков данных. Согласно алгоритму задачи SRMP, входной массив данных представляет собой совокупность трасс, отсортированных по источникам n и приемникам m, каждая трасса при этом состоит из s временных отсчетов, как показано на рис. 5.
П
Рис. 5. Структура массива данных задачи &ЯМР
Трассы объединяются в слои таким образом, что слой /-го источника - это совокупность т трасс источника /, а слой у-го приемника - совокупность п трасс приемника у.
Формирование одной результирующей трассы Му кратных волн происходит в результате свертки слоя источника / со слоем приемника у. На рис. 5 штрих-пунктирной линией выделена трасса источника 1, зарегистрированная приемником 0. Чтобы получить модель помех для слоя источника 1, необходимо получить свертки с ним всех т слоёв приемников. Поскольку формирование трасс кратных волн не зависит друг от друга, то порядок обработки слоев не важен. Это означает, что при обеспечении параллельного доступа к к слоям трасс приемников, можно параллельно формировать к трасс помех для фиксированного слоя источника /.
На основании проведенного анализа была разработана структура потоков данных при решении задачи 8ЯМР на гипотетической РВС, аппаратный ресурс которой позволяет реализовать р конвейеров (рис. 6):
1,р
Рис. 6. Структура потоков данных при решении задачи БЕМР на РВС
Внешний накопитель ВН содержит весь массив входных данных. Блоки оперативной памяти загружаются слоями трасс, отсортированных по приемникам. Вычисления организованы таким образом, что из ВН параллельно во все конвейе-
ры Конв! -Конвр поступает слой источника i, а из ОП1 -ОПр одновременно читается p слоев приемников. В этом случае на выходе получим p трасс кратных волн Mi, после чего из ВН начинает поступать слой источников i+1. После свертки всех n слоев источников со слоями от p приемников получим p слоев кратных волн. После того, как все загруженные в ОП слои трасс будут обработаны, необходимо загрузить новые слои и продолжить обработку.
Элементная база для реализации ВН и ОП]-ОПр должна отвечать требованиям к суммарной пропускной способности каналов данных вычислительных конвейеров Конв1-Конвр, поскольку аппаратный ресурс современных ПЛИС позволяет разместить в одной микросхеме к е {1..p} вычислительных конвейеров, работающих на тактовой частоте не менее v=500 МГц. С учетом того, что разрядность входных каналов составляет 4 байта, для обеспечения обработки данных в темпе их поступления пропускная способность ВН должна быть не меньше 2 Гбайт/с, а суммарная пропускная способность ОП1-ОПр должна быть не меньше k*2 Гбайт/с.
Для реализации ВН предъявляемым требованиям отвечают современные твердотельные SSD, такие как Samsung SSD V-NAND PM1725 объемом 6,4 Тбайт с максимальной пропускной способностью 6 Гбайт/с. Требованиям к пропускной способности распределенной оперативной памяти удовлетворяют, к примеру, микросхемы Micron HMC 2GB (Hybrid Memory Cube), способные обеспечить скорость информационного обмена до 160 Гбайт/с.
Оценка времени решения задачи. Для оценки эффективности предложенной реализации задачи SRMP на ПЛИС необходимо сравнить время построения модели кратных волн на разных архитектурах при одинаковых параметрах задачи. Время, затрачиваемое на решение задачи на ПЛИС, будет складываться из суммарного времени загрузки памятей ОП1-ОПр и суммарного времени обработки слоев. При этом, суммарным временем загрузки памятей ОП1-ОПр можно пренебречь, так как на каждый загруженный в оперативную память слой приходится n его чтений, равное количеству источников. Пренебрегая латентностью конвейеров SRMP теоретическое время решения задачи с помощью представленной структуры можно рассчитать по формуле:
n х m 2 х s
теор = 2 х к х V ' 2 X к XV
где: k - количество конвейеров; v - частота работы; n, m, s - количество источников, приемников и временных отсчетов.
Для численной оценки теоретического времени решения задачи в качестве вычислительной ПЛИС была выбрана микросхема Xilinx Kintex UltraScale KU085, предназначенная для выполнения высокопроизводительных вычислений и обработки больших потоков данных. Аппаратный ресурс данной ПЛИС позволяет разместить k = 13 вычислительных конвейеров SRMP, в связи с чем примерное время обработки массива данных n*m*s объемом 1024*1024x512 при частоте работы конвейеров v = 500 МГц составит 42,29 с.
Так же можно оценить теоретическую производительность ПЛИС по формуле:
P = N х v х к,
теор op >
где Nop - число выполняемых в конвейере арифметических операций в формате IEEE 754 одинарной точности. Для разработанного конвейера Nop = 146. Теоретическая производительность одной ПЛИС Kintex KU085 составит Ртеор = 949 Гфлопс.
Экспериментальная оценка времени работы программной реализации алгоритма SRMP на языке C на персональном компьютере с процессором Intel Xeon X3460 2,8 ГГц для массива объемом 1024*1024*512 показала время работы 7585,32 с.
Данные исследования показывают, что реализация алгоритма на РВС обеспечивает ускорение более чем в 179 раз по сравнению с компьютером традиционной архитектуры для заданного объема входных данных. Также экспериментально было выяснено, что при увеличении входного объема данных, достигаемое ускорение будет увеличиваться, что обусловлено архитектурными различиями подсистемы хранения данных вычислительных систем.
Выводы. Таким образом, предложена структурно-процедурная реализация алгоритма SRMP на ПЛИС, реализованная в едином вычислительном контуре и не требующая дополнительных затрат на хранение результатов промежуточных вычислений. С помощью методов многокритериальной редукции стало возможным построить эффективную конвейерную схему, способную обеспечить обработку данных в темпе их поступления в едином вычислительном контуре. Предложенная схема не требует организации скоростного межконвейерного информационного обмена, что позволяет практически линейно увеличивать производительность при увеличении количества вычислительных ПЛИС. Такой подход является наиболее эффективным при решении подобного класса задач на РВС.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Хмелевской В.К. Геофизические методы исследования земной коры. Кн. 1. - Дубна: Международный университет природы, общества и человека "Дубна", 1997. - 203 с.
2. Денисов М.С., Фиников Д.Б. Методы подавления кратных волн в сейсморазведке. Ч. 1 // Технологии сейсморазведки. - 2007. - № 1. - С. 5-16.
3. McHugo S., Webb B., Grechishnikova T., Whitebread R. Revealing the reservoir through 3D multiple attenuation // ROGTEC. WesternGeco. - 2014. - No. 10. - P. 22-34.
4. Курин Е.А., Денисов М.С. Применение высокопроизводительных вычислительных систем в задаче подавления многократно отраженных волн-помех // Технологии сейсморазведки. - 2011. - № 4. - С. 35-40.
5. Курин Е.А. Сейсморазведка и суперкомпьютеры // Вычислительные методы и программирование. - 2011. - № 12. - С. 34-39.
6. Verschuur D.J., Berkhout A.J., Wapenaar C.P. A. Adaptive surface-related multiple elimination // Geophysics. - 1992. - No. 9. - P. 1166-1177.
7. Berkhout, A.J., Verschuur D.J. Estimation of multiple scattering by iterative inversion, Part I: theoretical considerations // Geophysics. - 1997. - No. 5. - P. 1586-1595.
8. Barnes S., van Borselen R., Salazar H., Vazquez A., Ronzon I., Martinez R. Application of True-Azimuth 3D SRME to an Onshore Mexican Data Set // Society of exploration geophysi-cists: Сборник статей международной конференции, Houston, Texas, USA, 2011.
9. van Dedem E.J., Verschuur D.J. 3D surface-related multiple prediction: A sparse inversion approach // Geophysics. - 2005. - No. 3. - P. 31-43.
10. HuangX., Sun C., Niu B., Wang H., Zeng M. Surface-related multiple prediction and suppression based on data-consistence: a theoretical study and test // Chinese journal of geophysics. - 2005. - No. 1. - P. 188-196.
11. Artman B. Passive seismic imaging: дис. ... канд. техн. наук. - Stanford, 2007. - С. 126-132.
12. Artman B., Alvarez G., Matson K. Image-space surface-related multiple prediction // Geophysics. - 2007. - No. 2. - P. 113-122.
13. Wang J., Wang S. Practical implementation of SRME for land multiple attenuation // GeoConvention: Integration: Сборник статей международной конференции, Calgary, Canada, 2013.
14. Verschuur E., Dragoset B., Moore I., Bisley R. A perspective on 3D surface-related multiple elimination // Geophysics. - 2010. - No. 5. - P. 245-261.
15. Каляев А.В., Левин И.И. Модульно-наращиваемые многопроцессорные системы со структурно-процедурной организацией вычислений. - М.: Янус-К, 2003. - 380 с.
16. Левин И.И. Реконфигурируемые мультиконвейерные вычислительные структуры. - Ростов-на-Дону: ЮНЦ РАН, 2008. - С. 3-13.
17. Левин И.И., Пелипец А.В., Сорокин Д.А. Решение задачи LU-декомпозиции на реконфи-гурируемых вычислительных системах: оценка и перспективы // Известия ЮФУ. Технические науки. - 2015. - № 7 (168). - С. 62-70.
18. Каляев И.А., Левин И.И. Реконфигурируемые мультиконвейерные вычислительные системы для решения потоковых задач // Информационные технологии и вычислительные системы. - 2011. - № 2. - С. 12-22.
19. Сорокин Д.А., Дордопуло А.И. Методика сокращения аппаратных затрат в сложных системах при решении задач с существенно-переменной интенсивностью потоков данных // Известия ЮФУ. Технические науки. - 2012. - № 4 (129). - С. 213-219.
20. Сорокин Д.А. Методы решения задач с переменной интенсивностью потоков данных на реконфигурируемых вычислительных системах: дис. ... канд. техн. наук. - Таганрог, 2012. - С. 51-58.
21. Рабинер Л., Голд Б. Теория и применение цифровой обработки сигналов. - М.: Мир, 1978. - 848 с.
22. Введение в цифровую фильтрацию / под ред. Р. Богнера и А. Константинидиса. - М.: Мир, 1976. - 216 с.
23. Семерников Е.А., Доронченко Ю.И., Трунов И.Л. Макропроцессор цифровой обработки сигналов для многопроцессорных вычислительных систем со структурно-процедурной организацией вычислений // Материалы Международной научной конференции "Искусственный интеллект. Интеллектуальные и многопроцессорные системы-2004". - 2004. - С. 80-84.
24. Семерников Е.А., Доронченко Ю.И. Конвейерный макропроцессор цифровой обработки сигналов со структурно-процедурной организацией вычислений // Вестник компьютерных и информационных технологий. - 2005. - № 8. - С. 49-55.
REFERENCES
1. Khmelevskoy V.K. Geofizicheskie metody issledovaniya zemnoy kory [Geophysical methods of exploration of the earth's crust]. Book 1. Dubna: Mezhdunarodnyy universitet prirody, obshchestva i cheloveka "Dubna", 1997, 203 p.
2. DenisovM.S., Finikov D.B. Metody podavleniya kratnykh voln v seysmorazvedke [Methods of suppression of multiples in seismic prospecting]. Part 1, Tekhnologii seysmorazvedki [Seismic Technology], 2007, No. 1, pp. 5-16.
3. McHugo S., Webb B., Grechishnikova T., Whitebread R. Revealing the reservoir through 3D multiple attenuation // ROGTEC. WesternGeco. - 2014. - No. 10. - P. 22-34.
4. Kurin E.A., Denisov M.S. Primenenie vysokoproizvoditel'nykh vychislitel'nykh sistem v zadache podavleniya mnogokratno otrazhennykh voln-pomekh [The use of high performance computing systems in the task of suppressing multiply reflected waves-interference], Tekhnologii seysmorazvedki [Seismic Technologies], 2011, No. 4, pp. 35-40.
5. Kurin E.A. Seysmorazvedka i superkomp'yutery [Seismic and supercomputers], Vychislitel'nye metody iprogrammirovanie [Computing methods and programming], 2011, No. 12, pp. 34-39.
6. Verschuur D.J., Berkhout A.J., Wapenaar C.P. A. Adaptive surface-related multiple elimination, Geophysics, 1992, No. 9, pp. 1166-1177.
7. Berkhout, A.J., Verschuur D.J. Estimation of multiple scattering by iterative inversion, Part I: theoretical considerations, Geophysics, 1997, No. 5, pp. 1586-1595.
8. Barnes S., van Borselen R., Salazar H., Vazquez A., Ronzon I., Martinez R. Application of True-Azimuth 3D SRME to an Onshore Mexican Data Set // Society of exploration geophysi-cists: ^lle^ed papers of the International conference, Houston, Texas, USA, 2011.
9. van Dedem E.J., Verschuur D.J. 3D surface-related multiple prediction: A sparse inversion approach, Geophysics, 2005, No. 3, pp. 31-43.
10. HuangX., Sun C., Niu B., Wang H., Zeng M. Surface-related multiple prediction and suppression based on data-consistence: a theoretical study and test, Chinese journal of geophysics, 2005, No. 1, pp. 188-196.
11. Artman B. Passive seismic imaging: cand. of eng. sc. diss. Stanford, 2007, pp. 126-132.
12. Artman B., Alvarez G., Matson K. Image-space surface-related multiple prediction, Geophysics, 2007, No. 2, pp. 113-122.
13. Wang J., Wang S. Practical implementation of SRME for land multiple attenuation, GeoConvention: Integration: Sbornik statey mezhdunarodnoy konferentsii [GeoConvention: Integration: Collected papers of the international conference], Calgary, Canada, 2013.
14. Verschuur E., Dragoset B., Moore I., Bisley R. A perspective on 3D surface-related multiple elimination, Geophysics, 2010, No. 5, pp. 245-261.
15. Kalyaev A.V., Levin I.I. Modul'no-narashchivaemye mnogoprotsessornye sistemy so strukturno-protsedurnoy organizatsiey vychisleniy [Modular-scalable multiprocessor system with structural-procedural organization of computing]. Moscow: Yanus-K, 2003, 380 p.
16. Levin I.I. Rekonfiguriruemye mul'tikonveyernye vychislitel'nye struktury [Multiconference reconfigurable computing structure]. Rostov-on-Don: YuNTs RAN, 2008, pp. 3-13.
17. Levin I.I., Pelipets A.V., Sorokin D.A. Reshenie zadachi LU dekompozitsii na rekonfiguriruemykh vychislitel'nykh sistemakh: otsenka i perspektivy [Estimation and prospects of solving LU-decomposition on reconfigurable computer systems], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2015, No. 7 (168), pp. 62-70.
18. Kalyaev I.A., Levin I.I. Rekonfiguriruemye mul'tikonveyernye vychislitel'nye sistemy dlya resheniya potokovykh zadach [Multiconference reconfigurable computing systems for the solution of flow problems], Informatsionnye tekhnologii i vychislitel'nye sistemy [Information technology and computer systems], 2011, No. 2, pp. 12-22.
19. Sorokin D.A., Dordopulo A.I. Metodika sokrashcheniya apparatnykh zatrat v slozhnykh sistemakh pri reshenii zadach s sushchestvenno-peremennoy intensivnost'yu potokov dannykh [A methodology of hardware overhead decrease in complex systems while solving tasks with considerably variable data flow density], Izvestiya YuFU. Tekhnicheskie nauki [Izvestiya SFedU. Engineering Sciences], 2012, No. 4 (129), pp. 213-219.
20. Sorokin D.A. Metody resheniya zadach s peremennoy intensivnost'yu potokov dannykh na rekonfiguriruemykh vychislitel'nykh sistemakh: dis. ... kand. tekhn. nauk [Methods of solution of problems with variable intensity data streams in reconfigurable computing systems. Cand. of eng. sc. diss.]. Taganrog, 2012, pp. 51-58.
21. Rabiner L., Gold B. Teoriya i primenenie tsifrovoy obrabotki signalov [Theory and application of digital signal processing]. Moscow: Mir, 1978, 848 p.
22. Vvedenie v tsifrovuyu fil'tratsiyu [Introduction to digital filtering], ed. by R. Bognera and A. Konstantinidisa. Moscow: Mir, 1976, 216 p.
23. Semernikov E.A., Doronchenko Yu.I., Trunov I.L. Makroprotsessor tsifrovoy obrabotki signalov dlya mnogoprotsessornykh vychislitel'nykh sistem so strukturno-protsedurnoy organizatsiey vychisleniy [Macro processor digital signal processing for multiprocessor systems with structural-procedural organization of computing], Materialy Mezhdunarodnoy nauchnoy konferentsii "Iskusstvennyy intellekt. Intellektual'nye i mnogoprotsessornye sistemy-2004" [Materials of the International scientific conference "Artificial intelligence. Intelligent and multiprocessor systems-2004"], 2004, pp. 80-84.
24. Semernikov E.A., Doronchenko Yu.I. Konveyernyy makroprotsessor tsifrovoy obrabotki signalov so strukturno-protsedurnoy organizatsiey vychisleniy [Conveyor macro processor digital signal processing with structural-procedural organization of computing], Vestnik komp'yuternykh i informatsionnykh tekhnologiy [Vestnik of computer and information technology], 2005, No. 8, pp. 49-55.
Статью рекомендовал к опубликованию д.т.н., профессор И.И. Левин.
Сорокин Дмитрий Анатольевич - Общество с ограниченной ответственностью «Научно-
исследовательский центр супер-ЭВМ и нейрокомпьютеров»; e-mail: [email protected]; 347900,
г. Таганрог, пер. Итальянский, 106; тел.: +78634315491; начальник сектора.
Матросов Александр Юрьевич - e-mail: [email protected]; 344008, г. Ростов-на-Дону,
пр. Буденовский, 11/54, кв. 53; тел.: +79198730883; конструктор 1 категории.
Семерникова Евгения Евгеньевна - e-mail: [email protected]; 347900, г. Таганрог, ул. Петровская 78, кв. 28; тел.: +79885358331; научный сотрудник.
Алексеев Кирилл Николаевич - e-mail: [email protected]; 357700, Ставропольский край, г. Кисловодск, ул. Катыхина, 159, кв. 5; тел.: +79283536268; конструктор 2 категории.
Sorokin Dmitry Anatolievich - Limited liability company «Supercomputers and Neurocomputers Research Center»; e-mail: [email protected]; 106, Italyanskiy alley, Taganrog, Russia, 347900; phone: +78634315491; senior staff scientist.
Matrosov Aleksandr Yuryevich - e-mail: [email protected]; 11/54, Budeuonovskiy av., ap. 53, Rostov-on-Don, 344008, Russia; phone: +79198730883; constructor 1 category.
Semernikova Evgeniya Evgenyevna - e-mail: [email protected]; 78, Petrovskaya Lane, ap. 28, Taganrog, Russia, 347900; phone: +79885358331; research assistant.
Alekseev Kirill Nikolaevich - e-mail: [email protected]; 159, Katihina Lane, ap. 5, Kislovodsk, 357700, Russia; phone: +79283536268; constructor 2 category.