Научная статья на тему 'ЦИФРОВОЙ ДВОЙНИК СИСТЕМЫ ПЕРВИЧНОЙ ОБРАБОТКИ ДАННЫХ ЭКСПЕРИМЕНТА SPD'

ЦИФРОВОЙ ДВОЙНИК СИСТЕМЫ ПЕРВИЧНОЙ ОБРАБОТКИ ДАННЫХ ЭКСПЕРИМЕНТА SPD Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
0
0
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
цифровой двойник / вычислительная система / эксперимент SPD / комплекс NICA / digital twin / computer system / SPD experiment / NICA complex

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пряхина Дарья Игоревна, Кореньков Владимир Васильевич, Олейник Данила Анатольевич, Жемчугов Алексей Сергеевич

В Лаборатории информационных технологий им. М.Г. Мещерякова Объединенного института ядерных исследований разработан программный комплекс для создания цифровых двойников систем, предназначенных для сбора, хранения и обработки больших объемов данных. В статье рассмотрена задача применения программного комплекса для проектирования вычислительной системы онлайн-фильтра данных эксперимента на установке SPD комплекса NICA. Описаны первые получившиеся результаты, включающие значения параметров оборудования, которые требуются для хранения и обработки экспериментальных данных, а также дана оценка загруженности сети передачи данных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пряхина Дарья Игоревна, Кореньков Владимир Васильевич, Олейник Данила Анатольевич, Жемчугов Алексей Сергеевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DIGITAL TWIN OF SPD ONLINE FILTER

A software complex to make digital twins of data acquisition, storage and processing systems was developed in the Meshcheryakov Laboratory of Information Technologies of the Joint Institute for Nuclear Research. The article considers usage of the software complex for designing of online filter for the SPD experiment at the NICA complex. The first obtaining results are described, including the values of the equipment parameters required for storing and processing experimental data, as well as an assessment of the workload of the data transmission network.

Текст научной работы на тему «ЦИФРОВОЙ ДВОЙНИК СИСТЕМЫ ПЕРВИЧНОЙ ОБРАБОТКИ ДАННЫХ ЭКСПЕРИМЕНТА SPD»

Tarasov Evgeny Alexandrovich, candidate of technical sciences, docent, 382652@mail. ru, Russia, Voronezh, Voronezh State Technical University

УДК 004.942

DOI: 10.24412/2071-6168-2024-12-236-237

ЦИФРОВОЙ ДВОЙНИК СИСТЕМЫ ПЕРВИЧНОЙ ОБРАБОТКИ ДАННЫХ ЭКСПЕРИМЕНТА SPD

Д.И. Пряхина, В.В. Кореньков, Д.А. Олейник, А.С. Жемчугов

В Лаборатории информационных технологий им. М.Г. Мещерякова Объединенного института ядерных исследований разработан программный комплекс для создания цифровых двойников систем, предназначенных для сбора, хранения и обработки больших объемов данных. В статье рассмотрена задача применения программного комплекса для проектирования вычислительной системы онлайн-фильтра данных эксперимента на установке SPD комплекса NICA. Описаны первые получившиеся результаты, включающие значения параметров оборудования, которые требуются для хранения и обработки экспериментальных данных, а также дана оценка загруженности сети передачи данных.

Ключевые слова: цифровой двойник, вычислительная система, эксперимент SPD, комплекс NICA.

Введение. Экспериментальная составляющая является неотъемлемой частью естественнонаучных исследований. Современные экспериментальные установки являются технологически сложными устройствами и могут производить большие объемы данных. В качестве примера можно привести мегапроект «Комплекс NICA» (NICA — Nuclotron based ion collider facility), который создается для проведения исследований в области физики высоких энергий с целью изучения свойств плотной барионной материи и сильного взаимодействия [1]. Мегапроект реализуется на базе Объединенного института ядерных исследований (ОИЯИ, Дубна, Россия) и включает в себя ускорительный комплекс тяжелых ионов с возможностью получения поляризованных пучков, экспериментальную установку по изучению барионной материи BM@N (Baryonic Matter at Nuclotron), многоцелевой детектор MPD (MultiPurpose Detector) и детектор спиновой физики SPD (Spin Physics Detector) [2]. Одним из фундаментальных направлений исследований, которые проводят на комплексе NICA, является изучение природы и свойств сильного взаимодействия между кварками и глюонами - элементарными составляющими материи в Стандартной модели физики частиц. В коллайдере, входящем в ускорительный комплекс NICA, предусмотрены две точки взаимодействия: одна для изучения результатов столкновения пучков тяжелых ионов на детекторе MPD, другая для исследования результатов взаимодействий поляризованных пучков протонов и дейтронов на установке SPD (далее эксперимент SPD) [1].

Эксперименты на ускорительном комплексе NICA производят большой объем данных, которые содержат информацию о сотнях миллионов физических событий. Событием называется акт столкновения двух пучковых частиц с образованием вторичных продуктов реакции. Для хранения и оперативной обработки этих данных необходимы крупные вычислительные системы, часто распределенные. Такие системы должны гарантировать достаточную производительность. Однако, достаточно высокая стоимость вычислительных ресурсов требует избегать избыточности, что достигается сбалансированной загрузкой ресурсов. В связи с этим требуется инструмент, который обеспечит качественное проектирование, а также постоянное совершенствование и масштабирование систем сбора, хранения и обработки данных. Таким инструментом может быть цифровой двойник (ЦД) [3].

В Лаборатории информационных технологий им. М.Г. Мещерякова (ЛИТ) ОИЯИ разработан метод построения ЦД для решения задач эффективного управления и развития распределенных центров сбора, хранения и обработки данных [4]. На основе данного метода реализован программный комплекс для создания ЦД распределенных систем. Программный комплекс включает в себя базу данных (БД), программу моделирования и пользовательский интерфейс. Под ЦД в данном случае понимается компьютерная модель, которая может использоваться в реальном времени на протяжении всего жизненного цикла распределенной системы. Исходными данными для запуска ЦД являются архитектура и параметры оборудования системы сбора, хранения и обработки данных, а также характеристики потоков данных и задач. Таким образом, с помощью программного комплекса можно создать ЦД, который можно применять для проектирования вычислительной системы крупных экспериментов, анализа эффективности и надежности его функционирования, тестирования сценариев масштабирования с учетом требований к потокам данных и задач, проверки стратегий управления потоками задач и т.д. Ключевым элементом программного комплекса является программа моделирования, которая была верифицирована [5] на примере вычислительной инфраструктуры, которая использовалась для сбора, хранения и обработки данных первого физического сеанса эксперимента BM@N комплекса NICA [6], состоявшегося зимой 2022-2023 года.

На текущий момент экспериментальная установка SPD находится в стадии проектирования, а также научно-исследовательских и опытно-конструкторские работ отдельных технических решений, включая систему обработки данных эксперимента. Согласно техническому проекту установки, поток регистрируемых первичных данных будет составлять до 20 ГБ/сек, что с учетом ограниченного периода набора данных соответствует 200 ПБ/год [7]. Поскольку полезная информация, относящаяся к исследуемому физическому сигналу, составляет примерно 0.001% от общего количества данных, долговременное хранение полного объема данных не является целесообразным. Следовательно, возникает необходимость разработки специализированного вычислительного комплекса первичной фильтрации данных в режиме реального времени (SPD Online filter). Проектирование масштабной системы для хранения и обработки такого огромного объема экспериментальных данных требует особого внимания. В связи с этим предлагается использовать разработанный программный комплекс для создания ЦД вычислительной инфраструктуры эксперимента SPD. ЦД будут использоваться для тестирования подсистем с разными вариантами параметров оборудования, потоков данных и заданий.

Система первичной обработки данных эксперимента SPD: SPD Online filter. Эксперимент SPD создается для изучения спиновой структуры протона и дейтрона, а также других спиновых явлений с использованием поляризованных пучков протонов и дейтронов при энергии столкновения до 27 ГэВ в системе центра масс и светимости до 1032 см"2с-1 [8]. Основная цель системы первичной обработки данных (далее онлайн-фильтр) — существенное сокращение объема данных (до 20 раз) для возможности их долговременного хранения данных без потери значимости с точки зрения проводимого исследования. Для достижения этой цели фильтрация будет производиться на основе специфичных для каждого исследования программно-задаваемых параметров. Вычислительная система он-лайн-фильтра представляет собой специализированный высокопроизводительный кластер, включающий несколько систем хранения данных (для полученных данных с детектора, промежуточных результатов обработки и для временного хранения обработанных данных перед передачей их в долговременное хранилище) и большое количество вычислительных узлов [7].

Схематично вычислительная система онлайн-фильтра представлена на рисунке 1. «Сырые» необработанные данные (raw), собранные детектором и организованные в наборы файлов, будут поступать со скоростью до 20 ГБ/сек в буфер приема данных. Текущий согласованный объем отдельного raw-файла составляет около 4 ГБ. Основной процесс первоначальной обработки данных включает в себя минимум три крупных этапа обработки: декодирование, частичная реконструкция и фильтрация данных. На каждом этапе формируются промежуточные данные в файлах формата: dec, p-rec. и filtered соответственно. Промежуточные данные размещаются на выделенной системе хранения. Выбранный объем отдельного dec-файла составляет 4 ГБ, p-rec-файла — 8 ГБ, filtered-файла — 450 МБ

[7].

Установка SPD

Буфер приема данных

Вычислительные ресурсы

Временное хранение данных

Рис. 1. Структура вычислительной системы онлайн-фильтра данных эксперимента SPD

Таким образом, для обеспечения высокопропускной первичной обработки данных необходимо не только спроектировать эффективную вычислительную систему, но и оценить необходимые ресурсы для ее реализации, предусмотрев возможности для дальнейшего развития и оптимизации. Рассмотрим возможности использования разработанного программного комплекса для построения ЦД систем сбора, хранения и обработки данных для онлайн-фильтра эксперимента SPD.

ЦД вычислительной системы онлайн-фильтра данных эксперимента SPD. Первое применение программного комплекса для создания ЦД вычислительной системы онлайн-фильтра обусловлено необходимостью рассчитать требуемые параметры оборудования для хранения и обработки данных, а также дать оценку загруженности сети передачи данных. В рассматриваемом примере была поставлена задача построения ЦД для сбора и фильтрации данных эксперимента, который будет работать на протяжении 24 часов со следующей периодичностью: 2 часа работы коллайдера в режиме столкновений и 1 час перерыв на ускорение и инжекцию пучка в накопительные кольца. Дополнительное требование было выдвинуто ко времени обработки raw-файла: все три этапа до получения файла с отфильтрованными данными должны длиться не более 10 минут при этом на декодирование отводится не более 10% времени, частичную реконструкцию - 80%, фильтрацию - 10%. Файлы в системах хранения данных не удаляются.

На рисунке 2 представлен элемент веб-интерфейса программного комплекса, который позволяет описать инфраструктуру рассматриваемой вычислительной системы и параметры входящего в ее состав оборудования. В состав инфраструктуры добавлены такие объекты, как источник (генератор) данных, вычислительная компонента и два хранилища данных. Помимо этого, в рассматриваемом модуле осуществляется настройка каналов передачи данных, создание потоков данных и задач в соответствии с описанием онлайн-фильтра данных эксперимента SPD.

По завершении построения инфраструктуры можно переходить непосредственно к созданию ЦД, для запуска которого необходимо настроить некоторые параметры (см. рис. 3): задать продолжительность работы вычислительной системы, добавить вероятностные события, которые могут происходить в системе (сбой оборудования, изменение количества вычислительных ресурсов и др.), а также указать объекты и события для записи логов. Важно отметить, что при заданной продолжительности проведения эксперимента (24 часа) дано ограничение на время активного получения данных (2 часа работы и 1 час перерыв), в связи с чем в настройках ЦД была указана эффективность генерации данных (60%). Помимо базовой конфигурации оборудования, которая была задана при создании инфраструктуры РЦОД, можно добавлять дополнительные возможные модификации, после чего запускать ЦД.

Результаты работы ЦД представлены на интерактивных графиках. Для просмотра и дальнейшего анализа доступны следующие результаты: объем загрузки хранилищ данных; использование ядер на вычислительных компонентах; нагрузка на каналы связи; очереди задач, количество выполненных задач; распределения файлов в хранилищах.

Итак, при интенсивности генерации 60% с установки SPD за 24 часа будет получено примерно 1 100 ТБ экспериментальных данных (см. рис. 4). Для обработки raw-файлов в режиме реального времени потребуется примерно 7 000 вычислительных узлов (см. рис. 5), 250 из которых будут заняты задачами декодирования экспериментальных данных (RawToDec), 6 500 — задачами частичной реконструкции декодированных данных (DecToPrec) и

250 — непосредственно фильтрацией реконструированных данных (PrecToFilt). Стоит отметить, что после окончания процесса набора данных продолжится обработка оставшихся raw-файлов, которая займет примерно 5 часов. Требуемый объем данных для промежуточного хранилища, где располагаются результирующие файлы трех этапов обработки, составляет примерно 3 100 ТБ (см. рис. 6). При этом 1 000 ТБ будут занимать декодированные данные (Dec), 2 000 ТБ — данные частичной реконструкции (Prec) и 100 ТБ — отфильтрованные данные (Filt). Загрузка каналов связи при передаче данных отражена на рисунках 7-9. По графикам видно, что между установкой SPD и буфером приема данных необходимо обеспечить канал связи пропускной способностью не менее 150 Гбит/сек (см. рис. 7), между буфером приема данных и вычислительными ресурсами — 80 Гбит/сек (см. рис. 8), между вычислительными ресурсами и временным хранилищем данных — 500 Гбит/сек (см. рис. 9).

Построение инфраструктуры центра сбора, хранения и обработки данных

Редактировать инфраструктуру

Trigger Buffer Computing Intermediaie

Рис. 2. Построение инфраструктуры центра сбора, хранения и обработки данных для создания ЦД

Добавление эксперимента

Заполните паля фармы; чтобы добавить новый эксперимент для поиска оптимальной конфигурации оборудования * Обязательное поле для заполнения Название эксперимента *

Параметры моделирования

• Продолжительность работы моделируемой инфраструктуры - [ 24 } ч.

• Ускорение процесса моделирования в [ 700 ] раз.

Параметры легирования

Выберите объекты и события, о которых необходимо сохранять информацию во время моделирования

• Объекты моделируемой инфраструктуры

* Хранилища данных

' Вычислительные компоненты

— Каналы связи

• События

Генерация данных

* Потери данных

V Работа с файлами

** Генерация, запуск, выполнение задач

Добавить I Очистить

Отмена

Рис. 3. Настройка параметров для запуска ЦД

239

Total data volume on the Buffer

Рис. 4. Объем накопленных экспериментальных данных за 24 часа

Occupied cores on the Computing resources

---Ргес ГО Fi It

\ \

15 Time (h)

Рис. 5. Использование вычислительных ресурсов для обработки данных для подавления фоновых событий

Data volume on the Storage for Intermediate data

..... Dec data

Prec data ---Filt data

vf...- _____

71m$ (h)

Рис. 6. Объем результирующих данных в промежуточном хранилище

Load of link between the Trigger and the Buffer

Рис. 7. Загрузка канала передачи данных между установкой SPD и буфером приема данных

240

so

70 60 I 50

о

i40 о

30 20 10 0

0 5 10 15 20 25 30

Time (h)

Рис. 8. Загрузка канат передачи данных между буфером приема данных и вычислительными ресурсами

Load of link between the Computing resources and the Storage for intermediate data

500

400

и a)

I 300 !a ü

T> :v,

3 200

100

0

0 5 10 15 20 25 30

Time (h)

Puc. 9. Загрузка канала передачи данных между вычислительными ресурсами и временным хранилищем данных

Заключение. По результатам проведенной работы, которая посвящена созданию ЦД вычислительной системы онлайн-фильтра эксперимента SPD комплекса NICA с целью проектирования инфраструктуры для хранения и обработки большого объема экспериментальных данных, сделаны следующие выводы. С учетом 60% эффективности генерации данных за 24 часа работы эксперимента будет получено 1 100 ТБ данных, обработка которых требует не менее 7 000 вычислительных узлов для обеспечения быстрой реконструкции событий и фильтрации данных в режиме реального времени, при условии обеспечения пропускной способности каналов связи на уровне 150 Гбит/сек. В промежуточном хранилище для временного хранения отфильтрованных данных перед передачей их в долговременное хранилище используется 3 100 ТБ. Скорость передачи данных от вычислительных ресурсов до промежуточного хранилища составляет 500 Гбит/сек.

На следующем этапе работы при построении ЦД будут добавлены дополнительные вероятности различных событий в системе (сбой оборудования, изменение количества вычислительных ресурсов и др.), после чего программный комплекс может использоваться для создания ЦД, которые будут применяться для тестирования вычислительной системы онлайн-фильтра с разными вариантами параметров оборудования, потоков данных и заданий, что позволит обеспечить качественное развитие и поддержку вычислительной инфраструктуры.

Исследование было проведено при финансовой поддержке Российского Научного Фонда № 22-12-00109

[9].

Список литературы

1. Kekelidze V., Kovalenko A., Lednicky R., Matveev V., Meshkov I., Sorin A., Trubnikov G. Status of the NICA project at JINR // EPJ Web of Conferences. 2017. V. 138. P. 01027.

2. Trubnikov G., Butenko A., Golovatyuk V., Guskov A., Kapishin M., Kekelidze V., Lednicky R., Meshkov I., Sorin A. NICA heavy-ion collider at JINR (Dubna). Status of accelerator complex and first physics at NICA // Journal of Physics: Conference Series. 2023. V. 2586. P. 012013.

3. Пряхина Д.И., Кореньков В.В. Актуальность создания цифрового двойника для управления распределенными центрами сбора, хранения и обработки данных // Современные информационные технологии и ИТ-образование. 2023. Т. 19. №2. С. 262 - 271.

4. Пряхина Д.И., Кореньков В.В., Трофимов В.В. Метод построения цифровых двойников для решения задач эффективного управления и развития распределенных центров сбора, хранения и обработки данных // Современные информационные технологии и ИТ-образование. 2023. Т. 19. №2. С. 272 - 281.

5. Пряхина Д.И., Кореньков В.В., Трофимов В.В., Герценбергер К.В. Верификация программы моделирования для создания цифровых двойников распределенных центров сбора, хранения и обработки данных // International Journal of Open Information Technologies. 2024. Т. 12. №1. С. 118 - 128.

Load of link between the Buffer and the Computing resources

1

w

6. Kapishin M., BM@N Collaboration. Studies of baryonic matter at the BM@N experiment (JINR) // Nuclear Physics A. 2019. V. 982. P. 967.

7. The SPD collaboration. Technical Design Report of the Spin Physics Detector [Электронный ресурс] URL: http://spd.iinr.ru/wp-content/uploads/2023/03/TechnicalDesignReport SPD2023.pdf (дата обращения: 11.12.2023).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

8. The SPD proto-collaboration. Conceptual design of the Spin Physics Detector [Электронный ресурс] URL: http://spd.iinr.ru/wp-content/uploads/2021/04/2102.00442.pdf (дата обращения: 11.12.2023).

9. Карточка проекта фундаментальных и поисковых научных исследований, поддержанного Российским Научным Фондом [Электронный ресурс] URL: https://rscf.ru/proiect/22-12-00109/ (дата обращения: 11. 12.2023).

Пряхина Дарья Игоревна, научный сотрудник, [email protected], Россия, Дубна, Объединенный институт ядерных исследований,

Кореньков Владимир Васильевич, д-р техн. наук, научный руководитель лаборатории, [email protected], Россия, Дубна, Объединенный институт ядерных исследований,

Олейник Данила Анатольевич, канд. техн. наук, старший научный сотрудник, [email protected], Россия, Дубна, Объединенный институт ядерных исследований,

Жемчугов Алексей Сергеевич, канд. физ.-мат. наук, заместитель начальника отдела, заместитель главного ученого секретаря Института, zhemchugov@jinr. ru, Россия, Дубна, Объединенный институт ядерных исследований

DIGITAL TWIN OF SPD ONLINE FILTER D.I. Priakhina, V. V. Korenkov, D.A. Oleynik, A.S. Zhemchugov

A software complex to make digital twins of data acquisition, storage and processing systems was developed in the Meshcheryakov Laboratory of Information Technologies of the Joint Institute for Nuclear Research. The article considers usage of the software complex for designing of online filter for the SPD experiment at the NICA complex. The first obtaining results are described, including the values of the equipment parameters required for storing and processing experimental data, as well as an assessment of the workload of the data transmission network.

Key words: digital twin, computer system, SPD experiment, NICA complex.

Priakhina Daria Igorevna, researcher, pryahinad@jinr. ru, Russia, Dubna, Joint Institute for Nuclear Research,

Korenkov Vladimir Vasilievich, doctor of technical sciences, scientific leader of the laboratory, [email protected], Russia, Dubna, Joint Institute for Nuclear Research,

Oleynik Danila Anatolievich, candidate of technical sciences, senior researcher, [email protected], Russia, Dubna, Joint Institute for Nuclear Research,

Zhemchugov Alexey Sergeevich, candidate ofphysical and mathematical sciences, deputy head of the department, deputy chief scientific secretary of the Institute, zhemchugov@jinr. ru, Russia, Dubna, Joint Institute for Nuclear Research

УДК 621.313.323

Б01: 10.24412/2071 -6168-2024-12-242-243

ДИСКРЕТНАЯ МОДЕЛЬ ВЕЙВЛЕТ ПРЕОБРАЗОВАНИЯ ДЛЯ ОБРАБОТКИ ЭЛЕКТРОЭНЦЕФАЛОГРАФИИ

Хаодун Чэн, Чжоу Вэй, В.В. Потехин, Ю.Н. Кожубаев, В.С. Карпухин

Использование неинвазивных средств, в частности электроэнцефалографа, для снятия биопотенциалов головного мозга является одним из самых простых и распространенных методов создания нейрокомпьютерных интерфейсов. Поиск подходящих алгоритмов обработки полученных сигналов для последующего распознавания мыслительных процессов является одним из самых больших препятствий для будущего внедрения интерфейсов во многих сферах. Из-за огромной совокупности и сложности процессов, происходящих одновременно в головном мозге, невозможно создать модель, которая смогла бы полностью их описать. В результате чего получение безмодельных методов требует большого количества времени. Однако в последние годы методы машинного обучения становятся все более популярными в исследованиях. Вычислительные мощности современных компьютеров позволяют быстро проводить вычисления необходимые для машинного обучения, что является ключевым аргументом в пользу их использования. Данные, полученные из источника, были разбиты на наборы сигналов от каждого из электродов и вид мысленных действий. После каждый из них был представлен в частотно-временном виде при помощи дискретной модели вейвлет преобразования. Затем посчитаны отдельные характеристики каждого частотно-временного отрезка сигнала, которые были использованы для машинного обучения. Каждый из алгоритмов машинного обучения был протестирован на разных вейвлет функциях.

Ключевые слова: Вейвлет преобразование, дискретная модель, машинное обучение, нейронные сети, аппроксимация, электроэнцефалография.

Электроэнцефалография (ЭЭГ) становится все более популярной для определения действий мозга. С помощью ЭЭГ можно понять, как работает мозг. Различные темы были рассмотрены многими исследователями. Это

242

i Надоели баннеры? Вы всегда можете отключить рекламу.