РАЗРАБОТКА ETL-ПРОЦЕССОВ С ПОМОЩЬЮ TALEND OPEN
STUDIO
1 2 Рубашенков А.М. , Бобров А.В.
1Рубашенков Антон Михайлович - студент;
2Бобров Андрей Виорелович - студент, кафедра защиты информации, Институт комплексной безопасности и специального приборостроения, Российский технологический университет, г. Москва
Аннотация: Talend Open Studio (TOS) - технология с открытым исходным кодом, применяемая для интеграции данных и разработки ETL-процессов. Интеграция данных включает в себя такие задачи, как: загрузка данных, миграция данных, синхронизация данных. Загрузка данных применяется, когда нужно загрузить на хранилище данные из источника, примером может послужить загрузка данных из CSV-файла в базу данных. TOS позволяет быстро загрузить большие объёмы данных. Миграция данных происходит при переходе на новую версию хранилища или на другую систему хранения. TOS обеспечивает корректный перенос данных без потерь и искажений. Синхронизация данных необходима для поддержания совместимости данных между несколькими хранилищами. ETL-процессы (Extract, Transform, Load) -используются для извлечения, преобразования и загрузки данных. Обеспечивают взаимодействие между бизнесом и IT. Используется графическая среда, что облегчает разработку процессов. В крупных компаниях стоит вопрос решения данных двух проблем. Talend предоставляет мощное и универсальное решение. Ключевые слова: Talend Open Studio, TOS, ETL-процессы, CSV-файл, IT, данные, хранилище.
УДК 004.031.2
Перенос и изменение данных из CSV-файла в базу данных Создадим и заполним CSV-файл, как показано на рисунке 1.
Рис. 1. Создание CSV-файла
В качестве базы данных будем использовать postgresql. Создадим базу данных «users», как представлено на рисунке 2.
Рис. 2. Создание базы данных
В TOS создадим новый проект «ETL» и запустим его [1]. Создадим новую работу, выбрав во вкладке «Jobs Designs» «Создать работу» и зададим имя работы «users_ETL» [2].
Настроим соединения к CSV-файлу и к базе данных. Во вкладке «Metadata» выберем «File delimited», «Создать файл с разделителями», указав путь к CSV-файлу. Как представлено на рисунке 3. Во вкладке «Metadata» выберем «Db connections», «Создать соединение», указав данные для подключения к базе данных. Как показано на рисунке 4.
Рис. 3. Настройка подключение к CSV-файлу
Рис. 4. Настройка соединения к базе данных
Перетащим созданное соединение к CSV-файлу в рабочую область и выберем «tFileInputDelimited». Перетащим созданное соединение к базе данных в рабочую область и выберем «tPostgresqlOutput». Соединим данные соединения в рабочей области, с помощью строки «main» [3]. Как показано на рисунке 5.
Рис. 5. Рабочая область users_ETL
Настроим компонент «users», укажем таблицу «user», и в поле «Action on table» выберем «Create table if not exist». Как показано на рисунке 6.
ta Работать users_ETL 0.1) If» Contexts(users_ETL) % users db(tDBOutput 1)(PostgreSQL)
Run (Работа users_ETL)
Basic settings
Advanced settings Dynamic settings View
Документация
Database | "users"
Имя пользователя "Anton"
I* Схема | "public" Пароль
Action on table Create table if not exists v Действие над данными Вставить Edit schema E] [sync columns
J BE
Схема
Built-in
□ Use spatial options Data source
This option only applies when deploying and running in the Talend Runtime П Specify a data source alias
IH Die on error v
Рис. 6. Настройка компонента «users» Запустим работу, нажав «Run» во вкладке «Run».
В базу данных занеслись значения из CSV-файла, как показано на рисунке 7.
2 Andrey Bobrov
Рис. 7. Содержание базы данных
Список литературы
1. [Электронный ресурс]. Режим доступа: https://www.talendbyexample.com/talend-project-reference.html/ (дата обращения: 10.11.2019).
2. [Электронный ресурс]. Режим доступа: https://www.talendbyexample.com/talend-job-reference.html/ (дата обращения: 13.11.2019).
3. [Электронный ресурс]. Режим доступа: https://habr.com/ru/post/338352/ (дата обращения: 17.11.2019).