Интернет-журнал «Науковедение» ISSN 2223-5167 http ://naukovedenie. ru/ Выпуск 6 (25) 2014 ноябрь - декабрь http://naukovedenie.ru/index.php?p=issue-6-14 URL статьи: http://naukovedenie.ru/PDF/137TVN614.pdf DOI: 10.15862/137TVN614 (http://dx.doi.org/10.15862/137TVN614)
УДК 004.65:004.622
Ботыгин Игорь Александрович
ФГАОУ ВО «Национальный исследовательский Томский политехнический университет»
Россия, Томск
Доцент кафедры «Информатики и проектирования систем»
Кандидат технических наук E-mail: [email protected]
Попов Владимир Николаевич
ФГАОУ ВО «Национальный исследовательский Томский политехнический университет»
Россия, Томск
Доцент кафедры «Информатики и проектирования систем»
Кандидат технических наук E-mail: [email protected]
Архитектура распределенной файловой системы
Аннотация. В статье рассматривается подход, позволяющий организовать распределенное хранение больших объемов разнородных данных с целью их дальнейшей параллельной обработки в высокопроизводительных кластерных системах для задач анализа и прогноза природно-климатических процессов. Для представления данных различных классов была применена практика использования метаописания как формализма, связанного с некоторыми категориями ресурсов. Разработка компонентов метаописания (метаданных) была осуществлена на основе анализа представления данных приземных гидрометеорологических наблюдений, вертикального зондирования атмосферы, ветрового зондирования атмосферы, наблюдений метеорологических радиолокаторов, наблюдений с искусственных спутников Земли и др. Был сформирован единый набор компонентов метаданных для их обобщенного описания. В статье подробно представлены структура и содержание основных компонентов обобщенного метаописания на примере представления данных гидрометеорологических наблюдений с наземных и морских станций.
В иерархической структуре компонентов метаописания на самом нижнем уровне находятся метаданные, описывающие конкретные измеряемые параметры гидрометеорологических наблюдений (скорость ветра, температура воздуха и т.д.). Основной характеристикой этих метаданных является идентификационный номер или индекс в записях физических файлов хранения. Метаданные самого верхнего уровня метаописания определяют унифицированный идентификатор сервера хранения и путь к физическим файлам хранения данных гидрометеорологических наблюдений. Все метаданные промежуточных уровней обеспечивают формирование частей унифицированного идентификатора пути к серверу хранения (класс представления данных, раздел, группа). Конкретное имя файла с хранимыми данными формируется на основе таблицы имен шаблонов для классов представления данных.
Для трансформации метаописания на физическую инфраструктуру ресурсов хранения предложена функционально-логическая схема организации кластера хранения данных гидрометеорологических наблюдений.
Ключевые слова: распределенная файловая система; большие данные; метаописание; метаданные; код оперативной передачи данных; сервер хранения; коммуникационный сервер; менеджер данных; хранилище данных; унифицированный идентификатор ресурса; данные гидрометеорологических наблюдений.
Ссылка для цитирования этой статьи:
Ботыгин И.А., Попов В.Н. Архитектура распределенной файловой системы // Интернет-журнал «НАУКОВЕДЕНИЕ» 2014. № 6 http://naukovedenie.ru/PDF/137TVN614.pdf (доступ свободный). Загл. с экрана. Яз. рус., англ. DOI: 10.15862/137TVN614
Возрастающие объемы данных, циркулирующие в глобальных телекоммуникациях, требуют не только высокоскоростных и надежных каналов передачи, но и разработки эффективных систем хранения. Но простое увеличение физической емкости хранилищ не решает проблему больших данных. И бизнес, и наука при аналитико-информационном анализе требуют всеобъемлющего комплексного подхода к организации и ведению имеющихся разнородных данных и фактов. Например, для задач анализа атмосферных процессов, данных метеорологических наблюдений, системообразующих параметров природной среды, пространственно-временных наборов дендрохронологических данных, естественных импульсных электромагнитных характеристик Земли и т.д. используются петабайты данных, которые необходимо хранить, и для обработки которых необходимы значительные вычислительные ресурсы.
Как отмечено в работе [1], современные системы хранения больших объемов данных, во-первых, базируются на распределенных вычислительных структурах, а во-вторых, разделяются на две большие группы. Первая группа - это распределенные файловые системы [2, 3]. Вторая группа включает распределенные хранилища данных [4, 5]. При этом подразумевается, что файловые системы хранят неструктурированную информацию, а хранилища - структурированную. Заметим, что такое деление на две группы - условное, так как при наличии метаописания и информацию в файлах можно достаточно подробно структурировать.
Именно разработке концептуальной модели распределенной файловой системы с субканальной информацией (метаописанием) о структурировании данных в файлах и посвящена настоящая статья.
Существующая практика применения и использования метаописания как формализма, связанного с некоторыми категориями ресурсов, очень обширная и многообразная, также как и количество используемых форматов метаописаний. В классификации форматов, как правило, ключевым признаком является описание предметной области. Выделяют форматы метаописаний для представления персон и организаций [6, 7], архивов и электронных ресурсов [8, 9], библиографических ресурсов [10, 11] и др.
Для анализа структур данных использовались следующие классы представления данных: приземных гидрометеорологических наблюдений (FM 12-IX SYNOP, FM 13-IX SHIP), вертикального зондирования атмосферы (FM 35-V TEMP, FM 36-V TEMP SHIP), ветрового зондирования атмосферы (FM 32-V PILOT и FM 33-V PILOT SHIP), наблюдений метеорологических радиолокаторов (международная форма FM 20-V RADOB), наблюдений с искусственных спутников Земли (FM 86-VI SATEM, FM 87-VI SARAD, FM 88-VI SATOB) и
др. [12].
Было выявлено, что все выше рассмотренные структуры данных позволяют сформировать единый набор компонентов метаданных для их обобщенного описания. Проиллюстрируем структуру и содержание основных компонентов обобщенного метаописания на примере представления данных гидрометеорологических наблюдений с наземных и морских станций в коде КН-01 (международная форма FM 12-VII SINOP и FM 13-VII SHIP). Данное представление включает четыре основных раздела. В свою очередь каждый раздел состоит из нескольких групп.
Так, например, первый раздел включает следующие группы: опознаватель кода; число месяца, срок наблюдений (по ВСВ) и указатель единиц измерения скорости ветра и способа ее определения; индекс станции; указатели типа станции (автоматическая или обслуживаемая персоналом).
Во втором разделе указаны: высота нижней границы самых низких облаков, метеорологическая дальность видимости; общее количество облаков всех ярусов, направление ветра за срок наблюдения, скорость ветра, средняя за срок наблюдения; температура воздуха; точка росы; давление воздуха на уровне станции; давление воздуха, приведенное к среднему уровню моря; характеристика и значение барической тенденции за последние 3 часа; количество осадков, выпавших за определенный период времени; погода в срок наблюдения или в течение последнего часа перед сроком наблюдения, погода в период между сроками наблюдения; количество облаков нижнего или среднего яруса, облака вертикального развития и нижнего яруса, облака среднего яруса и слоисто-дождевые, облака верхнего яруса.
В третий раздел входят: максимальная температура воздуха за день; минимальная температура воздуха за ночь; состояние подстилающей поверхности при наличии снежного покрова; продолжительность солнечного сияния за сутки; инструментально измеренная высота нижней границы облачности, количество и вид облаков; дополнительная информация о погоде в срок и между сроками наблюдения.
Четвертый раздел описывает: состояние поверхности почвы при отсутствии снежного покрова; температура подстилающей поверхности в срок наблюдения в течение всего года, независимо от наличия или отсутствия снежного покрова; минимальная температура воздуха; состояние поверхности почвы при отсутствии снежного покрова; минимальная температура поверхности почвы за ночь; состояние подстилающей поверхности при наличии снежного покрова, высота снежного покрова; минимальная температура воздуха на высоте 2 см от поверхности почвы; количество осадков, выпавших за определенный период времени; количество осадков, выпавших за сутки [13].
Представленную выше структуру приземных данных гидрометеорологических наблюдений необходимо трансформировать на узлы кластера хранения информации (серверы распределенной файловой системы) и логическое метаописание для менеджера файловой системы.
Описание физической структуры серверов распределенной файловой системы формируется в таблице серверов менеджера файловой системы (табл. 1).
Таблица 1
Описание серверов распределенной файловой системы
ID сер- Логи- Па- Про- DNS-имя IP-адрес Функ- Вкл. / При-
вера ческое имя роль токол ционирование Выкл. меч.
1 ser1 ser1 TCP www.ser1.ru 4.2.0.1 0 1
2 ser2 ser2 TCP www.ser2.ru 4.2.0.2 1 1
3 ser3 ser3 TCP www.ser3.ru 4.2.0.3 2 0
Полями таблицы серверов распределенной файловой системы являются: идентификационный номер сервера, логическое имя для входа в сервер, пароль для входа в сервер, тип протокола, на котором работает сервер, универсальный локатор сервера (DNS-имя), универсальный локатор сервера (IP-адрес), признак функционального режима сервера (0 -данные отсутствуют, 1 - разрешены операции чтения, записи, редактирования и удаления, 2 -данные доступны для чтения, редактирования и удаления), состояние сервера (Вкл. / Выкл.), примечание. Добавление нового или удаление существующего сервера хранения влечет либо
добавление, либо удаление соответствующей записи в таблице серверов распределенной файловой системы.
Описание соответствия классов представления данных и серверов распределенной файловой системы, на которых хранятся эти данные, формируется в таблице соответствия классов представления данных (табл. 2).
Таблица 2
Описание соответствия классов представления данных
ГО класса представления данных ГО сервера
1 2
1 1
2 3
Полями таблицы соответствия классов представления данных являются: идентификационный номер класса представления данных и идентификационный номер сервера распределенной файловой системы.
Описание классов представления данных формируется в соответствующей таблице (табл. 3).
Полями таблицы описания классов представления данных являются: идентификационный номер класса представления данных, функциональное название класса представления данных, путь к данным на сервере хранения, примечание.
Таблица 3
Описание классов представления данных
ГО класса представления данных Название класса представления данных Путь к данным на сервере хранения Примеч.
1 Данные приземных гидрометеорологических наблюдений Яш12/
2 Данные ветрового зондирования атмосферы Яш32/
3 Данные наблюдений с искусственных спутников Земли Яш86/
Конкретное имя файла с хранимыми данными формируется на основе таблицы имен шаблонов для классов представления данных.
На рис. 1 представлена иерархическая структура, иллюстрирующая размещение нескольких групп представления данных в метаописании.
Рис. 1. Иерархическая структура компонентов метаописания
В иерархической структуре компонентов метаописания на самом нижнем уровне находятся метаданные, описывающие конкретные измеряемые параметры гидрометеорологических наблюдений (скорость ветра, температура воздуха и т.д.). Основной характеристикой этих метаданных является идентификационный номер или индекс в записях физических файлов хранения.
Метаданные самого верхнего уровня метаописания определяют унифицированный идентификатор сервера хранения и путь к физическим файлам хранения данных гидрометеорологических наблюдений.
Все метаданные промежуточных уровней обеспечивают формирование частей унифицированного идентификатора пути к серверу хранения (класс представления данных, раздел, группа). Конкретное имя файла с хранимыми данными формируется на основе таблицы имен шаблонов для классов представления данных.
Для трансформации метаописания на физическую инфраструктуру ресурсов хранения предложена функционально-логическая схема организации кластера хранения данных гидрометеорологических наблюдений (рис. 2).
_Сервер хранения К_
Сервер хранения 1 (унифицированный идентификатор пути к файлу)
Записи файла
ААХХ 16181 23053 12338 81507 86708
Коммуникационный сервер
Рис. 2. Функционально-логическая схема организации кластера хранения данных
гидрометеорологических наблюдений
Как было отмечено выше, работа по взаимодействию с серверами распределенной файловой системы возложена на менеджера данных, который находится на коммуникационном сервере. Именно менеджер данных координирует распределение и использование информации, находящейся на серверах и тем самым виртуализирует накопители данных, объединяя их в единый логический информационный ресурс.
Активизация работы менеджера данных осуществляется при выполнении большинства пользовательских функций по управлению размещением и хранением данных гидрометеорологических наблюдений. Обобщённый алгоритм функционирования менеджера данных состоит из следующих шагов:
Шаг 1. На основе запроса от исследователя при использовании функций работы с серверами хранения данных, менеджер данных определяет из таблицы описания классов представления данных идентификатор требуемого класса.
Шаг 2. Выбранный идентификатор класса представления данных используется для определения идентификационного номера сервера хранения данных из таблицы соответствия классов представления данных.
Шаг 3. Найденные идентификационные номера серверов хранения данных используются для выбора тех серверов, которые содержат необходимые данные.
Шаг 5. В случае успешного соединения с серверами хранения данных информация о файлах, содержащих запрашиваемые классы представления данных, поступает исследователю. Иначе появляется информация об ошибке.
Таким образом, проведенные исследования показали эффективность использования метаописаний для проектирования распределенного хранения больших объемов разнородных данных с целью их дальнейшей параллельной обработки в высокопроизводительных кластерных системах для задач анализа и прогноза природно-климатических процессов. Структура и содержание метаданных были разработаны на основе анализа представления данных приземных гидрометеорологических наблюдений, вертикального зондирования атмосферы, ветрового зондирования атмосферы, наблюдений метеорологических радиолокаторов, наблюдений с искусственных спутников Земли и др.
В иерархической структуре компонентов метаописания на самом нижнем уровне находятся метаданные, описывающие конкретные измеряемые параметры гидрометеорологических наблюдений (скорость ветра, температура воздуха и т.д.). Основной характеристикой этих метаданных является идентификационный номер или индекс в записях физических файлов хранения. Метаданные самого верхнего уровня метаописания определяют унифицированный идентификатор сервера хранения и путь к физическим файлам хранения данных гидрометеорологических наблюдений. Все метаданные промежуточных уровней обеспечивают формирование частей унифицированного идентификатора пути к серверу хранения (класс представления данных, раздел, группа). Конкретное имя файла с хранимыми данными формируется на основе таблицы имен шаблонов для классов представления данных.
Для трансформации метаописания на физическую инфраструктуру ресурсов хранения предложена функционально-логическая схема организации кластера хранения данных гидрометеорологических наблюдений.
ЛИТЕРАТУРА
1. Сухорослов О.В. Новые технологии распределенного хранения и обработки больших массивов данных. Режим доступа: http://www.ict.edu.ru/ft/005652/62329e1-st16.pdf (дата обращения 05.11.2014).
2. J. Dean. Handling Large Datasets at Google: Current Systems and Future Directions. Data-Intensive Computing Symposium, March 2008. Режим доступа: http://research.yahoo.com/files/6DeanGoogle.pdf. (дата обращения 05.11.2014).
3. The Hadoop Distributed File System: Architecture and Design. Режим доступа: http://hadoop.apache.org/core/docs/current/ (дата обращения 05.11.2014).
4. Chang, J. Dean, S. Ghemawat, W.C. Hsieh, D. A. Wallach, M. Burrows, T. Chandra, A. Fikes, and R.E. Gruber. Bigtable: A distributed storage system for structured data. In OSDI'06: Seventh Symposium on Operating System Design and Implementation, Seattle, WA, USA, November 2006, pp. 205-218.
5. Apache HBase. Режим доступа: http://hbase.apache.org/ (дата обращения 05.11.2014).
6. vCard and vCalendar. Режим доступа: http://www.imc.org/pdi/ (дата обращения 05.11.2014).
7. FOAF (2000-2014+). Режим доступа: http://www.foaf-project.org/ (дата обращения 05.11.2014).
8. Global Information Locator Service (GILS). Режим доступа: http://www.gils.net/ (дата обращения 05.11.2014).
9. Encoded Archival Description (EAD). Режим доступа: http://www.loc.gov/ead/ (дата обращения 05.11.2014).
10. MARC 21 Formats. Режим доступа: http://www.loc.gov/marc/marcdocz.html (дата обращения 05.11.2014).
11. UNIMARC formats and related documentation. Режим доступа: http://www.ifla.org/publications/unimarc-formats-and-related-documentation (дата обращения 05.11.2014).
12. Метеорологические коды. Режим доступа: http://moryak.biz/modules.php?name=Content&pa=showpage&pid=375 (дата обращения 05.11.2014).
13. Код для оперативной передачи данных приземных метеорологических наблюдений с сети станций Росгидромета. Режим доступа: http://meteork.ru/doc/serv/synop.pdf (дата обращения 05.11.2014).
Рецензент: Мицель Артур Александрович, профессор, доктор технических наук, профессор кафедры Автоматизированные системы управления Томского государственного университета систем управления и радиоэлектроники
Botygin Igor Aleksandrovich
National Research Tomsk Polytechnic University
Russia, Tomsk E-mail: [email protected]
Popov Vladimir Nikolaevich
National Research Tomsk Polytechnic University
Russia, Tomsk E-mail: [email protected]
Architecture distributed file system
Abstract. This article researches an approach that allows to organize the distributed storage of a huge amount of heterogeneous data with an objective of its further parallel processing in a highperformance cluster systems for the problems of analysis and nature-climatic processes forecasting. For the display of data that belongs to the different classes the practice of using meta-description as a formalism connected with different resource categories was used. The development of metadescription components (meta-data) was carried out basing upon the analysis of the data representation of ground hydrometeorological observation, the vertical sounding of the atmosphere, wind sounding of the atmosphere, observation of meteorological radiolocation, observation with satellites etc. A unified set of metadata components for their general description was formed. The article details on the structure and contents of the general components of generalized meta-description with an example of displaying hydrometeorological data from ground and water stations.
The lowest level of hierarchical component structure of the meta-description contains metadata that descripts the measurable parameters of the hydrometeorological observations (wind speed, air temperature etc.). The main property of the metadata is the ID or index in the physical file records. The meta-description's highest level metadata defines the unified storage server identifier and path to the physical storage data of the hydrometeorological observations. All of the intermediate level metadata provide the formation of parts of the unified identifier for the server storage path (data representation class, section, and group). The specific filename with the stored data is formed based upon the table of template names for the data presentation classes.
To transform the data meta-description of hydrometeorological observations data for the physical infrastructure of storage resources, a functional scheme of the specialized distributed storage cluster was suggested.
Keywords: distributed file system; big data; meta description; metadata; operational code data; storage server; communication server; data manager; data warehouse; uniform resource identifier; data of hydrometeorological observations.
REFERENCES
1. Suhoroslov O.V. Novye tehnologii raspredelennogo hranenija i obrabotki bol'shih massivov dannyh. Rezhim dostupa: http://www.ict.edu.ru/ft/005652/62329e1-st16.pdf (data obrashhenija 05.11.2014).
2. J. Dean. Handling Large Datasets at Google: Current Systems and Future Directions. Data-Intensive Computing Symposium, March 2008. Rezhim dostupa: http://research.yahoo.com/files/6DeanGoogle.pdf. (data obrashhenija 05.11.2014).
3. The Hadoop Distributed File System: Architecture and Design. Rezhim dostupa: http://hadoop.apache.org/core/docs/current/ (data obrashhenija 05.11.2014).
4. Chang, J. Dean, S. Ghemawat, W.C. Hsieh, D. A. Wallach, M. Burrows, T. Chandra, A. Fikes, and R.E. Gruber. Bigtable: A distributed storage system for structured data. In OSDI'06: Seventh Symposium on Operating System Design and Implementation, Seattle, WA, USA, November 2006, pp. 205-218.
5. Apache HBase. Rezhim dostupa: http://hbase.apache.org/ (data obrashhenija 05.11.2014).
6. vCard and vCalendar. Rezhim dostupa: http://www.imc.org/pdi/ (data obrashhenija 05.11.2014).
7. FOAF (2000-2014+). Rezhim dostupa: http://www.foaf-project.org/ (data obrashhenija 05.11.2014).
8. Global Information Locator Service (GILS). Rezhim dostupa: http://www.gils.net/ (data obrashhenija 05.11.2014).
9. Encoded Archival Description (EAD). Rezhim dostupa: http://www.loc.gov/ead/ (data obrashhenija 05.11.2014).
10. MARC 21 Formats. Rezhim dostupa: http://www.loc.gov/marc/marcdocz.html (data obrashhenija 05.11.2014).
11. UNIMARC formats and related documentation. Rezhim dostupa: http://www.ifla.org/publications/unimarc-formats-and-related-documentation (data obrashhenija 05.11.2014).
12. Meteorologicheskie kody. Rezhim dostupa: http://moryak.biz/modules.php?name=Content&pa=showpage&pid=375 (data obrashhenija 05.11.2014).
13. Kod dlja operativnoj peredachi dannyh prizemnyh meteorologicheskih nabljudenij s seti stancij Rosgidrometa. Rezhim dostupa: http://meteork.ru/doc/serv/synop.pdf (data obrashhenija 05.11.2014).