Организация хранения и обработки слабоструктурированных документов в информационно-управляющих системах на железнодорожном транспорте

Бутакова Мария Александровна; Климанская Елена Владимировна; Янц Владимир Игоревич

Выводы

Нейросетевой базис для СППР РВ позволяет реализовать базовые функции классификации, прогнозирования и адаптации входов в режиме реального времени.

1 Инструментальная реализация СППР управления состояниями и процессами возможна и целесообразна с применением стандартных нейроэмуляторов.

2 Адекватность моделей исследуемых процессов установлена на основе анализа ошибок на тестовом множестве данных, не участвовавшем в обучении, что обеспечивает состоятельность сделанных выводов.

Библиографический список

1 Осовский, С. Нейронные сети для обработки информации : пер. с польского / С. Осов-ский. - М. : Финансы и статистика, 2002. - С. 344.

2 Riedmiller, M. A direct method for faster backpropagation learning / M. Riedmiller // Proceedings of the 1993 IEEE International Conf. on Neural Networks (ICNN ’93 ). - San Francisco, 1993. - Р. 586591.

3 Хайкин, С. Нейронные сети: полный курс : пер. с англ. / С. Хайкин. - 2-е изд. - М. : Изд. дом «Вильямс», 2006. - С. 1104.

4 Боровиков, В.П. STATISTICA NN : техническое описание / В.П. Боровиков. - М. : Мир, 1999. - С. 239.

5 Горбань, А.Н. Обучение нейронных сетей / А.Н. Горбань. - М. : Изд-во СССР - США СП «ParaGraph», 1990. - С. 160.

Bibliography

1 Osovskiy, C. Neural networks for information processing : trans. from Polish / S. Osovskiy.

- Moscow : Finansy i statistika, 2002. - P. 344.

2 Riedmiller, M. A direct method for faster backpropagation learning / M. Riedmiller // Proceedings of the 1993 IEEE International Conf. on Neural Networks (ICNN ’93). - San Francisco, 1993. - Р. 586591.

3 Haykin, S. Neural networks: complete course : trans. from English / S. Haykin. - 2nd ed.

- Moscow : Williams, 2006. - P. 1104.

4 Borovikov, V.P. STATISTICA NN : Technical Description / V.P. Borovikov. - Moscow : Mir, 1999. - P. 239.

5 Gorban, A.N. Training Neural Networks / A.N. Gorban. - Moscow : ParaGraph, 1990. - P. 160.

УДК 004.652 + 06

М.А. Бутакова, Е.В. Климанская, В.И. Янц

ОРГАНИЗАЦИЯ ХРАНЕНИЯ И ОБРАБОТКИ СЛАБОСТРУКТУРИРОВАННЫХ ДОКУМЕНТОВ В ИНФОРМАЦИОННО-УПРАВЛЯЮЩИХ СИСТЕМАХ НА ЖЕЛЕЗНОДОРОЖНОМ ТРАНСПОРТЕ*

Введение

Информационно-управляющая система на железнодорожном транспорте (ИСУЖТ) состоит из комплексов аппаратно-программных средств сбора, хранения и обработки информации, необходимых для обеспечения качественного и безопасного функционирования грузовых и пассажирских перевозок. В основе большинства подсистем ИСУЖТ лежит база (или хранилище) данных, построенная на реляционных принципах обработки данных. Увеличение объемов грузовой и пассажирской работы при одновременном снижении затрат на их выполнение является приоритетной целью ОАО «РЖД», требует разработки новых подходов к более эффективной и быстрой обработке поступающей информации. Данное обстоятельство ставит актуальную задачу поиска новых путей решения эффективной организации хранилищ и систем управления базами данных (СУБД), обладающих высокой гибкостью, производительностью и универсальностью представления данных. Для ее решения возможны различные подходы:

1) Создание специализированных программных интерфейсов.

2) Разработка модулей контекстного поиска.

3) Построение различных виртуальных реляционных баз данных.

* Работа выполнена при поддержке грантов РФФИ.

Вместе с тем большинство данных, обрабатываемых ИСУЖТ, имеют, по сути, не табличный вид, а вид документа, причем в большинстве случаев его структура со временем изменяется в связи с объективными изменениями нормативно-справочной и технологической информации о перевозочном процессе. Таким образом, адекватным является вопрос о применении документо-ориентированных бессхемных баз данных с возможностью хранения слабоструктурированной информации

Основные требования к организации хранения данных в подсистемах ИСУЖТ

Среди подсистем ИСУЖТ, обладающих большими хранилищами данных, выделяются три основные группы:

1) Подсистемы межотраслевого применения, предназначенные для согласованной работы железнодорожного транспорта и других отраслей транспорта и промышленности.

2) Подсистемы, выполняющие функции, связанные с поддержкой организации перевозочного процесса.

3) Подсистемы, выполняющие функции управления сложными технологическими процессами эксплуатационной работы на транспорте.

В настоящее время практически все подсистемы, относящиеся к данным группам, в соответствии с концепцией модернизации железнодорожного транспорта объединяются в новейший комплекс ЕК АСУИ (Единую корпоративную автоматизированную систему управления инфраструктурой). ЕК АСУИ является одним из основных инструментов обеспечения согласованной работы дорожных центров управления и служб П, В, Э, Ш. Для создания хранилищ данных в ЕК АСУИ было выбрано онтологическое описание в виде метаинформационной модели данных. В результате возможно единообразное представление и обработка сущностей системы независимо от того, являются ли они документами или описаниями физических объектов, таких, как путь, устройство СЦБ, контактная сеть, тяговая подстанция и др.

Ядром системы является централизованный репозиторий, хранящий единую нормативносправочную информацию (ЕНСИ), справочники и классификаторы, обязательные к применению во всех системах и подсистемах ИСУЖТ. В целом ЕНСИ представляет собой сложно организованную систему с множеством перекрестных ссылок между различными справочниками и классификаторами в совокупности с требованиями поддержки полноты, точности и актуальности информации. Изменение данных в ЕНСИ построено по принципу версионности. С обновлением данных появляется их новая версия, что обеспечивает обратную совместимость с предыдущими версиями данных. Таким образом, модель описания данных ЕНСИ ЕК АСУИ должна поддерживать эту методологию. Таким требованиям естественным образом соответствует технология работы со слабоструктурированными данными, документно-ориентированными СУБД, организованными на принципах NoSQL.

Преимуществом онтологической модели формального описания данных об объектах является обеспечение классификации данных и их однозначной идентификации и интерпретации. Так же обеспечивается непротиворечивое накопление любого количества информации в заданной классификационной структуре и сочетание достоинств адаптивной, ссылочной, иерархической и фасетной модели. Практическими достоинствами слабоструктурированной модели данных для ИСУЖТ являются обеспечение ведения единого описания ЕНСИ ОАО «РЖД», возможность архивирования, поддержки версионности ЕНСИ, хранения текущих копий ЕНСИ для подразделений ОАО «РЖД», определения протоколов расхождений, выдачи рекомендаций по их устранению и формированию отчетов по состоянию ЕНСИ и анализу данных.

Особенности обработки слабоструктурированных данных

Слабоструктурированные данные представляют собой форму организации данных, при которой структура документа не может быть однозначно классифицирована, не может допускать исключения и неточности, а также изменяться в течение срока эксплуатации [5]. Эта форма данных содержит теги и другие маркеры для отделения семантических элементов и для обеспечения иерархической структуры записей и полей в наборе данных [1]. В слабоструктурированных данных сущности, принадлежащие одному и тому же классу данных, могут иметь разные атрибуты.

ИСУЖТ относится к классу систем XTP (eXtremeTransactionProcessing - высоконагруженные приложения), в связи с чем предъявляются новые требования к моделям их реализации: низкая стоимость масштабирования и способность обработки больших объемов данных. Как уже было указано ранее, к таким технологиям относят модели данных класса NoSQL, примерами реализации СУБД являются MongoDB, Redis, MemcacheDB, CouchDB. В таких СУБД достаточно удобный способ управления данными SQL полностью не отрицается, а дополняется новыми возможностями, такими, как нереляционная модель данных, распределенность, открытый исходный код, хорошая горизонтальная масштабируемость.

В качестве одного из методологических обоснований подхода NoSQL используется эвристический принцип, известный как теорема CAP, утверждающий, что в распределённой системе невозможно одновременно обеспечить согласованность данных, доступность и устойчивость к разделению распределённой системы на изолированные части [2].

Теорема CAP (известная также как теорема Брюера) гласит, что в любой реализации распределённых вычислений обеспечивается не более двух из трёх следующих свойств:

- согласованность данных - во всех вычислительных узлах в один момент времени данные не противоречат друг другу;

- доступность - любой запрос к распределённой системе завершается корректным откликом;

- устойчивость к разделению - горизонтальное масштабирование распределённой системы не приводит к некорректности отклика от каждой из подсистем.

Акроним CAP (consistency, availability, partitionstolerance) в наименовании теоремы сформирован из первых букв английских наименований этих трёх свойств.

Принцип был предложен профессором Калифорнийского университета в Беркли Эриком Брюером в июле 2000 года и впоследствии получил широкую популярность и признание в среде специалистов по распределённым вычислениям [3]. Концепция NoSQL, в рамках которой создаются распределённые нетранзакционные системы управления базами данных, как правило, использует этот принцип в качестве обоснования неизбежности отказа от согласованности данных [4].

Описание принципов организации хранилища слабоструктурированных данных

Коллекции данных

Коллекции (collection) - это наборы документов, относящихся СУБД к однотипным. Коллекции призваны обобщать документы, поддерживать схему данных типа документа и обеспечивать поддержку групповых операций.

Коллекция позволяет записывать в себя значения и извлекать их. Назначение коллекции -служить хранилищем объектов и обеспечивать доступ к ним. Обычно коллекции используются для хранения групп однотипных объектов, подлежащих стереотипной обработке. Для обращения к конкретному элементу коллекции могут использоваться различные методы в зависимости от её логической организации. Реализация может допускать выполнение отдельных операций над коллекциями в целом. Наличие операций над коллекциями во многих случаях может существенно упростить программирование.

Для каждой коллекции определена своя схема данных, имеется свой поисковый индекс и дополнительная метаинформация. Если проводить параллель с реляционными моделями данных, то коллекция - это аналог кортежей (таблиц) с тем единственным отличием, что об отношениях речи даже не идет.

Над коллекциями определены следующие операции:

1 CREATE. Создает новую пустую коллекцию.

2 DROP. Удаляет коллекцию со всеми документами и метаданными.

3 TRUNCATE. Удаляет все документы из коллекции, но оставляет саму коллекцию и всю метаинформацию о ней.

4 INDEX. Позволяет задавать индексируемые атрибуты. По умолчанию модель должна осуществлять полнотекстовый поиск по всем атрибутам документа. Принципы организации поиска подробно будут рассмотрены далее.

5 VALIDATOR. Операция позволяет манипулировать функциями-валидаторами, добавлять, изменять и удалять. О данных функциях подробно будет сказано ниже.

Документы

Документ (document) - это набор данных, представляющий собой единицу хранения, документы объединяются в коллекции. Каждый документ является самостоятельной единицей, не зависящей от других. Так как мы работаем со слабоструктурированными данными, качество информации может меняться от документа к документу в рамках одной коллекции. Данное положение уже показывает степень отличия от реляционных моделей, где качество информации определяется заранее, при проектировании схемы данных.

Для идентификации документов каждому документу необходимо присвоить универсальный идентификатор. В качестве идентификатора разумно использовать строку, имеющую достаточную сложность и длину. Наиболее подходящим вариантом считается применение MD5 от микросекунды. Данное решение применяется по нескольким причинам:

1 MD5 - одна из наиболее быстрых хеш-функций.

2 Получаемая строка всегда одной длины в 32 ASCII символа или 16 байт.

3 Вероятность того, что в одну микросекунду будет посчитано несколько хэш-функций, настолько мала, что ею можно пренебречь. Тем не менее, добавив в функцию расчета идентификатора еще зависимость от некоторой второй величины, можно сократить эту вероятность в миллионы раз.

Над документами определены следующие операции:

1 INSERT. Добавление нового документа в коллекцию. Главная особенность операции до-

бавления в том, что знание схемы данных для этой операции не нужно, более того, коллекции в момент вставки документа может не существовать. В момент вставки модель должна проверить добавляемый документ, скорректировать или создать схему данных и сохранить данные об операции для дальнейшей статистической обработки.

2 UPDATE. Операция обновления определена только целиком для документа. Такое искусственное ограничение позволит перенести контроль атомарности на уровень целого документа. Отсутствует понятие «изоляции». Любые данные, которые считываются одним клиентом, могут параллельно изменяться другим клиентом. За счет отсутствия механизма блокировок и контроля целостности данных модель данных получает прирост в скорости работы.

3 DELETE. Операция удаления документа. Операция может быть выполнена только по любому поисковому условию.

Атрибуты

Атрибут (attribute) - это один из смысловых элементов документа. Атрибуты формируют документ и, по сути, являются самой маленькой единицей данных, которой можно оперировать при помощи модели.

В отличие от классических реляционных моделей атрибуты:

1 Не имеют строгой типизации, так как обрабатываемые данные не имеют явно выраженной структуры. Например, один и тот же атрибут в разных документах одной коллекции может быть представлен как строкой, так и числом.

2 Не имеют ограничений на длину.

3 Могут быть изменены только совместно со всем документом, т.е. операция обновления (изменения) содержимого одного атрибута не определена.

4 Для контроля корректности вводимых данных определены специальные функции-валидаторы, берущие на себя задачи по заданию и контролю ограничений, возможно, имеющихся для атрибутов.

Метаданные

Метаинформация (metadata) - набор сведений, характеризующих и описывающих остальные элементы модели.

Функции-валидаторы

Функция-валидатор данных (validators) - это инструмент, позволяющий организовать гибкую типизацию данных. Так как слабоструктурированные данные, как правило, представлены на формальном языке, возникает задача определения типов данных. При этом мы не можем однозначно судить о типе данных атрибута, поэтому данную задачу принимают на себя данные функции, анализирующие содержание атрибута и сообщающие, насколько (в какой мере) данный атрибут соответствует искомому типу данных.

Стохастическая схема документа

Стохастическая схема документа (stochasticdataschema) предназначена для работы с документами и коллекциями, поскольку необходимо иметь представление о схеме данных. Так как мы работаем со слабоструктурированными данными, схема не может быть определена однозначно, допускает исключения и пропуски. Для поддержки данной особенности была разработана схема данных, где каждый атрибут документа имеет минимально допустимую степень корректности. Эта информация хранится в метаданных каждой коллекции и корректируется СУБД самостоятельно в процессе работы.

Общий принцип работы: функции-валидаторы проводят анализ каждого атрибута вновь поступившего документа и возвращают число в интервале [0,1], если полученное число меньше порогового значения, то атрибут отклоняется и не обрабатывается СУБД. Если в документе количество отвергнутых атрибутов превышает некоторое значение, документ полностью отклоняется. После обработки серии документов СУБД изучает статистические данные по обработанным документам и корректирует показатели допустимых значений, а также корректирует саму схему данных, избавляясь от ненужных составляющих и добавляя новые при необходимости. Корректировка показателей подробно изложена ниже.

Корректировка пороговых значений корректности

Поскольку модель должна быть ориентирована на работу с разнородными источниками данных, весьма вероятно, что в условиях реальной эксплуатации некоторые операции будут приводить к различным отклонениям и неоднородностям в статистических наборах. Для того чтобы сделать модель нечувствительной к таким случаям, было решено применить некоторые методы робастного оценивания.

Методы робастного оценивания - это статистические методы, позволяющие получить достаточно надежные оценки статистической совокупности при неизвестном законе ее распределения и при наличии в ней данных, существенно отклоняющихся от основного массива. Такие данные называют аномальными наблюдениями, «грубыми ошибками», или выбросами.

При робастном оценивании решаются задачи двух основных типов:

1 При помощи специальных критериев выявляются аномальные наблюдения.

2 Вычисляются устойчивые оценки совокупности данных, в частности, при нормальном законе распределения определяют среднее значение и дисперсию.

При этом следует отметить, что выбросом в данной конкретной задаче следует считать только отклонения среди наименьших значений статистической совокупности, так как рост величины означает улучшение качества данных, к чему должна аппроксимироваться система.

Для выявления грубых ошибок среди наименьших значений совокупности применим Z-критерий Титьена - Мура:

S (X - x- )2

L = ----------

n ,

S (xi— X )2

i=1

где X. - значение анализируемого признака у 7-го наблюдения; п - объем выборки;

k - число предполагаемых аномальных наблюдений;

X - среднее значение признака, рассчитанное по выборке;

X - среднее значение признака, рассчитанное по «усеченной» совокупности данных, т.е. по

(п-^)-наблюдениям, остающимся после удаления из совокупности k грубых ошибок «сверху», т.е. значений, отличающихся от средней в меньшую сторону.

Для данного критерия предельные значения при заданном уровне значимости а, известном объеме выборки п и предполагаемом числе ошибок k оформляют в виде таблиц предельно допустимых значений. Если рассчитанные значения критериев оказываются меньше табличных, то проверяемые значения следует отнести к грубым ошибкам.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

После того как при помощи Z-критерия удалось выявить аномальные наблюдения, необходимо вычислить устойчивые оценки среднего значения и дисперсии. При этом используется два подхода:

1 Ошибки отбрасываются. Они исключаются из общей совокупности, и расчеты проводятся по оставшимся данным.

2 Ошибки модифицируются, т.е. заменяются на значения, близкие к ним.

Широкое применение имеет классический подход Хубера. При этом используется некоторая величина К, определяемая с учетом степени засорения статистической совокупности ^ и определяющая шаг модификации резко отличающихся наблюдений.

Оценка средней величины по Хуберу:

1 ^

0 = -( SX + (П2 + П1)к) ,

n \xi -0\<k

где 0 - устойчивая оценка, определяемая при помощи итеративных процедур;

к - величина, которая допускается в качестве отклонения от центра совокупности, принимает постоянные значения с учетом удельного веса грубых ошибок в совокупности данных ^ ;

П - численность группы наблюдений из совокупности, отличающихся наименьшими значениями: X. < 0 — к, или значения в интервале (— да; 0 — к);

n2 - численность группы наблюдений из совокупности, отличающихся наибольшими значениями: X. < 0 + к, или значения в интервале (0 + к; да).

При расчетах по вышеприведенной формуле в качестве начальной оценки 0 может применяться обычная средняя арифметическая или медиана, оцененная по выборке. Затем на каждой итерации производится разделение выборочной совокупности на три части. В одну часть попадают «истинные» признаковые значения, которые остаются без изменения ( |x. — 0 < к). В две другие части

совокупности (для X > 0 + к и X < 0 — к) попадают «ошибки», они не исключаются из рассмотрения, а заменяются соответственно на величины X — к и X + к . По «истинным» и модифицированным данным каждый раз определяется новая оценка средней 0, и итерация возобновляется. Итерации повторяются до тех пор, пока все наблюдения не оказываются в интервале «истинных» значений:

İX — 0 < к.

Оценка 0 , найденная по методу Хубера, представляется достаточно эффективной, но быстро теряет оптимальные свойства с увеличением засорения выборки (ростом ^).

Таким образом, при использовании вышеназванных методов возможно поддерживать статистические показатели модели в актуальном состоянии.

Механизм хранения состояний

Поскольку схема данных изменяется во времени, может возникнуть ситуация, когда схема данных изменилась настолько, что приложения, ранее работавшие с СУБД, более не могут корректно работать с получаемыми данными или сама СУБД уже не в состоянии обрабатывать запросы, основанные на представлении о предыдущем состоянии схемы данных. Для этого предлагается использовать механизм сохранения состояний. Каждый раз, когда схема данных корректируется, текущее состояние схемы сохраняется и фиксируется. В случае возникновения проблем совместимости СУБД может попытаться применять последовательные переходы между сохраненными состояниями до тех пор, пока не найдет совместимое. Это позволит сторонним приложениям всегда получать необходимый результат в независимости от того, насколько устарело представление о схеме данных, заложенное в данное приложение.

Представление данных на низком уровне

Низкий уровень - это уровень, отвечающий за хранение данных и общую архитектуру. Требования, предъявляемые к хранилищу:

1 Универсальность формата данных. Формат должен предоставлять возможность представления данных любой сложности.

2 Высокая скорость доступа к данным.

3 Экономное использование дискового пространства.

4 Функции обнаружения и коррекции ошибок.

В качестве способа представления данных на низком уровне предлагается BSON, который является бинарным аналогом формата JSON, позволяющего формировать и описывать структуры любой сложности, а за счет двоичного представления данных оптимизируется размер и скорость их обработки.

Библиографический список

1 Buneman, Peter. Tutorial on semi-structured data / Peter Buneman // Symposium on Principles of Database Systems. - 1997.

2 Brewer, Eric A. A Certain Freedom: Thoughts on the CAP Theorem / Eric A. Brewer // Proceeding of the IXXX ACM SIGACT-SIGOPS symposium on Principles of distributed computing.

- New York : ACM, 2010. - Vol. 1.

3 Browne, Julian. Brewer’s CAP Theorem / Julian Browne // SOSP. - 2009.

4 Кузнецов, С. Транзакционные параллельные СУБД: новая волна / С. Кузнецов // Труды Ин-та системного программирования РАН. - М. : Ин-т системного программирования РАН, 2011.

- Т. 20. - С. 2079-8156.

5 Климанская, Е.В. Методы обработки слабоструктурированных данных в автоматизированных системах на железнодорожном транспорте // Е.В. Климанская, А.В. Чернов, В.И. Янц // Известия вузов. Сев.-Кавк. регион. Серия «Технические науки». - 2013. - № 1. - С. 18-23.

Bibliography

1 Buneman, Peter. Tutorial on semi-structured data / Peter Buneman // Symposium on Principles of Database Systems. - 1997.

2 Brewer, Eric A. A Certain Freedom: Thoughts on the CAP Theorem / Eric A. Brewer // Proceeding of the IXXX ACM SIGACT-SIGOPS symposium on Principles of distributed computing.

- New York : ACM, 2010. - Vol. 1.

3 Browne, Julian. Brewer’s CAP Theorem / Julian Browne // SOSP. - 2009.

4 Kuznetsov, S. Transactional parallel DBMSs: the new wave / S. Kuznetsov // Proceedings of the Institute for System Programming of Russian Academy of Sciences. - Moscow : Institute for System Programming of Russian Academy of Sciences, 2011. - Vol. 20. - P. 2079-8156.

5 Klimanskaya, E.V. Methods of processing of semi-structured data in automated systems on railway transport / E.V. Klimanskaya, A.V. Chernov, V.I. Janz // Proceedings of the universities. North-Caucasus region. Series «Technical sciences». - 2013. - № 1. - P. 18-23.

УДК 656.2 + 06

Д.С. Гвоздев, М.Д. Линденбаум, В.В. Храмов, С.М. Ковалев

АНАЛИЗ РЕЗУЛЬТАТОВ РАБОТЫ И ОЦЕНКА ЭФФЕКТИВНОСТИ ГИБРИДНОЙ МОДЕЛИ ИДЕНТИФИКАЦИИ ПОДВИЖНЫХ ЕДИНИЦ ЖЕЛЕЗНОДОРОЖНОГО ТРАНСПОРТА

В работе [1] был предложен новый подход к автоматизации процесса классификации подвижных единиц железнодорожного транспорта (далее «объект») на основе гибридной модели, объединяющей модели идентификации графических изображений кузова и бортового номера вагона с нейросетевой моделью классификации и привлечением дополнительных данных из натурного листа поезда.

Organization of storage and processing of semi-structured documents in information and control systems on railway transportation