70
Электронный документооборот технической документации
УДК 004.896
Современные подходы к переводу технической документации с бумажных носителей в электронный вид
А. А. Матушев, Ф. Н. Лобанов
Кафедра «Автоматика и телемеханика на железных дорогах»
Аннотация. Рассмотрена проблема хранения и использования старой бумажной документации. Проанализированы возможные методы перевода технической документации в электронный вид. Дано описание разрабатываемого модуля АРМ-РМД на основе применения искусственной нейронной сети.
Ключевые слова: техническая документация; искусственные нейронные сети; АРМ-РМД.
1 Введение
На данный момент во всех дистанциях сигнализации, централизации и блокировки (СЦБ) всех железных дорог внедрены автоматизированные рабочие места для ведения технической документации (АРМ-ВТД). С их помощью организован электронный документооборот технической документации. Техническая документация в электронном виде имеет ряд преимуществ по сравнению с документацией, представленной на бумажных носителях:
■ быстрый поиск нужного документа;
■ экспертиза принципиальных схем;
■ обеспечение целостности документации (электронный документ не подвержен сожжению, намоканию и прочим воздействиям);
■ отсутствие потери качества.
В связи с преимуществами ведения технической документации с использованием ПК вся новая документация выполняется в электронном виде. Однако на железных дорогах, помимо новой, имеются и большие объемы старой технической документации на бумажных носителях. При модернизации систем или установке новых приходится использовать существующую бумажную документацию, в том числе и плохого качества, что осложняет работу как проектных организаций, так и эксплуатирующих подразделений, поэтому в НТЦ-САПР ПГУПС осуществляется перевод бумажной документации в электронный вид. Этот процесс происходит медленно, так как объемы техниче-
ской документации велики. На примере Балтийской дистанции СЦБ (ШЧ-14) видно, что количество документации, переведенной в электронный вид, мало (рис. 1).
Монтажная документация 16290
32867
Ы Новые схемы н Переведенные схемы 5145 В Старые схемы
Рис. 1 Объем монтажных схем в ШЧ-14
В настоящее время перевод документации осуществляется вручную и имеет ряд недостатков, таких как:
1) низкая скорость перевода (на перевод одного листа формата А4 технической документации в среднем уходит один час работы);
2) человеческий фактор (при переводе документации человек может допускать ошибки);
3) высокая стоимость.
В связи с перечисленными недостатками и колоссальными объемами подлежащей переводу документации возникает потребность в привлечении принципиально иных, более эффективных методов перевода технической документации в электронный вид. Один из таких методов заключается в применении теории распознавания образов.
На данный момент не существует системы распознавания, которая смогла бы хоть сколько-нибудь эффективно распознать железнодорожную техническую документацию. Программа Fine Reader фирмы ABBYY распознает в среднем 5 % документа. Для успешного решения задачи необходимо, чтобы система распознавания удовлетворяла таким требованиям как:
■ инвариантность относительно классифицируемых образов.
Электронный документооборот технической документации
71
Данное требование необходимо для реализации возможности распознавания всех типов технической документации.
■ минимальность предобработки образов.
Часто техническая документация является ветхой. По этой причине необходимо, чтобы обработка документации осуществлялась при минимальном постороннем на нее влиянии;
■ инвариантность относительно «небольших» сдвигов, поворотов, масштабирования образов.
Некоторые графические элементы на документах представляют собой несвязные графические компоненты. Большая часть методов распознавания на этапе предобработки данных требует центрирования образов, что в рассматриваемом случае представляется затруднительным.
2 Существующие методы распознавания образов
Чтобы любой способ распознавания работал, необходимо передать ему базу элементов, которые он должен распознавать. Данную базу мы будем называть обучающей выборкой.
Основными методами к распознаванию образов в настоящее время являются следующие.
1. Метод сравнения с шаблоном [1], когда распознаваемый объект сравнивается с эталонными вариантами под разными углами и с разным масштабом. Достоинством данного метода является возможность распознавать с высокой точностью известные печатные символы. Недостатком метода является увеличение обучающей выборки при наличии рукописных символов. Это приводит к существенной потере скорости в работе. Кроме того, необходимо учитывать повороты и смещения распознаваемого образа.
2. Метод опорных векторов [2]. Основная идея этого метода для решения задачи распознавания образов состоит в том, что, подвергая образ кодированию с помощью некоторого алгоритма, получают набор n чисел. Этот набор интерпретируют как точку некоторого пространства размерности n, при этом вся обучающая выборка рассматривает-
ся как набор точек, которые по признаку принадлежности к классам ассоциированы со своими классами. Далее с помощью методов квадратичного программирования находят такую n + 1-мерную гиперплоскость или поверхность, которая разделяет заданные классы. Данный метод стабильно работает только с небольшим количеством классов. При увеличении количества классов сильно падает скорость работы. Необходимо подбирать такой способ кодирования, чтобы была возможность построения разделяющей гиперплоскости.
3. Метод, использующий искусственные нейронные сети. Рассмотрим вопрос о применении нейронных сетей для решения задачи распознавания образов.
Пусть W - вектор пространства Rn, f -фиксированная нелинейная функция. Под нейроном [3] понимается функционал
F: Rn ^ I ^ R, определяемый соотношением F ( X) = f (< X, W >). Модель нейрона представлена на рис. 2.
Рис. 2 Схематическое представление нейрона
Вектор W называют вектором весовых коэффициентов нейрона; функцию f - активационной, или передаточной; вектор X -входом нейрона; значение f (< X, W >) является выходом нейрона. Связывая между собой нейроны таким образом, что выходы одних нейронов являются входами других, получаем новый объект - нейронную сеть [3].
С математической точки зрения нейронная сеть является отображением F: Rm ^ Rn. Представленная на рис. 3 нейронная сеть является персептроном, в котором каждый нейрон текущего слоя связан со всеми нейронами следующего слоя. Решение задачи распознавания образов с помощью пер-септрона (см. рис. 3) формулируется следующим образом.
Пусть дана обучающая выборка (Xi, Yi), (X2, Y2),(Xk, Yk) Здесь X, e Rm
72
Электронный документооборот технической документации
представляет собой закодированный некоторым способом образ; Yi е Rn определяет принадлежность образа Xi к одному из n классов. Компонента с номером i вектора Yi
равна единице, остальные - нулю. Требуется построить такую нейронную сеть
F: Rm ^ Rn, чтобы для всей обучающей выборки F ( Xi) = Yi.
Рис. 3 Графическое изображение нейронной сети
Решение любой задачи нейросетевым способом состоит из трех основных этапов: выбора конфигурации сети, обучения сети (настройки сети), получения результатов [4]. Выбор конфигурации сети определяет нейроны и связи между ними. Обучение сети заключается в настройке векторов весовых коэффициентов нейронов сети на основе имеющихся исходных данных. Исходные данные называются обучающей выборкой. Как правило, для настройки сети выбирается некоторый функционал E (W), и происходит его минимизация по весам сети. Однако пер-септрон имеет ряд недостатков, таких как:
■ неинвариантность относительно сдвигов и поворотов;
■ существенное время, затрачиваемое на обучение;
■ зависимость результатов распознавания от способа кодирования.
Существуют специальные архитектуры нейронных сетей, направленные на решение задачи распознавания образов. Одной из наиболее эффективных архитектур является архитектура сверточной нейронной сети (рис. 4) [5].
Представленная на рис. 4 сеть состоит из слоев, которые включают несколько карт нейронов и делятся на слои свертки и слои подвыборки. Слои свертки необходимы для извлечения локальных признаков изображения, таких как углы, завороты, переходы и т. п. Задача слоев подвыборки состоит в усреднении информации слоев свертки предыдущего слоя. В рамках одной карты поддерживается технология «общих весов». Согласно этой технологии, наборы весов синапсов, входящих в нейроны одной карты, являются идентичными.
Достоинство сверточной нейронной сети состоит в том, что здесь не требуется предобработка образов; возможна инвариантность к небольшим сдвигам, поворотам и растяжениям образов; скорость классификации не зависит от размера обучающей выборки.
Для распознавания документов железнодорожной автоматики наиболее эффективными, благодаря своей универсальности, являются сверточные нейронные сети, так как они соответствуют поставленным требованиям.
Рис. 4 Структурная схема сверточной нейронной сети Lenet-5, предложенной Яном Лекуном
Электронный документооборот технической документации
73
3 Модуль АРМ-РМД
В настоящее время разрабатывается универсальный программный модуль по распознаванию монтажной технической документации АРМ-РМД на основе сверточной нейронной сети. Он позволит распознавать рукописные монтажные карточки с высокой точностью. Модуль состоит из программы выделения ячеек таблицы монтажной карточки, непосредственно нейронной сети и программы перевода полученных результатов в отраслевой формат. Однако распознавание не всегда дает точный результат, особенно на очень старых, грязных, рваных документах или на документах со множеством исправлений.
В таких документах порой даже человек не может точно определить, что написано. В данном случае целесообразно применять логический анализатор. В случае неоднозначного распознавания он будет проверять распознанные данные и корректировать их, если они не удовлетворяют определенным параметрам и правилам. Например, если в результате распознавания на выходе нейронной сети получено два варианта текста:
«НМЩ» и «НМТТТ» то, скорее всего, имелось в виду реле марки «НМТТТ». Следовательно, в итоговом документе надо использовать текст «НМТТТ». Применение анализатора повышает процент распознавания документов плохого качества.
Сейчас также ведутся работы по расширению возможностей АРМ-РМД, в частности для решения задачи распознавания принципиальных схем.
Процесс распознавания с помощью данного модуля, состоит из 4-х этапов (рис. 5):
1. Сканирования.
2. Распознавания.
3. Предварительной обработки (устранение шумов, центрирование таблицы, перевод изображения в градации серого):
■ сегментация таблицы на ячейки;
■ применение нейронной сети для распознавания информации в ячейках;
■ применение логического анализатора для анализа полученной информации и исправления ошибки;
■ вывод информации (перевод полученных данных в отраслевой формат).
4. Печати.
Рис. 5 Процесс распознавания схем с помощью модуля АРМ-РМД
4 Заключение
Применение АРМ-РМД существенно ускорит перевод бумажной документации в электронный вид. В качестве примера на Октябрьской железной дороге в ШЧ-14 за последний год было переведено в электронный вид 5145 листов формата А4. Разрабатывае-
мый модуль будет тратить в среднем 5 с для перевода одного листа и около одной минуты для того, чтобы человек исправил ошибки. Следовательно, при восьмичасовом рабочем дне, данный модуль справится с таким же объемом листов А4 всего за две недели. Таким образом, модуль существенно увели-
74
Электронный документооборот технической документации
чит производительность труда отделов технической документации на железных дорогах и ускорит переход на электронную безбумажную технологию ведения технической документации.
Библиографический список
1. Бурсиан, Е. Ю. Алгоритмы распознавания чертежных рукописных символов / Е. Ю. Бурсиан // Приборостроение. Известия вузов. - 2008.-№ 7. - С. 8.
2. Platt, J. C. Fast training support vector machines using sequential minimal optimization /
J. Platt // Advances in Kernel Methods / Ed. by B. Scholkopf, C. C. Burges, A. J. Smola. - MIT Press, 1999. - Pp. 185-208.
3. Каллан, Р. Основные концепции нейронных сетей / Р. Каллан - Москва : Вильямс, 2001. -288 c.
4. Круглов, В. В. Искусственные нейронные сети / В. В. Круглов, В. В. Борисов. - Москва : Горячая линия-Телеком, 2001. - 382 c.
5. Yann, LeCun, Leon, Bottou, Yoshua, Bengio, Patrick, Haffner Gradient-Based Learning Applied to Document Recognition // Proc. IEEE. 1998. -Pp. 6-9.