УДК 004.896
А. А. Матушев, Ф. Н. Лобанов
Петербургский государственный университет путей сообщения Императора Александра I
ТЕХНОЛОГИИ ПЕРЕВОДА ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ С БУМАЖНЫХ НОСИТЕЛЕЙ В ЭЛЕКТРОННЫЙ ВИД
Рассмотрена проблема хранения и использования старой бумажной документации. Проанализированы существующие программные средства для распознавания документов, и на основе полученных результатов выдвинуты требования к системам распознавания технической документации. Произведен анализ возможных методов перевода технической документации в электронный вид. Более подробно рассмотрены искусственные нейронные сети, в частности сверточные нейронные сети. Описан разрабатываемый программный комплекс АРМ-РМД на основе применения искусственной нейронной сети и показана технология распознавания документации с его помощью.
техническая документация, распознавание, искусственные нейронные сети, АРМ-РМД.
Введение
На данный момент во всех дистанциях сигнализации централизации и блокировки на всех железных дорогах внедрены автоматизированные рабочие места АРМ-ВТД. С их помощью организован электронный документооборот технической документации. Техническая документация в электронном виде имеет ряд преимуществ по сравнению с документацией, представленной на бумажных носителях:
1. Быстрый поиск нужного документа.
2. Экспертиза принципиальных схем.
3. Обеспечение безопасности целостности документации. Электронный документ не подвержен сожжению, намоканию и прочим воздействиям.
4. Отсутствие потери качества.
В связи преимуществами ведения технической документации с использованием ПК вся новая документация ведется в электронном виде. Однако помимо новой имеются и большие объемы старой технической документации, которая хранится на бумажных носителях. При модернизации или установке новых систем необходимо использовать существующую бумажную документацию, в том числе и плохого качества, что осложняет работу как проектных
57
организаций, так и эксплуатирующих подразделений. Поэтому в НТЦ-САПР ПГУПС осуществляется перевод бумажной документации в электронный вид. Этот процесс происходит медленно, так как объемы технической документации велики. На примере ШЧ-14 видно, что переведенное количество документации мало (рис. 1).
Монтажная документация
Новые схемы Переведенные схемы Старые схемы
Рис. 1. Объем монтажных схем в ШЧ-14
На сегодняшний день перевод документации осуществляется вручную и имеет ряд недостатков:
1. Низкая скорость перевода. На перевод одного листа технической документации формата А4 в среднем уходит час работы.
2. Человеческий фактор. При переводе документации человек может допустить ошибки.
3. Высокая стоимость.
В связи с перечисленными недостатками и колоссальными объемами подлежащей переводу документации возникает потребность в привлечении принципиально иных, более эффективных, методов перевода технической документации. Один из таких методов заключается в применении теории распознавания образов. На данный момент не существует системы, которая смогла бы хоть сколько-нибудь эффективно распознать железнодорожную техническую документацию: программа Fine Reader фирмы ABBYY распознает в среднем 5 % (рис. 2), а программа Cuneiform - около 2 % (рис. 3) документа.
Для успешного решения задач распознавания технической документации необходимо, чтобы система распознавания удовлетворяла следующему набору требований:
1. Инвариантность относительно классифицируемых образов - данное требование необходимо для реализации распознавания всех типов технической документации.
58
Рис. 2. Результат распознавания с помощью программы Fine Reader
Рис. 3. Результат распознавания с помощью программы Cuneiform
2. Минимальность предобработки образов - по причине ветхости подлежащей распознаванию технической документации естественно потребовать, чтобы модель минимальным образом реагировала на наличие шумов в распознаваемых образах.
3. Инвариантность относительно небольших сдвигов, поворотов, масштабирования образов - часть графических элементов, представленных в до-
59
кументах, являют собой несвязные графические компоненты. Большая часть методов распознавания на этапе предобработки данных требует центрирования образов, что в данном случае представляется затруднительным.
1 Существующие методы распознавания
Для того чтобы любой способ распознавания работал, необходимо передать ему базу элементов, которые он должен распознавать. Данную базу мы будем называть обучающей выборкой.
Основными подходами к распознаванию образов на сегодняшний день являются:
1. Метод сравнения с шаблоном [1]
В этом методе распознаваемый объект сравнивается с эталонными вариантами под разными углами и масштабом. Достоинством данного метода является возможность распознавать известные печатные символы с высокой точностью, однако главным недостатком является то, что на технической документации имеется множество рукописных символов, что увеличивает обучающую выборку, а это приводит к существенному снижению скорости работы метода. Так же метод чувствителен к поворотам и смещениям распознаваемого образа.
2. Метод опорных векторов [2]
Основная идея этого метода заключается в следующем. Подвергая образ кодированию с помощью некоторого алгоритма, получают набор n чисел. Эти n чисел интерпретируют как точку некоторого пространства размерности n. При этом вся обучающая выборка рассматривается как набор точек, которые по признаку принадлежности к классам ассоциированы со своими классами. Далее с помощью методов квадратичного программирования находят такую n + 1-мерную гиперплоскость или поверхность, которая разделяет заданные классы. Данный метод стабильно работает только с небольшим количеством классов: при увеличении количества классов сильно падает скорость работы метода. Необходимо подбирать такой способ кодирования, чтобы была возможность построения разделяющей гиперплоскости.
3. Искусственные нейронные сети
Рассмотрим вопрос применения нейронных сетей для решения задачи распознавания образов.
Пусть W - вектор пространства Rn, f - фиксированная нелинейная функция. Под нейроном [3] будем понимать функционал F: Rn ^ I с R, определяемый соотношением: F (X ) = f ((X ,W)). Модель нейрона представлена на рис. 4.
Вектор W называют вектором весовых коэффициентов нейрона, функцию f - активационной или передаточной функцией нейрона, вектор X -
60
W e Rm
X e Rm
f
(< X, W >)
Рис. 4. Схематичное представление нейрона
входом нейрона, значение f (( X ,Wj) является выходом нейрона. Связывая между собой нейроны таким образом, что выходы одних нейронов являются входами других, мы получаем новый объект - нейронную сеть [3].
С математической точки зрения нейронная сеть является отображением F: Rm ^ Rn. Представленная на рис. 5 нейронная сеть является персептроном, в котором каждый нейрон текущего слоя связан со всеми нейронами следующего слоя. Решение задачи распознавания образов с помощью персептрона формулируется следующим образом.
х,
2
m
X
Уп
Рис. 5. Графическое изображение нейронной сети
Пусть дана обучающая выборка (X1, Y^, (X2, Y2), ..., (Xk, Yk). Здесь X. e Rm представляет собой закодированный некоторым способом образ, Y e Rn определяет принадлежность образаX . одному из п классов. Компонента с номером i вектора Y равна единице, остальные - нулю. Требуется построить такую нейронную сеть F: Rm ^ Rn, чтобы для всей обучающей выборки F (X) = Y.
Решение любой задачи нейросетевым способом состоит из трех основных этапов: выбор конфигурации сети, обучение сети (настройка сети), получение результатов [4]. Выбор конфигурации сети определяет нейроны и связи между ними. Обучение сети заключается в настройке векторов весовых коэффициентов нейронов сети на основе имеющихся исходных данных. Исходные данные называются обучающей выборкой. Как правило, для
61
настройки сети выбирается некоторый функционал E(W) и происходит его минимизация по весам сети. Однако персептрон имеет ряд недостатков:
1. Неинвариантность относительно сдвигов и поворотов.
2. Существенное время, затрачиваемое на обучение.
3. Зависимость результатов распознавания от способа кодирования.
Существуют специальные архитектуры нейронных сетей, направленные на решение задачи распознавания образов. Одной из наиболее эффективных является архитектура сверточной нейронной сети (рис. 6) [5].
Вход
1@32х32
A
Рис. 6. Структурная схема сверточной нейронной сети Lenet-5, предложенной Яном лекуном
Представленная на рис. 6 сеть состоит из слоев, которые состоят из нескольких карт нейронов и делятся на слои свертки и подвыборки. Основная задача слоев свертки заключается в извлечении локальных признаков изображения, таких как углы, завороты, переходы и т. п. Задача слоев подвыборки состоит в усреднении информации слоев свертки предыдущего слоя. В рамках одной карты поддерживается технология общих весов, которая заключается в том, что наборы весов синапсов, входящих в нейроны одной карты, являются идентичными.
Достоинствами применения сверточной нейронной сети для решения задач распознавания образов являются:
1. Отсутствие необходимости предобработки образов.
2. Инвариантность относительно небольших сдвигов, поворотов и растяжений образов.
3. Отсутствие зависимости скорости классификации от размера обучающей выборки.
Для распознавания документов железнодорожной автоматики наиболее эффективными, благодаря своей универсальности, являются сверточные нейронные сети, так как они соответствуют поставленным требованиям.
62
2 Программный комплекс АРМ-РМД
В данный момент ведется разработка универсального программного комплекса по распознаванию монтажной технической документации АРМ-РМД на основе сверточной нейронной сети. Он позволит распознавать рукописные монтажные карточки с высокой точностью. Комплекс состоит из программы выделения ячеек таблицы монтажной карточки, модуля нейронной сети и программы перевода полученных результатов в отраслевой формат.
Для повышения качества распознавания в модуль нейронной сети будет введена возможность дополнять обучающую выборку некорректно распознанными символами с последующим переобучением нейронной сети. Данная функция позволит повышать качество распознавания в режиме реального времени. На рис. 7 показана работа нейронной сети с включенной возможностью переобучения сети.
Рис. 7. Схема работы модуля нейронной сети
63
Однако распознавание не всегда дает точный результат, особенно на старых, поврежденных документах или на документах с множеством исправлений. В данном случае целесообразным является применение логического анализатора. В случае неоднозначного распознавания он будет проверять распознанные данные и корректировать их, если они не удовлетворяют определенным параметрам и правилам. Например, если в результате распознавания на выходе нейронной сети получено два варианта текста: «НМЩ» и «НМШ», то, скорее всего, имелось в виду реле марки «НМШ». Следовательно, в итоговом документе следует использовать текст «НМШ». Применение анализатора повышает процент распознавания документов плохого качества.
Сейчас также ведутся работы по расширению возможностей АРМ-РМД, в частности, для решения задачи распознавания принципиальных схем.
Процесс распознавания с помощью данного программного комплекса состоит из 3 этапов (рис. 8):
1. Сканирование.
2. Распознавание.
2.1. Предварительная обработка.
Устранение шумов, центрирование таблицы, перевод изображения в градации серого.
2.2. Сегментация таблицы на ячейки.
2.3. Применение нейронной сети.
Распознавание информации в ячейках.
2.4. логический анализатор.
Анализ полученной информации и исправление ошибок.
2.5. Вывод информации.
Перевод полученных данных в отраслевой формат.
3. Печать.
Рис. 8. Процесс распознавания с помощью АРМ-РМД
64
Заключение
Применение АРМ-РМД позволит существенно ускорить перевод бумажной документации в электронный вид. Например на Октябрьской железной дороге в ШЧ-14 за последний год было переведено в электронный вид 5145 листов формата А4. Разрабатываемый модуль будет тратить в среднем 5 с на перевод одного листа и около одной минуты будет затрачено на исправление ошибок человеком. Следовательно, при работе 8 часов в день только по рабочим дням данный модуль справится с таким же объемом листов А4 за пару недель. Таким образом, модуль существенно увеличит производительность труда отделов технической документации на дорогах и ускорит переход к электронной безбумажной технологии ведения технической документации.
Библиографический список
1. Алгоритмы распознавания чертежных рукописных символов / Е. Ю. Бурсиан // Известия ВУЗов : Приборостроение. - 2008. - № 7. - С. 8.
2. Platt, J. C. (1999). Fast training support vector machines using sequential minimal optimization. Advances in Kernel Methods, 185-208.
3. Основные концепции нейронных сетей / Р. Каллан. - Москва : Вильямс, 2001. -
288 с.
4. Искусственные нейронные сети / В. В. Круглов, В. В. Борисов. - Москва : Горячая линия-Телеком, 2001. - 382 с.
5. Le Cun, Y., Bottou. L., Bengio. Y, Haffner, P. (1998). Gradient-Based Learning Applied to Document Recognition. Proceedings of the IEEE, 86 (11), 2278-2324.
© Матушев А. А., Лобанов Ф. Н., 2014
65