40
Проблематика транспортных систем
Современные технологии - транспорту
УДК. 681.300
Е. Ю. Бурсиан
РАСПОЗНАВАНИЕ ТЕХНОЛОГИЧЕСКИХ КАРТ, МОНТАЖНЫХ СХЕМ И СХЕМ КОМПЛЕКТАЦИИ ЖЕЛЕЗНОДОРОЖНОЙ ДОКУМЕНТАЦИИ
Рассматривается комплекс алгоритмов обработки отсканированной технической документации, используемый для автоматизации проектирования электронной базы данных. На основе данных алгоритмов разработан прототип программы распознавания технологических карт, монтажных схем приборов и схем комплектации.
электронная база данных, автоматизация проектирования, распознавание символов.
Введение
Техническая железнодорожная документация в значительной мере представлена большим количеством технологических карт, принципиальных и монтажных схем, выполненных вручную чертёжными шрифтами. Для создания электронной базы данных на основе рассматриваемой документации требуются существенные затраты труда операторов. Значительную часть этой работы можно автоматизировать с помощью сканирования документов и последующего распознавания элементов электротехнических схем, символов и таблиц.
Полное распознавание возможно не всегда, поэтому необходим комплекс вспомогательных программ для увеличения производительности обработки технологических карт. Функции таких программ состоят в удалении шумов и помех, исправлении искажений, изменении контрастности, сжатии исходной информации, частичном распознавании документа, статистическом исследовании характеристик изображения и составлении их функций распределения.
Для выполнения смыслового распознавания рассматриваемых документов необходим узкоспециализированный комплекс программ обработки железнодорожной документации или должна существовать возможность адаптации известных пакетов к частным задачам обработки технологических карт.
2007/3
Proceedings of Petersburg Transport University
Проблематика транспортных систем
41
Известные системы оптического распознавания символов (Optical Character Recognition), основанные на технологии ABBYY, ориентированы главным образом на обработку печатных документов; ICR-системы (Intelligent Character Recognition), выполняющие обработку печатных и рукописных символов, не располагают необходимыми системами настройки на смысловое распознавание узкоспециализированной документации. Таким образом, разработка алгоритмов и прототипов программ обработки и распознавания технологических железнодорожных карт является актуальной научной задачей.
1 Постановка задачи
Лист железнодорожной документации, отсканированной с dpi от 300 до 600, представляет собой растр многоградационного изображения размера от 1000x1000 до 5000x5000, изображающий монтажную схему первого уровня (схема прибора) или второго уровня (схема соединения нескольких приборов). Исходные изображения выполнены вручную чертёжными шрифтами. Монтажные схемы второго уровня задают ограничения на множество слов в ячейках первого уровня.
Информацию о приборе или схемах соединения приборов необходимо занести в электронную базу данных, для этого следует распознать вид прибора и его характеристики или структуру соединения приборов и их виды. Данную задачу можно разбить на следующие подзадачи:
1) устранение шумов и искажений из отсканированного изображения;
2) сегментация изображения с целью разделения его элементов: таблиц, символов, элементов схем;
3) распознавание отдельных элементов технологической карты;
4) устранение ошибок распознавания с учётом смыслового содержания.
2 Фильтрация изображения с целью удаления шумов и искажений
Для решения поставленной задачи можно использовать двумерное дискретное спектральное разложение изображения по ортогональной системе функций с последующей его фильтрацией. В этом случае получение спектрального образа следует осуществлять с помощью дискретного косинус-преобразования или дискретного комплексного преобразования Фурье. Для ослабления влияния высоких гармоник необходимо использовать фильтр низких частот. Коэффициент ослабления к при амплитуде двумерной частоты (fh, fv) вычисляется по формуле:
к = j(t), t Tr =r ,
ISSN 1815-588 X. Известия ПГУПС
2007/3
42
Проблематика транспортных систем
где период T задаётся в пикселях; ф(/) - функция, определяющая форму фильтра; для комплексного преобразования Фурье w = VW, h =VH; для косинус-преобразования w = W, h = H (H и W - ширина и высота изображения). Форму фильтра будем задавать с помощью функции
ф(0= (1 + exp(a(t -1_1)))-1,
где а - параметр, определяющий крутизну среза. Для фильтра низких частот а >0, высоких - а < 0. На рисунке 1, а изображены графики функций ф(^ для а = 1, а = 4, а = 8, на рисунке 1, б - для а = -1, а = -4, а = -8.
Рис. 1. Графики функции ф (t): а - для а > 0; б - для а < 0
В качестве полосового фильтра можно взять произведение фильтров низких и высоких частот с равными по модулю параметрами а и разными периодами Ti и Th , то есть к = к/ к, где к\ = фХ//), h = фh(th), ti = Tf,
th = Thr.
Для дискретного преобразования Фурье и дискретного косинуспреобразования Фурье вычисление спектрального образа и отфильтрованного изображения следует производить с применением алгоритмов быстрого преобразования, так как в условиях поставленной задачи отсканированные технологические карты имеют размеры более 1000x1000.
В настоящем исследовании для перечисленных выше преобразований применялся метод Кули-Тьюки [1]. В данном случае время работы алгоритма пропорционально nln(n), где n - длина обрабатываемого массива данных. При этом устранение шумов и помех без потери значимой информации в наибольшей степени происходит при сочетании полосовой фильтрации с методами разделения объектов распознавания и фона с помощью алгоритма адаптивного вычисления порогового значения при переводе изображения из многоградационного в двуградационное. В данном исследовании применялся метод вычисления порогового значения яркости с помощью построения функции f(x), где x - градации яркости, f(x) - количество пикселей данной яркости.
2007/3
Proceedings of Petersburg Transport University
Проблематика транспортных систем
43
В условиях рассматриваемой задачи fx) имеет два чётко выраженных максимума - фон и объект. В качестве порогового значения берётся точка минимума, расположенная между указанными максимумами. Для определения точки минимума в данной работе к функции fx) применялся метод сглаживания с помощью скользящего среднего с весовыми коэффициентами sin(nk/(n+1)), к е[1, п] [1]. На рисунке 2, а представлен фрагмент отсканированной железнодорожной документации, на рисунке 2, б - изображение данного фрагмента после его перевода в двуградационный вид без фильтрации. На рисунке 2, в показан результат полосовой фильтрации
T = 7, Th = 20, а = 0,65.
в)
Рис. 2. Фрагмент (а); фильтрации нет (б); результат полосовой фильтрации (в)
3 Разделение элементов изображения: таблиц, элементов схем, символов, сочетаний символов и строк таблицы
После полосовой фильтрации и перевода изображения из многоградационного в двуградационное необходимо отделить различные элементы изображения. Предварительная идентификация таблиц может производиться с помощью алгоритмов определения горизонтальных и вертикальных линий. Определив их приблизительное положение, можно сделать вывод о примерных координатах ячеек таблицы. Далее в каждой ячейке таблицы следует производить поиск символов, составляющих строки ячейки. На данном этапе работы алгоритма приблизительные размеры символа известны, его поиск следует производить, опираясь на понятие связной области на растре.
Точки A]_(x]_, y1), A2(x2 y2) будем считать соседними по 4-связному растру, если |x1-x2| + [y1-y2|=1. Точки A3(x3, y3), A4(x4, y4) назовём соседними по 8-связному растру, если max(|x3-x4 |,| y3-y4 |)=1. Область D в дискретном пространстве будем считать связной по 8-связному растру, если из любой её точки можно перейти в любую другую точку области, проходя по точкам, соседним по 8-связному растру. Аналогично область называется 4-связной, если из произвольной её точки можно перейти в любую другую, проходя по точкам, соседним по 4-связному растру [2], [3].
ISSN 1815-588 X. Известия ПГУПС
2007/3
44
Проблематика транспортных систем
Рассматриваемую область будем считать условно связной, если она состоит из нескольких 8-связных областей, расстояние между котрыми не превышает заданное в условии число пикселей. Условно связные области, расположенные в ячейках таблицы, на этапе разделения объектов распознавания следует считать символами технической документации. Относительно аналогичных областей вне ячеек таблицы необходимо строить предположения о принадлежности их к символам или к элементам схем и подвергать данные допущения проверке.
4 Распознавание символов технологической карты
Алгоритм распознавания символов технической документации можно строить на основе понятия скелетной линии [4]. Скелетная линия связной области D в R определяется как множество точек S, принадлежащих связной области D, для каждой точки которого существует не менее двух различных точек гра- Рис. 3 Стелетнад линия ницы области, расстояния от которых до точки S скелетного множества равно расстоянию от точки S до границы связной области dD (рис. 3).
Для построения скелетной линии 8-связной или 4-связной области на растре следует сначала перенумеровать точки её границы, для этого применяются алгоритмы обхода границы [5]. Если после обхода границы произвести её аппроксимацию, можно конструировать скелетную линию связной области в R , при таком подходе необходимо решать задачу “стрижки скелета” [4]. Если после нумерации точек границы опираться на растровое представление, следует использовать алгоритмы утончения [2]. Для решения поставленной технической задачи применялся алгоритм конструирования скелетной линии, основанный на принципах распространения волны от границы области [2]. В ходе выполнения осуществлялись следующие шаги.
1- й шаг. Применить алгоритм обхода границы [5].
2- й шаг. В каждой точке границы выполнить генерацию волны, соответствующую номеру точки, полученному при обходе границы. Последовательно строить изображения волновых фронтов, пока вся область не будет закрашена.
3- й шаг. Конструировать растровое представление скелетной линии S
как множества точек A(x, y), удовлетворяющих условиям: 3 Ai(xi, yi): A,
A \ — соседние по 4-связному растру, причём (xi < x) | (xi = x & yi < У), d(A, Ai)> d0, где d(A, B) = |N(A)—N(Ai)|, N(A), N(Ai) - номера, соответствующие закраске точек растра A(x, у) и Ai(xi, yi) соответственно, do — заранее заданный параметр скелетизации. Для проверки эффективности
2007/3
Proceedings of Petersburg Transport University
Проблематика транспортных систем
45
алгоритма был разработан прототип программы и выполнены экспериментальные исследования. На рисунке 4, а представлены исходные данные и растровые изображения скелетных линий, полученные с помощью исследуемого алгоритма.
а)
б)
Рис. 4. Построение скелетной линии (а); скелетные графы (б)
По полученным скелетным линиям с помощью аппроксимации построены скелетные графы символов (рис. 4, б). Скелетные графы сравнивались со скелетными графами эталонов, построенных при обработке обучающей выборки. Сравнение графов производилось с помощью вычисления выборочного множественного коэффициента корреляции r1.(2.p) между массивами угловых коэффициентов кц и kji соответствующих ветвей скелетного графа распознаваемого символа и эталона. При этом i, j Е {1...p}, p — 1 - количество эталонов, i = j = 1 относится к распознаваемому символу, i > 1, j > 1 соответствует эталонам, 1е {1...m}, m - количество элементов массивов угловых коэффициентов сравниваемых графов. Символ считался распознанным, если выполнялось условие \r1.(2^p)\ > 0,9, где
Г1.(2... p)
-1-^, R =
R
11
r--
j
!?=,( % ~Mi Kg - Mj)
t?=1< % - Mi )2( j^j
M
=1 e ;a .
n 1
R11 - алгебраическое дополнение элемента r11.
5 Устранение ошибок распознавания с учётом смыслового содержания документа
Технологическая карта железнодорожной документации представлена в виде таблицы, структура которой относится к одному из заранее определённых видов. Количество видов структур технологических карт не пре-
ISSN 1815-588 X. Известия ПГУПС
2007/3
46
Проблематика транспортных систем
вышает 100. Таким образом, любая распознаваемая таблица должна быть отнесена к одному из стандартных видов. На содержание строк в ячейках таблицы вид структуры накладывает определённые ограничения. В случае несовпадения рассматриваемого варианта ни с одним из известных видов таблиц или если смысловое содержание строк в ячейках не поддаётся расшифровке, необходимо выдвинуть предположения о возможном содержании документа и вернуться к исходному многоградационному изображению с целью проверки выдвинутых предположений.
Заключение
В процессе исследования был сделан вывод о необходимости предварительной обработки отсканированной железнодорожной документации для улудшения качества изображения: удаления шумов и устранения неоднородности фона, вызванного случайными помехами. Для этой цели применялись дискретное косинус-преобразование и дискретное комплексное преобразование Фурье.
Исследования показали, что применение дискретного косинуспреобразования и дискретного комплексного преобразования Фурье при условии плавного обрезания частот и использования алгоритма быстрого преобразования отвечает поставленной цели. Кроме того, необходимо начинать сегментацию изображения с предварительной идентификации таблицы, так как это позволяет сделать дополнительные предположения о размерах и местоположении символов и накладывает ограничения на возможнные сочетания знаков. Применение перечисленных методов позволяет в значительной мере автоматизировать работу оператора по созданию базы данных железнодорожной документации.
Библиографический список
1. Быстрое преобразование Фурье и алгоритм вычисления свёрток / А. Нус-сбаумер, Л. Генри. - М.: Радио и связь, 1985. - 248 с.
2. An Evaluation of Parallel Thinning Algorithms for Character Recognition / L. Lam, C. Y. Suen. // IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 17. - № 9. - 1995. - P. 914-919.
3. Распознавание скелетных образов / А. А. Котович, В. Н. Славин // Методы и средства работы с документами : сб. трудов Института системного анализа РАН. - M.: УРСС, 2000. - 347 с. - ISBN 5-8360-0262-2.
4. Непрерывное скелетное представление изображения с контролируемой точностью / Л. А. Местецкий, И. А. Рейер // Международная конференция “Графикон-2004”. - М.: МГУ. - 269 с. - ISBN 5-317-00788-7.
5. Компьютерная графика / Е. В. Шикин, А. В. Боресков, Г. Е. Шикин. - М.: Финансы и статистика, 1996. - 173 с.
2007/3
Proceedings of Petersburg Transport University