Электронное моделирование
УДК 004.896+656:25
М. Н. Василенко, д-р техн. наук,
Р. А. Ковалев
Кафедра «Автоматика и телемеханика на железных дорогах», Петербургский государственный университет путей сообщения Императора Александра I
МЕТОД ВЫДЕЛЕНИЯ СТРУКТУРЫ ПРИНЦИПИАЛЬНОЙ ЭЛЕКТРИЧЕСКОЙ СХЕМЫ ЖЕЛЕЗНОДОРОЖНОЙ АВТОМАТИКИ И ТЕЛЕМЕХАНИКИ ПРИ РАСПОЗНАВАНИИ ПЕЧАТНОЙ ДОКУМЕНТАЦИИ
Автоматизированное распознавание принципиальных электрических схем железнодорожной автоматики и телемеханики - актуальная и сложная задача. Общий алгоритм распознавания разделяется на несколько специализированных алгоритмов и решение задач становится более простым и понятным. Основными подзадачами можно называть выделение и распознавание структуры: приниципиальной схемы, текста, штампа и прочей информации. В данной статье описывается метод выделения структуры принципиальной схемы железнодорожной автоматики и телемеханики.
Методы выделения структуры схемы, предлагаемые в статье, не решают задачу ее полного распознавания с определением элементов и расстановкой связей между ними, решение требует более глубокого и трудоемкого анализа. Однако задача отделения графической структуры от остальной информации схемы является подготовительной и необходимой для дальнейшего процесса распознавания.
Предлагаются модификация известного алгоритма построения скелета изображения Zhang-Suen для распознавания существующих печатных и рукописных принципиальных электрических схем железнодорожной автоматики и телемеханики, методы предобработки изображений, производится выбор минимально необходимого набора алгоритмов предобработки. Приводится пример фрагмента реальной принципиальной электрической схемы. Делается вывод о возможности реализации системы дальнейшего распознавания на основании выделенной структуры.
электронный документооборот; техническая документация; распознавание образов; принципиальные схемы; выделение скелета схемы
Введение
Задача распознавания принципиальных электрических схем с бумажного носителя является актуальной и крайне сложной [1-10]. Стоит уточнить, что документация - это совокупность официально признанных документов, составленных по определенной форме и содержащих предусмотренную информацию. Печатной документация становится при переносе на листы бумаги. Дальнейшее сканирование этих листов дает растровое изображение, которое представляет собой исходные данные для системы распознавания.
На данный момент развития информационных технологий задача распознавания печатных документов, так или иначе, может быть решена разными способами. Результаты (некоторая топология, элементная база и дополнительная уточняющая информация) будут отличаться по полноте и качеству полученной информации. При этом будут предъявляться разные требования к исходным данным, времени работы, возможности настройки и обучения.
1 Предобработка изображения и выделение графических объектов принципиальной электрической схемы
Начальным этапом распознавания принципиальных электрических схем может быть процесс отделения топологической и элементной части от остальной информации схемы. Результатом являются данные того же вида, что и поступающие на вход. В данном случае решается задача выделения фона и простейшей классификации графических объектов.
Рассмотрим схему, изображенную на рис. 1.
При выделении структуры схемы начальным этапом является предобработка исходных данных. Процесс предобработки графических документов с целью получения более качественного изображения описан в различных источниках [11, 12]. Один из простых и удовлетворяющих решению нашей задачи подходов заключается в последовательном применении алгоритма сглаживания (smooth) и алгоритма бинаризации. На рис. 2 показан результат данной предобработки.
Простая реализация алгоритма сглаживания заключается в итеративном обходе пикселей изображения и присваивании каждому пикселю среднего значения соседних.
Следующим этапом является выделение связных структур изображения и их разделение на кластеры: структура и элементная база схемы, символ, шум. Для выделения графических объектов можно воспользоваться понятием связной области, которая включает в себя все пиксели переднего плана (черные), между каждой парой которых можно построить связь хотя бы через
Рис. 2. Изображение после применения алгоритма сглаживания и бинаризации
один черный пиксель. Широко используемыми алгоритмами кластеризации, применимыми в данном случае, являются алгоритмы DBSCAN (Martin Ester, Hans-Peter Kriegel, Jorg Sander and Xiaowei Xu) [13], k-means (Hugo Dyonizy Steinhaus) [14] и Affinity propagation (Precha Thavikulwat) [15].
Дальнейшая обработка кластеров зависит от их типов. Кластер, предположительно содержащий текст, обрабатывается алгоритмами распознавания текста, а кластер элементов схемы и топологии, в зависимости от выбранно-
го алгоритма распознавания, или дополнительно анализируется средствами графического анализа, или передается как есть дальнейшим алгоритмам распознавания. С помощью предлагаемого в статье метода подготовки входных данных дополнительно анализируются объекты данного кластера, метод является подготовительным для дальнейших алгоритмов распознавания.
2 Выделение структуры схемы
Для выделения скелета связных областей используется адаптированный алгоритм скелетизации Zhang-Suen thinning algorithm. В процессе скелетиза-ции участвует бинаризованное изображение. Псевдокод модифицированного алгоритма Zhang-Suen [16] приведен на рис. 3.
Пиксели в алгоритмах на рис. 3 пронумерованы в соответствии с полем пикселей на рис. 4.
От классического алгоритма скелетизации Zhang-Suen предложенный алгоритм отличается группой дополнительных проверок, которые помечены звездочкой (*) в Алг1. Для объектов, построенных лесенкой (45 %), предложенная модификация позволяет максимально сохранить пропорции, которые важны при дальнейшем анализе структуры схемы.
Частью области результата применения данного алгоритма к объектом кластера является графически выделенная структура схемы на рис. 5.
Скелет изображения схемы на рис. 5 на данном этапе не является распознанной структурой схемы. Однако в данном скелете схемы действуют следующие правила:
1. Толщина сегмента не превышает 1 пикселя.
2. Точки со связностью более 2 черных пикселя являются точками соединения сегментов.
Дальнейшее распознавание структуры схемы может быть выполнено на основании посегментной аппроксимации скелета и дальнейшего анализа получившихся геометрических примитивов. Возможно также использование других известных методов анализа.
Заключение
Предложенные методы выделения скелета принципиальной электрической схемы позволяют отделить анализ структурно-элементной части схемы от обработки прочей информации и шумов. Такой подход не только делает процесс распознавания более высококачественным, но и позволяет легко разделить процесс дальнейшей обработки на несколько параллельных, что положительно сказывается на производительности системы распознавания.
А(Р1) - число переходов вида 0 ^ 1 в последовательности Р2, Р3, Р4, Р5, Р6, Р7, Р8, Р9, Р2.
5(Р1) - число черных пикселей в множестве соседей P1.
Алг1:
для каждого пикселя P1 изображения, если выполняются условия*:
1) P1 = 1,
2) (P 2 = P 4 = 1 л P3 = P6 = P 7 = P8 = 0),
(P 2 = P8 = 1 л P 4 = P5 = P6 = P9 = 0), присваиваем пикселю Р1 значение 0: Р1 ^ 0,
для каждого пикселя P1 изображения, если выполняются условия:
1) P1 = 1,
2) 2 <= B(P1) <= 6,
3) A (P1) = 1,
4) P2 л P4 л P6=0,
5) P4 л P6 л P8=0, помещаем пиксель в список REM.
Алг2:
для каждого пикселя P1 изображения, если выполняются условия:
1) P1 = 1,
2) 2 <= B(P1) <= 6,
3) A (P1) = 1,
4) P2 л P4 л P8=0,
5) P2 л P 6 л P8=0, помещаем пиксель в список REM.
Алг3:
1) выполняем Алг 1,
2) если пустой список, завершаем работу Алг,
3) присваиваем каждому пикселю в списке REM значение 0:
P ^ 0, P е REM,
4) удаляем все элементы из списка REM,
5) выполняем Алг2,
6) если пустой список, то завершаем работу Алг,
7) присваиваем каждому пикселю в списке REM значение 0:
P ^ 0, P е REM,
8) удаляем все элементы из списка REM,
9) переходим в пункт 1.
Рис. 3. Псевдокод модифицированного алгоритма скелетизации Zhang-Suen
4-------+------+-------+
| PS | Р2 I РЗ I
+-------+------+-------+
| РЗ I PI I Р4 I
+-------+------+-------+
I Р7 | ре | Р5 |
+------з------3-------3-
Рис. 4. Обозначения поля пикселей-соседей
Рис. 5. Результат применения алгоритмов выделения структуры схемы
Методы работы со структурой схемы не находятся в жесткой зависимости от механизма выделения скелета схемы и могут быть выбраны исходя из конкретных задач. Согласно такому подходу, процесс распознавания разделяется на этапы, что делает систему более гибкой и настраиваемой и дает возможность менять и разрабатывать независимо разные части всего комплекса распознавания схемы.
Применение алгоритма на реальных сканированных принципиальных электрических схемах (экспериментальная выборка - 300 схем) показало, что успешно выделяются:
- около 95 % текстовой информации;
- около 80 % шумов;
- рамка и информация штампа на 95 % схем.
Структура схемы успешно выделяется в 82 % примеров. Для большей результативности требуется тонкая настройка параметров алгоритмов предобработки и скелетизации.
Библиографический список
1. Василенко М. Н. Электронный документооборот в хозяйстве СЦБ / М. Н. Василенко, В. Г. Трохов, Д. В. Зуев // Автоматика связь, информатика. - 2014. - № 8. -С. 2-3.
2. Булавский П. Е. Электронный документооборот технической документации / П. Е. Булавский, Д. С. Марков // Автоматика, связь, информатика. - 2012. -№ 2. - С. 2-5.
3. Булавский П. Е Синтез формализованной схемы электронного документооборота систем железнодорожной автоматики и телемеханики / П. Е. Булавский, Д. С. Марков // Известия Петербургского университета путей сообщения. -2013. - № 2. - С. 108-115.
4. Бурсиан Е. Ю. Распознавание таблиц монтажных карточек технической железнодорожной документациии / Е. Ю. Бурсиан // Известия Петербургского университета путей сообщения. - 2010. - № 2. - С. 137-145.
5. Бурсиан Е. Ю. Построение баз данных эталонных символов при автоматическом распознавании тестов / Е. Ю. Бурсиан // Известия Петербургского университета путей сообщения. - 2015. - № 4. - С. 93-100.
6. Балуев Н. Н. Проблемы внедрения отраслевого формата / Н. Н. Балуев, М. Н. Василенко, В. Г. Трохов, Д. В. Седых //Автоматика, связь, информатика. - 2010. -№ 3. - С. 2.
7. Матушев А. А. Распознавание структуры монтажных схем ЖАТ / А. А. Мату-шев, Д. В. Седых // Автоматика, связь, информатика. - 2015. - № 10. - С. 4-7.
8. Седых Д. В. Методы распознавания структуры монтажных схем железнодорожной автоматики и телемеханики / Д. В. Седых, А. А. Матушев // Автоматика на транспорте. - 2016. - Т. 2. - № 4. - С. 552-563.
9. Василенко М. Н. Методы выделения текстовых выражений принципиальных электрических схем железнодорожной автоматики и телемеханики / М. Н. Василенко, Р. А. Ковалев // Автоматика на транспорте. - 2016. - Т. 2. - № 4. -С. 540-551.
10. Зуев Д. В. Синтез объектной нейросетевой модели распознавания образов и ее применение в задачах железнодорожной автоматики : дис. ... канд. техн. наук : 05.13.18 / Зуев Денис Владимирович. - СПб., 2013. - 122 с. : ил.
11. Квасников В. П. Улучшение визуального качества цифрового изображения путем поэлементного преобразования / В. П. Квасников, А. В. Дзюбаненко // Авиационно-космическая техника и технология. - 2009. - № 8. - С. 200-204.
12. Milewski R., Govindaraju V. Binarization and cleanup of handwritten text from carbon copy medical form images (31 March 2008) / R. Milewski, V. Govindaraju // Pattern Recognition. - Vol. 41, issue 4. - Pp. 1308-1315.
13. Ester M. A density-based algorithm for discovering clusters in large spatial databases with noise / M. Ester, H.-Pe. Kriegel, J. Sander, X. Xu, E. Simoudis, J. Han, U. M. Fay-yad // Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). - AAAI Press, 1996. - Рр. 226-231.
14. Ту Дж. Принципы распознавания образов / Дж. Ту, Р. Гонсалес. - М. : Мир, 1978. - С. 109-112.
15. Frey B. J., Dueck D. (2007). Clustering by passing messages between data points. -Vol. 315. - Pp. 972-976.
16. Online magazine «Image Processing and Computer Vision», A Fast Parallel Algorithm for Thinning Digital Patterns. - URL : http://www-prima.inrialpes.fr/perso/Tran/ Draft/gateway.cfm.pdf.
Mikhail N. Vasilenko,
Roman A. Koval'ov
«Automation and remote control on railways» department,
Emperor Alexander I St. Petersburg state transport university
Method of selection the structure of fundamental electric circuit of railway automation and remote control during the recognition
of printed documentation
Computerized recognition of fundamental electrical circuits of railway automation and remote control (RARC) is an urgent and difficult task. The decision can be reasonably divided into the decision of the individual sub-tasks. Thus, the general recognition algorithm is divided into several specialized algorithms and the decision becomes more simple and straightforward. The main sub-tasks are selection and recognition of the fundamental electrical circuits structure, of the text, of the stamp and of other information. The article describes an approach for structure selection of the fundamental electrical circuits of RARC.
Methods of selection of circuit structure, proposed in this article, do not solve the problem of the complete recognition of the structure of fundamental electrical circuit with definition of elements and arrangement of connections between them, the solution of which requires much more profound and time-consuming analysis. However, the task of separating the graphic structure from the rest of the circuit information is a preparatory and necessary to further recognition process.
The article proposes a modification of a known algorithm for creating the skeleton of an image Zhang-Suen for recognition of existing printed and handwritten fundamental electric circuits of RARC. It also considers the methods of image preprocessing, as well as the selection of minimum required set of pre-processing algorithms. The article provides an example of a fragment of an actual fundamental electric circuit, as well as a conclusion about possibility of implementation of system for further recognition on the basis of a selected structure.
electronic document management; technical documentation; image recognition; fundamental electrical circuits; selection of circuit skeleton
References
1. Vasilenko M. N., Trokhov V. G., Zuev D. V. (2014). Electronic document management at StsB facilities [Elektronnyy dokumentooborot v khozyaystve STsB]. Automation, communication, information science [Avtomatika, svyaz’, informatika], issue 8, pp. 2-3.
2. Bulavsky P. E., Markov D. S. (2012). Electronic document management of technical documentation [Elektronnyy dokumentooborot tekhnicheskoy dokumentatsii]. Automation, communication, information science [Avtomatika, svyaz’, informatika], issue 2, pp. 2-5.
3. Bulavsky P. E., Markov D. S. (2013). Synthesis of formalized diagram of electronic document management of railway automation and remote control systems [Sintez formalizovannoy skhemy elektronnogo dokumentooborota sistem zheleznodorozhnoy avtomatiki i telemekhaniki]. Proceedings of Petersburg transport university [Izvestiya Peterburgskogo universiteta putej soobshcheniya], issue 2, pp. 108-115.
4. Bursian E. Yu. (2010). Recognition of tables of assembly cards of railway documentation [Raspoznavaniye tablits montazhnykh kartochek tekhnicheskoy zheleznodorozhnoy dokumentatsii]. Proceedings of Petersburg transport university [Izvestiya Peterburgskogo universiteta putej soobshcheniya], issue 2, pp. 137-145.
5. Bursian E. Yu. (2015). Building of data bases of reference symbols for automatic text recognition [Postroyeniye baz dannykh etalonnykh simvolov pri avtomaticheskom raspoznavanii tekstov]. Proceedings of Petersburg transport university [Izvestiya Peterburgskogo universiteta putej soobshcheniya], issue 4, pp. 93-100.
6. Baluev N. N., Vasilenko M. N., Trokhov V. G., Sedykh D. V. (2010). Problems of implementation the industry framework [Problemy vnedreniya otraslevogo formata]. Automation, communication, information science [Avtomatika, svyaz’, informatika], issue 3, p. 2.
7. Matushev A. A., Sedykh D. V. (2015). Recognition of ZhAT assembly diagram structure [Raspoznavaniye struktury montazhnykh skhem ZhAT]. Automation, communication, information science [Avtomatika, svyaz’, informatika], issue 10, pp. 4-7.
8. Sedykh D. V., Matushev A. A. (2016). Methods of structure recognition for assembly diagrams of railway automation and remote control [Metody raspoznavaniya struktury montazhnykh skhem zheleznodorozhnoy avtomatiki i telemekhaniki]. Automation on transport [Avtomatika na transporte], vol. 2, issue 4, pp. 552-563.
9. Vasilenko M. N., Kovalev R. А. (2016). Methods of text expression selection of fundamental electric circuits of railway automation and remote control [Metody vydeleniya tekstovykh vyrazheniy printsipial’nykh elektricheskikh skhem zheleznodorozhnoy avtomatiki i telemekhaniki]. Automation on transport [Avtomatika na transporte], vol. 2, issue 4, pp. 540-541.
10. Zuev D. V. (2013). Synthesis of object-based neural network of image recognition and its application for railway automation tasks [Sintez ob’yektnoy neyrosetevoy modeli raspoznavaniya obrazov i yeyo primeneniye v zadachakh zheleznodorozhnoy avtomatiki] : Candidate thesis in Engineering Science [Dissertatsiya na soiskaniye uchenoy stepeni kandidata tekhnicheskikh nauk], 05.13.18 [Place: Peterburg
State Transport University [Peterburgskiy gosudarstvennyy universitet putey soobshcheniya]. St. Petersburg, 122 p.
11. Kvasnikov V. P., Dzyubanenko A. V. (2009). Improvement of visual quality of digital images by elementwise transformation [Uluchsheniye vizual’nogo kachestva tsifrovogo izobrazheniya putem poelementnogo preobrazovaniya]. Aviation and space technologies [Aviatsionno-kosmicheskaya tekhnika i tekhnologiya], issue 8, pp.200-204.
12. Milewski R., Govindaraju V. (2008). Binarization and cleanup of handwritten text from carbon copy medical form images. Pattern Recognition 41 (4), pp. 13081315.
13. Ester M., Kriegel H.-P., Sander J., Xu X., Simoudis E., Han J., Fayyad U. M. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press, pp. 226-231.
14. Tu J., Gonzales R. (1978). Pattern Recognition Principles, Publishing house Mir (World). Moscow, pp. 109-112.
15. Frey B. J., Dueck D. (2007). Clustering by passing messages between data points. Science 315 (5814), pp. 972-976.
16. Online magazine «Image Processing and Computer Vision», A Fast Parallel Algorithm for Thinning Digital Patterns, http://www-prima.inrialpes.fr/perso/Tran/ Draft/gateway.cfm.pdf.
Статья представлена к публикации членом редколлегии В. А. Ходаковским Поступила в редакцию 29.04.2016, принята к публикации 25.05.2016
ВАСИЛЕНКО Михаил Николаевич - доктор технических наук, профессор кафедры «Автоматика и телемеханика на железных дорогах» Петербургского государственного университета путей сообщения Императора Александра I.
e-mail: vasilenko. [email protected]
КОВАЛЕВ Роман Александрович - аспирант кафедры «Автоматика и телемеханика на железных дорогах» Петербургского государственного университета путей сообщения Императора Александра I. e-mail: [email protected]
© Василенко М. Н., Ковалев Р. А., 2017