УДК 623.746.2+623.746-519
ЛИНГВИСТИЧЕСКИЕ МЕТОДЫ В ЗАДАЧАХ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ
В. А. Тупиков, В. А. Павлова, С.Н. Крюков, М.В. Созинова, П.К. Шульженко
Предлагается использование лингвистических методов для задач автоматического распознавания изображений. Лингвистические методы распознавания базируются на представлении изображения в виде набора примитивов разного уровня, описывающих наиболее значимые части сцены, и сопоставлении их с эталонным описанием в соответствии с заданными правилами. Преимуществом лингвистического подхода является возможность распознавания объекта по заданному описанию наиболее значимых особенностей эталона без необходимости задания точного эталонного изображения. Кроме того, на результат распознавания не влияют масштаб и ориентация объекта в пространстве. Таким образом, лингвистические методы являются эффективным средством для распознавания урбанистических объектов.
Ключевые слова: структурное описание, лингвистические алгоритмы, автоматическое распознавание изображений, алгоритмы всеракурсного распознавания, преобразование Хафа.
В настоящее время в мире выполняется огромное количество исследований и разработок, направленных на создание алгоритмов и устройств автоматического распознавания целевых объектов путем цифровой обработки видеоинформации, поступающей с оптико-электронных и радиолокационных систем наблюдения [1, 2]. Определяющая роль в процессе построения подобного рода систем отводится формированию устойчивых и компактных различительных признаков образа распознаваемого объекта. При этом необходим анализ всех тонкостей процесса формирования признаков, которые определяют потенциальные возможности и эффективность применения автоматических систем распознавания.
Ни один из существующих методов автоматического распознавания не позволяет создать универсальный распознаватель. Каждый метод предназначен для работы по конкретному ограниченному алфавиту объектов и функционирует в достаточно ограниченном диапазоне условий получения текущего изображения объекта (размер, ракурс, контраст относительно фона, наличие фоновых помех, шумы различного происхождения и т.д.). Чаще всего для классификации трехмерных объектов на фоне разнородной подстилающей поверхности используются корреляционные и нейросетевые методы цифровой обработки изображений. Однако к основным недостаткам этих методов относится резкое снижение вероятности правильного распознавания при геометрических искажениях объектов, таких, как поворот и изменение масштаба. Кроме того, данные подходы к распознаванию изображений более или менее успешно применяются для
анализа единичных объектов. Однако при наличии сложного многокомпонентного изображения, состоящего из множества разнородных объектов, таких, как мосты, нефтехранилища и т.п., необходимо учитывать взаимное расположение объектов, составляющих исходную трехмерную сцену. Для успешного распознавания таких сцен более эффективными оказываются алгоритмы, основанные на лингвистических методах. Суть этих методов заключается в построении сжатого описания структуры изображения. Так, если заменить каждый объект его описанием, то элементы описания могут быть использованы как признаки объекта, а само описание сцены можно будет анализировать с применением аппарата математической лингвистики. Основным отличием лингвистического распознавания образов является непосредственное использование структуры образов в процессе распознавания. Поэтому такие методы также часто называют структурными методами распознавания.
Такой подход к задачам распознавания имеет ряд преимуществ: лингвистическое описание сцены является более компактным и занимает меньше места в памяти устройств, в котором оно хранится;
построение лингвистического описания позволяет отбросить несущественные детали изображения, которые могли бы привести к снижению вероятности распознавания при использовании корреляционных методов;
использование при лингвистическом распознавании относительных характеристик объектов сцены (таких, как относительные размеры соседних объектов, их расположение относительно друг друга) позволяет компенсировать главный недостаток корреляционных и контурных алгоритмов - зависимость вероятности правильного распознавания от масштаба и поворота объектов.
Основные трудности в лингвистическом методе распознавания возникают на этапе построения описания изображений. Для корректного построения описания необходимо точно выделять отдельные объекты на изображении, определять их границы и параметры. Поэтому решаюшую роль в построении описания промышленного пейзажа играют используемые методы предварительной обработки изображения. Точное определение "структуры" изображения является необходимым для успешного применения лингвистического метода распознавания. Именно поэтому исследования в области лингвистического распознавания в основном сводятся к распознаванию изображений, характеризующихся хорошо различимыми формами, в частности символов, в то время как распознавание промышленных пейзажей с использованием лингвистических методов является малоизученной областью распознавания изображений.
В связи с этим в данной статье были исследованы возможности применения лингвистических методов для распознавания изображений промышленных пейзажей.
В случае применения лингвистических алгоритмов эталон для распознавания задается в виде описания типа и количества ожидаемых объектов, их площади, а также их положения относительно друг друга. Типом ожидаемого объекта может быть как простая фигура (круг, прямоугольник, линия), так и некоторый сложный геометрический объект. Более сложные геометрические объекты, которые не могут быть описаны простейшими геометрическими фигурами, описываются как совокупность значимых точек (концевых точек, точек перегибов линий и точек пересечения нескольких линий) и связи между ними. По заданным данным строится структурное описание эталона.
Для применения лингвистического алгоритма распознавания полутоновое изображение необходимо привести к структурному виду [3]. Структурное описание изображения подразумевает разбиение изображения на различные объекты и подобъекты разного уровня. Самым нижним уровнем структурного описания изображения являются так называемые значимые точки изображения. Это точки окончания линий, перегибов, точки пересечения нескольких линий. Кроме того, структурное описание изображения содержит информацию о связях между объектами каждого уровня. Пример структурной схемы представлен на рис. 1.
Рис. 1. Пример структурной схемы изображения
Для построения структурного описания изображения и последующего автоматического распознавания, использующего лингвистические методы, выполняется ряд операций обработки изображения.
1. Из исходного изображения строится бинарное контурное изображение. Для этого может быть использован любой контурный алгоритм, например, фильтр Робертса или Кирша, или алгоритмы, основанные на вычислении поля модулей градиентов яркостей изображения. Выбор алго-
30
ритма контурирования обуславливается конкретными условиями использования алгоритма. В данной работе предлагается алгоритм контурирования, основанный на последовательной бинаризации каждой точки изображения в соответствии со значением порога. В качестве порогового значения выбирается среднее значение яркости изображения в некоторой зоне вокруг текущей точки.
Для выделения контура полученного бинарного изображения предлагается использовать морфологическую функцию выделения границ. Суть алгоритма морфологического выделения границ заключается в выполнении операции эрозии для заданного бинарного изображения с последующим вычитанием полученного результата из исходного бинарного изображения.
Полученное таким образом контурное изображение имеет ширину контура в один пиксел, что упрощает дальнейшую обработку изображения. Кроме того, описанный метод выделения контуров является устойчивым к засветам или затемнениям отдельных областей изображения.
2. На полученном контурном изображении производится фильтрация объектов. Изображение фильтруется по принципу 8-связности [4]. Объект считается связанным, если между любыми двумя точками объекта, существует путь, целиком состоящий из точек этого объекта, и при этом все точки пути являются 8-смежными (рис. 2).
(Х|-1, Ум) \ (Х|, Ум) {Х|+Ь Ум)
(хм, уО — \ (Х|. / ГУО- \ - (Х|+1, у)
/ (Хм, Ум) (Х|, Ум) \
Рис. 2. Точка (х, у) и 8 смежных с ней точек
При фильтрации отслеживается площадь выделяемых объектов. Те объекты, площадь которых выходит за пределы допустимых границ, не рассматриваются. При последующей обработке каждый выделенный объект изображения анализируется отдельно.
3. Для каждого объекта определяются его лингвистические параметры. С помощью морфологических функций, а также алгоритмов, использующих преобразование Хафа [5], выделяются основные параметры
каждого объекта. В том числе определяются концевые точки, точки перегибов и пересечения нескольких линий. В зависимости от структуры эталонного изображения для анализируемого объекта выделяются основные геометрические фигуры, такие, как окружность или прямоугольник. Все эти параметры станут основой для лингвистического описания изображения.
Концевые точки, точки перегибов и точки пересечения нескольких линий называются узловыми точками. Для их обнаружения используются алгоритмы прохода с заданными масками. Ниже приведены примеры масок для обнаружения концевых точек. Значения ячеек масок, отмеченных знаком х, не влияют на результат определения концевых точек:
"х 0 0" "х 1 х~ "0 0 х" "0 0 0"
1 1 0 0 1 0 0 1 1 0 1 0
.X 0 0. .0 0 0. .0 0 X. .X 1 X.
"1 0 0" "0 0 1" "0 0 0" "0 0 0"
0 1 0 0 1 0 0 1 0 0 1 0
.0 0 0. .0 0 0. .0 0 1. .1 0 0.
Для определения объектов более высокого уровня, таких, как окружности и прямоугольники и прямые линии, применяются алгоритмы, использующие преобразование Хафа. Суть преобразования Хафа строится на переходе от декартовой системы координат к полярной системе координат.
Так, например, при выделении прямых линий в полярной системе координат прямая задается уравнением
х cos в + у sin в = р. (1)
Каждой прямой в плоскости (х, у) соответствует точка в плоскости (р, в) (рис. 3). И наоборот, каждой точке в плоскости (х, у) соответствует кривая в плоскости (р,в). Таким образом, 3 точки изображения, лежащие на одной прямой, в плоскости (р, в) будут образовывать 3 кривые, пересекающиеся в одной точке.
Если представить бинарное контурное изображение как множество точек в плоскости (х, у), то каждой контурной точке с координатами (x¿,y¿) будет соответствовать кривая в плоскости (р, в). При подстановке всех возможных значений 6 в формулу (1) можно получить все соответствующие значения р. Для трех точек (х1,у1)£х2,у2) и (х3,у3), лежащих на одной прямой, найдется такая пара (p¿,#¿), которая будет удовлетворять всем трем уравнениям (1). Чем больше точек изображения лежит на одной прямой, тем большее количество раз будет встречаться пара (p¿, 0¿), соответствующая данной прямой.
Таким образом, для выделения прямых линий на изображении с использованием преобразования Хафа необходимо создать таблицу так называемых ячеек накопления (таблица). Первоначально значения во всех ячейках таблицы равны нулю. Затем для каждой контурной точки (x¿,y¿)
изображения последовательно перебираются все возможные значения параметра в. По формуле (1) для заданных значений х,у и 0 вычисляется соответствующее значение р. После этого найденное значение округляется до ближайшего целого, и в таблице ячеек накопления на единицу увеличивается значение ячейки, соответствующей вычисленной паре (р^, в{).
Таблица ячеек накопления
Ч0Р\ Ртт ... ... Ртах
®тт :
:
01 ... ...
:
^тах :
Рис. 3. Представление прямой в декартовой и полярной
системах координат
После заполнения описанным выше способом таблицы ячеек накопления производится поиск максимальных значений в таблице. Те пары (р1, для которых значения в ячейках накопления выше некоторого заданного порога, принимаются за параметры прямой линии на анализируемом изображении.
Для выделения окружностей в полярных координатах задается уравнение
(х - а)2 + (у - Ъ)2 = Я2, где (а, Ь) - координаты центра окружности; Я - радиус.
Алгоритм выделения окружностей аналогичен алгоритму выделения прямых линий, только в этом случае вместо плоскости (р, в) строится трехмерное пространство (а, Ь, Я).
Для выделенных таким образом подобъектов разных уровней (узловых точек и геометрических фигур) фиксируется их расположение относительно друг друга, относительные размеры и площади, а также связи между узловыми точками.
4. По полученным данным для каждого объекта строится структурное описание всего обрабатываемого изображения. Описание структуры изображения задается в так называемых таблицах первичных связей [6]. Они составляются как на отдельные узловые точки изображения, так и на выделенные геометрические объекты. Таблицы первичных связей представляют собой двумерные таблицы, в каждой ячейке которой содержится информация о связях между двумя подобъектами изображения (узлами или геометрическими объектами).
При составлении таблицы для геометрических объектов в каждую ячейку таблицы записываются расстояние между центрами двух объектов, отношение их площадей, а также типы каждого из объектов.
В случае же составления таблицы первичных связей более низкого уровня для значимых узлов изображения заполняются только те ячейки таблицы, соответствующие узлы которых связаны между собой на бинарном изображении. При этом сохраняется такая информация, как длина линии, связывающая данные узлы, угол наклона данной линии, а также тип обоих узлов.
При таком способе построения описания отбрасываются все незначительные детали изображения в зависимости от структуры заданного эталона, что позволяет существенно упростить и ускорить дальнейшее распознавание изображения.
5. Распознавание эталона на изображении. По полученному лингвистическому описанию текущего изображения производится распознавание заданного эталона. При этом, поскольку в составленных таблицах первичных связях вся информация о выделенных подобъектах вычислена относительно друг друга, процесс распознавания не учитывает необходимое соответствие масштабов и ракурсов текущего распознаваемого изображения с заданным эталоном.
На рис. 4 приведен пример эталонного изображения для распознавания. На изображении отмечены основные структурные элементы, выделенные на этапе предварительной обработки эталона.
Процесс распознавания включает в себя поиск на исходном изображении объектов, соответствующих эталонному по форме и взаимному расположению. Результат распознавания выбранного эталона приведен на
34
рис. 5. На результирующем изображении отмечены подозрительные объекты, выделенные на этапе построения структурного описания и удовлетворяющие заданным параметрам поиска в соответствии с эталонным изображением. Зона наибольшего совпадения с заданным эталоном, вычисленная в результате лингвистического анализа, выделена жирным. На данном примере видно, что ориентация и масштаб заданного эталона не повлияли на эффективность распознавания.
Рис. 4. Эталонное изображение
Рис. 5. Результат распознавания
Таким образом, лингвистические методы распознавания являются весьма перспективными, однако недостаточно изученными методами в области автоматического распознавания изображений.
Список литературы
1. Путятин Е.П., Гороховатский В. А., Кузьмин С. В. Распознавание изображений в пространстве инвариантных локальных признаков // Радиоэлектроника и информатика. 2006. № 1(32). С. 69 - 73.
35
2. Bunke H. Structural and syntactic pattern recognition // World Scientific, Singapore. 1996. P. 163 - 209.
3. Фу К. Структурные методы распознавания образов. М.: Изд-во «Мир», 1977. С. 9 - 13.
4. Гонсалес Р., Вудс Р. Цифровая обработка изображений. М.: Техносфера, 2005.
5. Duda R.O., Hart P.E. Use of the Hough Transformation To Detect Lines and Curves in Pictures // Comm. ACM. January. Vol. 15. 1972. P. 11 - 15.
6. Автоматический анализ сложных изображений: сб. переводов / под ред. Э.М. Бравермана. М.: Изд-во «Мир», 1969. С. 22 - 30.
Тупиков Владимир Алексеевич, д-р техн. наук, проф., директор научно-производственного комплекса робототехнических систем специального назначения, [email protected], Россия, Санкт-Петербург, АО «Научно-производственное предприятие «Авиационная и морская электроника»,
Павлова Валерия Анатольевна, канд. техн. наук, зам. директора научно-производственного комплекса робототехнических систем специального назначения по НИОКР, директор Центра средств интеллектуальной обработки изображений в РТС СН, [email protected], Россия, Санкт-Петербург, АО «Научно-производственное предприятие «Авиационная и морская электроника»,
Крюков Сергей Николаевич, канд. техн. наук, главный научный сотрудник Центра средств интеллектуальной обработки изображений в робототехнических системах специального назначения, SKrjukov@,mail.ru, Россия, Санкт-Петербург, АО «Научно-производственное предприятие «Авиационная и морская электроника»,
Созинова Мария Владимировна, начальник отдела перспективных методов обработки изображений, sim-maria@,mail.ru, Россия, Санкт-Петербург, АО «Научно-производственное предприятие «Авиационная и морская электроника»,
Шульженко Петр Константинович, канд. техн. наук, ведущий научный сотрудник отдела перспективных методов обработки изображений, shulgenkopk@,mail.ru, Россия, Санкт-Петербург, АО «Научно-производственное предприятие «Авиационная и морская электроника»
LINGUISTIC METHODS IN THE PROBLEMS OF IMAGE RECOGNITION V.A. Tupikov, V.A. Pavlova, S.N. Krjukov, M. V. Sozinova, P.K. Shulzhenko
The use of linguistic methods in solving the problems of automatic image recognition is proposed. The linguistic recognition methods are based on the image representation in the set form of primitive elements of different levels, describing the most significant parts of scene and the matching them with the given standard description according to given rules. The main advantage of linguistic methods is the possibility of given object recognition according to the given description of most significant standard features without the necessity of precise standard image assignment. Moreover the recognition result does not depend on scale and space orientation of object. Thus, the proposed linguistic methods are effective instrument for urbanistic objects recognition.
Key words: structure description; linguistic algorithms; automatic image recognition; the all aspects recognition algorithms; Haugh transformation.
Tupikov Vladimir Alekseevich, doctor of technical sciences, professor, Director of research-industrial complex robotic systems special purpose, tupikov@nppame. ru, Russia, Saint Petersburg, JSC "Research and Production Enterprise "Aviation and Marine Electronics",
Pavlova Valeria Anatolyevna, candidate of technical science, Deputy Director of research-industrial complex robotic systems special purpose R&D, Director Center Intellectual image processing tools in RTS SP, pavlova@nppame. ru, Russia, Saint Petersburg, JSC "Research and Production Enterprise "Aviation and Marine Electronics",
Krjukov Sergey Nikolaevich, candidate of technical sciences, chief researcher Center Intellectual image processing tools in RTS SP, SKrjukov@,mail.ru, Russia, Saint Petersburg, JSC "Research and Production Enterprise "Aviation and Marine Electronics",
Sozinova Maria Vladimirovna, head of the Department of perspective methods for image processing, sim-maria@,mail. ru, Russia, Saint Petersburg, JSC "Research and Production Enterprise "Aviation and Marine Electronics",
Shulzhenko Petr Konstantinovich, candidate of technical sciences, leading Resear-cherof the Department of perspective methods for image processing, shulgenkopk@,mail. ru, Russia, Saint Petersburg, JSC "Research and Production Enterprise "Aviation and Marine Electronics"