Научная статья на тему 'Параметрическая и структурная адаптация многоуровневых систем распознавания текстовых меток на видеоизображениях'

Параметрическая и структурная адаптация многоуровневых систем распознавания текстовых меток на видеоизображениях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
403
78
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РАСПОЗНАВАНИЕ СИМВОЛОВ / АДАПТАЦИЯ СИСТЕМ РАСПОЗНАВАНИЯ / RECOGNITION OF SYMBOLS / RECOGNITION SYSTEMS ADAPTATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Воскресенский Евгений Михайлович, Царёв Владимир Александрович

В статье предложены новые методы параметрической и структурной адаптации многоуровневых систем распознавания текстовых меток на видеоизображениях, структура которых представляется в виде вертикальной иерархической композиции алгоритмов. Методы позволяют настраивать параметры алгоритмов анализа видеоизображений, а также параметры подсистемы принятия решений на промежуточных этапах анализа видеоизображений. Предложена методика повышения эффективности многоуровневых систем распознавания текстовых меток за счёт их структурной адаптации без сопутствующей модификации алгоритмов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Воскресенский Евгений Михайлович, Царёв Владимир Александрович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PARAMETRIC AND STRUCTURAL ADAPTATION OF TEXT LABELS RECOGNITION SYSTEMS

In article a new methods of multilevel text label recognition systems parametric and structural adaptation is offered. Such systems is described as hierarchical composition of algorithms. Methods allow adapting parameters of algorithms and parameters of decision-making subsystem of multilevel text label recognition systems. Method of multilevel text label recognition systems efficiency increase with their structural adaptation without necessity of algorithms modification is offered.

Текст научной работы на тему «Параметрическая и структурная адаптация многоуровневых систем распознавания текстовых меток на видеоизображениях»

ПАРАМЕТРИЧЕСКАЯ И СТРУКТУРНАЯ АДАПТАЦИЯ МНОГОУРОВНЕВЫХ СИСТЕМ РАСПОЗНАВАНИЯ ТЕКСТОВЫХ МЕТОК НА ВИДЕОИЗОБРАЖЕНИЯХ

Воскресенский Е.М., Царёв В.А.

Институт менеджмента и информационных технологий (филиал) Санкт-Петербургского государственного политехнического университета

Аннотация

В статье предложены новые методы параметрической и структурной адаптации многоуровневых систем распознавания текстовых меток на видеоизображениях, структура которых представляется в виде вертикальной иерархической композиции алгоритмов. Методы позволяют настраивать параметры алгоритмов анализа видеоизображений, а также параметры подсистемы принятия решений на промежуточных этапах анализа видеоизображений. Предложена методика повышения эффективности многоуровневых систем распознавания текстовых меток за счёт их структурной адаптации без сопутствующей модификации алгоритмов.

Ключевые слова: распознавание символов, адаптация систем распознавания.

Введение

В настоящее время в связи с ростом производительности вычислительной техники значительно расширяется область применения систем технического зрения, в частности, систем распознавания текстовых меток (СРТМ) на видеоизображениях. Обычно СРТМ функционируют в составе оптоэлек-тронных систем контроля и используются для идентификации объектов, имеющих регистрационные надписи, например, промышленных изделий, упакованных продуктов, наземных транспортных средств, грузовых контейнеров, денежных купюр. Целью применения таких систем является избавление человека от рутинных операций, а также решение задач, с которыми он физически не способен справляться в режиме реального времени (конвейерная обработка изделий, поиск в базе данных и т.п.).

СРТМ являются частным случаем ОСЯ-систем, представленных системами распознавания текста различного происхождения (печатного, рукопечат-ного, рукописного). Объединяет системы распознавания текста и СРТМ одинаковый объект анализа -графическое изображение, похожие объекты распознавания - текст и текстовые метки, и некоторые общие подзадачи анализа изображений. Вместе с тем СРТМ имеют ряд отличительных особенностей. Во-первых, системы распознавания текста обрабатывают изображения с относительно высоким разрешением, полученные путём сканирования бумажных носителей. СРТМ же, как правило, функционируют в составе оптоэлектронных систем контроля и анализируют последовательность видеокадров, обладающих относительно низким разрешением. Во-вторых, системы распознавания текста малоэффективны при распознавании текста на сложном, неоднородном фоне, присущем входным изображениям СРТМ. В-третьих, условия функционирования СРТМ сопряжены с множеством факторов, затрудняющих визуальное восприятие текстовых меток, например, солнечные блики, тени, дождь, снег, грязь и т.п. Системы распознавания текста, в свою очередь, успешно обрабатывают в

основном лишь качественные изображения, поэтому часто внесение шума на изображение используется как средство защиты текста от автоматического распознавания (но не от чтения человеком). В-четвёртых, работая в составе оптоэлектронных систем контроля, СРТМ должны обеспечивать заданный режим быстродействия. К системам распознавания текста жёсткие требования такого рода, как правило, не предъявляются.

Достаточно большое количество публикаций посвящено описанию различных прикладных СРТМ, показывающих, что в настоящее время сложился общепринятый подход к представлению алгоритмической части СРТМ в виде многоуровневой системы алгоритмов.

Обычно алгоритмы используемых в промышленности и на транспорте СРТМ обладают множеством параметров, настройка которых позволяет адаптировать систему к заданным условиям эксплуатации при первичном внедрении СРТМ, при существенных изменениях условий эксплуатации (оптической схемы, освещения, фона и пр.) и при изменениях требований пользователя к показателям эффективности системы. Эффективность СРТМ принято характеризовать, с одной стороны, качеством распознавания, с другой - длительностью рабочего цикла, которая часто ограничена требованием распознавания в реальном времени. На современном этапе эффективность большинства эксплуатируемых систем далека от идеальной, что обусловлено не только несовершенством используемых алгоритмов, но и нередко неудачно настроенными параметрами.

Количество параметров СРТМ, как правило, довольно велико, например, распространённые российские системы распознавания автомобильных номеров обладают более чем тремя десятками параметров алгоритмов каждая. Зависимость значений критериев эффективности СРТМ от значений настраиваемых параметров носит сложный алгоритмический характер, что исключает применение аналитических методов вычисления оптимальных параметров. Кроме того, однократное вычисление значе-

ний критериев эффективности СРТМ при заданных значениях параметров алгоритмов нередко требует существенных вычислительных затрат времени, что затрудняет применение известных методов оптимизации. В результате в настоящее время настройка СРТМ производится, в основном, вручную и приблизительно. Такой подход требует от исполнителя высокой квалификации, сравнимой с квалификацией разработчика, и не гарантирует нахождение оптимальных параметров.

В статье рассматриваются многоуровневые системы распознавания текстовых меток, которые возможно представить в виде вертикальной иерархической системы алгоритмов, решающих отдельные подзадачи анализа видеоизображений. Выделен класс таких многоуровневых алгоритмов, предложена их математическая модель, на основе которой разработаны методы поиска оптимальных (в рамках заданной экзаменационной последовательности видеоизображений и дискретизации значений параметров) значений параметров алгоритмов таких систем. В качестве экспериментальной базы выбрана система распознавания идентификационных номеров объектов подвижного состава железнодорожного транспорта, описанная в [1].

1. Задача повышения эффективности систем распознавания текстовых меток на видеоизображениях

Главной составной частью СРТМ является её алгоритмическая часть - программный модуль распознавания. Обычно модуль анализирует видеоизображения как содержащие образ текстовой метки (информативные), так и не содержащие (неинформативные). В большинстве случаев он представляется в виде композиции алгоритмов, решающих отдельные логические подзадачи распознавания текстовых меток. Алгоритм локализации (АЛ) выделяет прямоугольную зону видеоизображения, потенциально содержащую образ текстовой метки. Алгоритм сегментации (АС) выделяет на зоне множество сегментов, предположительно являющихся образами символов метки. Алгоритм распознавания (АР) сопоставляет каждому сегменту код символа либо отклоняет сегмент. Алгоритм формирования решений (АФР) составляет из распознанных сегментов с учётом их взаимного расположения коды текстовых меток. Часто, чтобы не потерять истинное решение, между промежуточными этапами передаются списки вариантов решений с некоторыми эвристическими оценками их правдоподобия, а итоговое решение по изображению выбирает алгоритм принятия решений (АПР).

Алгоритмы локализации, сегментации и распознавания, как правило, эвристические и не всегда дают правильное решение, в связи с чем эффективность анализа информативных изображений характеризуется вероятностью правильного распознавания текстовой метки Рг^ы и вероятностью ошибки

Регг, а неинформативных - вероятностью ложного решения Р/аЬе. Четвёртым критерием является среднее время анализа отдельного изображения Т, влияющее на эффективность функционирования модуля в режиме реального времени. Таким образом, СРТМ характеризуется критериями:

Q ( Pright , Perr , Pfalse , T )•

(1)

right > err •> false

Статистические оценки значений критериев Q характеризуют эффективность функционирования алгоритма A с параметрами u = {u1,u2uk} в заданных условиях эксплуатации. Каждое место внедрения характеризуется аппаратным обеспечением СРТМ h , и полученной по месту внедрения экзаменационной выборкой видеоизображений B . Таким образом, основным средством обеспечения заданной эффективности Q(A,B, u,h) = (Pright, fierr, Pfake, £)

является настройка параметров СРТМ.

Обычно множество настраиваемых параметров довольно велико (до нескольких десятков). Зависимость Q(u) носит сложный алгоритмический характер, что исключает применение аналитических методов вычисления оптимальной конфигурации u * . Кроме того, однократное вычисление критериев Q обычно связано с существенными вычислительными затратами. Всё это приводит к тому, что на современном этапе настройка параметров модуля распознавания, как правило, выполняется вручную самими разработчиками, исходя из знания алгоритмов, опыта и интуиции. Это не гарантирует нахождения оптимальной конфигурации и требует существенного объёма трудозатрат при каждом внедрении СРТМ, поэтому актуальной задачей является создание методов, позволяющих рассчитывать оптимальные в заданных условиях эксплуатации значения параметров СРТМ без привлечения разработчиков.

Кроме того, эффективность современных СРТМ далека от идеальной по причине несовершенства современных методов распознавания образов. Например, для современных российских систем распознавания государственных регистрационных знаков автомобилей вероятность правильного распознавания в благоприятных условиях, как правило, составляет 0,8-0,9. Данная проблема ставит задачу совершенствования алгоритмического обеспечения СРТМ, в особенности подсистемы принятия решений СРТМ.

2. Модель многоуровневой системы распознавания текстовых меток на видеоизображениях

Современные методы оптического распознавания текстовой информации достаточно подробно описаны в литературе, однако малоисследованной остаётся задача синтеза модуля распознавания с заданными характеристиками из готовых алгоритмов с учётом условий эксплуатации. Большинство существующих моделей систем распознавания являются

моделями алгоритмов классификации и не подходят для описания многоуровневых алгоритмов распознавания текстовых меток. В связи с этим выделен класс AC многоуровневых эвристических алгоритмов распознавания текстовых меток, в который попадает большинство описанных в литературе СРТМ:

A(b) е AC ^ b е {Inf,Empty}, $Correct(A(b)) е {true, false}, A = A, о A, о ...о A ,

12 П

$ Correctj (Ai(b)) е {true, false},

(2)

где b - вход алгоритма A ; Inf - класс информативных входов, по которым алгоритм A должен возвращать некоторое непустое решение; Empty -класс неинформативных входов, по которым алгоритм A должен возвращать пустое решение; Correct - функция, определяющая, является ли решение алгоритма A по входу b правильным; At - алгоритм-компонент алгоритма A , i = l..n ; Correcti -функция, определяющая, является ли решение алгоритма-компонента Ai по входу bi правильным.

Для СРТМ, описываемых классом AC, разработана математическая модель, которая задаёт способы декомпозиции СРТМ и устанавливает функциональную зависимость критериев эффективности Q от критериев эффективности алгоритмов-компонентов. Два базовых (неделимых) алгоритма являются смежными, если выход одного из них (вышележащего) является входом другого (нижележащего). Композиция смежных базовых алгоритмов образует алгоритм-компонент Ai = Abk ° Abk+1 °...° A , алгоритмы-компоненты (далее алгоритмы), в свою очередь, образуют A = Aj ° A2 °...° An, где Abk,Ak4+j,..., A) -

смежные базовые алгоритмы, 1 £ k £ l £ m . Таким образом, существуют различные способы декомпозиции A . Алгоритм Ai характеризуется критериями

Qi = (P(Ci),P(Fi),Ti), где Ci =«выход алгоритма Ai правильный», Ti - затраты времени на анализ единицы входных данных. Если алгоритм способен давать пустой ответ, то дополнительным критерием может выступать вероятность события Fi =« выход алгоритма Ai не пустой». Статистические оценки

P(Ct), P(Ft), T рассчитываются по массиву прецедентов, в котором экзаменационные примеры представляют собой решения композиции вышележащих относительно Ai алгоритмов по входам экзаменационной последовательности B алгоритма A .

Каждому исходу анализа видеоизображения соответствует множество последовательностей событий Ci, Ci, F, F, определяющих связь Q и Q':

Pgt = P(Cj\I)P(C2\ICj )x...

xP(Cn\IClC2...Cn_l),

(3)

(4)

P = 1 - P - P

err right empty >

PemPy = P(Fl\I) + P(F2 | Щ) + ...

+P(Fn \IFiF2...Fn-i),

Pfalse = P(Fi\N )P(F2\NFi) X...

xP(Fn\NFiF2...Fn-i).

Здесь события I и N указывают на различные (информативные и неинформативные) входы, их вероятности равны i. Среднее время анализа входных данных T рассчитывается с учётом вероятности пустого выхода каждого алгоритма-компонента:

T = T + TP(Fi) + T3P(F, \ Fi) +...

+TnP(Fn\FiF2...Fn-i).

Особенности представления процесса распознавания текстовой метки в виде последовательности событий описаны в статье [2].

3. Метод параметрической адаптации многоуровневых систем распознавания

текстовых меток на видеоизображениях

Обычно задаётся ограниченное множество допустимых значений каждого параметра Uj е {vji,..vjm}, и все комбинации значений параметров образуют конечное множество конфигураций Conf. Поскольку критерии Q носят статистический характер, то оптимальные в рамках Conf и B параметры в общем случае являются квазиоптимальными. Задача вычисления оптимальных параметров u * при заданных A , B , h , Conf формулируется как задача

максимизации firght с учётом ограничений на зна-

чения остальных критериев:

i(PL (u)) , Pight (u ) Pr

и* = arg max(p right v

ue Conf

right

(5)

Perr (u*) < Ptr, fifabe (u*) < Plbe, T(u*) < Г .

false ^ ' false '

Декомпозиция позволяет производить поэтапную настройку алгоритма A . Способ декомпозиции предлагается выбирать с учётом затрат времени на составление массива прецедентов и на длительность процесса вычисления u * . При ограниченном количестве значений каждого параметра и заданной конфигурации вышележащих алгоритмов {u1,u2,...,u -i} задачу настройки алгоритма Ai можно свести к формированию подмножества Conf'fijl"e:

Conffjlter = {uj \ P(Ct \ uj) > Ct, T (u) < Tr}, (6) где пороги Cf, T'r задаются с учётом (5). Множество Conf'fitl"e может быть довольно большим. Его сокращение до множества оптимальных по Парето конфигураций сопряжено с возможностью потерять оптимальную конфигурацию u *. Это обусловлено тем, что выходы At образуют экзаменационную по-

следовательность для Ai+1, состав которой влияет на эффективность Ai+1,Ai+ 2,...,An. Поэтому оптимальная по P(Ct) и T конфигурация Ai не обязательно является составляющей оптимальной конфигурации u * алгоритма A (глобально оптимальной). Для выявления всех потенциально глобально оптимальных конфигураций алгоритма Ai предлагается использовать прецедентный критерий.

Прецедентный критерий - это вектор V = (Vi,V2,-,Va), Vj е {0,1}, Vj = 1 Ai(Inpj)~ Ej, иначе Vj = 0. Здесь Ej - эталонный результат анализа экзаменационного входа Inpj, «~» - знак эквивалентности, sz - количество экзаменационных примеров.

Необходимое условие глобальной оптимальности конфигурации u , которой соответствует прецедентный критерий V: конфигурация u должна быть оптимальна по Парето по векторному критерию q = V1V,...,V'z,T) на множестве Conf.

Тогда результатом настройки алгоритма A является сформированное из Conf''fllee множество удовлетворяющих необходимому условию конфигураций Conf ''opl. Если Conf''f"er не пусто, то формируется множество оптимальных по Парето конфигураций:

Conf i'opl =

, (7)

= {u' | u' е Conf'-filler, Par(q' (u')) = true}

где Par - функция, определяющая, является ли конфигурация u , характеризуемая векторным критерием q (u ), оптимальной по Парето на множестве Conf'■fller.

Метод вычисления u * заключается в последовательном - от вышележащих алгоритмов к нижележащим - вычислении множеств Conf''°pt, образующих в результате множество потенциально оптимальных конфигураций Conf00, если " е 1..n : Conf 'opl ф 0 . Далее вычисляются критерии эффективности конфигураций Conf00 и выбирается u * .

Настройка параметров описанного в [1] модуля распознавания идентификационных номеров объектов подвижного состава железнодорожного транспорта предложенным методом заняла менее 16 часов. При тех же условиях настройка методом перебора потребовала бы более 6 лет.

Возможна ситуация, при которой экзаменационная последовательность B содержит подмно-жества примеров, для эффективного анализа ко -торых следует применять различные конфигурации. Формировать такие конфигурации предлагается с использованием предложенного выше

метода, исключив при этом ограничения

P(C) > cf, T £ Tr.

4. Параметрическая адаптация подсистемы принятия решений многоуровневых систем распознавания текстовых меток на видеоизображениях Вместе с тем, настройка параметров алгоритмов не всегда позволяет решить задачу (5). В таком случае возможно применение известного в области распознавания текста подхода, который заключается в формировании алгоритмами списков вариантов решений (СВР) и позволяет снизить вероятность потери истинного решения на промежуточных этапах анализа.

Каждому решению сопоставляется некоторая численная оценка его правдоподобия, в соответствии с которой упорядочен СВР. Предлагается алгоритм усечения списков (АУС), принимающий решения об усечении списков до приемлемого размера либо их отклонении. Параметрами АУС являются пороги двух видов: К и E. Порог К, ограничивает длину СВР алгоритма A¡. Решение о принятии или отклонении СВР выполняется по результатам сравнения осреднённой оценки правдоподобия элементов усечённого списка с порогом Ei .

Задачей настройки системы принятия решений модуля распознавания является поиск оптимальных значений порогов uАУС = {K, E}. Обычно множество значений параметров АУС ConfAyc конечно, что позволяет настраивать их совместно с параметрами алгоритмов-компонентов. Однако часто требуется произвести настройку АУС при фиксированной конфигурации u , для решения этой задачи разработан метод расчёта оптимальных (при заданных A , B , h , ConfAyc ) значений параметров uАУС. Пусть AAyc е ac , при этом AАУС = {Д,A2,...,An}, где каждый Ai возвращает СВР.

Для расчёта оптимальных значений порогов uАУС параметры АУС устанавливаются в такие значения К"™ и E™11, при которых СВР пропускаются и не усекаются. В итоге выходом A является полный список вариантов решений, сформированных по результатам анализа видеоизображения. Далее по множеству B статистически оцениваются

Ph (u АУС), £ (u АУС), fiMe (uАУС).

Каждое решение dj из полного списка решений

d = {dj,d2,...,dk} алгоритма A образовано последовательностью промежуточных решений алгоритмов-компонентов dj, dj,...,d^_1, dj = d"n . Каждое

промежуточное решение d'j занимает определённую позицию p(dj) в соответствующем СВР, характеризуемым оценкой правдоподобия СВР e(dj),

а его корректность устанавливается с использованием массива прецедентов. Характеристики решений dj:

, иАУС) = {р^)), р^2),..., р^п)}, (8)

ЕуаI (dj, иАУС ) = {е^) ), в^),..., в^П )} позволяют установить исход анализа примера

при любой конфигурации иАУС и сформировать множество:

Conf

■АУС,filler _

..АУС ^ гАУС

u е Conf ,

P (u АУС) > Plr

1 r'ghl\u ) — 1 r'ghl ■

P (uАУС) > P\

err err

К,(uАУС) > pa

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

(9)

false^ ' false

Из полученного множества удаляются конфигурации, не удовлетворяющие ограничению T lr :

Conf Ayc'op =

= {uАУС | uАУС е ConfАУС,fller, T(uАУС) < Tlr},

(10)

где Т (и ) либо измеряется экспериментально, либо оценивается предложенным методом, который основан на статистическом расчёте среднего количества вызовов каждого алгоритма-компонента на одно видеоизображение при заданном иАУС.

Экспериментальной базой для исследования метода послужил разработанный модуль распознавания идентификационных номеров объектов подвижного состава железнодорожного транспорта, описанный в [1]. В ходе эксперимента настройка предложенным методом параметров АУС указанной системы распознавания при количестве конфигураций её параметров | Свп/АУС |= 40000 заняла около 20 минут (тесты производились в среде МЛТЬЛБ на компьютере со следующей конфигурацией: частота двухъядерного микропроцессора 1,83 ГГц, объём оперативной памяти 1 Гб). При аналогичных условиях непосредственное вычисление значений критериев эффективности каждой конфигурации (перебор) займёт 31 сутки.

5. Структурная адаптация многоуровневых систем распознавания текстовых меток на видеоизображениях

Помимо настройки параметров повышать эффективность многоуровневых СРТМ, функционирующих в режиме реального времени, предлагается за счёт их структурной адаптации.

Среднее время анализа видеоизображения складывается из времени анализа информативных и неинформативных изображений:

T = TI ■ Pi + TN ■ PN ,

(11)

где р1 + рм = 1, Т1 - время анализа информативного изображения, Тм - неинформативного, р, - частота

появления информативных изображений, рк - неинформативных.

Следовательно, увеличить затраты времени Т, возможно за счёт уменьшения затрат времени Т. Для этого в состав системы включается алгоритм, синтезированный из АС и АР, который производит классификацию локализованных зон на содержащие и не содержащие текстовую метку посредством анализа их фрагментов. Отсев неинформативных зон позволяет сократить средние затраты времени на анализ видеоизображений, существенная доля которых не содержит текстовых меток. В общем случае такая возможность существует, если:

1. Выходом некоторого алгоритма является решение а , образованное множеством элементов Л (Ь) = а = {а1 , а2,..., а£ } , классифицированных как информативные.

2. Вероятность ошибки классификации достаточно низкая.

3. Существует возможность получить частичное решение а' с а, произведя частичный анализ Ь .

Примером такого Л1 служит алгоритм распознавания сегментов, а также композиция алгоритмов сегментации и распознавания. В первом случае данные Ь представляют собой список сегментов, во втором - локализованную зону. В обоих случаях возможен частичный анализ Ь : подмножества сегментов и фрагмента зоны (полученного обрезкой левого и правого краев зоны), соответственно.

Если результаты частичного анализа Ь позволяют принимать решение о том, что данные Ь неинформативные, то, очевидно, следует использовать возможность «досрочного» завершения анализа Ь . Чтобы выяснить, является ли вход Ь информативным, достаточно получить подмножество решений а' с {а1 , а2,..., а£ }. Алгоритм ^ выполняет данные действия и, исходя из полученных результатов (найдено необходимое количество информативных решений), принимает решение о классификации Ь .

При этом возникает задача выбора порога Тг на количество элементов в а', например, на количество распознанных сегментов. Для решения данной задачи предлагается рассчитать (при заданном способе формирования а'):

1. Распределение вероятности количества элементов в а', рассчитанное по экзаменационному множеству информативных входов Б,.

2. Аналогичное распределение, рассчитанное по множеству неинформативных входов Бы.

Зная данные распределения, можно оценить эффективность алгоритма ^ при любом заданном пороге Тг и выбрать подходящий порог.

Для проведения экспериментов по структурной адаптации использовалась система распознавания идентификационных номеров объектов подвижного

u

состава железнодорожного транспорта. В состав разработанного модуля распознавания был включён алгоритм классификации зон (АКЗ), производящий сегментацию фрагментов зон, распознавание сегментов и принятие решения о классификации на основании количества распознанных сегментов (табл. 1). Экзаменационная последовательность состояла из 550 кадров с изображениями железнодорожных цистерн и вагонов с видимым идентификационным номером на борту, а также 688 изображений цистерн и вагонов без номера в кадре.

Таблица 1. Результаты экспериментов по сравнению эффективности типовой СРТМ и её версии с алгоритмом классификации зон

Эксперименты показали, что вероятностные показатели эффективности СРТМ с АКЗ идентичны показателям типовой СРТМ. В то же время использование АКЗ позволило сократить среднее время анализа видеоизображения на 50%, с учётом того, что в заданных условиях около 23% кадров содержат образ номера. Доверительный интервал для = 0,65 при надёжности оценки у = 0,95 равен (0,62, 0,68), оценка € = 0,6 характеризуется Р(| г - €|< 0,02) = 0,923.

Заключение

Таким образом установлено, что в настоящее время большинство описанных в литературе систем распознавания текстовых меток на видеоизображениях являются многопараметрическими системами и имеют однотипную структуру, представленную композицией алгоритмов локализации, сегментации, распознавания и принятия решений.

Такие системы могут быть описаны предложенной в статье моделью СРТМ, и к ним применимы описанные методы параметрической и структурной

адаптации СРТМ к заданным условиям эксплуатации. Для большинства современных СРТМ данные методы позволяют, во-первых, вычислять за приемлемое время оптимальный (в рамках заданной экзаменационной последовательности видеоизображений и дискретизации значений параметров) набор значений параметров системы. Во-вторых, они позволяют в значительной мере автоматизировать процесс параметрической адаптации СРТМ.

На практике это даёт возможность повышать эффективность не только самих СРТМ, но и процессов их разработки и внедрения, поскольку предложенные методы позволяют производить внедрение и вторичную настройку СРТМ без привлечения ал-горитмистов-разработчиков, снижая трудоёмкость процесса внедрения и его длительность.

Предложенная в статье методика повышения эффективности функционирования СРТМ за счёт их структурной адаптации позволяет существенно снизить среднее время анализа видеоизображений, большая часть которых не содержит образ текстовой метки. При этом не требуется сопутствующая модификация составляющих СРТМ алгоритмов.

Литература

1. Воскресенский, Е.М Метод параметрической оптимизации процесса принятия решений в системах распознавания текстовых меток на видеоизображениях / Е.М. Воскресенский, В.А. Царёв // Компьютерная оптика. - 2009. - Т. 33, № 2. - С. 202-209.

2. Воскресенский, Е.М. Метод оценки эффективности систем распознавания текстовых меток на сложном фоне с использованием дерева вероятностных характеристик / Е.М. Воскресенский, В.А. Царёв // Компьютерная оптика. - 2008. - Т. 32, № 3. - С. 283-290.

References

1. Voskresensky, E.M. Method of solution lists cut algorithms in text label recognition systems parametric optimization / E.M. Voskresensky, V.A. Tsarev // Computer Optics. - 2008. - V. 33, N 2. - P. 202-209. - (in Russian).

2. Voskresensky, E.M. Method of estimation of text labels recognition systems efficiency parameters with use of likelihood characteristics tree / E.M. Voskresensky, V.A. Tsarev // Computer Optics. - 2008. - V. 32, N 3. - P. 283-290. - (in Russian).

Критерии эффективности СРТМ Без АКЗ АКЗ

Время анализа инф. кадра, с 0,60 0,63

Время анализа неинф. кадра, с 0,71 0,25

Среднее время анализа кадра, с 0,68 0,34

PARAMETRIC AND STRUCTURAL ADAPTATION OF TEXT LABELS RECOGNITION SYSTEMS

E.M. Voskresensky, V.A.Tsarev Institute of Management and Information Technologies (branch) of the St.-Petersburg State Polytechnical University

Abstract

In article a new methods of multilevel text label recognition systems parametric and structural adaptation is offered. Such systems is described as hierarchical composition of algorithms. Methods allow adapting parameters of algorithms and parameters of decision-making subsystem of multilevel text label recognition systems. Method of multilevel text label recognition systems efficiency increase with their structural adaptation without necessity of algorithms modification is offered.

Key words: recognition of symbols, recognition systems adaptation.

Сведения об авторах

Воскресенский Евгений Михайлович, 1983 года рождения. В 2005 году окончил СПбГПУ по специальности «Программное обеспечение вычислительной техники и автоматизированных систем». Аспирант кафедры информационных и управляющих систем факультета технической кибернетики СПбГПУ, научный сотрудник лаборатории систем технического зрения и экспертных систем Института менеджмента и информационных технологий (филиала) Санкт-Петербургского государственного политехнического университета в г. Череповце (ИМИТ СПбГПУ).

Область научных интересов: обработка графических изображений, программирование, проектирование программного обеспечения. E-mail: [email protected] .

Evgeny Mikhailovich Voskresensky (b. 1983) graduated (205) from the Saint-Petersburg State Polytechnical University (SPbSPU). Post-graduate student of information and control systems chair of technical cybernetics faculty of SPbSPU, research assistant of vision systems and expert systems laboratory of Institute Of Management And Information Technologies {branch) of the SPbSPU in Cherepovets (IMIT SPbSPU).

Research interests are computer graphics processing, programming, and software designing. E-mail: [email protected]

Царёв Владимир Александрович, 1972 года рождения, в 1993 г. с отличием окончил МГУ им. М.В. Ломоносова по кафедре «Математической теории интеллектуальных систем» механико-математического факультета. Кандидат технических наук (1998), заведующий кафедрой программного обеспечения вычислительной техники и автоматизированных систем ИМИТ СПбГПУ.

Область научных интересов: обработка изображений и распознавание образов, математическое моделирование, системный анализ сложных систем обработки информации.

E-mail: vats @imit.ru .

Vladimir Aleksandrovich Tsarev (b. 1973) graduated with honours from Moscow State University in 1993. Doctor in Technical (1998) degrees, head of chair of computer and automated system software of IMIT SPbSPU.

Research interests are image processing and pattern regognition, mathematical modeling, systems analysis of complicated information processing systems. E-mail: vats @imit.ru.

Поступила в редакцию 28 мая 2010 г.

i Надоели баннеры? Вы всегда можете отключить рекламу.