Восстановление траекторий написания символов по их
изображениям
Поцепаев Р.В. ([email protected] )
Московский Физико-Технический Институт
1. Введение
Большинство существующих методов решения «оффлайн1» задачи распознавания символов включает три основных этапа обработки: предобработка, формирование набора признаков и классификация. Набор признаков формируется по следующим видам информации, полученным на этапе предобработки [3]: бинарная матрица, сглаженный граничный контур и скелет изображения. Такой подход позволил достичь высокой точности распознавания печатных и аккуратно написанных символов.
Стили написания произвольных рукописных символов широко варьируются. В отличие от печатных, рукописные символы из одного класса имеют существенно различные структуры скелетов, граничные контура и тем более бинарные матрицы. Этот факт накладывает ограничение на использование вышеуказанного подхода к распознаванию произвольных рукописных символов.
В то же время, существуют методы решения «онлайн» задачи, имеющие высокую точность распознавания рукописных символов [2]. Восстановление траектории движения пера по бинарному изображению символа сделало бы возможным применение «онлайн» методов к «оффлайн» задаче. Хотя полное восстановление траектории в некоторых случаях затруднительно или вообще невозможно, во многих случаях удается извлечь большую часть информации о траектории по изображению. В дальнейшем это позволит интегрировать «оффлайн» и «онлайн» методы и увеличить точность распознавания в «оффлайн» задаче для произвольных рукописных символов.
В данной работе мы предлагаем новый подход к восстановлению траектории, основанный на статистическом методах распознавания образов. Результатом обработки каждого символа является не единственная траектория, а список гипотез возможных траекторий и вероятностей их возникновения.
Статья организована следующим образом: во втором параграфе кратко рассматриваются предшествующие работы в данной области, в параграфе 3 мы формулируем задачу и описываем процесс предобработки, в параграфе 4 мы рассматриваем метод восстановления узловых областей и случайных разрывов, пятый параграф посвящен построению траектории написания. В шестом параграфе содержится экспериментальные результаты и, в завершении, параграф 7 подводит итог в данной работе.
2. Предшествующие работы
1 Существуют две различные постановки задачи распознавания символов. В «оффлайн» задаче [1] изображение символа получается при сканировании документа, содержащего рукописный текст - входными данными являются матрицы точек. Другой способ получения изображения - это использование специальных устройств, таких, как графический планшет; входными данными для задачи являются траектории движения пера, представляющие собой последовательности координат пера полученных в процессе написания символа. Такая задача называется задачей «онлайн» распознавания [2]. Термины «оффлайн» и «онлайн» распознавание заимствованы из англоязычной литературы, которые в оригинале звучат как off-line handwritten recognition и online handwritten recognition.
В последнее время задаче восстановления траектории посвящено большое количество публикаций [4-13]. Кратко рассмотрим основные результаты в данной области.
В работе [4] С. Ли и Дж. Пен предложили метод восстановления траектории подписи, основанный на применение набора эвристик к скелету изображения. В работах Говиндараджи и др. [5,6] описано восстановление траектории написания слов путем нахождения наиболее гладкого пути в каждой окрестности пересечения. В дальнейшем, разными авторами был предложен ряд методов, также основанных на использовании скелета и набора эвристических правил для восстановления траектории в точках пересечения линий скелета [7-9].
Восстановление траектории по скелету изображения имеет существенный недостаток: критически важной информацией при восстановлении траектории является форма граничного конура в окрестности областей пересечения штрихов. Скелет искажает эту информацию либо вообще делает ее недоступной.
Д. Доэрманн и А. Розенфельд [10,11] предложили решение задачи восстановления штрихов для изображений с градацией серого, написанных с использованием определенного пишущего инструмента. В этом подходе вместо скелета изображения используется совокупность: матрица изображения, граничный контур и некоторое дополнительное представление изображения.
Одна из наиболее универсальных моделей восстановления штрихов в окрестности их пересечений предложена Э. Л'Омером [12]. В модели используются следующие идеи: разделение изображения на отрезки штрихов и области их пересечения, аппроксимация границ штрихов в окрестности узлов полиномами четвертого порядка, статистический подход к принятью решений. Точность восстановления узлов в этом методе выше, чем в методах, опирающихся на скелет изображения. Модель имеет недостатки: высокая вычислительная сложность, отсутствует восстановление всей траектории.
Вероятно, по локальному изображению узловой области невозможно восстановить траекторию в узле, а следовательно, и всю траекторию с высокой точностью. Об этом свидетельствует анализ предшествующих работ. Для дальнейшего увеличения точности требуется дополнительная информация или дополнительные ограничения на вид возможных траекторий. В работе [13] Йо. Като и М. Ясухара предложили метод, который с очень высокой точностью восстанавливает траекторию символа, однако при этом на траекторию накладываются существенные ограничения, в частности, отсутствие отрывов пера от бумаги при написании.
В данной работе используется статистический подход, который позволяет получить упорядоченный по вероятности список возможных траекторий, причем с заданной вероятностью верная траектория включается в список. Кроме того, предлагается новый метод восстановления узловых областей и всей траектории с более высокой точностью по сравнению с большинством существующих методов.
3. Предобработка и постановка задачи восстановления траектории
Обычно траектория символа имеет разрывы, соответствующие отрыву пера от бумаги. В дальнейшем будем говорить, что символу соответствует набор траекторий движения пера. Начальная и конечная точки каждой траектории - это точки касания и отрыва пера от бумаги. Хотя в «оффлайн» задаче распознавания во многих случаях удается восстановить каждую из траекторий символа, все же невозможно точно определить последовательность возникновения траекторий на изображении, а также для каждой траектории отличить начальную точку от конечной.
Каждой траектории на изображении соответствует штрих - полоса черных точек шириной, равной диаметру пишущего инструмента. Давление пера на бумагу не постоянно, поэтому в разных точках траектории толщина штриха может быть различна. Штрих может иметь самопересечения, пересекаться с другими штрихами, накладываться на себя и на другие штрихи. За счет изменения площади соприкосновения пера с бумагой, а также за счет искажений, связанных с процедурой сканирования, штрих может быть существенно искажен на изображении - искажаются границы и возникают случайные разрывы штриха.
Описываемый здесь подход базируется на этапе предобработки, который состоит в следующем: изображение символа разбивается на полосы черных точек, соответствующие непересекающимся отрезкам штрихов - регулярные области, и области пересечения штрихов - узловые области. Подобные алгоритмы предобработки описаны в работах различных авторов [12, 14, 15]. Здесь используется метод, предложенный Р. Поцепаевым, И. Петровым [15] в котором регулярные и узловые области строятся на основе граничного контура изображения сглаженного с помощью линейной аппроксимации.
Регулярная область, полученная на этапе предобработки, может принадлежать двум и более штрихам или являться одновременно разными частями одного штриха в том случае, если пишущий инструмент прошел по одной траектории (возможно приблизительно) более одного раза (см. рис. 1(б), регулярная область 2). Для подавляющего большинства символов достаточно ограничиться рассмотрением случая, для которого выполнено следующее
Условие 1. Регулярная область либо принадлежит одному штриху и входит в этот штрих как его часть не более двух раз либо принадлежит двум разным штрихам и входит в каждый из них строго по одному разу.
Каждый штрих из набора штрихов можно представить в виде последовательности
регулярных соединенных случайных Соединением областей
а)
т.
Рис. 1. Изображение на каждом этапе обработки: а) начальное изображение, б) набор регулярных областей, в) восстановленная траектория
областей в узлах и разрывах. средних линий из
последовательности можно получить каждую траекторию из набора.
Из-за того, что некоторые регулярные области могут являться частями двух штрихов или дважды встречаться в одном штрихе, построенная и действительная траектории могут незначительно отличаться, однако окончательную траекторию можно успешно скорректировать.
Таким образом, задача восстановления набора траекторий сводиться к задаче нахождения набора вышеописанных последовательностей регулярных областей. Условие 1 в терминах последовательностей означает, что регулярная область не может более двух раз встретится во всем наборе последовательностей. Регулярную область, которая встречается в наборе последовательностей два раза, назовем дуплетом.
4. Восстановление штрихов в узлах и разрывах
4.1 Байесовская модель принятия решений
Рассмотрим некоторый узел и концы средних линий всех регулярных областей, входящих в него. Одна и та же область может входить в узел обоими концами. Начиная с произвольной точки, произведем обход границы узла по часовой стрелке и пронумеруем концы регулярных областей в той последовательности, в которой они входят в узел числами от 1 до т. Решение задачи восстановления штрихов в узле, иначе говоря, конфигурацию узла можно представить в виде симметричной бинарной матрицы Ст, причем ег} = 1, если концы регулярных областей с номерами / и образуют часть штриха.
Сумма элементов в строке не превосходит двух, что следует из условия 1. Например, правильным решениями для узлов на рисунке 5 будут матрицы (номера концов средних линий областей совпадают с номерами областей):
(0 0 1 0 ^ 0 0 0 1 1 0 0 0
0 1 0 0,
ч У
В дальнейшем при исследовании определенного узла для простоты будем считать, что номера концов регулярных областей (1..т) совпадают с номерами самих областей, т.е. будем говорить, что в узел входят регулярные области с номерами 1..т, хотя, конечно, это не всегда так.
(0 1 П
Сз =
00 00
, С4 =
Сз =
(0 0 1\ 0 0 0 1 0 0
Для нахождения правильной конфигурации используется байесовское решающее правило [16]. Если узел X имеет конфигурацию C, то математическое ожидание потерь связанное с выбором неверной конфигурации есть
rc(X) = ^ p(C | X)L(C, C), где p(C | X) - апостериорная вероятность конфигурации C ;
L(C, C) - стандартная функция потерь выбора конфигурации C при верной конфигурации
В качестве решения выберем конфигурацию C * минимизирующую математическое ожидание общих потерь:
C * = arg min rC (X) = arg max p(C | X) (1)
CeT„
CT
Согласно формуле Байеса выражение (1.1) можно представить в следующем виде: C* = arg max ^p(X1 C)p(C)— = arg max ln(X | C) + ln p(C) - const,
X p( X | C) p(C)
(2)
Класс 3.1
Класс 3.2
Класс 3.3
Класс 3.4
где p(X | C) - функция правдоподобия для конфигурации С; p(C) - априорная вероятность возникновения конфигурации С; const = ln ^ p(X | C) p(C).
CgT
4.2. Определение значения априорной вероятности p(C).
На множестве всевозможных матриц Tm для узла кратности m рассмотрим следующее бинарное отношение р. Пара
Рис.2 Всевозможные конфигурации для узла кратности т=3. Конфигурации разбиты на классы эквивалентности
матриц < С1, С2 > принадлежит р, если существует циклическая перестановка со следующим свойством: матрица С1 переходит в матрицу С2 если переставить столбцы и строки матрицы С1 согласно этой перестановке. Легко показать, что данное отношения есть отношение эквивалентности и конфигурации из одного класса эквивалентности имеют одинаковую структуру и отличаются лишь нумерацией регулярных областей входящих в узел (см. рис. 2). В каждый класс входят не более т конфигураций, так как существует только т циклических сдвигов. В дальнейшем будем предполагать, что конфигурации из одного класса имеют одинаковую вероятность появления на изображениях символов.
4.3. Определение функции правдоподобия р(X | С). Величина р(Х | С) вычисляется на основе двух
признаков, первый признак
определяются для каждой пары регулярных областей Яг-, Я входящих в узел, второй признак ф определяется для каждой регулярной области Яг-, /=1..т. Рассмотрим признаки более подробно.
4.3.1. Признак ку
Рассмотрим регулярные области Яг-, Я в окрестности узла. Возможную траекторию, соединяющую Яг-, Я внутри узла представим в виде полинома третьей степени Р3(г) для которого выполнены следующие условия (рис. 3):
4 = г^а, Я2 = Рз(0) = 0; РЪ(Ь) = 0; Р,(0) = 4; Р,(Ь) = 4; (3)
Значения коэффициентов полинома определяются единственным образом
Рз(г) =
4+4 ~1Т~
3 , - 24 -42 >2
г +
Ь
г +4г;
(4)
В качестве одного из признаков удобно было бы принять интеграл кривизны, однако определение значения интеграла кривизны затруднительно с вычислительной точки
Ь
зрения. На практике применяется интеграл I = |(Р3 (г))2Фг. В нашем случае, его значение
0
4
может быть найдено аналитически: 1 = Т (4+44 +4); (5)
Следует сказать о важной физической интерпретации полученных результатов: пусть заданы граничные условия - начальное и конечное положение пишущего инструмента, а также начальный и конечный вектор его скорости. Полученный интеграл пропорционален минимальным затратам мышечной энергии (ускорение в каждой точке), необходимым для
перемещения пишущего инструмента с сохранением граничных условий.
То, что затраты действительно минимальны следует из утверждения, которое несложно доказать: для любой функции ^ е [0,£], удовлетворяющей граничным
условиям (3), величина |2Фг не
*ис. 3. Восстановление траектории в узле
превышает значения полученного интеграла I = &, где = Р3 (V).
0
Значение признака к] определяется следующим образом:
п п л , I (ЯЯ + ЯЯ2 + ЯЯ) ,
если а < — ,р< — то к= — = —-Чг-—, иначе к,, =
2'
2
4Е
Е
ьи
к13 =
к23 =
2.232 2.04
= 10.4
22.8
Если Е достаточно мало, то использование признака кг] может приводить к неверным результатам, поэтому, если значение Е меньше заданной константы Ешь, то начальная и конечная точки смещаются внутрь регулярных областей на равные расстояния. Значение Еш;п определяется экспериментально.
В некоторых случаях, о которых будет сказано ниже, значение к] вычисляется не по средним линиям областей Яг, Я] а по граничным линиям этих областей.
4.3.2. Признак
Для каждой области Яг-, ¡=2..т определим & как отношение длины линии ¡1 соприкосновения узла и области Я^ (см. рис. 3) к средней ширине штриха символа &ср, т.е. & = ¡1 /ёср . Обычно величина & для дуплетов больше чем для других регулярных областей так как через линию ¡1 проходит два штриха.
Рис. 4. Различные значения признака к].
4.3.3. Вычисления признаков к] для дуплетов
Если две регулярные области Яг, Я] (см. рис. 5) образуют штрих, причем обе области не являются дуплетами, то границами образованного штриха будут ломаные В1А1А]гВ]г и В^АВц (например, рис. 5(б), пары регулярных областей {Я2, Я3} и {Я2, Я4}, рис. 5(в) пара областей {Я2, Я3}). В этом случае траектория штриха внутри областей Яг-, Я] совпадает с их средними линиями и признак к] определяются именно по средним линиям областей Яг-, Я] .
Если же регулярная область Я является дуплетом и пары областей {Яг, Я]}, {Яг, Як} образуют штрихи, то невозможно однозначно решить, которой из границ штрихов {Яг, Я]}, {Яг, Як} принадлежит каждая из двух границ области Я^ так как имеет место наложение штрихов друг на друга. Таким образом, из четырех возможных границ двух штрихов БцАцА]гВ]г, ВААкгВкг, ВггАггАыВы, В^А^АВ лишь две границы наблюдаются на
Рис. 5. Примеры узловых областей. Я - регулярная область; Ломанные ВцАи, В,ГА,Г -левая и правая границы области; АцА^ - отрезок соединения узла и области Я
изображении (см. рис. 5а, область Я1 - дуплет, штрихи {Яь Я2}, {Яь Я3}). Траектории штрихов {Я., Я/}, {Яь Як} внутри области Я, не совпадает со средней линией, поэтому признаки к/, кк определяются не по двум средним линиям, а по двум границам. Рассматривается два возможных варианта: к/ определяется по ВцЛцЛ/гВ/г, к1к определяется по В^Л^ЛшВш, либо ку, определяется по ВцЛцЛкгВкг, к1к определяется по В^гЛцВц. Для определения ку, к1к рассматриваются оба варианта, и выбирается тот, в котором значение р(ку | су = 1) • р(к1к | с 1к = 1) максимально (см. формулу 8).
Информацию об окрестности узла представим в виде X = { \кЛ , й,..,йт}, с учетом
II \\тхт
ку = к1, у е 1..т . Метод восстановления штрихов в узле основывается на следующих предположениях: траектория и границы внутри узла имеют малую кривизну (признак ку);
ширина дуплетов в окрестности узла больше чем ширина обычного штриха (признак й).
Для нахождения р(Х | С) воспользуемся следующими предположениями. Будем считать, признаки ку и й 1 статистически не коррелированны, т.е.
р( X | С) = р(|ку| х , й,.., й т | С) = р(||ку| х |С)р(й1,.., й т | С) (7)
II 7 итхт II 7 Итхт
Также, будем считать, что плотность распределения признака к. зависят только от факта, образует ли штрих пара Я., Яу , т.е. зависит только от значения су. Таким образом
тт
р(|Ы|тхт1С) = П Пр(кУ|Су ) (8)
1=1 у=1+1
Если области Я1, Яу не являются дуплетами, то ку вычисляются по средним линиям, в противном случае вычисления производятся с использованием границ областей как описано выше.
Будем предполагать, что ширина штриха зависит только от того, является ли штрих дуплетом:
т
рй ,.., й т | С) = П ), (9)
1=1
т
где = 1 если ^ с у = 2, т. е. Я1 - дуплет, иначе = 0.
у=1
Окончательно, подставляя (8), (9) в (7) имеем
тт
р(X | С) = П р(й1^1) П р^у^у) (10)
1=1 у=1+1
Таким образом, среди множества возможных конфигураций Тт выбирается конфигурация, имеющая максимальную меру, согласно формулам (2), (10). На большой выборке различных узлов делается статистическая непараметрическая оценка плотностей распределения р(к | с = 0), р(к | с = 1), р(й | 5 = 0), р(й | 5 = 1) Также делается статистическая оценка априорной вероятности р(С) возникновения конфигурации из каждого класса эквивалентности. Как уже было сказано, мы предполагаем, что величина р(С) для различных матриц из одного класса принимает одинаковые значения.
4.4 Поиск и восстановление случайных разрывов
Из-за использования тонких пишущих инструментов и недостатков сканирования на изображении могут возникать случайные разрывы штрихов. Для некоторых типов
отсканированных документов низкого качества разрывы являются серьезным препятствием для корректного распознавания.
После процедуры выделения регулярных областей, задача поиска разрывов траектории сводится к поиску пар точек, являющихся концами средних линий регулярных областей, которые образуют разрыв. Пусть Я', Я] - регулярные области, точки рл, Р], й, £ е {0,2} -
концы средних линий этих областей, для которых решается задача о разрыве. Признаками для получения функций правдоподобия служат: расстояние между точками г и уже известные признак к, который вычисляются по средним линиям пары областей Я', Я] между точками Р&, Р] так же, как в задаче восстановления узлов. Если значения г, к
превышают порог, пара Р&, Р] как возможный разрыв не рассматривается.
Пусть р(Ь = 21 к, г), р(Ь = 01 к, г) = 2 - р(Ь = 01 к, г) - апостериорные вероятности того, что пара (Рг-, Р]) со значениями признаков к и расстоянием между точками г образует (Ь=2) или не образует (Ь=0) разрыв. По формуле Байеса
р(Ь = 21 к,г) =-Р(к,г|Ь =2)Р(Ь =2)-; (22)
р(к, г | Ь = 2)р(Ь = 2) + р(к, г | Ь = 0)(2 - р(Ь = 2))
Пара (Pid, Р]) определяется как разрыв, только если р(Ь = 21 к, г) > 0.5.
На большой выборке различных пар делается статистическая оценка плотностей распределения р(к, г | Ь = 2), р(к, г | Ь = 0) и априорной вероятности возникновения разрыва р(Ь = 2).
5. Построение наборов траекторий
5.1. Построения списка гипотез об узлах и разрывах символа
Описанный в предыдущей главе метод восстановления узлов позволяет не только найти наиболее правдоподобную конфигурацию, но и упорядочить все конфигурации по вероятности. При восстановлении случайных разрывов пара ответов «разрыв», «не разрыв» также может быть упорядочена по вероятности.
В данной работе решение задачи о восстановлении траектории движения пера будет представлено не одним набором траекторий движения пера, а совокупностью наборов, каждый из которых имеет оценку достоверности. Другими словами, выдвигается не одна гипотеза о начертании символа, а несколько гипотез, упорядоченных по достоверности.
Пусть на изображении имеется р узлов и q возможных разрывов. Выберем конфигурации узлов С ,...,Ср и разрывов Ь1,..., Ь", причем Ьг = 2, если некоторая пара (Pid,Р]) концов регулярных областей рассматривается как разрыв, иначе Ь' = 0. Пары (Р&, Р]), для которых значения параметров превышает некоторый порог, как возможные
разрывы не рассматриваются и не входят в набор Ь1,...,Ь".
Из формул (2), (2 2) следует, что вероятность возникновения траектории равна
Р(Т 11) = Р(С2,..., Ср, Ь,..., Ь" | X1,... Хр, г1, к2,... г", к") = П Р(С' | X') П Р(Ь' | г', к'), (22)
'=2 г=1
где Т - траектория, I - информация об изображении.
Очевидно, что Р(Т 11) принимает максимальное значение для конфигураций, имеющих максимальную меру Р(С' | X') и для возможных разрывов со значением Р(Ь' | г',к') > 0.5.
Однако экспериментальная проверка методов определения конфигураций узлов и поиска разрывов показала, что достоверность методов (см. параграф 6) ниже точности, необходимой для распознавания. Следовательно, достоверность того, что по набору С1,...,Ср,Ь1,...,Ьч для которого Р(С' | X'), Р(Ь' | гг,к) максимальны, будет построена действительная траектория изображения также меньше точности, необходимой для распознавания.
Данная проблема может быть решена следующим образом: отсортируем всевозможные наборы С1,...,Ср,Ь1,...,Ьд по убыванию величины Р(Т 11). Для построения гипотез о наборе траекторий отбирается только часть полученного списка. Длина списка N может быть фиксирована - выбираются первые N наборов, либо фиксируется вероятность Р попадания верной траектории в список, и длина списка N выбирается так, чтобы сумма вероятностей траекторий из списка превосходила Р.
5.2. Преобразование гипотезы об узлах и разрывах в гипотезу о наборе траекторий
По известному набору С1,...,Ср,Ь1,...,Ьд может быть построен один или несколько наборов траекторий. В некоторых случаях набор С1,...,Ср,Ь1,...,Ьд может быть признан некорректным, при этом он выбрасывается из рассмотрения.
На рисунке 6 представлены примеры работы алгоритма построения набора траекторий по известной набору С1,...,Ср,Ь1,...,Ьд который имеет максимальную меру Р(Т 11). Во всех примерах на рисунке 6 по набору С1,...,Ср,Ь1,...,Ьд строится верная траектория.
Линией двойной толщины отмечены дуплеты, которые затем расщепляются на два отрезка траектории. Дуплеты делятся на две группы: первая группа - один конец дуплета соединен с двумя регулярными областями, второй конец не соединен ни с одной из регулярных областей (рис. 6 а)Я1, в)Я1,Я2, д)Я1); вторая группа - каждый из двух концов соединены с двумя регулярными областями (рис. 6 г)Я1, д)Я2, е)Я1). Возможен также случай, когда один конец дуплета соединен с двумя областями, другой - только с одной областью, в этом случае, эта область также объявляется дуплетом, возникает цепочка дуплетов, которая обрабатывается как единый дуплет (рис. 6 б)Я1, Я2).
Дуплеты первой группы расщепляются однозначным образом, для дуплетов второй группы генерируется два варианта траектории (рис. 6 (г,е)).
6. Экспериментальные результаты
6.1. Метод проведения эксперимента
Для исследований использовалась база, состоящая из 5200 изображений рукописных символов - 200 изображений каждой буквы английского алфавита (100 заглавных и 100 строчных букв). Использовались изображения символов, полученные на различных сканирующих устройствах и написанные разными авторами, стили письма варьируются в самом широком диапазоне. База была разделена на две части - для настойки и тестирования системы.
Для тестирования систем, предназначенных непосредственно для распознавания символов, каждому изображения из базы достаточно поставить в соответствие правильный код символа. В нашем случае, результатом обработки изображения является не код символа, а траектория его написания, поэтому, для автоматической настройки и тестирования системы необходимо каждому изображению поставить в соответствие истинную траекторию его написания. Причем должен существовать механизм сравнения истинной траектории с траекторией, полученной системой.
В системе реализован полуавтоматический процесс создания верной траектории по изображению. Для каждого изображения базы после выделения регулярных и узловых областей, оператор с помощью мыши проводит линии, соединяющие регулярные области, которые образуют штрих в узле, или соединяющие случайные разрывы. Полученная информация записывается и хранится вместе с базой изображений.
В конечном итоге, для всех изображений базы была создана информация об узлах и разрывах, что сделало возможным дальнейшее автоматическое обучение, настройку параметров и тестирование системы.
а)
N
Я2
гО
Рис. 6. Восстановление траектории по изображению
6.2. Вычисление распределений для признаков
Для расчета формул (2), (2 2) требуется знание следующих распределений:
p(k | c = 0), p(k | c = 1), p(d | s = 0), p(d | s = 1), p(C) для формулы (2) и p(k, r | b = 0), p(k, r | b = 1), p(b = 1) для формулы (11).
Для получения значений p(k | c = 0), p(k | c = 1) использовался метод гистограмм (см. рис 7). Область значений k была разбита на 16 ячеек, для каждой ячейки было вычислено h(i) = N/N^, где N - количество точек, попавших в ячейку (i), N^ - общее количество точек. Если в точке (i0) значение h(i0) меньше некоторого минимального порога, для его определения используется метод «k ближайших соседей». Именно, берется множество Z = {z} из k непустых ячеек ближайших к (i0), включая (i0), и вычисляется на этом множестве
значение h(i0) = — ^ h(z), где L - количество точек в минимальном отрезке с центром в
L zeZ
(i0), который покрывает множество Z.
Распределения p(d | s = 0), p(d | s = 1), p(k, r | b = 0), p(k, r | b = 1) вычисляются
аналогичным образом -
0-4т здесь также применяется
метод гистограмм и метод «k ближайших соседей». В следующей таблице представлены распределения априорной вероятности классов конфигураций p(C) для узлов размерности 3 (см. рис. 2). Аналогичные данные получены и для узлов кратности 4. Всего 8 конфигураций
кратности 3 разбивается на 4 класса и 41 конфигурация разбивается на 12 классов для m=4, при этом, отброшены 23 конфигурации кратности 4 не удовлетворяющие условию 1. Узлы кратности 5 встречаются крайне редко, поэтому им присвоены равные значения p(C). Таблица 1.
0.3
0.2 ----
0.1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Рис. 7. Распределения p(k | c = 0), p(k | c = 1) полученные с помощью метода гистограмм
Класс 3.1 3.2 3.3 3.4
Кол-во конфигураций в 1 3 3 1
классе
% 2 61 37 0
6.3.Результаты восстановления узлов и разрывов
В таблице 2 представлены результаты распознавания узлов, основанного на формуле (2) . Гипотезы о конфигурации упорядочены по убыванию апостериорной вероятности возникновения. В первой строке указан размер усеченного списка гипотез, во второй -доля попавших в этот список правильных конфигураций. Эксперимент проводился на всех узлах тестовой выборки базы символов. Отдельно приведены результаты для узлов кратностей 3 и 4. Доля правильно распознанных разрывов для задачи восстановления разрывов равна 87.4%.
Таблица 2. Результат распознавания конфигураций узлов
Длина списка кандидатов 1 2 3 4 5
Доля правильно распознанных 87.3 95.9 98.3 99.1 99.6
конфигураций, %
Доля правильно распознанных 89.5 97.3 99.1 99.5 99.9
конфигураций кратности 3, %
Доля правильно распознанных 77 86.6 88.8 92.7 96.2
конфигураций кратности 4, %
6.4. Результаты восстановления траекторий
Получены данные восстановления траекторий по всем изображения тестовой выборки
базы символов.
Таблица 3. Результат распознавания траекторий
Длина списка кандидатов 1 2 4 8 16
Доля правильно 74.1 85.1 92.2 98.1 99.2
восстановленных
траекторий,%
7. Заключение
Мы представили технологию выделения траектории движения пера по изображению символа. По-видимому, наш главный результат - это целостный подход к задаче на основе мягкого вероятностного принятия решений.
Системой с мягким принятием решений называется система, в которой все решения представляются в виде списка кандидатов (список возможных решений) с приписанными им весами (в нашем случае вероятностями). Здесь принятие мягких решений происходит как на уровне узлов и разрывов, так и на уровне гипотез траекторий. Отметим также следующие результаты работы:
1. Восстановление узлов с высокой точностью;
2. Поиск и восстановление случайных разрывов;
3. Построение траектории написания по восстановленным узлам и разрывам; Описанная технология в совокупности с методами «онлайн» распознавания позволит в
дальнейшем сделать существенный шаг вперед в такой важной области искусственного интеллекта, как распознавания рукописного текста.
СПИСОК ЛИТЕРАТУРЫ
1. Govindan V.K., ShivaprasadA.P. Character recognition - a review // Pattern Recognition
— 1990. — V. 23. — N 7. — P. 671-683.
2. Tappert C.C., Suen C.Y., Wakahara T. The state of art in on-line handwriting recognition // IEEE Trans. Pattern Anal. Mach. Intell. — 1990. — V. 12. — N 8. — P. 787-808.
3. Trier O. D., Jain A. K., Taxt T. Feature extraction methods for character recognition - a survey // Pattern Recognition — 1996. — V. 29. — N. 4. — P. 641-662.
4. Pan J.C., Lee S. Offline tracing and representation of signatures // IEEE Trans. Systems, Man and Cybernetics — 1992. — V. 22. — N 4. — P. 755-771.
5. Govindaraju V., Srihari S.N., Separating handwritten text from interfering strokes. — in Simon J.-C., Impedovo S.(Ed.) From pixels to features III : Frontiers in handwriting recognition
— Elsevier — Amsterdam — 1992 — P. 17-28.
6. Govindaraju V., Krishnamurthy R.K. Holistic handwritten word recognition using temporal features derived from off-line line images // Pattern Recognition Letters — 1996. — V. 17. —P. 537-540.
7. Boccignone G., Chainese A., Cordelia L.P., Marcelli A. Recovering Dynamic Information from Static Handwriting // Pattern Recognition — 1993. — V. 26. — N 3. — P. 409-418.
8. Nishida H. An approach to integration of off-line and on-line recognition of handwriting // Pattern Recognition Letters — 1995. — V. 16. — P. 1213-1219.
9. Abuhaiba I.S.I., HoltM.J.J., Datta S. Processing of binary images of handwritten text documents // Pattern Recognition — 1996. — V. 29. — N 7. — P. 1161-1177.
10. Doermann D. S., Rosenfeld A. The interpretation and reconstruction of inferring stokes // International Workshop on Frontiers in Handwriting Recognition — 1993. — P. 29-40.
11. Doermann D.S., Rosenfeld A. Recovery of temporal information from static images of handwriting // International Journal of Computer Vision — 1995. — V. 15. — P. 150-154
12. L'Homer E. Extraction of strokes in handwritten characters // Pattern Recognition — 2000. — V. 33. — N 10. — P. 1147-1160.
13. Kato Y., Yasuhara M. Recovery of drawing order from single-stroke handwriting images // IEEE Trans. Pattern Anal. Mach. Intell. — 2000. — V. 22. — N 9. — P. 938-949.
14. Nishida H., Suzuki T., Mori S. Thin line representation from contour representation of handprinted characters. — in Simon J.-C., Impedovo S.(Ed.) From pixels to features III : Frontiers in handwriting recognition — Elsevier — Amsterdam — 1 992 — P. 29-44.
15. Поцепаев Р.В., Петров И.Б. "Эффективный алгоритм предобработки изображений для структурных методов распознавания рукописных символов". Электронный журнал "Исследовано в России", 19, стр. 181-190, 2003 г. http://zhurnal.ape.relarn.ru/articles/2003/019.pdf
16. ТуДж., Гонсалес Р. Принципы распознавания образов. Пер. c англ. - М.: Мир, 1978.