базы данных и считывает их блоками. Следовательно, размер блока данных Огас1е всегда должен быть кратным размеру блока операционной системы.
Если при большинстве обращений к БД происходит полное сканирование таблицы или операции по обработке большей части записей выполняются внутри каждого блока, то число обращений к диску уменьшится за счет большого размера блока и производительность слегка увеличится. Однако при выполнении операций по чтению или изменению небольшой части блока, например единственной строки, производительность системы снизится из-за затрат Огас1е на считывание большого блока данных в память, в то время как требуется считать только эту строку.
Таким образом, следует отметить, что уже с самого начала работ по оптимизации программного обеспечения необходимо избрать правильное направление действий. При разработке приложений должна быть использована научная методология, позволяющая избежать бес-
системности, при этом применение каждого инструментального средства должно соответствовать его возможностям и назначению. Тестирование и оценка производительности всегда должны производиться в условиях реальной эксплуатации. Но простое понимание того, как работают различные части системы, является лишь первым шагом к повышению ее производительности. В процессе оптимизации нужно учитывать взаимодействие этих частей, поскольку плохо спроектированные или настроенные элементы системы могут свести на нет все усилия по настройке и оптимизации всех остальных ее элементов.
Библиографический список
1. Jefferson, A. Top Ten Tuning Tips [Electronic resource] / A. Jefferson. Electronic data. Mode of access : http:// samotlor.nips.ru/docum/Orade/Favorite/ora043.htm. Title from a display.
R. I. Nikitin, V. G. Tretyakov
PROJECTION AND TUNING SOFTWARE FOR EFFECTIVE FUNCTIONING WHITH DATABASE BY THE EXAMPLE DATABASE ORACLE
It is considered software engineering, projection and tuning process for datatabase. Describable approach touch not only engineering software, but and whole system: local area network, server, database, client part. It is shown possible weak points and means for their revelation on design and engineering phase; and also methods to increase productivity by tuning of different pars of the system.
Принята к печати в декабре 2006 г.
УДК 681.3.07
М. Н. Фаворская
ИНВАРИАНТНЫЕ РЕШАЮЩИЕ ФУНКЦИИ В ЗАДАЧАХ РАСПОЗНАВАНИЯ СТАТИЧЕСКИХ ИЗОБРАЖЕНИЙ
Приведена модель порождения статических изображений из эталонных образов для идеального и реального случаев. Введено понятие инвариантных решающих функций на основе принципа инвариантности статистических решений. Проанализированы способы определения максимальных инвариантных функций в некоторых группах методов распознавания изображений статических сцен.
Неформализованность задач распознавания изображений, заключающаяся в том, что они, как правило, ставятся не в формальном виде, а путем предъявления нескольких примеров с указанием принадлежности изображений тем или иным образам, вызывает трудности не только при создании программного обеспечения и аппаратной реализации, но и при теоретической оценке возможностей того или иного устройства или программы. Было предложено множество методов для решения конкретных задач распознавания, которые формально можно классифицировать на следующие группы: геометрические методы, метод потенциальных функций, метод допустимых преобразований, оптимальные и статистические методы, лингвистические методы, эвристические методы и т. д. Но все они решают, по существу, одну и ту же
задачу- задачу распознавания образов, но в разной формальной постановке. Таким образом, можно рассмотреть все методы распознавания с единой позиции и на основании этого построить некоторую обобщенную модель процесса распознавания.
Множество входных статических изображений очень трудно, т. е. практически невозможно описать с помощью аналитических выражений или достаточно простых и хорошо изученных распределений вероятностей, заданных на этом множестве. В общем случае такое множество можно представить как некоторую сложную, допускающую разрывы и изломы, окруженную облаком точек траекторию в многомерном пространстве входных сигналов. Однако такие представления не соответствуют реальной действительности, так как они не отра-
жают сущности большинства задач распознавания образов.
Используя основные положения теории множеств и бинарных отношений, можно построить такую модель формирования изображения статической сцены, которая объединила бы свойства процесса отражения объектов на воспринимающее устройство. В общем случае статическая сцена включает множество объектов наблюдения, однако для упрощения задачи можно считать, что изображения объектов не перекрываются (или была проведена предварительная сегментация изображений объектов, что само по себе представляет сложную задачу, требующую отдельного рассмотрения). При этом одному объекту наблюдения в общем случае может соответствовать бесконечное или, по крайней мере, очень мощное множество изображений его проекций в пространстве.
Пусть X - некоторое множество идеальных (подвергшихся фильтрации) изображений, на котором задано разбиение на такие подмножества У/, У2, ..., УЩ, что
X = У/1, У2,..., Уш, УпР, = 0 при IФ, (1)
Подмножества У, У2,..., Ут назовем классами данного разбиения.
Пусть/2 : X^ О - отображение множества изображений X на множество объектов наблюдения О; V0 , V0 , ...,
V0- разбиение множества объектов наблюдения О; ф': О ^ Оп - отображение множества объектов наблюдения О, которые могут находиться в произвольных проекциях, на множество нормализованных объектов Оп; ф': Оп ^ Z
- отображение множества нормализованных объектов
Оп
на множество эталонов 2; 2, 2,,..., 2щ - такое разбиение множества эталонов 2, что в каждом из подмножеств 2Х, 22, ..., 2ш содержится один и только один элемент, называемый эталоном образца. Понятие эталона здесь введено условно. В качестве эталона можно выбрать изображение образа в произвольной проекции, так как из него с помощью определенных преобразований может быть получено любое другое изображение данного образа.
На основании вышеизложенного модель порождения изображения Х'к можно представить в следующем виде (отметим, что изображения сами по себе представляют многомерный вектор, отражающий местоположение пикселей и их яркостную и цветовую характеристики). Каждому образу соответствует один эталонный объект 2, из которого посредством некоторого отображения ф: 2 ^ Оп порождаются все возможные объекты наблюдения данного образа О.,, отображение ф': Оп ^ О порождает все возможные проекции объектов, а все изображения XkеX порождаются в результате отображения /:
О ^ X множества объектов наблюдения О на множество изображений X. Таким образом, каждому элементу множества 2. с 2 соответствует подмножество Х'к с X.
Зададим на множестве X такое бинарное отношение эквивалентности, чтобы соответствующее ему разбиение У/, V/, ..., УЩ/объединяло в классы изображения одних и тех же образов. Таким отношением является отношение а, для которого
^аХ) о (ф' / / = ф' / (X))), (2)
т. е. отношение Х'каХ'у выполняется тогда и только тогда,
когда Х'к и Xv происходят из объектов наблюдения, порожденных одним и тем же эталоном.
Отношение а является отношением эквивалентности, поскольку оно рефлексивно, симметрично и транзитивно. Действительно, XkaXk, так как Xk(Xk)-1 = Е е X по определению группы. Если Х'каХ'у, т. е. Xk(Xv)-1 е X, то и (Xk:(Xv)-1)-1 = Xv(Xk:)-1 е X, т. е. Х^. Если ХкаХу и XaXVw, т. е. Xk:(Xv)-1 е X и Xv(Xw)-^ е X, то Xk:(Xw)-^ = = Xk:(Xv)-1Xv(Xw)-1 е X, т. е. Х'каХ'^. Таким образом, все три условия выполнены. Определение отношения а гарантирует, что в каждое подмножество этого разбиения отображаются элементы только одного образа.
Приведенная модель описывает процесс порождения изображений без учета воздействия шумов, возникающих в процессе отображения объектов наблюдения на воспринимающем устройстве. Модель с учетом шумов несколько усложняется: в нее вводится еще одно множество -X, которое порождается в результате отображения у: X Здесь множество X представляет собой мно-
жество идеальных изображений, возникших в процессе отображения объектов наблюдения, находящихся в различных позициях, на чувствительное поле без воздействия шума, а множество X - множество реальных изображений, возникших в результате воздействия шума на множество идеальных изображений X.
На множестве X существует некоторое разбиение, такое что
X = У1, У2, ..., Ущ, У. ПК = 0 при IФ,.
Этому разбиению соответствует некоторое отношение толерантности. Таким отношением может быть, например, отношение т, для которого
XXX) о Р(ф' /' (X)) =
= ф'/(Х))) >Дф'/ЭД Ф ф'/'(X))), (3)
т. е. отношение XkтXv выполняется тогда и только тогда, когда вероятность того, что изображения Xk и Xv произошли из объектов, порожденных одним эталоном, не меньше, чем вероятность происхождения этих изображений из объектов, порожденных различными эталонами. Отношение т является отношением толерантности, так как оно не обладает свойством транзитивности.
Преобразования ф, ф, / и у принято называть прямыми преобразованиями изображений, а ф', ф', / и у' - обратными преобразованиями. Полученное множество описаний изображений X может быть подвергнуто дальнейшему преобразованию для получения компактных описаний. Такие преобразования называются преобразованиями описаний. Отличие преобразования изображений от преобразования описаний состоит в том, что преобразование изображений несет в себе объективную информацию об образах и является основным материалом обучения, а преобразование описаний происходит в процессе обучения, часто является результатом обучения и переводит исходное описание изображений в пространство, в котором образы легко разделяются.
Существует понятие допустимых преобразований изображений. Это понятие накладывает определенные ограничения на преобразования изображений, в рамках которых решается конкретная задача распознавания. Вообще говоря, допустимые преобразования должны оп-
ределяться в процессе обучения, но чаще всего они задаются заранее для упрощения решения конкретной задачи.
Таким образом, при выполнении равенств (1)...(3) процесс порождения изображений может быть записан в виде
Х=у/ г) ж =ур(Ф(фде =/р(Ф(о'Р)=/p(Oij), (4)
где Х„ О X - идеальное (без учета шума) изображение i-го объекта j-го образа на входном поле; i е l - переменный параметр, каждое значение которого определяет единственный объект наблюдения, здесь l - множество возможных значений i; ф. - функция порождения нормализованных объектов; ф - функция порождения объектов в различных проекциях; f - функция порождения изображений; в е B - переменный параметр отображения, характеризующий неопределенность при отображении объектов наблюдения, здесь B - множество возможных значений в; r е R - шум, возникающий в процессе отображения, здесь R - множество возможных значений r; у - функция, характеризующая воздействие шума.
Физический смысл переменного параметра отображения в различен на каждом этапе порождения изображений. Так, на этапе анализа входного изображения X данный параметр может быть связан с изменениями яркости, контрастности, цветности изображения в целом, вследствие чего целесообразно применение усредняющих фильтров. На этапе получения идеального изображения X может возникнуть необходимость применения целого набора специализированных фильтров, целью которых служит не только устранение одиночных помех, но и реализация инвариантного подхода для обнаружения зон интереса в зависимости от конкретной задачи распознавания. Например, фильтр-преобразование Хоха дает наиболее удачные результаты при поиске линий, а преобразование Хафа - поиск параллельных линий в произвольном месте изображения.
При i = var и j = const функция ф порождает все возможные объекты j-го образа О”., = фг(2Т). Если же принять, что и i = const, то ф/Z) = Oj., т. е. в этом случае результатом воздействия функции порождения является сам эталон j-го образа. Тогда модель процесса порождения изображений существенно упрощается и принимает вид
X = ¥(Х, r), X =fp(<K0"j)) =fp(Oj). (5)
Далее можно рассматривать более простую модель изображения (5), что, однако, не снижает общности моделей (4) и (5), так как несмотря на существование принципиального различия между функциями fи ф (функция ф характеризует процесс порождения объектов наблюдения, а функция f - процесс отображения), их формально можно объединить в одну. Поскольку преобразование ф является изоморфным, то оно не имеет существенного значения для равенств (5). Тогда модель порождения изображений (4) укладывается в рамки равенств (5), но при этом в е B и l, т.е. множество возможных значений параметра b существенно расширяется.
Равенства (5) показывают, что любое изображение X является результатом отображения эталонного объекта посредством некоторой функции отображения f, на воспринимающее устройство и воздействия на полученное отображение некоторого шума re R. Можно принять,
что шум r - регулярный, т. е. для любых значенийXk е X, Oj е V = О, в е B всегда найдется такое значение r О R, что соотношение (4) будет выполняться. Здесь V - множество образов или, что в данном случае одно и то же, множество эталонов. При любых фиксированных параметрах O, е V и в е B функция f также является взаимно однозначным преобразованием на множествоХ
Будем считать, что множество Bt соответствует множеству переходов в£ ^ в„, в*, в„ е B, и индуцирует преобразование G множества X самого на себя. При каждом заданном Oе V каждый переход порождает преобразование Xv = gXk (g-е G), определяемое соотношением
V gjXk jp/O,), r) = 6(^(0,), r) = Xv.
Множество преобразований gi, индуцированных переходами Bt, определяет подмножество Bj. Преобразования Bj порождают множества преобразований Gj. Все элементы множества Gj являются произведением конечного числа элементов B,. Объединение множеств G, (j = 1,
2, ., m) охватывает все элементы Bj и образует множество преобразований G.
Если при любом заданном Oj е V для каждого преобразования g е G может быть найдено такое преобразование gмножества B на себя, что для любых в е B и Хк е X
gX = gф(/i(0j), r) = ф(/gtjp(0), r), то модели, описываемые равенствами (4), называются допустимыми.
Частным случаем допустимых моделей является строго допустимая модель, в которой индуцируемое преобразование gtj множества B не зависит от номера эталона. При этом все множество изображений Xk О X может быть получено либо за счет воздействия на каждое идеальное изображение Хк е X всеми возможными r е R, либо за счет применения всех преобразований g е G к множеству изображений, возникших под воздействием всех возможных r е R из единственного идеального изображения при любом выбранном в = const (в е B).
Представленная выше модель порождения изображений позволяет описывать аналитическими средствами сложные области пространства, имеющие вид облака точек, окружающего траекторию вектора X, которую он описывает при изменении параметра b. Форма облака точек определяется видом закона распределения шума r. Поскольку параметр в может быть многомерным, то траектории вектора Xfj также многомерны, хотя мерность этого пространства значительно меньше мерности пространства входных сигналов.
Рассмотрим принцип инвариантности в теории статистических решений. Результаты наблюдений представляют собой значения случайных величин Xk, область возможных значений которых зависит от множестваX. При этом на множестве X задано распределение вероятностей Рр. Типичная задача статистических решений состоит в определении правила, ставящего в соответствие каждому результату наблюдения некоторое принимаемое решение. Таким правилом является решающая функция F, которая каждому возможному значению Xk е X приписывает решение d = F(Xk), т. е. функция, областью определения которой является множество X, а областью значений - множество решений^.
Предположим, что задана некоторая функция потерь ДР, 1) относительно распределения Рь и множества решений А а на множестве X задано некоторое множество преобразований g е С, где С - множество возможных значений g. Тогда статистическое решение можно считать инвариантн2ым, если выполняются следующие условия:
- семейство распределений Р = (Рр, Ре В} является инвариантным относительно преобразований С, т. е. для любого возможного распределения Рр случайных величин Xk распределение Рр случайных величин X к = §Ук (g е С) также принадлежит Р. Предполагается, что соотношение Р' = ?*Р отображает множество В на себя;
- для каждого g е С существует такое отображение ?' = А(?) пространства решений Ь на себя, что функция потерь не изменяется при этом отображении, иными словами
1) = 1).
При таких допущениях решающая процедура Г первоначальной задачи остается пригодной и после преобразований ? е С.
Отметим, что преобразование С можно рассматривать как преобразование системы координат. При этом решение относительно случайных величин X в новой системе координат будет записываться как Г(Л'к), а в прежней системе координат - как g'-1F(Xk), здесь ?’'-1 - преобразование, обратное преобразованию ?'. Если процедура принятия решений удовлетворяет условию инвариантности:
ГВД = gíT(Xk), ^к е X, ? е С, то принимаемые решения не должны зависеть от выбора системы координат, т. е. решения Г(Ж'к) должны совпадать с решениями ГА^).
Введем понятие инвариантных решающих функций. Если решающая функция такова, что при заданных О е У, г е Л и при любых значениях Р е В она принимает одно и то же решение 1 е Ь, то такую решающую функцию назовем инвариантной решающей функцией относительно параметра р. Значения инвариантной решающей функции
Грде = Г|3(у(/р(О/), г)) при заданных О и г не зависят от параметра р.
Можно показать, что для инвариантности решающей функции по отношению к параметру Ре В необходимо и достаточно, чтобы она была инвариантна к множеству преобразований О, т. е. чтобы = F(gX), ? е С.
Рассмотрим некоторую точку Xk пространства X. Когда к ней применяются все преобразования ? е С, то она перемещается по некоторой траектории. Это означает, что траектория, содержащая точку Xk, состоит из всех точек gXk, когда ? принимает все возможные значения из множества С. По определению инвариантности следует, что любая функция инвариантна тогда и только тогда, когда она постоянна на каждой траектории.
Если для некоторой инвариантной функции E(X) выполняется условие
ад=Е^)) о ^=gXv), ? е С, то такую функцию принято называть максимальным инвариантом. Это означает, что некоторая функция E(X)
является максимальным инвариантом, если она постоянна при смене изображения Xk на Xv только тогда, когда Xk = gXv. Если некоторая точка Xk е X перемещается по траектории, когда к ней применяются все преобразования ? е С, то максимальный инвариант Е^ постоянен на каждой такой траектории, но на различных траекториях он принимает различные значения. Все максимальные инварианты эквивалентны в том смысле, что подмножества точек, где они постоянны, совпадают.
Построение инвариантной решающей функции можно осуществить следующим образом. Сначала определяется множество преобразований С пространства X, соответствующее всем возможным изменениям параметра р. Затем находится максимальный инвариант, на основе которого может быть получена инвариантная решающая функция.
Класс инвариантных решающих функций можно определить как совокупность функций от максимального инварианта Е^Л). Поэтому класс всех инвариантных критериев совпадает с множеством критериев, зависящих только от максимальной инвариантной статистики Е^Л). Каждому классу инвариантных функций соответствует свой максимальный инвариант. Поскольку максимальный инвариант не обязательно является единственным, а инвариантная решающая функция должна зависеть от Xk только через максимальный инвариант, то к инвариантной решающей функции можно предъявить требования оптимальности.
Сформулируем задачу распознавания образов, используя свойства инвариантных решающих функций. Пусть задана обучающая выборка, представляющая собой некоторое количество N изображений Xk, к = 1, 2, ..., N для каждого из которых указана принадлежность определенному образу. По данным обучающей выборки требуется восстановить любой максимальный инвариант Ер(Л) относительно параметра Р по всем /и построить решающую функцию F(X), зависящую от изображений X только через найденный максимальный инвариант.
В общем случае по заданной обучающей последовательности требуется определить и множество преобразований С, соответствующее множеству возможных изменений параметра Р. Эта задача сама по себе очень трудна. Если учесть, что в процессе образования изображений на них накладывается некоторый шум г, то она практически не может быть решена при наличии обучающих последовательностей реального объема. Поэтому либо множество преобразований С задается заранее, либо восстанавливается такая функция Е(Л), которая обладала бы свойствами максимального инварианта только относительно изображений, входящих в обучающую последовательность. При этом предполагается, что найденная функция E(X) является максимальным инвариантом относительно тех изображений, которые отсутствовали в обучающей последовательности. Задача определения множества преобразований С существенно упрощается тогда, когда в процессе обучения существует возможность исключить шум, в связи с чем обучающая последовательность должна состоять только из идеальных изображений.
Процесс определения множества преобразований С, восстановления максимального инварианта и выбора
решающей функции, зависящей от изображений только через максимальный инвариант, называется процессом обучения, а процесс применения полученной решающей функции для принятия решения о принадлежности новых изображений образам - процессом распознавания. Совокупность процессов обучения и распознавания представляет сбой проблему распознавания образов в целом.
Как правило, процесс обучения существенно упрощается за счет того, что заранее определяется множество преобразований С и выбирается вид решающей функции F(E(X)) в зависимости от того, какими свойствами должен обладать восстанавливаемый максимальный инвариант Е^. Восстановление функции Е(Л), обладающей свойствами максимального инварианта только относительно изображений, входящих в обучающую последовательность, также значительно упрощает процесс обучения.
С точки зрения общей постановки задачи распознавания изображений среди известных методов можно выделить несколько групп, отличающихся правилами построения инвариантных решающих функций.
К первой группе можно отнести методы, с помощью которых строится некоторый функционал Ф^, /, в) от изображения X/-го эталона, где в - переменный параметр отображения, характеризующий неопределенность, имеющую место при отображении объекта наблюдения, особые свойства которого (функционала) не зависят от параметра в. Так, например, сам функционал Ф(Х/, в) может существенно зависеть от параметра в, но при этом его максимум не зависит от параметра в и обладает свойствами максимального инварианта относительно параметра в по всем значениям/.
К данной группе можно отнести все методы, в основу которых положена концепция допустимых преобразований. Предполагается, что вид функции отображения /известен заранее. Также априорно задается и группа допустимых преобразований О, индуцируемых допустимыми изменениями параметра в. В процессе обучения по обучающей выборке определяются эталоны 2/. При этом считается, что любое изображение происходит из какого-либо эталона, подвергнутого отображению/в с последующим наложением шума г. При распознавании находится максимум (минимум) функционала Ф^, /, в) по всем параметрам в и /. Результатом распознавания является то значение/, при котором данный функционал достигает экстремального значения. Интересен тот факт, что в качестве функционала можно использовать выражение на основе максимальной плотности распределения вероятности, инвариантной к параметру в. Функцию правдоподобия Р(X //, в), зависящую от изображения X и от номера эталона/, можно рассматривать как характеристику сходства изображения и эталона. Если предположить, что шум Гауссов и обладает сферической симметрией, то распределение Р^ //, в) является нормальным со средним, зависящим от значений / и в.
Задача отыскания экстремума функционала решается эффективно, когда она не сводится к полному перебору по всем эталонам и по всем допустимым преобразованиям. Для этого следует строить такие модели изобра-
жений, которые, с одной стороны, отображают действительное многообразие изображений, а с другой - допускают направленный поиск экстремума функционала. Если функционал может быть представлен в виде суммы функций, зависящих от отдельных частей изображения, то глобальный экстремум можно определить методом динамического программирования без полного перебора всех возможных преобразований.
Вторая группа методов отличается тем, что в них строится некоторая функция от изображения Е^Х а), в которой параметры а являются переменными и подстраиваются в процессе обучения. Далее выбирается такой функционал от X и Е*, что значения параметров а обеспечивают этому функционалу экстремум только тогда, когда функция Е*(Х а) обладает свойствами максимального инварианта от изображения X относительно параметра в по всем значениям /. Предполагается, что максимальный инвариант E|J(X) существует. При этом выбирается некоторый класс аппроксимирующих функций Е*(Х а), где а
- неизвестный вначале вектор коэффициентов. Мера отклонения устанавливается в виде некоторой выпуклой функции от изображения Е*(Х а) и максимального инварианта Ер^. Так как вследствие случайного характера изображений X мера отклонения также случайна, качество аппроксимации целесообразно оценивать математическим ожиданием выбранной меры отклонения. Наилучшее приближение выбранной функции Е*(Х а) к максимальному инварианту соответствует такому выбору вектора а = а*, при котором математическое ожидание меры отклонения достигает минимума. Например, в качестве функции Е*(Х а) можно рассмотреть некоторую гиперповерхность, построенную таким образом, что изображениям из обучающей последовательности, принадлежащим одному образу, соответствует определенный отрезок или несколько отрезков на оси Е*, а изображениям из различных образов сопоставлены не связанные отрезки на той же оси.
Особенность алгоритмов данной группы состоит в том, что в процедуре адаптации выбираются различные аппроксимирующие функции, виды функционалов и способы нахождения экстремумов этих функционалов. Основная трудность, возникающая при использовании методов второй группы, состоит в выборе аппроксимирующей функции Е*(Х а). Такой подход дает хорошие результаты только для тех задач распознавания, для которых параметр в либо постоянен, либо претерпевает малые изменения.
Можно отметить еще одну обширную группу методов распознавания. Характерной особенностью методов этой группы является то, что в них максимальный инвариант находится не относительно изображения X, а относительно qX, т. е. относительно изображений, подвергнутых дополнительным преобразованиям q е 2.
Данную группу методов можно разделить на две подгруппы, в одну из которых входят методы, характеризуемые тем, что преобразования 2 являются взаимно однозначными преобразованиями, а в другую - методы, для которых преобразования 2 не взаимно однозначны.
К первой подгруппе можно отнести методы, особенность которых состоит в том, что для каждого конкретно-
го значения параметра в в качестве преобразования q выбирается преобразование, обратное отображению /,. Сложность использования этой подгруппы состоит в том, что для каждого конкретного изображения X необходимо получить значение параметра в, что не всегда возможно. Эти методы отличаются низкой помехоустойчивостью, так как преобразованию q подвергается уже зашумленное изображение, а параметры преобразования определяются по данным, в которых полезный сигнал невозможно отделить от шума. Обычно в качестве преобразований /рассматриваются преобразования сдвигов и поворотов изображения объекта, а параметр в для каждого изображения находится путем измерения сдвигов центра изображения и поворотов его оси инерции. Масштабные изменения учитываются путем нормализации по дисперсии характерных точек изображения.
Ко второй подгруппе методов следует отнести методы, использующие искусственные нейронные сети. Отличительная особенность этих методов состоит в том, что преобразования q' е 2' вначале выбираются случайно, а затем после некоторого отбора строятся новые более сложные преобразования q'' е 2'', использующие в качестве исходного материала результат преобразований q' е 2', причем сложность преобразований зависит от
количества слоев нейронной сети. На основании полученного сложного преобразования путем взвешивания результатов строится решающее правило, по возможности мало зависящее от параметра в. Но ожидать полной инвариантности решающего правила относительно параметра в в реальных нейронных сетях нельзя, поскольку объем и содержание первоначальных преобразований всегда ограничен и нет гарантии, что по случайно выбранным преобразованиям можно построить инвариантную решающую функцию.
Таким образом, рассмотренный выше общий подход к проблеме распознавания изображений демонстрирует ряд трудностей, которые связаны прежде всего с автоматической оценкой преобразований по материалам обучения, а также с нахождением максимального инварианта. Первую трудность часто обходят, используя априорное задание допустимых преобразований. Для преодоления второй трудности можно использовать методы минимизации риска в заданном классе функций. Однако не существует метода распознавания, полностью исключающего такие эвристические предпосылки, как эвристический выбор класса функций, эвристический выбор модели изображения и эвристический выбор пространства признаков.
M.N. Favorskaya
THE INVARIANT DECISION FUNCTIONS IN TASKS OF FREEZE-FRAME IMAGES RECOGNITION
The production model from sample patterns of freeze-frame images in both ideal and real cases is discussed. The concept of invariant decision functions based on the principle of invariance of statistical decisions is introduced. Definition methods of maximal invariant functions in some groups of methods for freeze-frame images recognition are analyzed.
Принята к печати в декабре 2006 г.
УДК 681.3.07
М. Н. Фаворская, А. Г. Зотин, А. Н. Горошкин
МОРФОЛОГИЧЕСКАЯ ОБРАБОТКА КОНТУРНЫХ ИЗОБРАЖЕНИЙ В СИСТЕМАХ РАСПОЗНАВАНИЯ ТЕКСТОВЫХ СИМВОЛОВ
Приведен анализ математических морфологических операций для обработки двухградационных и полутоновых изображений. Доказаны соотношения двойственности операций расширения и сжатия, а также операций открытия и закрытия по отношению к операциям дополнения и центрального отражения. Рассмотрены результаты применения морфологических операций к обработке изображений, содержащих печатные и рукописные символы.
Методы математической морфологии, основанные на теории множеств, предлагают единый подход к решению многочисленных задач обработки изображений, в частности для систем распознавания печатных и рукописных текстовых символов.
Под множествами в математической морфологии понимаются объекты на изображении. Например, множество всех черных пикселей двухградационного изображения является одним из вариантов его полного морфологического описания. Множества двухградационных
изображений являются подмножествами двумерного целочисленного пространства 2 с элементами в виде двумерных векторов (х, у), координаты которых указывают на черный (или белый, в зависимости от принятого соглашения) пиксель изображения. Полутоновые цифровые изображения можно представить множествами, состоящими из элементов пространства 23. В этом случае две координаты элемента множества определяют координаты пикселя, а третья координата соответствует дискретному значению яркости в точке изображения с задан-