ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
№ 275 апрель 2002
ГЕОИНФОРМАТИКА
УДК 681:528:519.218
К. Т. Протасов, А.И. Рюмкин
НЕПАРАМЕТРИЧЕСКИЙ АЛГОРИТМ РАСПОЗНАВАНИЯ ОБЪЕКТОВ ПОДСТИЛАЮЩЕЙ ПОВЕРХНОСТИ ЗЕМЛИ ПО ДАННЫМ АЭРОКОСМИЧЕСКОЙ СЪЕМКИ
Предложен и реализован алгоритм распознавания основных объектов подстилающей поверхности Земли, таких как пашни, луга, дороги, реки, болота, лесные насаждения и типы древостоев, по результатам аэрокосмической съемки. Случайные вариации портретов объектов каждого класса представлены обучающими выборками, а оптические и геометрические вариации оцениваются с помощью параметрического описания процесса регистрации изображений съемочной камерой. На первом шаге предопознавания решается задача согласования текущего фрагмента с выборочными ансамблями материала обучения путем пересчета наблюдений к оптико-геометрическим условиям обучающей выборки. Решающее правило проверки гипотез основано на непараметрических оценках неизвестных функций плотности, при этом недоопределенные параметры сглаживания этих функций находятся в процессе решения задачи оптимизации эмпирического риска по параметрам сглаживания. Приведены примеры работы алгоритма с использованием реальных данных.
Одной из задач проблемы мониторинга подстилающей поверхности Земли (НПЗ) является распознавание портретов объектов ППЗ по данным космической съемки высокого разрешения или данным высотной аэросъемки. Объектам реального мира свойственна целостность при узнавании, и восприятие лишь части объекта зачастую не позволяет классифицировать его однозначно.
Сложность задачи заключается в том, что на этом уровне разрешения получаемой видеоинформации степень детальности описания объектов ППЗ высокая, так что, например, видны кроны больших деревьев, фрагменты застройки, текстуры травяных покровов и сельскохозяйственных полей. Информационная емкость такого изображения высока, а дешифрирование таких снимков по силам лишь опытному оператору.
Практика поэлементной (пиксельной) классификации аэрокосмической информации по спектральным яркостям объектов часто оказывается некорректной из-за пространственной изменчивости отражательных характеристик классов земной поверхности, обусловленных географическими и климатическими факторами, имеющими случайный характер. Необходимость в эффективных методах анализа аэрокосмических изображений ставит на первый план учет контекстной информации в алгоритмах распознавания образов. Если между соседними элементами изображения имеется статистическая связь, то она порождает локальный пространственный контекст. Источники контекстной информации могут находиться в самом изображении, выражаясь в виде правил пространственной организации элементов при описании объектов земной поверхности.
Рассмотрим вопросы построения алгоритма решения указанной задачи с использованием аппарата распознавания образов в статистической постановке и синтеза информационных систем в условиях априорной неопределенности.
Эффективность решающего правила распознавания, когда наблюдениями являются фрагменты изображения
Оценим эффективность решающего правила, ориентированного на распознавание фрагментов по сравнению с классическим пиксельным решающим правилом. Для этого воспользуемся дис-
кретной моделью описания данных, заданных на растровом снимке. Пусть известно, что портреты объектов сцены принадлежат одному из Ь классов □=^ь..., ^Ь), а изображения заданы оцифрованными значениями яркостей на дискретном растре МхЫ элементов. Таким образом, яркость каждого пикселя с координатами (/,у), (1 = 1,..., М;у = 1,..., Щ, описывается вещественным значением Х(1, у), причем если количество спектральных каналов больше одного, то Х(/, у) - векторная величина с размерностью, равной количеству диапазонов. Кроме глобальной системы координат для позиционирования пикселей объектного фрагмента, т.е. фрагмента минимальных размеров, включающих портрет объекта, введем локальную систему координат, так что элементы каждого фрагмента шхп имеют координаты (ц, V), (ц=1,..., ш; v=1,..., п). Каждый фрагмент будем идентифицировать для определенности центральным элементом, приписывая ему значения (/, у) глобальной системы координат. Этой точке (пикселю) в локальной системе координат соответствуют локальные координаты 5=(ш/2)+1, =п/2)+1, если считать, что количество элементов фрагмента нечетно, что не нарушает общности формулировки. Для сравнения ошибок пиксельного и фрагментарного (объектного) решающих правил достаточно считать Х(/, у) скалярной величиной. Пиксельное наблюдение Х(/, у) будет отнесено к классу we^X(i, j)^we, если
Р^\Х(^))= шахРК|Х(У), (1)
|г=1,...Ь)
где апостериорная вероятность
р^г\ха, у))=лДХ0; у) | wr)/J(X(i, У)) подсчитывается по формуле Байеса; пк- априорная вероятность появления класса wr; /Х^, у)) - смешанная плотность:
/ (Х 0, ;))=Хлг/(х ^, у) Wr) .
г=1
Для объектного решающего правила, работающего с набором пикселей в пределах фрагмента, имеем Х(/', j)^we, если
P(we \ X(i, у)) = тахР^г \ X(i, у)), (2)
где
Х(і, у) =
Г хп
\rrnl
V ХУ
1« Л
Хіу
X
V тп
ХЛ У
- матрица пикселей, образующих фрагмент с центральным элементом Х^ (записи X?* вводятся для
удобства и считаются эквивалентными Х?*^, у)). Применение правила (2) повышает точность классификации по сравнению с правилом (1). Действительно, вероятность ошибки, которая обеспечивается пиксельным решающим правилом (1), можно записать так:
= | ¡1 - тах[РК \ Х(и у))] ]/(X(/',у/Х(^у).
{X О', у)} Г
Вероятность ошибки фрагментного (объектного) решающего правила имеет вид
| - | {1 -тахр^ХО',у))]}/(Х(ьу))х
¡у {хтп I г
є /г =
х х-х йХШп.
V V
Найдем соотношения между этими ошибками, выделив следующую составляющую в выражении для ошибки объектного решающего правила:
Г - Г тах[РК \ Х(г,у))1/(Х(г-;ЛЖ'1 х-х аХ™ =
х*/ хг/г
= Г ... Г тахГпг/(Х<Лу)\^)
XI Хг/ -
/ (Х(і, у))
т п
/ (Х(і, у))ПП
Ц=1 v = 1
гп п
= | ••• | шах[лГ/(Х(і,у)| wr ШПХ" •
{у \хтп} ^ *='
Для центрального пикселя объектного фрагмента с локальными координатами (; ґ) имеем:
| шах[ |Х5ґ (і,у))]/] (і,ШХ* --
к
= Г шах
к і г
| шах[лг/(Х; (і,у Ж )]с^5
т п
1, Я/(*(ужятх’
{X,11} 1 у }{Хтп} ^ ^
ш п
<|. г тах[пг/(* о )]111 хху у=
¡X“/ Ххтп / у=‘
ш п
= Г - Г тахр^ \Х(/', у))]/(Х0, уЩПХ*,
X1} Хп I г у=‘
откуда следует, что е / <е р и фрагментное (объектное) решающее правило эффективнее пиксельного. Аналогичные соотношения можно привести и для многоспектральных снимков.
Проблема геометрического согласования
видеоданных с учетом стохастичности эталонов алфавита классов
Воспользуемся непрерывной моделью описания данных [1, 2]. В простейшем случае монокулярного зрения и малой глубины (по оси ¿) сцены в объектной плоскости мы наблюдаем функцию яркости Х(х,у), которая является реализацией квазистоха-стического поля двух пространственных переменных х, у, определенных на непрерывном или дискретном носителе (х,у)еБху, где Вху - для оцифрованного варианта модели, как правило, прямоугольный или квадратный растр, а Х(-,-) - функция (интенсивности) радиояркостей.
Вместе с непрерывным представлением данных Х(х,у) будем ориентироваться на цифровое Х(хк,у*)= =Х(к,*), где (к,*) - индексы фрагмента шхп отсчетов, на котором определена матрица оцифрованных значений радиояркостей Х(к,*). Необходимо определить класс преобразований, которым подвержена функция интенсивности Х(х,у).
На данном этапе мы можем считать в качестве Х(х,у) как портрет отдельно выделенного учителем объекта, так и фрагмент некоторой сцены, включающий изображение объекта и фон. Каждый из наблюдаемых объектов может быть повернут относительно некоторой собственной системы координат, может изменить свой масштаб и быть смещенным в объектной плоскости. Задачу геометрического согласования представим в виде следующих трех этапов [3]:
а) сгруппировать пиксели в геометрический объект;
б) решить, какими моделями из алфавита классов представлены сгруппированные на шаге «а» пиксели;
в) определить параметры ориентации выделенного и опознанного объекта. В простейшем случае такими параметрами могут быть параметры поворота, сдвига, масштаба, вариации яркости и т. п.
Если предположить, что отражающие или излучающие поверхности объектов ППЗ шероховатые с диффузным (ламбертовым) отражением, то радио-яркостные характеристики, фиксируемые измерительным прибором, зависят от положения наблюдателя и могут быть описаны выражением Х(х, у)=г(х, у) £ СОБ0(х, у), где Х(х, у) - яркость элемента изображения; г(х, у) - коэффициент отражения поверхности; £ - световой поток от Солнца или подсветки; 0 - угол между направлением солнечных лучей и нормалью к поверхности.
Пусть модель каждого из классов задана обучающей выборкой, которая, в частности, может быть сформирована учителем по данным предшествующих наблюдений:
х; (х, у),..., Х^ (х, у),
где (х, у)еБху; N - объем выборки; /е{1,..., Ь} -число классов. Заметим, что эти изображения в пределах выборки каждого класса должны быть согла-
Г
сованы по параметрам масштаба, поворота, сдвига и нормализованы по яркости. Такой материал обучения назовем согласованным (нормализованным) по параметрам.
Пусть Т(х, у) (/=1,...,Ь) - образ объекта на некотором фоне, зафиксированный в виде снимка. Наблюдаемые изображения Т(х, у) «похожи» на изображения объектов обучающей выборки с точностью до сдвига, масштаба, поворота и значения яркости. Тем самым вводим класс преобразований, которые надо совершить для того, чтобы согласовать фрагмент наблюдаемой сцены с элементами обучающей выборки.
Для самого упрощенного варианта примем аддитивную модель шумовых искажений геометрической информации в изображении. С учетом наших предположений модель наблюдения выглядит так:
Yi (х,у) = I(X1 (х, у)) + N(х,у), (3)
где N (х, у) - аддитивная шумовая компонента; I (•)
- комбинированный оператор описания данных материала обучения; 1 е ¡1,..., Ь/ В простейшем случае оператор I (•) можно представить так [3]:
I (Xі (х, y)) = CXl (u, v) + D,
(4)
где S =
^ u'' f x 0
v =SxRxTx y ,
1 1
v vv
Sx 0 0 0 ^ cos 9 sin9 0'
0 Sy 0 ; R = — sin 9 cos 9 0
0 0 1V v 0 0 1V
' 1 0 — T Л * x
T = 0 1 — Ty ;
0 0 1 V
J(Yl (T
)) = c • Xі (S X R X
) + D + N (x, y), (6)
N(x,y) выберет такое і є {і,..., z), которое минимизирует следующее выражение:
G(Yl, Xі) = inf inf inf
{і ,T }{c, d}{s,r]
Yl (T •x)-
{( x, У )}= Dx
1 II2
— CX1 (S • R • x) - D dxdy ,
(7)
где оптимизация идет с перебором всех моделей I Ь}, а интегрирование - по области Б)у.
Если в качестве стохастической модели наблюдения воспользоваться непараметрическими оценками неизвестных условных функций плотности по выборочным данным, например с гауссовым ядром, то
1
.о 1 Nl
f (Yl|C, D; S, R, T) =— £
x exp<
где x =
2a 2 h 2
N j=1(2n)n/2anhn £ Yi (t • x) — CXj (S • R • x) — d||
(8)
I'x ^ xk yt 1
однородные координаты плоскости
где С - коэффициент, корректирующий яркость; Б -смещение по яркости фоновой составляющей; и, V -новые координаты, описывающие преобразования носителя (области определения) класса в однородных координатах следующим образом:
(5)
оцифрованных данных, превращающих Х(х,у) в Х(к,*); (к,*)ешхп; ст2 - дисперсия некоррелированного шума; к - параметр сглаживания, обеспечивающий адаптивные свойства оценки (8); Ме{1,..„ Ь} -объем выборки соответствующего класса. Байесово решающее правило, основанное на оценках (8), будет иметь вид
u(Yi) =
п/ ^\С, Б, 8, Я, Т,)1 (9)
8 - матрица масштаба; Я - матрица поворота на угол 0 ; Т - матрица смещения.
Иногда оператор смещения будем «переносить» в наблюдаемое изображение, совместив его с оператором фрагментации, представляющим собой окно, смещающееся в плоскости изображения. Размеры этого окна согласованы с размерами «образцов» соответствующих классов обучающей выборки. С учетом этого модель (3) примет вид
где 3 - оператор фрагментации, вырезающий из всей наблюдаемой сцены фрагмента с носителем Б, равным носителю образца из обучающей выборки с учетом его преобразований. В записи выражения (6) оператор 3 (•) будем опускать, полагая, что правые и левые части согласованы по носителю Б„,.
ху
Алгоритм согласования по методу МП для некоррелированного гауссова распределения фона
= arg max < sup sup
Mi.-^ {t} {c,b,s,r} J
При сканировании наблюдаемой сцены скользящим окном, согласованным по размерам с объектным фрагментом, возникает задача узнавания или предопознавания, когда очередной «вырезаемый» фрагмент «похож в достаточной мере» на один из объектов какого-либо класса из алфавита классов. Чтобы отслеживать в динамике сканирования анализируемой сцены такие моменты «осмысленного узнавания», необходимо ввести порог узнавания (предопознавания). Такой порог можно оценить, воспользовавшись значением минимума условного эмпирического правдоподобия, определяемого по обучающей выборке соответствующего класса. В другом варианте можно воспользоваться составляющей эмпирического риска, когда обучающая выборка классифицируется в режиме скользящего контроля. Этот вариант и будет рассмотрен далее.
Качество распознавания байесова решающего правила естественно оценить значением риска или эмпирическим риском, последний можно подсчитать, не преобразовывая X(x, y), так как данные обучающей выборки согласованы. Пусть {1,...,L} -пространство классов, тогда
1 Nl Г £
€ = £ n£%i1 і1=ar§max f(X)1 ц)
ІєЬ Nl j=1
цєЬ
(10)
где 1{«истина»}=0, 1{«ложь»}=1 - характеристическая функция; N¡ - объем выборки класса 1еЬ. Эм-
1
2
пирический риск подсчитывается по технологии скользящего контроля, а именно: когда в выражении (10) при 1=ц подсчитывается f( x| l) = ц в точке x = Xj, последняя исключается из выборочных данных, по которым, собственно, и оценивается f(x 11). Уровень узнавания в этом случае можно оценить, используя выборку класса
ti = minnif-(Xlj 11), (11)
{Xlj }
где f(X 11) - непараметрическая оценка плотности по выборке класса, в которой отсутствует {x} } наблюдение (режим скользящего контроля).
Таким образом, для решения задачи распознавания объектов ППЗ необходимо осуществить на этапе обучения следующие шаги:
1) определить образы объектов ППЗ, подлежащие распознаванию (задать алфавит классов), и сформировать согласованные обучающие выборки каждого класса;
2) решить задачу минимизации риска (10) по параметрам сглаживания, которые используются в правиле (9);
3) оценить уровень узнавания (предопознавания) для каждого класса по формуле (11).
Итак, алгоритм распознавания настроен для работы. На этапе анализа вновь поступившего изображения нужно осуществить следующие шаги:
1) из общей сцены скользящим окном размером Dx,y «вырезать» фрагмент наблюдаемого изображения и решить задачу согласования, максимизируя выражение
€ = sup sup nl f (Уг | C, D, S, R, T);
{т} {с,d,s,r}
2) сравнить € и tl; значение € > ti говорит о том, что фрагмент «похож» на выборку класса и можно воспользоваться оценочным байесовым решающим правилом (9). Процесс сканирования и распознавания продолжается далее до тех пор, пока не будет просмотрено все изображение.
Алгоритм распознавания текстур стохастических полей
Учитывая сложность проблемы геометрического согласования данных, становится естественным поиск систем признаков, инвариантных мешающим параметрам. Так, например, известно, что модули спектров Фурье инвариантны сдвигам изображения, такие системы признаков предполагается использовать в дальнейшем. Рассмотрим базовый алгоритм распознавания объектных фрагментов, параметры которого восстанавливаются по нормализованным обучающим выборкам классов. Этот алгоритм может быть использован как для варианта с геометрическим согласованием текущих наблюдений и обучающей выборки, так и для инвариантных к мешающим параметрам систем признаков, когда геометрического согласования не требуется. Предположим, что материал обучения X1 (x, у),...,
XlNl (x, у) согласован по параметрам сдвига, поворота и масштаба. Вероятностной моделью стохастических наблюдений в случае использования непараметрических оценок неизвестных функций плотности с гауссовым ядром будет
f (X(j,i)) = (2п)-kl2 • h-k • R (j,i; ц, v)|4/2 x
x Z exp| _T7T ((X ((i) - ((j,i)) Ri-1 (j,i; ц v)) x
k=1 [ 2hi
-x (X(ц, v) - Xk (ц, v)))| (12)
где k - обобщенная размерность; k=mxn, m - количество строк; n - количество столбцов носителя X(j,i); h - параметр сглаживания; (•,•) - скалярное
произведение; Rl = UTЛlU - сингулярное представление ковариационной матрицы Rl, вычисляемое с помощью разложения наблюдений в базисе Карунена - Лоэва [4, 5], учет в Л l наиболее важных собственных значений позволяет произвести псевдообращение Rl; | • | - детерминант. Для оценивания
ковариационной функции подсчитаем математическое ожидание выборочных данных 1 N
Ц( j, i)=N Z Xt (j, i)
N t=1
и ковариационную матрицу
1 N o o
R( J\ К ц, v) = — Z Xt(J\i) Xt (ц, v),
N t=1
где X(j, i) = X(j, i) - ц( j, i) - центрированные наблюдения. Как известно [4, 5], оценку ковариационной матрицы можно представить в следующем виде:
K
$(} /'; ц v) = Z^ tф t (} 0ф t (ц, v),
t=1
где Xt Ф 0 ; {фt (y)}K - базис Карунена - Лоэва.
Тогда необходимая для (12) обратная ковариационная матрица вычисляется следующим образом:
K 1
R-1(j,i; ц, v) = Z—Фt (J,i)Фt (Ц, v), (13)
t=1 ^t
где K - число базисных функций.
Выражение (12) для f (X(j, i)), после того, как будут тем или иным образом подобраны параметры hl, le L, используется в байесовом решающем правиле (9). Следует иметь в виду краевой эффект, заключающийся в наличии границы смены текстур. На границе области однородной текстуры вид автокорреляционной функции (если преобразовать исходные наблюдения в спектры) изменится в той мере, в какой процентная доля инородного класса попадает в область фрагмента - носителя текстуры. Естественно ожидать, что граничные фрагменты будут отнесены к другому классу по мере заполнения области носителя чужеродной текстурой. Набор таких фрагментов, на которых происходит смена
класса, следует выделить и аппроксимировать некоторой параметрической кривой на плоскости.
Последующее уточнение и выделение контура раздела текстур можно произвести детектором, аналогичным детектору Хюккеля, который основан на модели выделяемого контура.
По-видимому, оптимальный вариант может сформироваться в процессе непосредственной работы с конкретным изображением. После того, как граница раздела текстур будет уточнена, отдельные группы пикселей, относительно которых не было принято решение о принадлежности к классу, следует доопределить ближайшим классом.
Эксперимент
Для апробирования алгоритма распознавания объектов был взят аэрофотоснимок масштаба 1:7000 пейзажа тайги с болотом, дорогами и озерами. Оператором с помощью перемещающегося фрагмента были созданы обучающие выборки классов: 1 - «болото», 2 - «старая сосна», 3 - «молодая сосна», 4 -«дорога», 5 - «просека», 6 - «водная поверхность». С использованием материала обучения были подсчитаны математические ожидания классов и базисные функции Карунена - Лоэва, которые для первых трех классов изображены на рис. 1.
а1
а2
а3
а4
а5
а6
а7
а8
а9
а10
□ДО
Ь1
Ь2
Ь3
Ь4
Ь5
Ь6
Ь7
Ь8
Ь9
Ь10
с1
с2
с3
с4
с5
с6
с7
с8
с9
с10
Рис. 1. Базисные функции Карунена - Лоэва классов:
«болото» (а2-а10); «старые сосны» (Ъ2-Ъ10); «молодые сосны» (с2-с10); а1, Ъ1, с1 - математические ожидания
Качество представления данных материала обучения в соответствующих базисах иллюстрирует рис. 2, из которого следует, что достаточная для практики точность обеспечивается использованием всего лишь десяти базисных функций. После того, как на этапе обучения, заключающегося в минимизации критерия (10), были восстановлены параметры распределений, решающее правило (9) с восстановленными функциями плотности (12) можно было использовать для распознавания указанных объектов подстилающей поверхности Земли. Для распознавания объектов был выбран снимок пейзажа тайги, статистически эквивалентный обучающей выборке.
Рис. 3 иллюстрирует этап распознавания, где рядом с выделенным для анализа объектным фрагментом указан класс, к которому отнесено наблюдение решающим правилом.
Анализ результатов показывает, что распознавание происходит практически безошибочно, что свидетельствует о высоком качестве предложенных алгоритмов.
18-|
16-
14-
*
<и
§
*
м
о
X
X
о
[5
ю
о
О
12-
10-
8
6
4
2
0
—А— Класс "болото"
—•— Класс "старые сосны" —■— Класс "молодые сосны"
ІІ
0
-1—
10
-1—
12
Номера базисных функций Рис. 2. Спектры собственных значений классов
-1
14
Рис. 3. Результаты распознавания объектов ППЗ. Цифрами обозначены номера распознанных алгоритмом классов
ЛИТЕРАТУРА
1. Прэтт У. Цифровая обработка изображений: Пер. с англ. М.: Мир, 1982. Кн. 1. 312 с. Кн. 2. 480 с.
2. Хорн Б.К.П. Зрение роботов: Пер. с англ. М.: Мир, 1989. 487 с.
3. Бесл П.Дж. Геометрическое моделирование и машинное зрение // ТИИЭР. Т. 76. № 8. 1988. С. 90-117.
4. Фукунага К. Введение в статистическую теорию распознавания образов: Пер. с англ. М.: Наука. 1979. 368 с.
5. Протасов К.Т. Распознавание образов и классификация агрегированных наблюдений в условиях статистической неопределенности // Изв. вузов. Физика. 1995. Т. 38. № 9. С. 59-64.
Статья представлена НПО « Сибгеоинформатика», поступила в научную редакцию номера 3 декабря 2001 г.