Научная статья на тему 'Сегментация и сопровождение объектов в сложных условиях видеонаблюдения'

Сегментация и сопровождение объектов в сложных условиях видеонаблюдения Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
677
164
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СЕГМЕНТАЦИЯ / СОПРОВОЖДЕНИЕ / СЛОЕВОЕ ПРЕДСТАВЛЕНИЕ / ВЕКТОРЫ ДВИЖЕНИЯ / АПОСТЕРИОРНАЯ ДОСТОВЕРНОСТЬ / СУБПИКСЕЛЬНАЯ ОЦЕНКА ВЕКТОРОВ ДВИЖЕНИЯ / SEGMENTATION / TRACKING / LAYER REPRESENTATION / MOTION VECTOR / A POSTERIORI RELIABILITY / SUB PIXEL ESTIMATION OF MOTION VECTORS

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Обухова Наталия Александровна, Тимофеев Борис Семенович

Рассмотрен метод сегментации и сопровождения объектов на основе их слоевого представления. Метод реализует автоматический захват нескольких объектов на неоднородном фоне и их устойчивое сопровождение в сложных динамических сценах. Описаны априорная и апостериорная оценки достоверности векторов движения, а также анализ траекторий объектов интереса на этапе сопровождения, обеспечивающие применение метода слоевого представления при низких соотношениях сигнал/шум в исходных видеоданных.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Обухова Наталия Александровна, Тимофеев Борис Семенович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Objects segmentation and tracking in difficult conditions of video observation

A method of objects segmentation and tracking based on their layer representation is reviewed. The method provides automatic capture of several objects in an inhomogeneous background and steady objects tracking in the complete dynamic scenes. The a prior and a posteriori estimations of motion vectors reliability and principles of objects tracks analysis at the tracking stage are given in detail. The suggested solution provides a layer representation method application for video data with low signal to noise ratio.

Текст научной работы на тему «Сегментация и сопровождение объектов в сложных условиях видеонаблюдения»

УДК 621.397.13:656.021

СЕГМЕНТАЦИЯ И СОПРОВОЖДЕНИЕ ОБЪЕКТОВ В СЛОЖНЫХ УСЛОВИЯХ ВИДЕОНАБЛЮДЕНИЯ

Н. А. Обухова,

канд. техн. наук, доцент Б. С. Тимофеев,

доктор техн. наук, профессор

Санкт-Петербургский государственный университет аэрокосмического приборостроения

Рассмотрен метод сегментации и сопровождения объектов на основе их слоевого представления. Метод реализует автоматический захват нескольких объектов на неоднородном фоне и их устойчивое сопровождение в сложных динамических сценах. Описаны априорная и апостериорная оценки достоверности векторов движения, а также анализ траекторий объектов интереса на этапе сопровождения, обеспечивающие применение метода слоевого представления при низких соотношениях сигнал/шум в исходных видеоданных.

Ключевые слова — сегментация, сопровождение, слоевое представление, векторы движения, апостериорная достоверность, субпиксельная оценка векторов движения.

Введение

В проблеме сопровождения объектов на сложном фоне телевизионными методами выделим следующие задачи:

— первоначальная сегментация объектов;

— сопровождение объекта в условиях динамики его свойств, а также взаимодействия с другими объектами и фоном.

В одном кадре видеоряда сегментацию объектов осуществляют по признакам яркости, локальной детальности (сгусткам высокочастотной энергии) и формы. Анализ видеопоследовательности позволяет использовать признак движения. Учет признака движения обеспечивает устойчивую сегментацию областей изображения, принадлежащих движущимся объектам на неподвижном, в том числе сложном, фоне.

Традиционно для оценки признака движения применяют энергию движения. Под энергией движения понимают изменения яркости пикселей в соседних кадрах видеопоследовательности (производная яркостного сигнала по времени)

dL(x, у, t) L(x, у, t)-L(x, у, t-Дt)

^ Д ’

где L(x, у, V) — яркость пикселя с координатами ^, у) в момент времени t.

Скалярная оценка в виде энергии движения не обеспечивает различение объектов, находящихся в непосредственной близости друг к другу и двигающихся с различными скоростями. Более инфор-

мативно поле векторов движения (оптический поток). После проецирования на плоскость кадра реальное трехмерное движение объектов отображается двумерным движением, которое может быть оценено мгновенными скоростями или дискретными смещениями фрагментов изображения — полем векторов движения.

Методами на основе признака движения невозможно выделить стационарные объекты. Определенные трудности вызывает сегментация очень медленно движущихся объектов (видимая скорость движения менее одного пикселя).

Одновременное использование поля векторов движения, а также признаков пространственной связности и детальности позволяет сегментировать несколько объектов, в том числе неподвижных, на неоднородном (сложном) фоне.

На основании первоначальной сегментации формируют модели объектов интереса, для которых определяют наилучшее соответствие в последующих кадрах. В корреляционно-экстремальных системах используют модели объектов различной степени сложности (подробности) в зависимости от априорной информации об объектах. При известном алфавите объектов возможно использование 3D-компьютерных моделей с последующей подготовкой бинарной маски или контурного препарата (рис. 1). При неизвестном алфавите модели строят на основе анализа сегментированной области изображения. Автоматическое построение модели эффективно реализуют на гладком фоне. На сложном фоне необходимо участие оператора,

который формирует строб, охватывающий объект. В простейшем случае все изображение внутри строба рассматривают как модель объекта. Для локализации собственно объекта внутри окна получают контурный препарат с помощью операторов:

Собела

1 - 0 1

2 - 0 2

-1 0 1

-1 2 -1 0 1

0 0 1 2

-2 -1 0 -10 1 0 12

Превитта

1 0 1 1—1 1 1— гН гН гН |

гН 1 О гН ; О О о

1 1—1 0 1 1—1 | 1 гН 1 гН 1 гН 1 |

Робертса

0 0 0 ' 0 0 0 "

0 1 0 ; 0 0 1 1—1

1 О 0 1 1—1 1 0 1 1 0

— позволяющих выделить, соответственно, вертикальные, горизонтальные и наклонные контуры.

Процедура наиболее успешна при отсутствии контуров на фрагментах фона, попавших в строб. Считают, что в корреляционных системах основными проблемами являются потери объекта интереса на сложном фоне в условиях динамики свойств объекта, а также в момент перекрытия объекта интереса другими объектами или фрагментами фона.

Объединение признаков детальности и формы с признаком движения на этапе сопровождения позволяет реализовать слоевое представление: каждому объекту и фону сопоставляют свой слой

[1, 2]. Это обеспечивает автоматическое сопровождение объектов на сложном фоне, разрешение ситуаций окклюзии, слияния и разделения объектов.

Сегментация и сопровождение объектов на основе их слоевого представления

Основными процедурами предложенного метода являются:

— предварительный анализ изображения на основе признака детальности [3];

— сегментация объектов интереса на основе признаков пространственной связности и движения;

— сопровождение объектов на основе признаков движения, связности и формы (признаки учитывают с адаптивным весом).

Взаимодействие перечисленных процедур иллюстрирует рис. 2, где: 1 — предварительная классификация изображения на основе признака детальности; 2 — вид режима: первичная сегментация/ сопровождение; 3 — сегментация объектов на основе пространственной связности и движения; 4 — формирование моделей формы и движения сегментированных объектов; 5 — сопровождение объектов на основе признаков движения и формы, учитываемых с адаптивными весами; 6 — проверка: есть блоки, не отнесенные к ранее сегментированным объектам интереса; 7 — обновление моделей формы и движения с учетом предсказания; 8 — анализ свойств объекта и окружающей обстановки; 9 — адаптация весов признаков; 10 — представление полученной информации об объектах и выработка управляющих сигналов.

Сопровождение

Сегментация

Рис. 2. Обобщенная структура сегментации и сопровождения объектов на основе их слоевого представления

Модель формы объекта строят на основе предположения: вероятность принадлежности пикселя к изображению объекта тем выше, чем ближе он находится к центру тяжести последнего. Это приводит к гауссовой модели формы объекта в виде эллипсов рассеивания

Ьй® = ехр[-(§-йг)т

где \ = (x, у)т — вектор координат элемента в плоскости изображения; — вектор координат центра тяжести изображения объекта с номером g; матрица ковариаций

K g = RT (-фg )diag [а2, Ь2 ] R(-фg),

где а^ bg — длины полуосей; R(-фg) — матрица поворота на угол -ф^

Сопровождение объектов реализуют путем определения степени соответствия вектора признаков фрагмента изображения (блока) к вектору признаков объекта g с помощью математического аппарата теории нечетких множеств [4].

Метод слоевого представления обеспечивает:

• Автоматический захват и одновременное сопровождение до 50 объектов, в том числе на сложном фоне. В видеокадре тестового сюжета (рис. 3) автоматически определены и ведутся цель с меткой «0» — корабль, двигающийся справа налево; цель с меткой «1» — корабль, двигающийся слева направо; цель с меткой «45» — неподвижный корабль у пристани; цели с метками «2», «7», «20» — фрагменты фона.

• Устойчивое разрешение ситуации окклюзии, слияния и разделения объектов при сопровождении.

■ Рис. 3. Сопровождаемые объекты в кадре тестовой последовательности

• Ошибку сегментации: для объектов размером до 5 блоков — 15-20 %, для объектов большого размера — 3-5 %.

• Среднеквадратическую ошибку (СКО) определения центра тяжести при сопровождении объектов — один пиксель.

Указанные характеристики получены для видеоданных при соотношении сигнал/шум порядка 30 дБ. При меньших соотношениях сигнал/ шум использование поля векторов движения затруднено из-за влияния аномальных векторов — векторов, не отражающих реальное движение.

Априорная и апостериорная оценки достоверности векторов движения

Основным для определения векторов движения является уравнение оптического потока, полученное на допущении о постоянстве яркости L(x, y, t) точки (пикселя) при ее движении [5]:

VL, vr + dL = 0, dt

где VL =

/dL dL4

dx dy

пространственным координатам; v =

яркостнои вектор-градиент по ^dx dy4

dt dt

V У

вектор оптического потока (вектор движения).

Анализ уравнения оптического потока показывает:

1. Уравнение недоопределено: неизвестных два, ауравнение одно.

2. Однозначное определение оптического потока возможно только в случае, если компоненты

яркостного вектора градиента VL =

/dL dL4 dx’ dy

от-

личны от нуля: имеют место изменения яркости по горизонтали и вертикали. Следовательно, в случае однородной поверхности без деталей или текстуры только в одном направлении достоверную оценку векторов движения потока найти нельзя.

3. Изменения уровня освещенности, тени, блики, прозрачные и зеркальные поверхности нарушают условие постоянства яркости перемещающейся точки, что затрудняет вычисления и приводит к ошибкам при определении векторов движения.

Чтобы снизить влияние аномальных векторов, предложено дополнить двумерные векторы движения третьим компонентом — оценкой его досто-

Т

верности р^'. (^, vvhl, раы) , где VXhl, VI — составляющие по направлениям х и у вектора движения для блока с номерами к — по горизонтали и I — по вертикали.

Проведенные теоретические и экспериментальные исследования позволили предложить функцию априорной достоверности вектора движе-

ния, определяющую вероятность корректного нахождения вектора движения (достоверность) в зависимости от своиств изображения в блоке:

P _ и (k,1) = 1 - ехР [п^м (k, l )],

где п = 3 — параметр модели, численное значение которого наИдено на основе экспериментальных данных; модифицированная оценка уровня детальности в блоке (k, l)

DM (k,l) =

D (k, l)

N M

D

, D l)=XXAL (xk+j yi+1),

j=1i=1

где АЬ — значение яркости пикселя в контурном препарате исходного изображения; (хк, у1) — координаты левого верхнего угла блока; И, М — число пикселей в блоке по горизонтали и вертикали соответственно. Наиболее вероятный уровень детальности в блоке

Б0 = moda{D (к, I)}, к = 1,..., КК, I = 1,..., ЬЬ,

где КК и ЬЬ — число блоков в изображении (рис. 4).

Введенная функция позволяет оставить для дальнейшей обработки блоки изображения с векторами движения, имеющими заданный уровень априорной достоверности. Это существенно снижает влияние аномальных векторов и вычислительную сложность задачи: векторы движения для блоков с низким уровнем достоверности не определяют. Например, уровень достоверности 0,95 исключает из дальнейшей обработки до 90 % блоков (рис. 5) [6].

Следует отметить, что для обеспечения высокого уровня достоверности поля векторов движения (0,95-0,98) необходимо исключить блоки, у которых БМ(к, I) < 3. При низких отношениях сигнал/шум, а также при высоком уровне детальности фона это может привести к резкому снижению числа блоков, разрешенных для сегментации. Недостаточное число блоков приводит к неполной сегментации объектов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Для оценки качества сегментации введем показатель — степень сегментации объекта, под которой будем понимать отношение числа пришед-

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 Оценкадетальности, уровни

Рис. 4. Гистограмма распределения оценок детальности в блоках

Априорный порог, мод

СКО шума

Рис. 5. Гистограмма числа блоков, подлежащих дальнейшей обработке в зависимости от соотношения сигнал/шум и уровня порога

шихся на объект блоков, оставленных для дальнейшего анализа, Qc, к эталонной блочной аппроксимации, Qэ:

Яэ

На рис. 6, а, б приведены графики зависимости степени сегментации объекта от величины порога, а также зависимость от величины порога вероятности ложной тревоги (ЛТ). Вероятность ЛТ

РЛТ =

Ял

Q

где Qл — число блоков, оставленных для дальнейшей обработки, но не принадлежащих объектам интереса; Q — число блоков в зоне поиска.

Результаты экспериментальных исследований позволяют сделать вывод: для тестовых последовательностей, мода оценок детальности фона Шф которых не превышает (10^20) уровней квантования, может быть рекомендован порог (2^3) Шф. Этот порог обеспечивает близкую к единице степень сегментации объекта и вероятность ЛТ 3,210-3 (см. рис. 6).

Следует отметить, что приведенный вероятность ЛТ является характеристикой первого этапа предварительной классификации. Он определяет не число ложных целей, а число оставленных для дальнейшего анализа блоков. Например, в проведенных экспериментах указанный уровень означает, что для зоны поиска 200 х 200 элементов с 625 блоками размером 8 х 8 число блоков, не принадлежащих объектам интереса, но оставленных для дальнейшей обработки, равно 2-3.

В видеосюжетах с детализированным фоном или при низком соотношении сигнал/шум использование порога в 2-3 Шф резко снижает степень сегментации объекта (Кс << 1). В этом случае для

■ Рис. 6. Зависимости степени сегментации объекта интереса и ЛТ от априорного порога для тестового сюжета «Катер вдоль берега» при отношении сигнал/шум: а — 35 дБ; б — 22 дБ

повышения степени сегментации объекта интереса порог должен быть существенно снижен. Анализ видеосюжетов с различными уровнями детальности фона, а также с различными соотношениями сигнал/шум позволяет построить зависимость значения порога, обеспечивающего степень сегментации объекта интереса, близкую к единице, от характеристики фона. В качестве характеристики фона принята мода Шф распределения оценок детальности Б(к, I) (см. рис. 4). Особенность введенной оценки детальности, рассчитываемой как сумма яркостных перепадов после пространственного дифференцирования или операции подчеркивания контуров, состоит в одновременном учете как детальности фона, так и шумовых составляющих, поскольку яркостные перепады в изображении обусловлены обоими факторами.

Найденная зависимость оптимального уровня порога от Шф (рис. 7) показывает, что при низких значениях Шф оптимальным является порог 23 моды, при высоких — одна мода. В первом случае поле векторов движения имеет уровень достоверности 0,98. Во втором случае достоверность поля векторов движения существенно ниже; вероятность ЛТ этапа предварительной классификации составляет 0,489: для дальнейшей обработки должно быть оставлено более 300 блоков (см. рис. 4).

Исправляют положение предварительной обработкой исходных изображений, а также дальнейшей пространственной и временной фильтрацией поля векторов движения. Пространственную фильтрацию реализуют за счет вычисления векторной медианы внутри скользящего прямоугольного окна. Временную — на основе многомасштаб-

Тестовый сюжет «Катер вдоль берега»

0 10 20

♦ — экспериментальные точки;------

30 40

зависимость уровня порога от параметров фона

и

50

Рис. 7. Зависимость оптимального значения априорного порога от уровня детальности фона

ной межкадровой разности, а также построением совокупности треков на этапе захвата и сопровождения (многотрековое сопровождение).

Пространственная медианная фильтрация поля векторов движения позволяет повысить степень сегментации протяженных объектов интереса за счет устранения аномальных векторов движения и вызванных ими «дырок» внутри сегментированного объекта. Однако объекты, меньшие по размерам маски медианного фильтра, могут быть потеряны.

Использование многомасштабной межкадро-вой разности предполагает определение векторов движения в последовательности из N кадров. Векторы движения находят для (И - 1) пары кадров: к-я пара включает в себя кадр г и кадр г - к, к = 1,..., N - 1. Результатом является (И - 1) значений векторов движения V0, к = 1, ..., N - 1. Для приведения значений векторов движения к кадровому интервалу принимают

V0 у0

V — кх . -ГГ _ кУ

Укх =—; Уку =—,

где (Укх, Уку) — к-й приведенный вектор пакета; (Ух Уку) — вектор, найденный методом совмещения блоков по кадрам г и г - к; й — интервал между кадрами г и г - к.

В кадре могут присутствовать объекты с различными скоростями движения. Полученная на основе пакета совокупность значений векторов движения включает три типа оценок. Первый тип V1 — нулевые значения, полученные по близко расположенным кадрам пакета при медленном движении (расстояние между кадрами недостаточно для получения значимого вектора). Второй тип V2 — значимые корректные значения векторов движения. Третий тип V3 — аномальные оценки.

В найденной для каждого блока совокупности векторов движения формируют кластеры по признаку близости векторов. Для дальнейшего анализа выбирают кластер с максимальной мощностью. Окончательную оценку вектора движения получают как среднее значение векторов, образовавших кластер с максимальной мощностью. Следует отметить, что полученная оценка будет иметь суб-пиксельный характер [7].

Примем за исходное предположение: чем больше мощность кластера, тем более высока достоверность найденного вектора движения. Введенное предположение позволяет получить оценку апостериорной достоверности найденного вектора движения рар:

Ры = 1 - ехр

ґ ҐГ \2

^шах

N-1

где п — параметр; Стах — число векторов, вошедших в кластер с наибольшей мощностью.

Показатель Сюжет «Катер на фоне берега», при соотношении сигнал-шум, дБ

35 28 22 18

Априорный порог, мод 3 1,25 1 1

Вероятность ложной тревоги 0,04 0,3 0,55 0,55

Апостериорный порог, тр 0,11 0,37 0,37 0,37

Вероятность ложной тревоги после фильтрации 0,018 0,025 0,025 0,02

Степень сегментации объекта 0,82 0,357 0,13 0,07

Введение апостериорной оценки достоверности векторов движения обеспечивает фильтрацию полученного поля векторов в целях уменьшения числа блоков, оставленных для дальнейшего анализа. Фильтрацию выполняют путем исключения векторов, у которых мощность максимального кластера, сформированного в пакете, ниже заданного порога. Например, если пакет включает п векторов, то для дальнейшего анализа следует оставить те блоки, которые вошли в кластер с наибольшей мощностью Ш, при условии, что величина Ш больше заданного порога шр.

На основании экспериментальных данных, показывающих зависимость числа блоков, оставленных для вторичной обработки, а также степень сегментации объекта интереса при различных значениях априорного и апостериорного порогов, можно рекомендовать оптимальное значение апостериорного порога 0,11-0,37, что соответствует мощности кластера Ш = (2 - 3). В этом случае вероятность ЛТ снижается в 2 раза при среднем значении степени сегментации объекта около 0,7 (таблица).

Анализ траекторий

Оставшиеся после фильтрации по априорному и апостериорному порогам блоки являются результатом этапа предварительной классификации. Далее реализуют сегментацию объектов интереса, объединяя блоки в кластеры. В результате получают кластеры двух типов: соответствующие объектам интереса и ложным объектам, обусловленным шумом и флюктуирующими деталями фона. Число ложных объектов тем выше, чем больше блоков разрешено для кластеризации (рис. 8). Для всех сегментированных объектов формируют модели движения и формы, на основании которых предсказывают положения объектов в следующем кадре. На этапе сопровождения блоки в последующих кадрах применяют для подтверждения существования объектов, уточнения моделей их формы и движения. Блоки, не соотнесенные ни с одним из существующих объектов, используют для сегментации новых объектов. Объекты, не нашедшие подтверждения в ряде кадров, уничтожают.

Для дальнейшего снижения числа ложных объектов применяют траекторный анализ. По ряду измеренных положений объекта строят его траек-

0’37 0,78 Апостериорный порог

2,5

Априорный порог

Рис. 8. Зависимость числа обрабатываемых траекторий от априорного и апостериорного порогов при СКО шума 10

120

100

80

60

40

20

0

1 4 7 1013161922252831343740434649 Номер объекта

Рис. 9. Состояние системы сопровождения объектов в течение 100 кадров

торию в виде плоской кривой с использованием регрессионного анализа или фильтра Калмана. Следует признать ложными те объекты, время существования которых не превышает заданного отрезка времени, например 1-2 с. Диаграмма состояния системы сопровождения в течение отрезка наблюдения длительностью в 100 кадров телевизионной развертки (рис. 9) показывает, что только два объекта являются истинными, а остальные семь могут быть признаны ложными. Введение фильтрации объектов по их времени существования позволяет значительно снизить загрузку вычислителя.

Заключение

Слоевое представление обеспечивает автоматический захват и сопровождение одновременно нескольких объектов на неоднородном фоне. Размещение объектов в разных слоях сохраняет возможность сопровождения не перекрытых объектов в ситуации окклюзии. Это исключает срыв сопровождения в случае маневра объекта.

Эффективность определения векторов движения блоков изображения для слоевого представления заметно снижается при низких соотношениях сигнал/шум. Введение априорной и апостериорной оценок достоверности векторов движения, а также анализ траекторий позволяют обеспечить применение метода при низких соотношениях сигнал/шум с приемлемыми для практики степенью сегментации объектов интереса и числом обрабатываемых траекторий ложных объектов.

Литература

1. Dareell T., Pentland A. Robust Estimation of Multi — Layered Motion Representation// Proc. IEEE Workshop Visual Motion. 1991. P. 173-178.

2. Tao Hai, Sawhney Harpreet S., Kumar Rakesh. Object Tracking with Bayesian Estimation of Dynamic Layer Representations // IEEE Transaction on pattern analysis and machine intelligence. January 2002. Vol. 24. N 1. P. 75-83.

3. Обухова Н. А. Предварительная классификация изображения в задачах сегментации объектов // Ин-формационно-управляющие системы. 2007. № 2. С.22-28.

4. Обухова Н. А., Тимофеев Б. C. Сегментация объектов в последовательности видеокадров методами нечеткоИ логики // Информационно-управляющие системы. 2006. № 3. С. 12-18.

5. Beauchemin S. S., Barron J. L. The computation of optical flow // ACM Computing Surveys. 1995. Vol. 27. N. 3. P. 433-467.

6. Обухова Н. А. Априорная оценка векторов оптического потока (векторов движения) // Изв. вузов России. Сер. Радиоэлектроника. 2006. № 3. С. 30-36.

7. Обухова Н. А. Субпиксельная оценка векторов движения // Известия вузов России. Сер. Радиоэлектроника. 2007. № 1. С.18-23.

i Надоели баннеры? Вы всегда можете отключить рекламу.