Научная статья на тему 'Вариант системы интеллектуальной видеоаналитики (icctv)'

Вариант системы интеллектуальной видеоаналитики (icctv) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
296
58
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВИДЕОНАБЛЮДЕНИЕ / АНАЛИЗ ВИДЕОПОТОКА / ВЫДЕЛЕНИЕ ОБЪЕКТОВ / ВЫЧИТАНИЕ ФОНА / КЛАССИФИКАЦИЯ ОБЪЕКТОВ / ТРЕКИНГ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Токарев В. Л., Гладких А. В., Котов К. А.

Предложен подход к построению систем видеоаналитики, предназначенных для анализа ситуаций, возникающих на контролируемой территории. Основными преимуществами таких систем являются более низкие требования к капиталовложениям и их способность к самообучению.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

THE VARIANT OF VIDEO ANALISIS INTELLIGENT SYSTEM (ICCTV)

The alternative approach of video analysis system construction is suggested in this paper. Considered intelligent systems for analysis situations, which appear on the territory under control. General advantages of systems like these are lesser capital investment demands and their abilities in self training.

Текст научной работы на тему «Вариант системы интеллектуальной видеоаналитики (icctv)»

Science, pages 101-120. Springer-Verlag, 2001.

26. Ларкин Е.В., Сабо Ю.И. Сети Петри-Маркова и отказоустойчивость авионики. Тула: Тул. гос. ун-т., 2004. 208 с.

27. Карпов В.С., Ивутин А.Н., Дараган Е.И., Сети Петри-Маркова и верификация программного обеспечения реального времени, Известия ТулГУ. Серия: Технические науки. Номер 4. Тула: Изд. ТулГУ, 2010. С. 266-271.

A.N. Ivutin, E.I. Daragan

THEORY OF THE PETRIS NETWORKS AND ITS EXPANSION

The theory of Petri nets is considered, the review of available operations on this method of simulation Is provided to area of its application, the short review of extensions of the classical theory is provided.

Key words: Petri nets, parallel computing systems, a graph of the accessibility, the colored Petri nets, temporal Petri nets.

Получено 28.09.12

УДК 004.932

В.Л. Токарев, д-р техн. наук, проф., (4872) 35-79-87, [email protected] (Россия, Тула, ТулГУ)

А.В. Гладких, асп., (4872) 35-79-87, [email protected] (Россия, Тула, ТулГУ),

К.А. Котов, асп., (4872) 35-79-87, [email protected] (Россия, Тула, ТулГУ)

ВАРИАНТ СИСТЕМЫ ИНТЕЛЛЕКТУАЛЬНОЙ ВИДЕОАНАЛИТИКИ (1ССТУ)

Предложен подход к построению систем видеоаналитики, предназначенных для анализа ситуаций, возникающих на контролируемой территории. Основными преимуществами таких систем являются более низкие требования к капиталовложениям и их способность к самообучению.

Ключевые слова: видеонаблюдение, анализ видеопотока, выделение объектов, вычитание фона, классификация объектов, трекинг.

В настоящее время видеонаблюдение (CCTV) стало приметой современной жизни и обычным атрибутом публичных пространств и частных владений, в которые не исключается доступ посторонних лиц. Возможность использования методов искусственно интеллекта для просмотра и анализа видео, извлечения полезной информации и выдачи соответствующих уведомлений является важным и актуальным направлением раз-

221

вития современной видеоаналитики. Одним из заметных достижений этого направления стало появление в 2010 году продукта Smart Video Suite (SVS, пакет интеллектуальной видеоаналитики) компании IBM. При этом IBM SVS обычно является частью комплексной системы, имеющей определенную предысторию и способной анализировать данные, поступающие не только с видеокамер, но и из многих других источников, включая различные базы данных (о преступниках, угнанных транспортных средствах и т. д.). Это становится предпосылкой для создания крупных и дорогостоящих так называемых ситуационных центров.

Но интерес представляет также создание небольших (менее капиталоемких) систем видеоаналитики, предназначенных для анализа ситуаций, возникающих на контролируемой территории, и главная задача которых — не только реагировать на чрезвычайные ситуации, но и своевременно предупреждать их. К примеру, если ночью машина останавливается около охраняемого объекта, и никто из этой машины долгое время не выходит, то есть смысл выяснить, что именно эта машина там делает. Если на железнодорожном пути вдруг появляется какой-либо посторонний предмет, то это тоже повод для беспокойства.

В статье предлагается подход, позволяющий строить именно такие интеллектуальные CCTV, основным отличием которых от IBM SVS являются существенно более низкие требования к капиталовложениям и способность системы к самообучению.

Задача построения такой ICCTV сформулирована следующим образом.

Видеокамера в каждый дискретный момент времени k выдает непрерывный поток оцифрованных изображений ю(к), где ю - nx m - матрица пикселов. Программные средства ICCTV должны:

1) выделять в потоке ю(к) подвижные объекты a(k);

2) классифицировать их по признаку - тип объекта (например, люди - a1(k), легковые автомобили - a2(k), грузовые автомобили - a3(k), пассажирские автобусы - a4(k), животные - a5(k), другие - a6(k));

3) используя выделенные объекты, определить вектор параметров

Затем в режиме самообучения:

4) для каждого j-го интервала времени К|={к=1,2,...,П|} по последовательности тсю(к), кеК|, определить границы допустимых в штатном ре-

5) Полученные значения (j, Kj сохранить в базе данных

TCM(k)={ni(k), П2(к), ..., Пб(к)}.

жиме значений параметров

- число временных интервалов.

ICCTV.

В дежурном режиме:

4) по получаемым видеонаблюдениям ю(к), выделенным в них объектам аI(к), / = 1,...,6, и вычисленным векторам параметров пю(к) оценивать принадлежность пю(к) е пу (к е К j ) =

mm max

j = При

этом, если оказывается, что

j = 1,..., к вырабатывается сигнал

nffl(k)gn|J (к е K j )=

mm max

тревоги и выдается соответствующее сообщение дежурному оператору

тсю(к) gny (k е K j )=

mm max

^ mess. (1)

5) затем по полученной последовательности векторов значений (пю(к), пю(к-1), тсю(к-2), ...} выполняется процедура классификации возникшей ситуации s(k). (Для этого множество возможных последовательностей значений Пю={жю(к), пю(к - l),n^y(k - 2),...} в режиме обучения

ICCTV разбивается на q классов (по числу нештатных ситуаций, требующих вызова спецслужб, для их ликвидации), на подмножества

П^, l = 1,..., q.). Правило классификации имеет вид:

1 = щ-g min р\Па(к), (к)] (2)

l=1,..., q V J

где р() - метрика, позволяющая сравнивать последовательности {тсю(к), тсю(к-1), тсю(к-2), ...} и удовлетворяющая условиям:

рГп^(к),П^(к)J = i 0 если П*(к)=П? (к) (3)

V J l> 0, если Па(к(к)

Предлагается следующий вариант решения поставленных задач. 1. Выделение в потоке ю(к) подвижных объекты а(к) может быть осуществлено следующими методами: вычитания фона, временной разности, оптического потока и вероятностным методом. Эти методы имеют различную сложность реализации и, соответственно, отличаются необходимыми требованиями к вычислительным ресурсам.

Вычитание фона - это наиболее широко распространенный в настоящее время подход к обнаружению движущихся объектов в видеоизображениях, полученных с помощью стационарной телекамеры. Суть таких методов заключается в попиксельном сравнении текущего кадра с шаблонным, который обычно называют моделью фона. Как правило, эта модель, представляющая собой описание сцены без движущихся объектов, должна регулярно обновляться, чтобы отражать изменения освещенности и геометрических параметров. Простейший алгоритм вычитания фона заключается в вычислении для каждого пикселя абсолютного значения разности сохраненного первого кадра Ь1(х,у) видеопоследовательности ю(к) и

223

текущего кадра Ь(х,у). Полученное значение сравнивается с порогом: \Ъ\(х,у)-Ci(х,у)>£, х = 1,...,N, у = 1,...,М . Здесь N и М- соответственно

ширина и высота изображения. Если данное неравенство выполняется, то пиксел (х,у) считается переднеплановым, иначе - фоновым. Для устранения шума можно обновлять задний план с помощью фильтра с бесконечным импульсным откликом: Ьг-+1 = аег- +(1 — а)Ьг-где индекс i обозначает номер кадра, а а обычно лежит в пределах от 0.05 до 0.15. Кроме этого уравнения можно использовать другие, несколько более сложные фильтры. Однако, для этого требуется увеличение необходимых вычислительных ресурсов, так как приходится хранить информацию из п предыдущих кадров.

Достоинствами указанных алгоритмов являются простота их реализации и невысокая потребность в вычислительных ресурсах. К недостаткам данных методов относятся высокая чувствительность к изменению освещённости сцены (при этом большая часть сцены может быть сегментирована в передний план) и невозможность обработки динамического фона, откуда следует большая вероятность ошибок при классификации конкретных пикселей изображения.

Одним из возможных способов преодоления указанных недостатков, в частности корректного учёта изменения освещённости сцены, движения теней от неподвижных объектов, а также периодических колебаний фоновых движений (ветви деревьев), при выделении переднего плана является использование двух моделей фона. Предположим, что в момент

времени к имеется первичное фоновое изображение Ьр (х,у) и вторичное

Ь^(х, У). При этом первичное фоновое изображение остаётся неизменным

на протяжении всей работы приложения, а вторичное изменяется по следующему алгоритму: если за последние 3 секунды объект, полученный в качестве переднего плана не перемещался, то он признаётся фоном изображения. Таким образом, можно отсеить остановившиеся объекты, переместившиеся тени, а также в течении этих 3-х секунд исправляется ситуация неверного выделения фона вследствие изменения освещённости. При таком раскладе новый передний план получается только при превышении порога 5 обоими разностями фона и текущего кадра одновременно.

Остальные методы (вероятностные методы, методы временной разности и оптического потока, а также более сложные методы вычитания фона) требуют гораздо больших вычислительных мощностей.

Для улучшения результатов анализа изображения можно использовать дополнительные фильтры. Наиболее эффективным по отношению скорость/качество является медианный фильтр. При медианной фильтрации используется двумерное окно (апертура фильтра), обычно имеющее центральную симметрию, при этом его центр располагается в текущей

точке фильтрации. Обычно применяют окна с нечетным числом точек ^ (это автоматически обеспечивается при центральной симметрии апертуры и при вхождении самой центральной точки в ее состав).

2. Для выделения объекта необходимо найти для каждого пикселя переднего плана всех его соседей и соседей всех найденных пикселей данного объекта. Данную операцию проще всего совместить с вычислением площади объекта, т. е. необходимо пересчитать все пиксели принадлежащие объекту. Для выполнения данного действия достаточно обойти всё изображение и для каждого пикселя переднего плана, не принадлежащего конкретному объекту выполнить поиск всех пикселей, образующих вместе с текущим новый объект.

Если рассматриваемый сосед является переднеплановым и не принадлежит другому объекту, то обход начинается заново, но уже для рассматриваемого соседа, при этом глубину обхода текущего пикселя необходимо сохранить. Если в результате обхода текущего пикселя новых соседей не выявлено, то происходит возврат к предыдущему рассматриваемому пикселю, который уже обрабатывается с сохранённой глубины. При этом нужно контролировать и размеры объектов. Если размер объекта оказывается ниже порогового, то это с высокой степенью вероятности является «мусорным» объектом и необходимость в его учёте отсутствует.

Особую трудность при классификации выделенных объектов создает следующее обстоятельство: истинная природа объекта может быть искажена вследствие наложения нескольких объектов. Например, группа идущих рядом людей в отдельных кадрах может выглядеть как едущий автомобиль. Для решения этой проблемы необходимо использовать подход, основанный на порождении и проверке ряда гипотез.

На первом шаге для каждого кадра при помощи метода временной разности выделяется N потенциальных объектов. Эти объекты классифицируются при помощи выбранного метрического оператора d(x) и результат отмечается как гипотеза.

Дальше в действие вступает принцип временной согласованности: каждый из этих потенциальных объектов должен присутствовать в последующих кадрах для продолжения классификации. Поэтому в новом кадре ищется соответствие всех переднеплановых областей предыдущего кадра переднеплановым областям текущего при помощи той же метрики. Все потенциальные переднеплановые объекты предыдущего кадра, которым не соответствует ни один объект текущего кадра, выбрасываются из дальнейшего рассмотрения. Переднеплановые объекты текущего кадра, не соответствующие никакому объекту предыдущего кадра, считаются новыми потенциальными объектами. Таким образом, в каждом кадре происходит обновление классификационной гипотезы.

Тем самым могут быть накоплены статистические данные об объек-

225

те за определенный промежуток времени, что позволяет принять правильное классификационное решение. Более того, такие посторонние движения, как качание ветвей дерева исключены из рассмотрения используемой моделью детектора движения.

Выбор метрического оператора основывается на том обстоятельстве, что люди, как правило, имеют меньшие размеры и более сложные контуры, чем транспортные средства. Для учета этой закономерности весьма эффективным является следующий метод. Введем систему координат, в которой по одной оси будем откладывать размер объекта А (общее число пикселей), а по другой - величину D, определяемую по следующей формуле:

D = (р*р)/А;

где р - это периметр объекта. После этого на основе данных, полученных во время обучения системы, на координатной плоскости можно выделить области, соответствующие людям и транспортным средствам. Дальнейшее разделение между этими двумя классами проводится путем разбиения массива данных или линейным образом, или при помощи меры Махалано-биса [1].

Можно заметить, что для изображений людей параметр D принимает значения, примерно в полтора раза большие, чем для изображений автомобилей, в то время как общее число пикселей А для автомобилей, как правило, на порядок больше, чем для присутствующих на той же сцене людей. В результате этого области, соответствующие изображениям автомобилей и людей, будут достаточно далеко разнесены на плоскости (А, D).

Чтобы избежать неверной классификации объектов во время их перекрытия или в тех случаях, когда объект на изображении появился только частично (при этом автомобиль может выглядеть как человек), можно использовать метод максимального правдоподобия. Для каждого передне-планового объекта следует построить классификационную гистограмму, у которой число ячеек совпадает с числом различных типов объектов. Например, если считать, что в видеопотоке могут присутствовать автомобили, группы людей и отдельные люди, то размер такой гистограммы будет равен трем, а каждая ее ячейка будет отображать количество раз, когда рассматриваемый объект был отнесен к конкретному классу. Вводится время классифицирования, по прошествии которого объект считается отнесенным к классу, имеющему наибольшее значение в гистограмме.

На первом этапе необходимо создать базу данных шаблонов контуров различных объектов, которая в дальнейшем используется для анализа видеопотока. В созданную базу данных могут входить контуры людей в различных позах, автомобили, снятые в различных ракурсах и т.п. При этом храниться будут не сами изображения, а их характерные расстояния (например, центр масс объекта). Данный подход представлен на рисунке

226

ниже.

Так как различные объекты имеют отличающиеся размеры, то, естественно, и размеры их контуров тоже не совпадают.

Иной подход для извлечения характерных признаков из изображения объекта состоит в том, что каждый выделенный объект заключается в минимально возможный прямоугольник, который делится на четыре меньших прямоугольника, называемые квартилями [1]. Точкой пересечения отрезков, делящих исходный прямоугольник, является центр масс объекта. Далее определяются центры масс квартилей и расстояния до них от центра масс объекта. Для увеличения робастности характерного набора данных рассчитываются также углы, которые составляют векторы между центрами масс с горизонтальным отрезком, делящим объект (рис.2).

щ \

< ^^)

Рис. 1. Простейший пример характеристики контуров

Рис. 1. Пример анализа характеристик контуров

Для подробной классификации объектов можно воспользоваться методом линейного дискриминантного анализа [2].

3. Определение вектора параметров для каждого класса выделенных объектов и отдельных экземпляров интересующего класса. Целью этого этапа является установление соответствия между различными объектами или их частями в последовательности кадров и нахождение траекторий

объектов (задача трекинга), а также вычисление их динамических характеристик, таких как скорость и направление движения.

В простой форме задача трекинга объектов заключается в назначении соответствующих меток одним и тем же объектам в различных кадрах. При решении этой задачи следует одновременно учитывать влияние следующих факторов: 1) изменение изображения, освещенность сцены, наличие шума камеры, 2) присутствие объектов, изменяющих свою форму (например, бегущий человек), 3) временное исчезновение объектов, возникающее из-за загораживания (перекрытия) их другими объектами, в результате чего траектории временно прерываются, 4) наличие нескольких одновременно движущихся объектов с близкими характерными признаками и пересекающимися траекториями, 5) искажения, связанные с неправильной сегментацией объектов на предыдущих этапах обработки, 6) необходимость осуществлять сопровождение в масштабе реального времени.

Для осуществления трекинга нужно выделить объекты, за которыми ведется наблюдение, установить между ними соответствие на различных кадрах, а также проанализировать траекторию с целью прогнозирования параметров движения. Чтобы решить эти задачи, в первую очередь нужно определить, в какой форме будут описываться объекты наблюдения, для чего существует несколько возможностей: 1) одной точкой, характеризующей центр масс объекта или центр минимально возможного прямоугольника (МВП), описанного вокруг объекта, 2) набором особых (ключевых) точек, по которым объект может быть однозначно распознан на следующих кадрах, 3) геометрическим примитивом, таким как эллипс или МВП, описанным вокруг объекта, 4) внешним контуром объекта, 5) набором областей, максимально устойчивых при движении объекта, либо всей областью, занимаемой объектом и др.

В зависимости от способа описания существуют эффективные алгоритмы, позволяющие реализовать слежение за объектами [3]. Если наблюдаемые объекты расположены далеко друг от друга и перемещаются с небольшой скоростью, то практически все алгоритмы работают одинаково хорошо.

К параметрам, составляющим вектор пю(к) отнесены:

1) количество людей (транспортных средств), попавших в контролируемую зону в период К

2) направления и скорость движения людей (транспортных средств);

3) время пребывания отдельных людей (транспортных средств) в контролируемой зоне;

4) наличие скопления людей (транспортных средств) в одном месте контролируемой зоны;

5) положение людей (идет, стоит, сидит, лежит) и аналогично для

228

транспортных средств;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

6) действия людей (садится в транспорт, выходит из транспорта, входит в помещение, выходит из помещения, ждет, бежит и т.п.)

7) многое другое (всего 20 атрибутов).

4. Границы допустимых в штатном режиме значений параметров

п

){k е Kj )=

j

mm max nj nj

обучения ICCTV

•j п j (k), k е Kj, J = . Значения nmm

j = 1,...,к определяются в процессе само-

по накопленной выборке данных mm „max

определяются как ме-

J

дианные оценки

min nj

med

min k eK j

п j (k)

„max п j

med

max k е kj

п j (k)

« rr min max Л r

5. Полученные значения пj ,пj , j = 1,...,^ сохраняются базе

данных (БД), в которой будет сохраняться также информация о количестве объектов в кадре и о времени получения этих данных. В качестве системы управления БД (СУБД) рациональнее использовать либо MySQL, либо SQLite, которые являются мультиплатформенными и имеют свои преимущества и недостатки. Так при использовании SQLite не требуется отдельный сервер с СУБД, но учитывая специфику приложения данная особенность не существенна. Одним из преимуществ MySQL является возможность хранения данных на удалённом сервере и этими данными могут пользоваться другие приложения.

Для обнаружения одного и того же объекта на последовательности кадров используются метаданные объектов в БД.

Основной задачей режима обучения системы ICCTV является построение базы знаний (БЗ), включающей модели различных нештатных ситуаций, требующих вмешательства определенных служб (охраны, службы безопасности, полиции, скорой медицинской помощи, служб МЧС, пожарных и т.п.). Такие модели должны обеспечивать быстрое (в реальном времени) решение задачи (2) классификации ситуации в дежурном режиме.

В качестве таких моделей предлагается использовать лингвистические модели вида:

Л

U Mg (пЛк(пю(1)\ 1 = q, (4)

Л=0

где g,h - нечеткие множества, задаваемые соответственно на значениях полученных параметров и соответствиях значений п^ (l) l-ой ситуации. построение таких моделей подробно рассмотрено в [4]. подстройка (актуа-

лизация) таких моделей производится в процессе самообучения системы ICCTV.

В дежурном режиме по вычисленным в реальном времени параметрам пю(к) оценивается истинность левой части правила (1). При значении истинности выше некоторого порога выдается сообщение mess дежурному оператору и запускается процесс классификации ситуации, который определяет значения функций принадлежности j (Пу(/ )), l = 1,..., q с помощью модели (4). Выбор значения l в соответствии с правилом (2) выполняется решающим правилом

I = Ш-g max J (пу(/)) /=1,..., q

Такая система ICCTV, благодаря использованию базы знаний, построенной на основе лингвистических моделей (4) может в один момент времени по каждой видеокамере отслеживать и индексировать поведение нескольких десятков заинтересовавших её объектов. Затем, в случае необходимости, она практически мгновенно может давать ответы на различные запросы. Например, можно попросить систему выделить все эпизоды (за последние две недели), где синяя легковая машина неожиданно делает левый поворот. Это достигается за счет того, что в процессе слежения каждому объекту приписывается достаточно широкий (около 20) перечень атрибутов: тип объекта, размер, цвет, форма, скорость, время нахождения в поле зрения камеры и т. д. Разумеется, не все эти события автоматически приводят к появлению сигнала тревоги.

Предлагаемая система также хорошо масштабируется. Поэтому заказчик может сначала опробовать его на небольшом числе видеокамер, включенных в один контур, а затем расширить количество наблюдаемых зон. Способность системы к самообучению позволяет снизить количество ложных срабатываний (подачи сигнала тревоги без веских на то оснований) и экономии времени специалистов служб безопасности, пользующихся такой системой. При нормальном разрешения изображения и отсутствии видимых помех уровень распознавания довольно высок. При этом, конечно, должны быть соблюдены конкретные требования к размещению камеры, расстоянию до объекта, количеству и типам объектов, среде внутри и вне помещения, освещению и другим факторам, влияющим на эффективность видеонаблюдения.

Список литературы

1. Лукьяница А.А., Шишкин А.Г. «Цифровая обработка видеоизображений». М.: «Ай-Эс-Эс Пресс», 2009. 518 с.

2. Дамьяновски В. «CCTV. Библия видеонаблюдения». М.: ООО «Исс», 2002. 323 с.

3. Форсайт Д., Понс Ж. «Компьютерное зрение. Современный подход». 2004. 928 с.

4. Токарев В.Л. Основы теории обеспечения рациональности решений. Монорафия. Тула: Изд-во ТулУ, 2000. 120 с.

V.L Tokarev, A. V Gladkikh, K.A. Kotov

THE VARIANT OF VIDEO ANALISIS INTELLIGENT SYSTEM (ICCTV)

The alternative approach of video analysis system construction is suggested in this paper. Considered intelligent systems for analysis situations, which appear on the territory under control. General advantages of systems like these are lesser capital investment demands and their abilities in self-training.

Key words: video surveillance, video analysis, object detection, background subtraction, object classification, tracking.

Получено 28.09.12

УДК 681.5

Д.В. Чеховский, асп., (4872) 35-02-19, [email protected] (Россия, Тула, ТулГУ), М.Б. Цудиков, канд. техн. наук, доц., [email protected] (Россия, Тула, ТулГУ)

ИССЛЕДОВАНИЕ ПРОЦЕССА ОПРЕДЕЛЕНИЯ ХАРАКТЕРНЫХ ТОЧЕК НА СМЕЖНЫХ ИЗОБРАЖЕНИЯХ МЕТОДОМ SIFT

Рассмотрено влияние разрешения изображения на время определения характерных точек в области перекрытия соседних кадров при автоматическом формировании цилиндрической панорамы оптико-электронным устройством сканирования местности. Проведен анализ изображений различной степени сложности распознавания. Ключевые слова: системы панорамного видеонаблюдения, характерные точки,

SIFT.

Системы панорамного видеонаблюдения, работающие в старт-стопном режиме, используют для создания цилиндрических панорам комплект сделанных с некоторым перекрытием изображений [2]. В связи с этим возникает задача сопоставления соседних кадров для последующего их сшивания.

Задача сопоставления изображений включает в себя: выделение на соседних кадрах характерных точек и их идентификаторов - дескрипторов;

i Надоели баннеры? Вы всегда можете отключить рекламу.