Научная статья на тему 'Использование неокогнитрона в решении задачи распознавания действий объекта на видеопотоке'

Использование неокогнитрона в решении задачи распознавания действий объекта на видеопотоке Текст научной статьи по специальности «Физика»

CC BY
121
15
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
НЕОКОГНИТРОН / КОМПЬЮТЕРНОЕ ЗРЕНИЕ / МЕТОД ЛУКАСА-КАНАДА

Аннотация научной статьи по физике, автор научной работы — Кутергин Антон Олегович

Изучена проблема распознавания действий объекта на видеопоследовательности. В представленном материале показана методика приведения пространственно-временных характеристик действий объекта, полученных при помощи решения уравнения оптического потока, к виду, пригодному для подачи на вход нейронной сети типа «неокогнитрон».

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по физике , автор научной работы — Кутергин Антон Олегович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

This article is devoted to the recognition of object's actions at the video stream. There is the technique of representing the spatial-temporal characteristics of the object's action obtained by solving the equation of optical flow, to a form suitable for submission to the input of the neural network type «neokognitron»

Текст научной работы на тему «Использование неокогнитрона в решении задачи распознавания действий объекта на видеопотоке»

-►

Проблемы передачи и обработки информации

УДК 681.513.7

А.О. Кутергин

ИСПОЛЬЗОВАНИЕ НЕОКОГНИТРОНА В РЕШЕНИИ ЗАДАЧИ РАСПОЗНАВАНИЯ ДЕйСТВИй ОБЪЕКТА НА ВИДЕОПОТОКЕ

Системы компьютерного зрения активно развиваются и применяются в прикладных задачах. Такие задачи, как распознавание образов, сегментация изображений, оценка параметров объектов на изображениях, слежение за объектами на текущий момент решаемы. Существующие методы и алгоритмы позволяют решать данный класс задач в прикладных системах. Исследования в области распознавания действий объектов на современном этапе развития компьютерного зрения остаются актуальным направлением, т. к. существующие методы и алгоритмы решают узкоспециализированный класс прикладных задач. Представленная в данной статье методика классификации действий объекта по данным видеопотока при помощи неокогнитрона позволяет решать более широкий класс подобных задач. Решение настоящей проблемы связано с выделением пространственно-временных характеристик действий объекта и классификацией действий по данным характеристикам. Проблематике классификации и посвящена статья.

Постановка задачи

Пусть существует некоторая область пространства, в данном пространстве существуют объекты, совершающие перемещения в пространстве. Некоторую конечную последовательность данных перемещений, будем называть действием объекта.

Кадром будем называть проекцию анализируемой сцены на фокальную плоскость регистрирующего прибора (видеокамеры) в момент времени. Видеопотоком будем называть последовательность кадров, зарегистрированных через равные промежутки времени Дt.

Кадр является проекцией светового потока на фокальную плоскость (далее - плоскость). На рас-

сматриваемой плоскости определена непрерывная функция интенсивности для каждой точки с координатами х, у, которая определяет значение интенсивности светового потока в данной точке:

I=1(х, у). а)

Для анализа кадра при помощи вычислительных машин требуется дискретизация функции интенсивности. Плоскость разбивается на М х N равных квадратных ячеек, в каждой ячейке проводится квантование функции интенсивности. Следовательно, кадр можно представить в виде матрицы размерности М х N, элементы которой являются значением квантованной функции интенсивности в соответствующей ячейке. Элемент полученной матрицы будем называть пикселем.

Видеопоследовательность, являющаяся последовательностью кадров, зарегистрированных через равные промежутки времени, может быть записана следующим образом:

5 = {1о,I,, ..., 1п}, (2)

где 10 - функция интенсивности, определенная на кадре, зарегистрированном в момент времени t0; 11 - функция интенсивности, определенная на кадре, зарегистрированном в момент времени t0 + Д/; 1п - функция интенсивности, определенная на кадре, зарегистрированном в момент времени t0 + Д/ • п.

Отсюда видно, что значение интенсивности пикселя зависит от его координат и момента времени, в который был зарегистрирован кадр, следовательно, можно записать функцию интенсивности, определенную на всем видеопотоке, следующим образом:

I = 1(х, у, t). (3)

Так как объект является частью сцены, а сце-

Научно-технические ведомости СПбГПУ 5' 2012 ^ Информатика. Телекоммуникации. Управление

на представлена матрицей пикселем, то он описывается совокупностью некоторых пикселей данной матрицы. Изменение положения объекта в пространстве, т. е. движение объекта, вызывает изменение координат пикселей объекта в последовательности кадров.

Для вычисления пространственно-временных характеристик перемещений объекта будем использовать оптический поток [1]. Оптический поток есть векторное поле двумерных векторов, соответствующее смещению пикселей изображений объектов, вызванное сменой кадра, т. е. характеризует траекторию и скорость движения пикселей при смене кадров.

Существующие методы вычисления оптического потока используются для определения «схожих» точек на двух кадрах, в решении данной задачи он используется для описания перемещений наблюдаемого объекта. На текущий момент разработано большое количество методов вычисления оптического потока, но исходя из [2] наиболее подходящим для решения поставленной задачи является метод Лукаса-Канада [3], т. к. он обладает рядом преимуществ относительно других: малой вычислительной сложностью и устойчивостью к шумам на входном изображении.

Уравнение оптического потока по Лукасу-Канада имеет следующий вид:

Ё>1 (Я )2

,=1

Ъ»1Х (Я) I (Я)

1>1 (Я) I (Я)

1=1

¿>1 (Я )2

-£>! (Я) I (Я)

,=1

-2>Ду (Я) I, (Я)

(4)

где (У, У) - вектор оптического потока в точке р; я1,я2, ..., яп - пикселя окрестности точки р; IX (Я), Iу (Я), ^ (Я 1) - частные производные изображения I по координатам х, у и времени ,, вычисленные в точке я; >, - веса, которые будут присвоены пикселям я, окрестности точки р, в качестве весов > будем использовать нормальное гауссовское распределение расстояния между Я и р.

Решением данного уравнения будет множество векторов смещений пикселей объекта, которые и образуют векторное поле смещений, описываемого вектор-функцией У(х, у, ,).

Классификацию действий объекта по полученным характеристикам будем производить при помощи неокогнитрона. Использование нейронной сети типа «неокогнитрон» обусловлено тем, что согласно [4] данный тип нейронной сети при распознавании образов обладает следующими преимуществами: инвариантностью к позиционным сдвигам; инвариантностью к аффинным преобразованиям; инвариантностью к масштабированию; инвариантностью к частичному перекрытию и потерям изображения.

Вход неокогнитрона - двумерная плоскость нейронов, также называемая сетчаткой, требуется преобразовать векторное поле пространственно-временных характеристик действий объекта в вид функции, определенной на конечном дискретном пространстве размерности 2 для подачи на вход неокогнитрона, причем при данном преобразовании не должны происходить потери

информации о характере движения объекта.

Преобразование

Для задания движения твердого тела нужно определить положение только трех его точек, не лежащих на одной прямой, а кинематической моделью твердого тела будет треугольник, построенный по этим трем точкам. Следовательно, для точного описания движения тела для каждого момента времени ,п достаточно трех векторов из поля У(х, у, ,), где

У(х, У,О > 0.

(5)

Выберем три точки Р0 = (у), р = (х2, у2), Р2 = (х3, у3), такие, что для момента времени 1п

РР |= тах1

(х1 - х2 )2 +(У1 - У2 )2 )

рр2 |= тах^(х2 - хз )2 + (у2 - Уз )2)

Р3 Р1 |= тах!

(6)

(х3 - х1 ) +(У3 - у)), У(Х1,У1,П )|> 0

У(Х2,У2,,п)|> 0

| У(Х3,У3А)|> 0

т. е. выбранные точки являются максимально удаленными друг от друга (рис. 1).

Из кинематики твердого тела известно, что точкой, характеризующей движение системы частиц как целого, является центр масс. Найдем центр масс Рс системы Р0 Р1 Р2:

4

Проблемы передачи и обработки информации

У

Уг

~1-Г"

Л Уз

2»У2» '

'У1> п )/ /

Ро

Р3

'з.О

Рис. 1. Система точек

Ус =

3

У1 + У 2 + Уз 3

Р = (Х , Ус ).

(7)

(8) (9)

Вычислим вектор скорости V для найденного центра масс Р \

(V + V + Vх V + V + уу Л

V = Х1 Х2 *3 У1 У2 Уз (10)

V 3 3 У

Найденный вектор скорости является вектором средней скорости объекта и описывает поступательно движение центра масс. Так как в общем случае движение объекта характеризуется двумя составляющими (поступательным и вращательным движением), требуется учитывать вращательную характеристику.

Введем вращательную характеристику. Рассмотрим движение центра масс как вращение относительно какой-либо из выбранных вначале точек. В качестве примера возьмем точку Р Вос-

V, (г) + VX (г) + Vл (г)

^ (!) = -^-

пользуемся уравнением Эйлера для связи скоростей двух точек:

V =VP + сс х РР , (11)

с Р0 0 с'

где С — угловой вектор скорости объекта.

Скорость вращения центра масс относительно точки Р0 находится следующим образом:

(12)

То есть

VpVpo =Сх рРс.

V = V - V

РсРо Рс Ро

(13)

Ур известно, т. к. входит в найденное векторное поле смещений точек объекта, Vp вычисляется по соотношению (10). Из соотношений (11)—(13) очевидно, что вектор угловой скорости с равен для всех точек объекта. Отсюда следует, что зная значения вектора скорости центра масс Vp и вектора скорости вращения центра масс относительно какой-либо точки объекта Vp р , можно найти вектора скоростей для любой точки объекта. То есть движение объекта однозначно характеризуется двумя вектор-функциями:

Vyl (!) + Vy2 (г) + Уyз (!) Х + —------У

(14)

vPA(t) = Vp (г) - V (*2, г)

где х и У — координатные орты.

Применение неокогнитрона

Неокогнитрон принимает на вход матрицу

значений, размерность которой соответствует размерности входной плоскости нейронов. Пусть х и У - количество нейронов по соответствующему направлению входной плоскости. Тогда

Хс

4

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Научно-технические ведомости СПбГПУ 5' 2012 Информатика. Телекоммуникации. Управление

Кг у.,.........

V РЛ В(2) — •

- Ко

/

Р«РС /

/

- Ро

V. ---------_ 0

Рис. 2. Характеристические точки

функция Е = Е(х, у) будет дискретной функцией входных значений, а областью определения данной функции является матрица М входных значений размерности х х у.

Функция должна однозначно характеризовать движения объекта в целом. Как мы уже знаем, система уравнений (14) однозначно характеризует движение объекта, следовательно, значения функции Е должны зависеть от положения точки центра масс Р, вектора скорости точки центра масс УР и вектора скорости вращения точки центра масс относительно любой другой точки УР Р .

Возьмем точки К0, Кр К2:

К0 = (X, уX

(15)

К1 = (Хс + УРсР0 х , Ус + УРсР0 у ),

К 2 = (Хс + Урсх , Ус + Урсу X т. е. координаты точки К0 - координаты точки центра масс объекта; координаты точки К1 - координаты конца вектора скорости вращения центра масс относительно точки Р0; координаты точки К2 - координаты конца вектора скорости точки центра масс.

Найдем кривую Безье для данных трех точек:

В( 2) = (1 - 2)2 Ко +

(16)

+27(1 - 7)К + 72 Кг, 2 е [0,1]. На рис. 2 приведено графическое представление данного преобразования.

Как видно из графика вектора УРр и УР - УРР - касательные к кривой Безье. Исходя

из соотношений (15) и (16) очевидно, что по полученной кривой можно восстановить значения векторов скоростей УР и УР Р , в то же время исходя из (11)—(13) можно восстановить вектор скорости для любой точки данного тела. Полученное уравнение кривой однозначно характеризует движение данного тела, но не учитывает направление движения.

Для каждой пары кадров ? и £ находится кривая Безье В(2), множество найденных точек всех кривых Безье В(2).. ,Вп(2) за промежуток времени [?0, ?и+1] является областью определения функции Е входных данных неокогнитрона. Для учета направления движения требуется ввести временную составляющую, тогда пусть значение Е растет с течением времени, т. е. производная функции Е по х и у - характеристика направления движения. Тогда функция Е принимает следующий вид:

Е(Вя(2)) = п + 2, 2 е [0,1]. (17)

Следовательно, область определения функции Е, матрица М входных значений для подачи на сетчатку неокогнитрона, будет такой, что

ту = п + 2

' = ВПх (2)

] = Ву (2) .

2 е [0,1]

Для рассмотренного выше примера графическое представление функции Е изображено на рис. 3.

(18)

4

Проблемы передачи и обработки информации^

Рис. 3. Характеристическая кривая

Далее матрица значений функции Р подается на вход неокогнитрона. В случае успешной классификации действия объекта область определения функции обнуляется, в обратном случае -расширяется на В(т).

Ввиду использовании для классификации нейронной сети типа «неокогнитрон», данный алгоритм обладает высокой устойчивостью к шумам на входном видеопотоке, к ориентации объекта в пространстве, к частичному перекрытию наблюдаемого объекта другими объектами сцены в процессе совершения объектом действий. Также данный алгоритм обладает небольшой вычислительной сложностью, т. к. для вычисле-

ния пространственно-временных характеристик движения наблюдаемого объекта используются только три точки данного объекта, т. е. скорость выполнения алгоритма не зависит от разрешения входного видеопотока и может выполняться в реальном времени. Данный алгоритм применим для классификации действий любых объектов, поскольку использует только ключевые точки наблюдаемого объекта. За счет низкой вычислительной сложности и устойчивости к качеству входных данных может применяться во многих прикладных приложениях, таких, как охранные системы, робототехника, системы мониторинга, автоматизированные системы судейства спортивных мероприятий.

СПИСОК Л

1. Prazdny, K. The information in optical flows [Text] / K. Prazdny. -Computer Science Department. University of Essex, Colcheste, 1980.

2. Barron, J.L. The computation of optical flow [Text] / J.L. Barron, S.S. Beauchemin // ACM Computing Surveys. -1995. -№27. -P. 433-466.

3. Lucas, B.D. An iterative image registration technique with an application to stereo vision [Text] /

B.D. Lucas, T. Kanade // Proc. of Imaging Understanding Workshop. -1981. -P. 121-130.

4. Fukushima, ^ Neocognitron: A neural network model for a mechanism of visual pattern recognition [Text] / K. Fukushima, S. Miyake, I. Takayuki // IEEE Transaction on Systems, Man and Cybernetics SMC. -1983. -№ 13 (5). -P. 826-34.

i Надоели баннеры? Вы всегда можете отключить рекламу.