Построение подпространств атрибутов на базе одного эталона для обеспечения устойчивости работы в перспективных системах автоматического распознавания лиц

Прокошев Валерий Григорьевич; Рожков Максим Михайлович; Шамин Павел Юрьевич; Голубев Андрей Сергеевич

№ 2(32) 2011

В. Г. Прокошев,докт. физ.-мат. наук, профессор Владимирского государственного университета М. М. Рожков, аспирант Владимирского государственного университета П.Ю.Шамин, канд. техн. наук,доцентВладимирского государственного университета А. С.Голубев, канд. техн. наук,доцент Владимирского государственного университета

Построение подпространств атрибутов на базе одного эталона для обеспечения устойчивости работы в перспективных системах автоматического распознавания лиц

В статье представлен краткий обзор проблем из области практических систем распознавания лиц. Для обеспечения устойчивости распознавания к различным искажениям фотографий, возникающих в реальных системах, предлагаются математический аппарат, основанный на подпространствахатрибутов, и процедура специальной обработки эталонной базы.

Введение

Системы автоматического распознавания лиц в последнее время приобретают все большую популярность. Среди задач автоматического распознавания лиц выделяют три основных направления [1]:

• задача верификации (Verification). В ней система распознавания определяет, соответствует ли предъявленное лицо заявленному человеку;

• задача идентификации (Identification). Система выявляет, соответствуют ли две фотографии одному и тому же человеку;

• список поиска (Watch list). Система определяет, имеется ли предъявленная фотография в списке поиска и затем — конкретный элемент этого списка, соответствующий фотографии.

В данной статье рассматриваются проблемы обеспечения корректности распознавания применительно к системам, реализующим список поиска. Хотя так или иначе они затрагивают все перечисленные направления.

Многие классические и современные алгоритмы распознавания лиц хорошо ра-

100 J-

ботают на публичных наборах фотографий лиц, например, FERET, ORL, Yale и др. [2]. Как правило, эксперименты с применением этих алгоритмов ставятся в лабораторных условиях, т.е. изначально в эксперименте участвуют фотографии, специальным образом подобранные и предварительно обработанные.

В частности, используются фотографии людей, снятых при одинаковых условиях освещенности лица, с достаточно близкими параметрами яркости и контрастности. Кроме того, осуществляется распознавание четких качественных фотографий.

Однако в реальных системах распознавания все эти условия являются практически недостижимыми, поскольку для распознавания могут поступать фотографии отличных от эталонных параметров освещенности, яркости и т.д.

Более того, важная область применения практических систем распознавания — места массового скопления людей: метро, вокзалы и т.д., где люди двигаются в различных направлениях и с разной скоростью. В результате распознаваемые фотографии могут иметь обусловленные этим обстоятельством искажения, например, размыто-

№ 2(32) 2011

сти, некоторое отсутствие резкости и фокусировки.

Следовательно, в практических системах для распознавания может поступать изображение, имеющее ряд искажений различного характера. Данное обстоятельство является серьезной помехой для работы большинства классических алгоритмов.

Предлагаемые различными коллективами решения

В разрабатываемых системах распознавания в реальных условиях эту проблему пытаются решать при помощи специальным образом подготовленной базы распознаваемых лиц, называемой эталонной. Дело в том, что эталонная база — контролируемый параметр системы. Ее можно попытаться максимально адаптировать к возможным условиям распознавания.

Исследователи из IEEE (Institute of Electrical and Electronics Engineers) предлагают хранить в эталонной базе для каждого распознаваемого человека фотографии лиц, полученные при различных вариантах освещенности и затенения (рис. 1) [3].

В работе [4] также предлагается хранить в эталонной базе фотографии лиц в разных

ракурсах: фронтальном и несколько изомет-рий (рис. 2).

Однако для создания эталонных баз, содержащих как фотографии с различными вариантами освещенности, так и с разными ракурсами, требуется сфотографировать лица всех людей при таких условиях, что в ряде случаев сделать бывает невозможно. Зачастую приходится иметь дело с единственной эталонной фотографией для каждого человека в списке поиска [2], [5].

В условиях наличия только одной эталонной фотографии для каждого человека в списке поиска (проблема OSPP — One Sample per Person) многие алгоритмы распознавания также значительно ухудшают свои показатели корректности работы [2].

В данной статье внимание уделяется вопросам обеспечения устойчивости распознавания в практических системах, реализующих список поиска и использующих одно эталонное изображение на человека в базе. Таким образом, возникает необходимость решения сразу двух проблем:

• распознавания фотографии человека, полученной в реальных условиях;

• распознавания с одной эталонной фотографией в базе (OSPP).

Рис. 1. Фотографии одноголица, полученные при различныхусловиях освещенности

Рис. 2. Фотографии одного лица, снятые в разных ракурсах

л 101

№ 2(32) 2011

Следует отметить, что подобные системы в настоящее время активно разрабатываются, так как имеют широкое прикладное применение, в первую очередь в задачах обеспечения безопасности.

Предложенная модель распознавания

В статье [5] нами была предложена модель распознавания для систем в рамках проблемы одного эталонного изображения в базе (OSPP). Исследования и эксперименты, поставленные на публичной базе изображений Color FERET, показали ее состоятельность.

Система состоит из блоков, каждый из которых принимает решение о наличии того или иного изображения в эталонной базе. Блоки между собой сотрудничают. Это означает, что если хотя бы один блок принял решение о наличии в эталонной базе такого человека, то вся система в целом определяет, что данный человек присутствует в списке поиска (рис. 3).

Работа распознающих блоков построена на базе нескольких методик. Каждая из них производит поиск «ближайшего» к распознаваемому изображению среди эталонных. Внутри блока методики конкурируют. Это значит, что блок принимает решение о наличии распознаваемого человека в эталонной базе, если все методики блока посчитают ближайшим один и тот же эталон (рис. 4).

Конкуренция методик позволяет в процессе распознавания отказаться от пороговых значений величины «расстояния» между изображениями для принятия решения о присутствии такого человека в базе.

Методики осуществляют поиск «ближайшего» в эталонной базе путем последовательного расчета «расстояния» между распознаваемым изображением и каждым эталонным изображением из базы. Эталон, для которого рассчитанное расстояние оказывается наименьшим, признается «ближайшим» в данной методике.

Для расчета расстояния между фотографиями в рамках каждой методики производится вычисление характерных признаков (атрибутов) фотографий, например, коэффициентов дискретного косинусного преобразования (подробнее рассмотрено в [6]). Характерные признаки представляют собой наборы вещественных чисел (вещественные векторы). Вычисление расстояния между ними осуществляется при помощи какой-либо метрики [6].

Проблемы предложенной модели

Как показали проведенные эксперименты [5], предложенная модель стабильно работает на базе фотографий Color FERET. Применяя различные алгоритмы расчетов атрибутов, модель наиболее полно использует информацию, содержащуюся в изображениях. Следовательно, она полезна для ре-

Рис. 3. Схема работы блочной системы

102

№ 2(32) 2011

Рис. 4. Схема работы блока

шения проблемы одного эталонного изображения (OSPP).

Однако фотографии базы Color FERET лишены тех недостатков, о которых говорилось выше в связи с разработкой практических систем распознавания. Они не размыты, четко сфокусированы, сделаны в очень близких ракурсах и при одинаковых условиях освещенности.

Рис. 5. Изображения, поступающие для распознавания из базы Color FERET (а) и с видеокамеры в практическом приложении(б)

Поэтому при распознавании реальных изображений людей, полученных с видеокамеры, у системы возникли существенные трудности. Необходимо отметить, что трудности вызваны не концептуальной моделью распознавания(блоки и методики), а скорее исходной информацией, которую использует система, а именно — различиями в качестве изображений эталонной базы и распознаваемыми изображениями (рис. 5).

Таким образом, мы сталкиваемся с проблемой, присущей реальным системам распознавания, — несоответствие условий съемки объектов в эталонной базе и распознаваемых людей и, как следствие, необходимость распознавания фотографий, сделанных при других освещении и ракурсе, а также недостаточно резких.

Получить множество вариантов ракурсов и различных освещенностей для эталонной базы, как это предлагают исследовательские группы из IEEE (рис. 1, 2), в рамках решаемой задачи не представляется возможным, так как недоступны сами объекты рас-

!

i I s

е= еа

I

<и

а

Si

о §

1 103

-N ПРИКЛАДНАЯ ИНФОРМАТИКА

№ 2 (32) 2011 ' -

Ü

I §

ü

to §

u

SI

e S

SI is

CO <0

! is

ё u

n t

t

<0

i» Её

I

u

0 &

1 Ii

<u

о &

u ¿g

познавания, чтобы их можно было сфотографировать при разных условиях. Имеются только одиночные фотографии объектов.

Построение подпространств атрибутов

Для решения проблемы устойчивого распознавания фотографий, имеющих некоторые искажения, в рамках исследуемой модели распознавания [5] предлагаются следующие процедуры:

• для каждой эталонной фотографии произвести ряд небольших искажений, характерных для распознаваемой фотографии (например, некоторое размытие), и поместить получившиеся искаженные изображения в базу в дополнение к самим эталонам. Таким образом, на каждого человека из списка поиска в базе будет создан некоторый пакет фотографий (неискаженная и несколько искаженных);

• вычисление расстояния в методиках производить при помощи специальной метрики, которая учитывает весь пакет фотографий, соответствующих конкретному человеку.

Искаженные фотографии, полученные из эталонов и используемые в рамках данной модели, будем называть пакетом деформаций.

Рассмотрим подробнее предлагаемые процедуры.

Пусть эталонная база состоит из фотографий {3°,,...,}, где Т— их количество (количество различных людей). Индекс «О» означает исходные фотографии. Далее каждую эталонную фотографию будем подвергать некоторому искажению:

3 —> 3.

где /'=1,2,3... — номер искажения;

к= 1,...Т

Таким образом, мы получим несколько наборов искаженных фотографий: 3,Э2,...,ЭТ}, /=1,2,3...

Для расчета расстояния между фотографиями в рамках каждой методики производится вычисление характерных признаков (атрибутов) каждой фотографии. Они пред-

ставляют собой наборы вещественных чисел (вещественные векторы). И расчет расстояния осуществляется уже между данными векторами. Производится вычисление векторов атрибутов для всех наборов фотографий.

Имеем: Э'к->а!к,а!к е Кт, где т — количество вещественных чисел в векторе атрибутов.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Набор векторов {а°,а^к,агк,...},а!к е Ак, полученный из эталонной фотографии и пакета деформаций, соответствующих одному человеку, образует подпространство в пространстве Кт. Для каждого подпространства Ак,к = 1,...,Г строится ортонормирован-ный базис {ек,е1,ек,...} при помощи метода Грама-Шмидта:

р = ^ —

II а° II'

= а; - < al е° > е° * ~ II al-< al,>

4 -(< 4*4 > 4 +< 4 > 4

.I агк - (< агк,е0к > е°к +< агк, е'к > ^к)\\ и т.д.

На следующем этапе вычисляем расстояние О между вектором атрибутов арасп (для распознаваемой фотографии) и подпространством атрибутов Ак. Определим его как синус угла между вектором и соответствующим подпространством:

0{арасп, 4) = 5\и{арасп, Ак).

Синус угла находим как отношение длины нормали п вектора арасп на подпространство Ак к длине самого вектора арасп:

sln(ap

, Л) =

II п{арасп, Ак )И II арасп II '

Графическая интерпретация расчета расстояния представлена на рис. 6.

Рассчитываем синусы углов между вектором атрибутов распознаваемого изображения и всеми подпространствами. Находим наименьший, он соответствует ближайшему эталону: Nearest: sln(apacn, Ак)->min.

Резюмируя вышесказанное, отметим следующее:

№ 2(32) 2011

Рис. 6. Нахождение угла между вектором и подпространством

• в рамках проблемы одного эталона предлагается использовать блочную архитектуру модели распознавания;

• эталонную базу следует специальным образом дополнять путем нескольких различных искажений имеющихся в ней фотографий;

• для расчета расстояния в рамках методик, работающих в блоках, предлагается строить подпространства на базе векторов-атрибутов, вычисляемых из эталонов и пакетов деформаций, соответствующих этим эталонам.

Полученные результаты

Чтобы оценить предлагаемые улучшения, рассмотрим показатели корректности распознавания модели, полученные до и после усовершенствований. В модели, использующей только собственно эталонные изображения, происходит сравнение двух векторов (атрибутов эталона и атрибутов распознаваемого изображения). Два вектора всегда лежат в одной плоскости, образованной ими. Поэтому будем называть такую модель плоской блочной системой.

В модели, использующей и эталоны, и соответствующие им пакеты деформаций, строятся подпространства из атрибутов этих изображений. Поэтому назовем данную модель пространственной блочной системой.

Испытания проводились на фотографиях из набора !аШ базы изображений лиц

Color FERET. Эталонные изображения, а так- ^ же набор распознаваемых изображений бы- ,§ ли получены из оригинальных изображений ij базы Color FERET путем вырезания области, ограниченной прямоугольником: от 50 пик- | селей левее левого глаза до 50 пикселей Э правее правого глаза; от 50 пикселей выше Й «верхнего» глаза до 50 пикселей ниже рта. ^ Координаты глаз и рта взяты из xml-файлов | описания, базы Color FERET. При обрезке £ изображений лиц типа fa и типа fb выбраны ё координаты для изображений лиц типа fa. Ч

В испытаниях использовались изобра- | жения 847 людей (из 993 имеющихся в базе | Color FERET), так как не для всех них в фай- е^ лах описаний есть координаты глаз. Итак, ^ эталонная база состоит из 847 фотографий. Набор изображений для распознавания также содержит 847 фотографий (всего 1694 изображения).

Для проверки работы предлагаемой модели проводятся два испытания:

1. Эксперимент с полной эталонной базой (для каждого распознаваемого изображения имеется соответствующее эталонное изображение).

2. Эксперимент, на каждом шаге которого из полной эталонной базы изымается эталон (а для пространственной модели — вместе с определенным пакетом деформаций), соответствующий очередному распознаваемому изображению.

В первом эксперименте рассчитывается ошибка первого рода Р1. Будем считать, что распознавание прошло успешно, если система (хотя бы один ее блок) просигнализировала о наличии эталона, соответствующего распознаваемому изображению:

Р1 =

1 i Г1, если система просигнализировала Т f~1 [0, если система не просигнализировала.

Во втором эксперименте рассчитывается ошибка второго рода Р". Отметим, что постановка эксперимента предполагает отсутствие для распознаваемого изображения

№ 2(32) 2011

соответствующего эталона. Следовательно, система ошибается, если считает, что в базе он присутствует. Тогда ошибка второго рода будет равна:

Р" =

^ 1 Г1, если система просигнализировала Т к~1 [0, если система не просигнализировала.

Результаты работы плоской модели приведены в табл. 1.

Как видно из данных табл. 1, при незначительном размытии (Гаусса с ядром 3x3 пикселя) ошибка второго рода снижается. Это вызвано блочной архитектурой системы, которая не допускает неконтролируемого роста данной ошибки. Тем не менее приходится констатировать, что плоская система распознавания крайне неустойчива к качеству распознаваемых фотографий. Даже при таком размытии ошибка первого рода становится совершенно неприемлемой

и составляет 78,1%. Эксперименты с более сильным размытием не проводились, так как имеет место неуправляемая ошибка первого рода.

Далее для проверки состоятельности метода подпространств эталонная база была подготовлена следующим образом. Для каждого человека в нее, помимо четкого эталона, добавлены еще три фотографии. Для эксперимента выбраны виды искажений, представляющие собой гауссово размытие с ядром:

• 3x3 пикселя;

• 5x5 пикселей;

• 7x7 пикселей.

Таким образом, в эталонной базе для каждого человека имелись 4 фотографии: эталон и пакет деформаций из трех фотографий. Подпространства строились на базе этих фотографий.

Гауссово размытие было выбрано как один из вариантов искажения эталонных

Таблица 1

Показатели корректности распознавания плоской модели

Описание эталонной базы Описание изображений, поступающих для распознавания Ошибка первого рода, % Ошибка второго рода, %

Используется эталонная база, состоящая из единственного эталонадля каждого человека Четкие изображения 18,03 7,03

Изображения, подвергнутые размытию Гаусса с ядром размытия 3x3 пикселя 78,10 4,10

Описание эталонной базы Описание изображений, поступающих для распознавания Ошибка первого рода, % Ошибка второго рода, %

Используется эталонная база, состоящая из следующего пакета фотографий: эталона и трех вариантов размытия Четкие изображения 24,91 2,95

Изображения, подвергнутые размытию Гаусса с ядром размытия 3x3 пикселя 28,34 3,31

Изображения, подвергнутые размытию Гаусса с ядром размытия 5x5 пикселей 29,99 4,72

Изображения, подвергнутые размытию Гаусса с ядром размытия 7x7 пикселей 32,94 3,66

Таблица 2

Показатели корректности распознавания пространственной модели

№ 2(32) 2011

оо

• ошибка первого рода уже растет не так ^

неудержимо, как при использовании пло- ,§

ской модели. ^э

В целом необходимо признать, что система нуждается в доработке. Тем не менее Ц концептуальная модель распознавания, ос- Э нованная на распознающих блоках и ис- Й пользующая подпространства, вычислен- ^ ные на искаженных фотографиях, оказа- | лась вполне работоспособной. £ Предложенная модель может быть при- ^ менима как база для перспективных систем

распознавания лиц. |

Список литературы

Si

о §

фотографий. Оно использовалось в экспериментах для проверки предложенной модели распознавания. В сущности модель не налагает никаких ограничений на тип деформации, поскольку может иметь любую природу и выбираться в зависимости от реальных условий применения системы распознавания.

Результаты работы пространственной модели представлены в табл. 2.

Заключение

Эксперименты показали, что пространственная модель при распознавании четких фотографий дала сравнительно небольшое (6,88%) увеличение ошибки первого рода, 1. что вполне объяснимо. За повышение устойчивости модели приходится платить увеличением ошибок. Однако ошибка второго рода оказывается весьма незначительной, 2. что является очень важным в практических системах, для которых количество ложных срабатываний желательно свести к нулю.

Ошибка первого рода с увеличением си- з. лы размытия распознаваемых фотографий постепенно растет (табл. 2), что вызвано объективными факторами: меньшим количеством текстурной информации на изображениях, которая теряется при размытии. Тем 4. не менее ошибка все же вполне адекватная и может быть признана удовлетворительной в таких условиях.

Возникает впечатление, что приводимые значения ошибок (особенно первого ро- 5. да) чрезмерно велики. Однако это не так. Их уровень соответствует уровню ошибок, приводимых в работах других авторов по проблеме ОЭРР (табл. 3 в [1], рис. 2 в [2], табл. 1 в [7]). Иными словами, отражает уровень современных исследований в рамках 6. обозначенной проблемы.

Итак, по результатам экспериментов можно сделать следующие выводы:

• по сравнению с плоской моделью 7. пространственная является более устойчивой к качеству распознаваемых фотографий;

Zhou S. К., Chellappa R., Ramanathan N. Unconstrained Face Recognition From a Single image (2008). http://www.cfar.umd.edu/~shaohua/papers/ egip_chapter.pdf.

Tan X., Chen S., Zhou Z., Zhang F. Face Recognition from a Single Image per Person: A Survey // Pattern Recognition. The Journal of the Pattern Recognition Society. 39 (2006). P. 1725-1745. Wright J., Yang A. Y., Ganesh A., et al. Robust Face Recognition via Sparse Representation // IEEE Transactions on pattern analysis and machine intelligence. Vol. 31. No. 2. February 2009. P. 210-227.

Wagner A., Wright J., Ganesh A. Towards a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation (2010). http://perception.csl. illinois.edu/ recognition/Files/ faces_system.pdf.

Прокошев В. Г., Рожков М. М., Шамин П. Ю. Проблема автоматического распознавания лиц с одним эталонным изображением // Научно-технические ведомости СПбГПУ. Серия «Информатика. Телекоммуникации. Управление». 2010. №5. С. 13-18.

Рожков М. М. Использование текстурных карт Лавса и дискретного косинусного преобразования в задаче распознавания лиц // Прикладная информатика. 2011. № 1 (31). С. 98-103. Bhat G., Achary К. К. Face Recognition using FSS-DSOP for Small Sample Size Problem with Illumination Variations // Soft Comput. Appl. Vol. 1. No. 2, November 2009. P. 105-118.

=i 107

Using laws maps and discreet cosine transform for face recognition