Распознавание контента сжатых неподвижных графических сообщений на уровне коэффициентов дискретного косинусного
преобразования
Ревякин А.М., Академия ФСО России
[email protected] Скурнович А.В., Академия ФСО России alexeymail2010@mail. т
Аннотация
В статье приводятся результаты анализа существующих методов распознавания контента неподвижных графических сообщений (изображений) на уровне карты пикселей. На основе проведенных исследований, авторами статьи выдвигается гипотеза о возможности распознавания контента НГС путем анализа их частотной области, т. е. на уровне коэффициентов дискретно-косинусного преобразования. По мнению авторов, это поможет вычислительную сложность алгоритмов при решении задач распознавания.
1 Существующие методы распознавания контента неподвижных графических сообщений
Новейшие технические разработки в области построения автоматизированных систем, которые могут производить обнаружение, отслеживание и классификацию объектов позволяют достаточно хорошо описывать реальный мир. Данные искусственные системы получают информацию непосредственно из неподвижных графических сообщений (НГС), анализируя карту пикселей. Они могут делать заключения о типах объектов, об их взаимодействии, относить к определенному классу, например, определять наличие в НГС текста и распознавать его и т. д.
В современных реалиях постоянно требуется оптимизация процессов обработки информации, в том числе НГС для решения задач быстрого анализа контента (содержимого). Такие задачи заключаются в классификации некоторой группы объектов на основе конкретных требований. В рамках таких задач реализован ряд методов распознавания контента НГС, например, лиц, номерных знаков, различных предметов, буквенных и цифровых символов и т. д. Один из способов решения — сегментация НГС. Она позволяет выделить необходимые данные при помощи их компактного представления путем разбиения НГС на непохожие по некоторому признаку, но однородные по некоторому критерию области. Результатом сегментации является множество сегментов (участков), которые покрывают всё НГС.
Методы сегментации делятся на два больших класса: автоматические и интерактивные. Автоматические методы сегментации НГС в целом не отличаются высокой эффективностью. Наиболее известный из них - СЮСАН [Жук, 2009]. Суть этого метода заключается в том, что соседние точки в однородной области имеют приблизительно одинаковую яркость, а вблизи границ число соседних точек с одинаковой яркостью уменьшается.
Интерактивные методы сегментации позволяют достаточно точно выделять интересующие объекты. Они активно используются для редактирования изображений, а также являются составной частью многих алгоритмов компьютерного зрения, но требуют участия человека при обработке каждого изображения. Самый известный метод - ГРАФКАТ [Жук, 2009], трактующий всё изображение как граф. Суть метода заключается в нахождении разреза графа, который, как правило, проходит по наиболее контрастной границе.
Еще один подкласс методов автоматической сегментации - это методы семантической сегментации. Анализ семантики является вершиной иерархической процедуры обработки НГС. В основании пирамиды лежат методы формирования первичной системы информативных признаков. На следующем уровне иерархии формируется система вторичных признаков с примерно одинаковым уровнем значимости. На верхнем уровне пирамиды параметрическими или непараметрическими методами решается задача семантической классификации образов. Наблюдается большое разнообразие способов и стратегий решения задач семантической классификации НГС. В контексте семантической классификации весьма значимыми являются алгоритмы адаптивной сегментации НГС, алгоритмы нечеткой метрической классификации сегментов НГС, алгоритмы информативной оценки системы первичных признаков и формирования сложных вторичных признаков, алгоритмы нечеткой иерархической классификации НГС по результатам сегментной классификации [Дорогов, Курбанов, Разин, 2006].
Сегментация НГС находит широкое применение, в том числе и для решения задач анализа текста, размещенного на НГС. Авторы статьи [Запрягаев, Сорокин, 2010] считают наиболее эффективным современным методом сегментации НГС - метод, основанный на применении диаграмм Вороного. В данном методе выделение текстовых блоков происходит в два этапа: первый заключается в построении диаграммы Вороного выделенной области, второй - в использовании полученной диаграммы как средства быстрого поиска так называемых «смежных» точек и производит постепенное укрупнение рассматриваемых блоков (т. е. выделение строк, затем их объединение в абзацы, параграфы и т. п.).
Для построения обобщённой диаграммы Вороного на основе точечных диаграмм предполагается использовать множества всех точек. Так, в случае НГС с высоким разрешением, построение диаграммы Вороного для множества всех точек является трудоемкой процедурой
(например, при разрешении 1 637^1 481 точек и заполнении НГС чёрными точками на 10 % потребуется построение около 200 000 ячеек диаграммы Вороного).
Другим примером распознавания контента НГС является метод, основанный на использовании карты пикселей (bitmap) и описанный в [Замарин, Сазонов, 2013]. Данный метод заключается в том, что после декодирования НГС и формирования растра выполняются следующие операции по преобразованию структурных признаков НГС:
- вычисляется объем растра НГС;
- определяются построчные и постолбцовые коэффициенты корреляции растра;
- оцениваются отклонения значений коэффициентов корреляции от линейного тренда;
- вычисляется среднее значение разности соседних элементов растра;
- определяется результирующий информативный признак, характеризующий энтропию НГС.
Разработанный метод позволяет разделить НГС на классы по следующим видам контента:
баннеры, «иконки», элементы Web-дизайна, художественные НГС (фотографии, рисунки), структурированные НГС с малой динамикой (комиксы, чертежи, диаграммы, схемы), структурированные НГС с большой динамикой (тексты, таблицы, карты), неструктурированные НГС с большой динамикой (коды, ошибки). В результате можно осуществлять предварительное распознавание контента НГС по различным статистическим характеристикам структурных связей между элементами растра НГС. Однако преобразование сжатых НГС в растр требует определенных временных затрат. В случае обработки значительного количества экземпляров НГС большого разрешения на решение задачи распознавания контента на уровне карты пикселей может расходоваться неприемлемо много времени. Для устранения данной проблемы авторами настоящей статьи предлагается анализировать контент сжатых НГС не на уровне карты пикселей, а на уровне элементов частотной области, в результате чего отпадет необходимость в ряде вычислительно затратных процедур преобразования НГС в растр точек.
2 Представление НГС в виде карты коэффициентов ДКП
Результаты экспериментов по анализу влияния контента, присутствующего в сжатых НГС формата JPEG, на распределение значений коэффициентов дискретного косинусного преобразования (ДКП) выявили их прямую зависимость между собой. Это позволило предположить, что контент НГС можно оценивать не только на уровне карты пикселей, но и на уроне коэффициентов дискретно-косинусного преобразования (ДКП). При обработке НГС дискретное косинусное преобразование используется как одно из эффективных средств уменьшения избыточности и сохранения самых важных особенностей НГС.
НГС, сжатые в соответствии с алгоритмом JPEG, в основе которого лежит процедура дискретного Фурье-преобразования, после кодирования коэффициентов ДКП с помощью адаптивного кода Хаффмана помещается в файл с расширением «.jpg». Такой файл можно условно разделить на две основные части: область заголовка (или ее еще называют служебной областью) и область контента НГС (информационная область).
В настоящей статье под служебной областью понимается область файла НГС, предназначенная для хранения метаданных о файле (дата и время создания, модель камеры, место и параметры съемки, автор и т.д.) и данных для правильного декодирования информационной области файла (адрес информационной области, таблицы кода Хаффмана, таблицы квантования и т. д.).
Информационная область - область файла НГС, предназначенная для хранения контента (текста, изображений, пейзажей, портретов и т. д.), отображаемых на экране монитора.
Таким образом, в совокупности в файле хранится полная информация, необходимая для преобразования сжатого контента НГС в карту пикселей и вывода изображения пользователю для просмотра. Последовательность процедур преобразования сжатого НГС в карту пикселей в общем виде представлена на рисунке 1. Предлагается распознавать контент НГС на основе анализа коэффициентов ДКП, т. е. после процедуры формирования массивов ДКП до деквантования.
Рис. 1. Основные процедуры при восстановлении сжатого НГС в соответствии с алгоритмом JPEG
В соответствии со спецификацией JPEG Standard (JPEG ISO/IEC 10918-1 ITU-T Recommendation T.81) цветовое пространство RGB преобразуется в цветовое пространство YCrCb.
Как показывают результаты анализа НГС формата JPEG, основную информацию о кодируемом изображении несут коэффициенты ДКП яркостной составляющей Y. Подтверждением этому служат изображения, построенные на основе коэффициентов ДКП составляющей Y из НГС формата JPEG. Исходные сжатые НГС, содержащие в качестве контента пейзаж и текст, представлены на рисунках 2 и 4 соответственно.
Для анализа частотной области сжатых НГС формата JPEG применялось специализированное программное обеспечение (ПО), реализующее считывание полей заголовка и процедуру декодирования кодовых слов Хаффмана. После декодирования ПО формирует двумерные массивы значений коэффициентов ДКП яркостной Y и двух цветоразностных Cr и Cb составляющих цветовой схемы YCrCb. На рисунках 3 и 5 представлены изображения карт коэффициентов ДКП составляющей Y сжатых НГС с контеном «пейзаж» и «текст» соответственно (рисунки 2 и 4). Для большей наглядности значения коэффициентов ДКП на рисунках 3 и 5 увеличены в несколько раз и взяты по модулю.
Рис. 3. Изображение в оттенках серого карты коэффициентов ДКП составляющей Y сжатого НГС,
представленного на рисунке 2
Приведенные рисунки демонстрируют определенную корреляцию между пространственным и частотным представлением НГС. В свою очередь предлагается проводить распознавание контента НГС на уровне коэффициентов ДКП и снизить тем самым количество операций на преобразование сжатого НГС в цветовое пространство RGB.
Рис. 4. Сжатое НГС с текстом, преобразованное в карту пикселей цветовой схемы RGB
Рис. 5. Изображение в оттенках серого карты коэффициентов ДКП составляющей Y сжатого НГС,
представленного на рисунке 4
Экспериментальные исследования свидетельствуют о том, что распределение коэффициентов ДКП можно описать функцией Лапласа. Гистограммы, построенные на основе значений ДКП цветовых составляющих Y двух сжатых НГС с разным контентом, показаны на рисунках 6 и 7. При построении гистограмм не учитываются ДКП со значениями равными 0, 1 и - 1.
Сравнивая изображения гистограмм можно утверждать, что у разных классов НГС отличия наблюдаются в центральной области распределений, но в большей степени на их «хвостах».
Основными статистическими характеристиками, описывающими распределение случайной величины, являются центральные моменты порядка £ [Вентцель, 1969]. Фактически это центрированное математическое ожидание степени я соответствующей центрированной случайной величины:
^[Х]=М[Х5]=М[(Х-тхУ1 (1)
Рис. 6. Гистограмма коэффициентов ДКП составляющей Y сжатого НГС, представленного на рисунке 2
1
Рис. 7. Гистограмма коэффициентов ДКП составляющей Y сжатого НГС, представленного на рисунке 4
Центрированная случайная величина, соответствующая величине X — это отклонение случайной величины X от ее математического ожидания:
X = Х-тх. (2)
В нашем случае за X берем множество значений ДКП яркостной составляющей Y, исключая множество ДКП со значением 0. Установлено, что моменты более высоких порядков характеризуют большие, но маловероятные значения случайной величины. Такие значения коэффициентов ДКП как раз и наблюдаются на «хвостах» распределений.
Для предварительной проверки гипотезы о различиях статистических характеристик в частотной области между НГС с разным контентом была сформирована обучающая выборка, включающая 100 НГС. Из них 50 НГС с контентом «пейзаж» и 50 НГС, содержащих текстовую информацию. В рамках экспериментов от каждого НГС формировался вектор центральных моментов длиной 24, при этом вычислялись моменты порядков со 2 по 25 включительно (центральный момент первого порядка не используется, так как его значение равно нулю).
На основе вычисленных векторов 100 НГС были сформированы двумерные массивы признаков априорного словаря (рисунок 8)
Первый класс Второй класс
центральные моменты нейтральные моменты
1 2 3 4 5 б 5-1 5 1 2 3 4 5 б 5-1 S
1 1
2 2
3 3
е 4 е 4
4У 4U
50 50
Рис. 8. Формирование массивов векторов двух классов НГС
Для приведения значений векторов признаков обучающей выборки к безразмерным величинам и единому диапазону изменений [0,1] была реализована процедура нормирования в соответствии с выражением:
4,J
(3)
j j j J
где Xij - исходное значение признака, xtj - его нормированное значение, Xj и Xj -соответственно минимальное и максимальное значения j-го признака во всей обучающей выборке, игнорируя разбиение на классы.
3 Оценка информативности признаков априорного словаря на основе метрики Махаланобиса
Эксперименты по использованию различных метрик при классификации описанных типов изображений в многомерном пространстве показали, что из множества различных способов измерения расстояний между образами объектов в признаковом пространстве наиболее предпочтительным с точки зрения разделимости объектов на классы является оценка расстояния на основе метрики Махаланобиса [Ackerman, 2009].
Под метрикой, как правило, понимают функцию, определяющую расстояние между любыми точками и классами в метрическом пространстве Rv. Статистическим расстоянием или расстоянием Махаланобиса (Mahalanobis Distance) между двумя точками х = (х1,^,хр)Т и У = (У1> ■■■>Ур)Тв пространстве Rpназывают функцию вида [Mahalanobis, Chandra, 1936]:
DM(x) = ^(x-ß)TS~^(x-ß), (4)
где £ - матрица ковариации, а норма ||х||5 описывается выражением:
ЦхИб = ^т(х,0) = VхТБ~1х. Матрица ковариации размерности р хр для N точек определяется по формуле:
5 =
/
где
Л =
(г11'—>г1р) ~(г01'—>г0р)
А
N-1
■АТА,
(6)
(7)
(г21 ,—,г2р) —(г01,...,г0р')
-(г01,...,г0р) у
Здесь г^ = (г^, ...,2^, = (г^, ...,2^- два вектора-строки размерностир пространства Яр,
(г01, ...,г0р) - точка, относительно которой измеряется расстояние. Элемент матрицы ковариации £ вычисляется по формуле:
Ъ] = - - гД (8)
где /,/ = 1,..., р, а (гь - точка, определяемая средними значениями параметров. Все точки
с одним и тем же расстоянием, имеющим норму ||х||5 = с, удовлетворяют равенству:
хтБ~1х = с2, (9)
а расстояние от точки х до центра кластера х находится по формуле
Эм(х) = 70х-х)тБ~1(х-х). (10) Общий подход к построению метрик на основе функций Махаланобиса для решения задачи определения принадлежности заданного образа одному из классов требует знания матриц ковариаций всех классов. В конечном счете, необходимо подсчитать расстояние Махаланобиса от заданного образа до каждого класса и выбрать класс, для которого это расстояние минимально.
Для решения нашей задачи оценки информативности признаков априорного словаря, мы измерили расстояние Махаланобиса между центрами двух классов при использовании каждого признака в отдельности. Логика подсказывает, что чем больше расстояние Махаланобиса, тем больше информативность анализируемого признака, и соответственно он эффективнее делит объекты на классы.
Проведенные измерения продемонстрировали увеличение расстояния Махаланобиса при использовании в качестве признаков моментов более высоких порядков (рисунок 9).
Можно утверждать, что при использовании в качестве признаков центральных моментов высоких порядков, возможно добиться значительной разделимости классов [Горелик, Скрипкин, 2004].
Рис. 9. Расстояние Махаланобиса между классами сжатых НГС в зависимости от используемого признака
(центрального момента степени з)
В целом же результаты проведенных экспериментов подтверждают гипотезу о чувствительности частотной области НГС к изменению контента. Причем данные изменения становятся статистически заметны даже при интегральной оценке массивов ДКП. Различия в основном наблюдаются на хвостах распределений, о чем свидетельствуют существенные различия в значениях центральных моментов высоких порядков. Данные статистические характеристики целесообразно в дальнейшем использовать в качестве признаков при построении системы распознавания контента сжатых НГС [Гонсалес, Вудс, Эддинс, 2006]. Такая система способна существенно повысить уровень автоматизации процедур по контролю за контентным содержанием сжатых НГС, а также составить основу для построения системы анализа и отбора сообщений графических форматов в условиях их априорной семантической неопределенности.
Список литературы
Жук С. В. 2009. Обзор современных методов сегментации растровых изображений. // Известия Волгоградского государственного технического университета, Волгоград. - С. 115-118
Дорогов А. Ю., Курбанов Р. Г., Разин В. В. 2006. Быстродействующий алгоритм семантической классификации JPEG-изображений / Санкт-Петербургский государственный электротехнический университет (СПбГЭТУ) "ЛЭТИ".
Запрягаев С. А., Сорокин А. И. 2010. Сегментация рукописных и машинописных текстов методом диаграмм Вороного // Вестник ВГУ, серия: Системный анализ и информационные технологии. - № 1, 160 с.
Замарин А. И., Сазонов К. В. 2013. Способ распознавания контентного содержания сообщений графических форматов. / Патент на изобретение RU № 2479028. - Бюл. № 10 от 10.04.2013.
Вентцель Е. С. 1969. Теория вероятностей. - Москва: Наука, - 576 с.
Ackerman M. R. 2009. Algorithms for the Bregman k-Median Problem. - A dissertation submitted to the Department of Computer Science University of Paderborn. - 220 p.
Mahalanobis, Prasanta Chandra. 1936. On the generalised distance in statistics. - Proceedings of the National Institute of Sciences of India 2 (1) - pp. 49-55.
Хачумов М. В. 2012. Расстояния, метрики и кластерный анализ. // Искусственный интеллект и принятие решений - № 1, С. 81-89.
Горелик А. Л., Скрипкин В. А. 2004. Методы распознавания. Учебное пособие для вузов. Изд. 4. -Москва : Букинист. - 262 с.
Гонсалес Р., Вудс Р., Эддинс С. 2006. Цифровая обработка изображений в среде MATLAB. - Москва : Техносфера. - 616 с.