Научная статья на тему 'Временная психофизиологическая избыточность в видеоинформационных сигналах видеоконференцсвязи'

Временная психофизиологическая избыточность в видеоинформационных сигналах видеоконференцсвязи Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
365
64
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Попов А. В.

В связи с большим объемом информации, возникающим при передачи цифрового видеоинформационного сигнала, одним из ключевых моментов, в уменьшении этого объема, является сжатие спектра пространственно-временной структуры. В связи с этим в рамках статьи внимание уделяется процессу сжатия видеосигнала, в частности, процессу сжатия спектра пространственно+временной структуры с учетом особенностей человеческого зрения, благодаря которым реализуется возможность подавления малоконтрастных составляющих структуры сигналов видео изображения. Рассмотрена составляющая временной психофизиологической избыточности и способ ее устранения за счет предсказания по межкадровому направлению. Раскрываются понятие вектора движения и механизм работы по предсказанию движения, точность выполнения которого существенно отражается на степени сжатия. Так же рассматриваются и сравниваются субоптимальные алгоритмы оценки движения, позволяющие избежать повышенной нагрузки на вычислительные ресурсы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Временная психофизиологическая избыточность в видеоинформационных сигналах видеоконференцсвязи»

Aj

Временная психофизиологическая избыточность в видеоинформационных сигналах видеоконференцсвязи

В связи с большим объемом информации, возникающим при передачи цифрового видеоинформационного сигнала, одним из ключевых моментов, в уменьшении этого объема, является сжатие спектра пространственно-временной структуры. В связи с этим в рамках статьи внимание уделяется процессу сжатия видеосигнала, в частности, процессу сжатия спектра пространственно-временной структуры с учетом особенностей человеческого зрения, благодаря которым реализуется возможность подавления малоконтрастных составляющих структуры сигналов видео изображения. Рассмотрена составляющая временной психофизиологической избыточности и способ ее устранения за счет предсказания по межкадровому направлению. Раскрываются понятие вектора движения и механизм работы по предсказанию движения, точность выполнения которого существенно отражается на степени сжатия. Так же рассматриваются и сравниваются субоптимальные алгоритмы оценки движения, позволяющие избежать повышенной нагрузки на вычислительные ресурсы.

Попов А.В.,

Аспирант кафедры телевидения им. С.И.Катаева [email protected]

Временная избыточность проявляется в последовательных кадрах, содержание которых слабо отличается. Такая последовательность кадров, как правило, содержит статичный фон и объекты на переднем плане, с изменяющимся положением от кадра к кадру. Такой вид избыточности устраняют следующим способом: передают содержание одного кадра целиком. Такой кадр называется опорным. В содержании следующего кадра передают только информацию о переместившихся объектах и их новых положениях. Примером может служить разность двух соседних кадров — передача этой разности, даёт простейшее устранение временной избыточности. Но, как правило, передачи разности бывает недостаточным из-за малой степени сжатия, по этой причине используют компенсацию движения.

Компенсация движения позволяет с более высокой точностью предсказать те части изображения, где присутствует движение, и устранить временную избыточность. Процесс компенсации движения выглядит следующим образом: изображение в текущем кадре разбивается на блоки и для каждого блока ищется его наиболее вероятное положение в соседних кадрах, сопоставляя его со всеми блоками такого же размера в заданной области поиска. При этом поиск ведётся по критерию минимальной абсолютной ошибки или минимальной среднеквадратичной ошибки.

К концу поиска формируется совокупность векторов движения, указывающих направление смещения объектов от кадра к кадру. Следует отметить, что в процессе реализации сжатия видеоинформационного сигнала, этап предсказания движения является наиболее сложным и требовательным к вычислительными ресурсам. Точность и объем вычислений будут зависеть от размера выбранного блока. Чем больше размер блока, тем меньше векторов движения будет формироваться для передачи, при этом границы объектов не совпадают с границами блоков, что ведет к увеличению количества передаваемой корректирующей информации. Чем меньше размер

блока, тем больше векторов движения формируется для передачи, но вероятность соответствия опорного и искомого блоков больше, соответственно количество передаваемой корректирующей информации меньше. При этом выбор слишком маленького размера блока ведет к слабой помехоустойчивости системы! сжатия. По этой причине приходится балансировать между качеством поиска совпадений между блоками и количеством векторов движения.

Можно так же отметить, что движущиеся объекты редко следуют строго вдоль границ блоков пикселов, поэтому более эффективным может быть использование переменных размеров блоков для оценки и компенсации движения.

Если движение измерено достаточно точно, то для каждого макроблока элементов изображения можно передавать лишь относительно малые межкадровые различия плюс двумерный вектор движения. В данном случае ошибки в измерении вектора движения не приводят к каким-либо заметным искажениям изображения, а лишь снижают эффективность сжатия, т.е. приводят к возрастанию передаваемого потока.

Вектор движения для блока выбирается из условия минимальности определяющей критерий совпадения блоков функции стоимости. Таких функций несколько.

В простейшем случае этой функцией является сумма абсолютных разностей (SAD) между элементами текущего и опорного блоков:

где F — значение яркости, t — временной индекс кадра, (x,y) — пространственные координаты пикселей в кадре, VX, VY — координаты вектора движения.

Наиболее популярной в силу своих минимальных требований к вычислительным ресурсам считается функция среднего абсолютного отклонения (MAD) сравниваемых значений текущего и опорного блоков:

где N — размер макро блока, (x,y) — пространственные координаты пикселей в кадре (Cxy, Rxy) — сравниваемые пиксели в текущем макро блоке и соседнем макро блоке соответственно.

Оценка вектора движения должна реализовываться в условиях селек-тивного выделения составляющих видеоинформационного сигнала отлича-ющихся достаточно высоким градиентом изменения во внутрикадровом пространстве и сравнительно высоким отношением сигнал/шум. В основном это среднечастотные составляющие, т.к. добавление высокочастотных составляющих ухудшает отношение сигнал/шум, а чрезмерное интегрирование (пространственная низкочастотная фильтрация) уменьшает уровень составляющих отражающих пространственно-временные искажения сигнала изображения при передачи движения.

Форма зоны поиска соответствия блоков может быть различной, но необходимо учитывать, что преимущественно движения осуществляются в горизонтальном направлении.

Поиск, при котором сканируются все блоки из зоны поиска, называется полным. Чем больше зона поиска, тем больше вероятность найти совпадающие блоки. При этом с увеличением размера зоны поиска увеличивается количество блоков для сканирования, а это ведет к увеличению объема вычислений. Полный поиск может использоваться для оценки качества работы других алгоритмов поиска. Для уменьшения требований к вычислительным ресурсам, при сохранении приемлемого качества поиска существуют субопти-мальные алгоритмы оценки движения.

Из таких алгоритмов можно отметить бинарный поиск, логарифмический (рис. 1), трехшаговый (рис. 2), четырехшаговый (рис. 3), ортогональный (рис. 4), спиральный, иерархический и другие. Задача субоптимальных алгоритмов сводится к сокращению числа точек поиска. Суть их состоит в уменьшении точек поиска. Тестирование многих субоптимальных алгоритмов позволило определить порог в уменьшении ПОСШ при использовании субоптимального алгоритма поиска по сравнению с полным поиском: потери в качестве не должны опускаться ниже 0,1 дБ. При осуществлении полного поиска в окне [-15, 15] требуется перебор 961 точки поиска. Поиск трехшаговым алгоритмом требует перебора 33 точек поиска. Если сравнивать алгоритмы только по этим двум показателям, то экономия времени вычисления должна составить (961-33)/961=0,9657 или 97%. Однако экспериментальные результаты, проведенные с использованием кодера ]М14.0 показывают, что в действительности экономится только лишь 73,5% времени при одинаковых условиях кодирования (оценка производилась по занесенным в файл статистики времен работы алгоритмов оценки движения).

Поэтому эффективность работы алгоритмов поиска движения необходимо измерять комплексной оценкой, включающей, помимо количества точек поиска, также время доступа к памяти, поиск за пределами видеоокна из-за специфики шаблона поиска, условия раннего останова и другие. Следует учитывать и такой фактор, что если алгоритм работает быстро, но оценка производится недостаточно точно, то возможно появление большого объема разностной информации, который далее подвергается энтропийному кодированию.

Таким образом, современные алгоритмы оценки движения являются высокоадаптивными, что позволяет наиболее эффективно устранять временную психофизиологическую избыточность. Начало поиска связано, как правило, с вычислением прогноза определяемого вектора движения, основываясь на ранее определенных векторах, используя свойство высокой корреляции векторов движения между соседними макроблоками. В дополнение к этому

/ \ /

І- А

/- ч

) у >

У

Рис 1. Логарифмический алгоритм поиска

РИа 2. Трехшаговый алгоритм поиска

Рис. 3. Четырехшаговый алгоритм поиска

Рис. 4. Ортогональный алгоритм поиска

А

используются эффективные шаблоны поиска и динамическая модификация размеров зоны поиска, что позволяет значительно ускорить процесс оценки движения и в свою очередь упростить процесс межкадрового предсказания, снизив при этом нагрузку на вычислительные ресурсы.

ЛИТЕРАТУРА

1. Безруков В.Н. Цифровая обработка телевизионных сигналов. Учебное пособие. Ч.1. — М.: МТУСИ, 1988.

2. Ричардсон Ян. Видеокодирование. Н.264 и MPEG-4 — стандарты нового поколения. — Перевод с англ. Чепыжова В.В. — М.: Техносфера, 2005.

3. Aroh Barjatya. Block Matching Algorithms For Motion Estimation, 2004.

4. Ramakrishna Kakarala. A description of four motion estimation algorithms, 2002.

Temporal redundancy in the video information psychophysiological signals videoconferencing

Popov A.V.

Abstract: Due to the large volume of information which arising during the transmission of digital videoinformation signals, one of the key moments in the reduction of the volume compression of the spectrum is the space-time structure. In this regard, the Article focuses on the process of video compression, in particular, the process of compression of the spectrum of spatial and temporal structure taking into account the peculiarities of human vision, which is implemented by the possibility of suppression of low-contrast components of the structure of the video image signal. In this paper detail the temporal component of the psychophysiological redundancy and how to fix it by interframe prediction of the direction. Disclosed the concept of motion vector and prediction of the mechanism of movement, accuracy of which significantly affects the degree of compression. It is also considered and compared to sub-optimal algorithms for motion estimation, to avoid the high computational resources.

i Надоели баннеры? Вы всегда можете отключить рекламу.