УДК 004.8 Е.Е. Слядников
Модель, алгоритм и программная реализация обработки данных для видеокодека
Описывается разработанная и программно реализованная модель управляющего блока предобработки видеоданных кодека, в качестве которого выбрана вычислительная архитектура синергетической сети микротрубочки цитоскелета нейрона. Предложен и реализован комплексный алгоритм интеллектуальной предобработки, итогом работы которого является уже не изображение, а описание данного изображения.
Ключевые слова: вычислительная архитектура сети микротрубочки цитоскелета, кодек видеоданных.
В настоящее время традиционные системы распознавания образов и компрессии видеоданных, функционирующие на основе классических подходов и преобразований, близки к исчерпанию заложенных в этих методах и средствах возможностей. Использование традиционных подходов и средств для создания таких систем в условиях постоянного увеличения объемов передаваемых данных возможно либо усложнением систем (экстенсивный путь развития), либо путем разработки новой теоретической базы для их представления, преобразования и реализации, основанных как на особенностях структуры видеоданных, так и на специфике человеческого восприятия (интенсивный, инновационный путь) [1].
Широкое применение в современных информационных технологиях получил цифровой кодер -декодер видеоданных (кодек) - устройство, специально созданное для цифровой обработки видеоданных в режиме реального времени [2]. Принципы функционирования кодека основаны на применении итерируемых функций (они, как правило, являются аффинными преобразованиями) к изображениям. Аффинные преобразования сводятся к умножению входного вектора на матрицу аффинных коэффициентов. Это требует больших системных ресурсов, а при переборе аффинных коэффициентов данный процесс будет занимать немало машинного времени даже у мощных современных процессоров. С возрастанием вычислительной мощности современных процессоров возрастают цена, потребление мощности, схемные трудности и т.д.
Следовательно, основной проблемой в обработке видеоданных является избыточность такого рода данных по отношению к информации, в них содержащейся. В данной работе сделана попытка рассмотреть такие данные не только с точки зрения удаления математической избыточности, а с учетом их внутренней структуры, которая обязательно присутствуют в видеоданных - данных, предназначенных для восприятия человеком. Поэтому весьма актуальными являются формулировка модели, алгоритма и программная реализация обработки данных для блока видеокодека, обладающего искусственным интеллектом, который предназначен для эффективной, высокоскоростной и параллельной обработки, компрессии данных и найдет применение в системах видеонаблюдения, системах распознавания образов, сжатия и передачи видеоданных.
Для решения обозначенных задач обработки изображений могут применяться различные модели и методы искусственного интеллекта [2], среди которых перспективной является модель представления и обработки данных в микротрубочке цитоскелета нейрона [3]. В работе [3] показано, что микротрубочка цитоскелета нейрона обладает такими физическими свойствами, которые формируют уникальную вычислительную архитектуру и способности микротрубочки к интеллектуальной обработке данных: представлению, улучшению, восстановлению, оконтуриванию, кластеризации, сжатию данных, распознаванию образов, которые являются фундаментальными свойствами живой природы от клеточного уровня до высших психических функций человека.
Поскольку вычислительная архитектура микротрубочки цитоскелета нейрона позволяет решать основные задачи обработки видеоданных с высокой эффективностью, обеспечивая хорошее распараллеливание вычислительного процесса, используем ее в качестве прототипа для создания блока видеокодека.
Физические основы, вычислительная архитектура, интеллектуальные свойства микротрубочки цитоскелета и модель блока кодека. В последние годы наблюдается значительный интерес к гипотезе квантово-статистической природы человеческого сознания [4]. Одним из возможных вариантов этой гипотезы является предположение, что сознание - это процесс, протекающий в квантово-статистической подсистеме мозга, которая, благодаря своей квантово-статистической природе, способна чрезвычайно эффективно обрабатывать сенсорную и иную информацию, осуществлять сложные логические операции и т.п. Есть экспериментальные свидетельства, что в нейронах мозга подходящими субстратами для «квантово-статистических вычислений», являются микротрубочки цитоскелета, состоящие из молекул тубулина [4].
Гамильтониан дипольной системы микротрубочки цитоскелета в простейшем приближении совпадает с гамильтонианом модели Изинга в поперечном поле. Считая, что переход электрона из одной потенциальной ямы в другую в молекуле тубулина при температуре человеческого тела имеет тепловой флуктуационный характер, систему диполей в микротрубочке цитоскелета можно описывать как классическую систему из N классических псевдоспинов %, каждый из которых может находиться всего в одном из двух состояний Б[ =+1, Б; =-1. Гамильтониан системы взаимодействующих классических дипольных моментов молекул тубулина можно записать в виде суммы двухчастичных взаимодействий классических псевдоспинов Б^-. Резонансное диполь-дипольное
взаимодействие является знакопеременным и разные пары псевдоспинов могут взаимодействовать друг с другом как ферроэлектрическим, так и антиферроэлектрическим образом.
Таким образом, микротрубочка цитоскелета может быть дипольным стеклом, в котором основную роль играют взаимодействие ближайших соседей с антиферроэлектрическим коэффициентом связи и взаимодействие следующих за ближайшими соседями с ферроэлектрическим коэффициентом. Дипольная система представляет собой цепочку псевдоспинов, между которыми осуществляется конкурирующие антиферро- и ферроэлектрическое взаимодействие.
Из предлагаемой модели вытекают важные интеллектуальные свойства микротрубочки цитоскелета [3]:
- Дипольная система микротрубочки цитоскелета представляет собой входной образ с помощью физического процесса перестройки своей пространственной структуры и ставит ему в соответствие вектор < 8(0) >т, компоненты которого < Б; (0) >т она определяет, используя статистическое взвешивание как термодинамическое среднее дипольного момента микротрубочки цитоскелета на узле /.
- Если начальный образ 8(0) неполон, дипольная система микротрубочки цитоскелета допол-
*
няет его до полного вектора прототипа < 81 > , т. е. дипольная система действует как ассоциативная память.
- Если в памяти дипольной системы микротрубочки цитоскелета хранятся прототипы образов
*
< 8и >, а системе предъявляется образ, описываемый вектором < 8(0) >т , то, используя механизм
фазового перехода, дипольная система релаксирует к ближайшему состоянию, превращает образ
*
< 8(0) >т в ближайший к нему прототип < 81 >. Следовательно, дипольная система осуществляет распознавание образов.
Динамика компоненты входного образа Б в окрестности точки фазового перехода описывается уравнением эволюции Ландау-Халатникова для однородного случая:
Б =-ЭФ(8)/дБ; , (1)
где точка обозначает дифференцирование по времени, а Ф - термодинамический потенциал Ландау. Разложение термодинамического потенциала Ландау по компонентам входного образа Б в окрестности точки структурного перехода имеет вид
N N
Ф(8) = X hБiБj + X ЦыБгБ]БкБ1. (2)
Используя механизм фазового перехода, дипольная система микротрубочки релаксирует к ближайшему запомненному состоянию согласно уравнению (1), естественным путем разлагая образ на другие характерные признаки. Каждому признаку ставится в соответствие случайный параметр по-
рядка 4у - проекция вектора < 8(0) >т на вектор < 8, >. Вектор параметров порядка £, в свою очередь, описывает взаимосвязь вектора прототипов 8г* (т.е. запомненные состояния системы) с вектором входного образа 8(0):
N
8(0) = £4,8* . (3)
Компоненты вектора £ - параметры порядка, определяются как проекции входного образа на векторы прототипов.
Из (1)-(3) следует, что эволюция вектора параметров порядка описывается уравнением
4, = -дФ(4)/4, . (4)
Синергетическая сеть микротрубочки цитоскелета нейрона описывается синергетическим потенциалом
м м
Ф(4) = £ а,42 +£ у 4,4у4к4г. (5)
г. ] г. ]
Поскольку только М коэффициентов 4 и являются параметрами порядка (М - количество запомненных образов), а остальные N -М коэффициентов 4s соответствуют подчиненным модам, то микротрубочка устанавливает уже в другом пространстве признаков - параметров порядка, какой хранящейся в памяти микротрубочки структуре отвечает представленный микротрубочкой вектор
< 8 >т и, следовательно, входящий образ. Таким образом, с помощью механизма фазового перехода осуществляется нелинейное преобразование (проектирование) одного пространства характерных признаков (узельного) с размерностью N в другое пространство характерных признаков (параметров порядка) с размерностью М << N . Новое пространство признаков имеет низкую размерность, хотя все образы при этом отчетливо различимы. Невысокая размерность пространства параметров порядка означает, что микротрубочка осуществляет существенное сжатие данных.
Из (4)-(5) следует, что, эволюционируя, синергетическая сеть микротрубочки приходит в ко -нечное состояние, которое зависит от состояния в нулевой момент времени Б(0) и какого-то запомненного состояния системы. По аналогии, для распознавания изображений на вход такой системы требуется подать искаженное изображение, и в результате эволюции синергетическая сеть микротрубочки цитоскелета нейрона восстановит начальное изображение (т.е. распознает его и укажет какому прототипу соответствует это изображение). Следовательно, вычислительная архитектура микротрубочки цитоскелета нейрона представляет собой динамическую систему (4) с синергетическим потенциалом (5), которая обладает ассоциативной памятью, представляет и сжимает данные, распознает образы.
Из описанных выше вычислительных характеристик синергетической сети микротрубочки цитоскелета нейрона можно сделать выводы о преимуществах данной сети по сравнению с другими типами нейронных сетей, использующимися в настоящее время:
1. Локальное взаимодействие между данными (только между ближайшими соседями), так как взаимодействие между дипольными моментами в микротрубочке цитоскелета нейрона происходит локально, между ближайшими соседями.
2. Параллельная обработка данных. Поскольку данные хранятся и обрабатываются при помощи локальных связей, а операции обработки данных выполняются при помощи механизма фазового перехода, который имеет коллективный и параллельный характер, то операции обработки распределены между отдельными элементами сети, поэтому они выполняются коллективно и параллельно. Из чего следует, что время работы будет меньше, чем у аналогичных алгоритмов систем искусственного интеллекта.
3. Коллективный механизм фазового перехода приводит к оригинальному нелинейному взаимодействию между различными элементами сети, в результате чего обработка данных протекает оригинально и нелинейно, вследствие этого не возникает ложных образов при распознавании изображения. Поэтому время работы будет меньше, чем у аналогичных алгоритмов систем искусственного интеллекта.
4. Способность к интеллектуальной обработке информации, так как микротрубочка цитоскелета нейрона обладает ассоциативной памятью.
5. Колоссальное сокращение «данных» при обработке синергетической сетью, путем перехода от вектора всего изображения, имеющего размерность N к вектору параметров порядка с размерностью М (равной числу прототипов системы), которая много меньше N. Синергетическая сеть микротрубочки цитоскелета обрабатывает уже не данные, а метаданные - информацию, в них содержащуюся. В результате сокращения объема данных сокращается время обработки данных, по сравнению с системами искусственного интеллекта, которые не используют описанный выше подход, а работают со всем вектором изображения.
Таким образом, предложенная модель микротрубочки цитоскелета [3] обладает такими физическими свойствами, которые формируют уникальную вычислительную архитектуру и способности микротрубочки к интеллектуальной обработке данных, например функции оконтуривания, улучшения контрастности, сегментации, сжатия, распознавания образов.
Выбирая микротрубочку цитоскелета нейрона в качестве биологического прототипа, усовершенствуем существующую модель кодека видеоданных путем добавления к реализованному на практике устройству [5] блока, состоящего из четырех компонент:
• предобработки изображения;
• сегментации изображения;
• распознавания образов изображения;
• управляющей вычислительной системы - синергетической сети микротрубочки цитоскелета нейрона.
Пример реализации обработки изображений синергетической сетью микротрубочки цитоскелета нейрона. Чтобы оценить качество работы предложенного интеллектуального блока предобработки данных, он был реализован в программной среде МЛТЬЛБ для распознавания автомобильных номеров. Программа ориентирована на распознавание автомобильных номеров России, но при желании может быть легко модифицирована в распознавание любых других номеров или же просто текстовой информации.
В программу вводились прообразы букв и цифр, присутствующих на автомобильных номерах РФ (рис. 1).
АВСЕКМОРХУ
Рис. 1. Буквы и цифры, используемые для обучения сети микротрубочки
0123456789
Буквы и цифры соответствуют шрифту ЖР5, ГОСТ 3489.2, который используется на автомобильных номерных знаках. Размер прообразов букв составляет 43x55 пикселей, а для цифр 44x72 пикселей, так как размеры букв и цифр различны для этого шрифта.
Для проверки работоспособности программы выбирались абсолютно различные номерные знаки. Поэтапно процедура работы выглядела следующим образом:
1. Выбиралось произвольное полутоновое изображение номерного знака (рис. 2, а);
2. Для улучшения качества изображения знака увеличивалась его контрастность (рис. 2, б);
3. После этого изображение знака (рис. 2, в) подавалось на сегментацию.
IаОООаа 177 Р!и5вш| аОООаа 177 аОООаа; 177-
а б в
Рис. 2. Тестовое изображение в полутоновом формате - а; тестовое изображение с увеличенной контрастностью - б; выделенный номерной знак, который подается на вход блока сегментации, - в
В процессе сегментации используется механизм сегнетоэлектрического фазового перехода в сети микротрубочки цитоскелета для выделения сегментов на изображении. В данном процессе первоначальными «точками отправления» в работе программы являются точки с яркостью, равной единице (черный цвет), а все остальные точки выбираются белыми (яркость 128), т.е. формируется начальный (затравочный) вектор изображения. Затем из начального вектора изображения с помощью уравнения динамики (1), записанного в дискретной форме, находится вектор изображения в следующий момент времени. Далее проводится кластеризация компонент нового вектора изображения по отношению к компонентам начального вектора. Если такие точки существуют в пределах области с заранее заданным «радиусом», то точки считаются принадлежащими одному сегменту и
считается некий «центр сегмента». Выполняется несколько итераций этой процедуры и получается сегментация изображения. Эта операция продолжается до яркостей, заданных пользователем изначально (максимальное значение равно 128 - белый цвет), но для вполне хорошей и верной сегментации вполне достаточно пробежать до значений яркостей, равных 90. При использовании этого метода параллельно выделяются границы сегментов, и получается сегментированное изображение (рис. 3, а) и границы данных сегментов (рис. 3, б);
аОООаа
177
а б
Рис. 3. Выделенные сегменты изображения - а; границы сегментов изображения - б
4. Избавляемся от маленьких сегментов, которые являются информационными шумами, а оставшиеся сегменты подаются на вход блока распознавания образов. Для контроля результатов сегментации все сегменты, которые подаются на вход блока распознавания, визуализируются (рис. 4), каждая буква или цифра - отдельный сегмент.
АОООАА177
Рис. 4. Сегменты изображения на входе блока распознавания образов
5. Выполнялось распознавание образов при помощи вычислительной архитектуры, механизма сегнетоэлектрического фазового перехода, ассоциативной памяти микротрубочки цитоскелета нейрона. Синергетическая сеть микротрубочки цитоскелета обладает ассоциативной памятью, поскольку при подаче на ее вход некоторой картины она автоматически отбирает и подает на выход наиболее близкую к ней хранящуюся в памяти картину. Запомненная информация хранится сразу во всей синергетической сети микротрубочки цитоскелета, распределена по связям между отдельными псевдоспинами. Именно поэтому микротрубочка цитоскелета малочувствительна к возникновению дефектов в псевдоспиновой решетке, приводящих лишь к некоторому уменьшению емкости памяти. Распознавание образов в такой системе есть коллективный процесс релаксации всей псевдоспиновой решетки в целом к устойчивому состоянию, ближайшему к введенному образу. Синергетическая сеть микротрубочки цитоскелета очень надежна - часть псевдоспинов может выйти из строя, память при этом заметно не пострадает. Хранящиеся в памяти образы не теряются, а лишь как будто тускнеют при повреждениях отдельных участков дипольной цепи микротрубочки цитоскелета.
После проведения всех этих операций на выходе программы имеем распознанный номер в текстовом варианте (переменная типа «строка», содержащая в себе распознанный номер). Для рассмотренного выше примера строка была следующего вида: пошег = 'Л' [0] [0] [0] 'Л' 'Л' [1] [7] [7].
Обсуждение результатов и выводы. В настоящей работе описана разработанная и программно реализованная усовершенствованная модель кодека видеоданных. Новым по отношению к существующей модели является добавление к ней управляющего блока предобработки информации, в качестве которого выбрана вычислительная архитектура синергетической сети микротрубочки цитоскелета нейрона.
Комплексный алгоритм интеллектуальной предобработки данных состоит из следующих этапов:
• перевод цифрового изображения из цветного в полутоновое;
• улучшение изображения путем повышения его контрастности с использованием синергетической сети микротрубочки цитоскелета нейрона;
• сегментация изображения с использованием синергетической сети микротрубочки цитоскелета нейрона;
• распознавание образов с использованием синергетической сети микротрубочки цитоскелета нейрона.
Итогом работы представленного алгоритма является уже не изображение, а описание данного изображения (признаки и атрибуты, извлекаемые из этого изображения), которое впоследствии может быть эффективно применено в системах «компьютерного зрения» или системах сжатия видеоданных.
В программной среде МЛТЬЛБ программно реализован весь блок интеллектуальной предобработки информации, состоящей из пяти новых компонент. Работа блока показала свою высокую эффективность при распознавании цифр и букв на номерных знаках, даже при низком разрешении изображения номера распознавание происходило корректно.
Разработанная в работе модель, алгоритм работы и программная реализация управляющей системы интеллектуальной предобработки данных могут быть использованы для построения систем, устройств передачи и хранения данных нового поколения. Поскольку итогом работы предлагаемой системы интеллектуальной предобработки данных является уже не изображение, а описание данного изображения, то в результате коэффициент сжатия новых систем будет существенно выше.
Литература
1. Слядников Е.Е. Кодек видеоданных с интеллектуальным блоком // Пленарный доклад на Всероссийской научно-технической конференции студентов, аспирантов и молодых ученых «Научная сессия ТУСУР-2011». - Томск: ТУСУР, 2011. - С. 1-2.
2. Гонсалес Р. Цифровая обработка изображений / Р. Гонсалес, Р. Вудс. - М.: Техносфера, 2005. -1072 с.
3. Слядников Е.Е. Физические основы, модели представления и распознавания образов в микротрубочке цитоскелета нейрона // Журнал технической физики. - 2011. - Т. 81, вып. 12. - С. 133.
4. Пенроуз Р. Тени разума: в поисках науки о сознании. - Ижевск: ИКИ, 2005. - 690 с.
5. Ричардсон Я. Видеокодирование. Н.264 и МРЕО-4 - стандарты нового поколения. -М.: Техносфера, 2005. - 368 с.
Слядников Евгений Евгеньевич
Д-р физ.-мат. наук, профессор каф. электронных приборов ТУСУРа,
ст. науч. сотрудник Томского филиала Института вычислительных технологий СО РАН
Тел.: 8-923-426-4969
Эл. почта: [email protected]
Slyadnikov E.E.
Model, algorithm and software implementation data processing for video codec
In this paper we developed and implemented a model program control unit preprocessing, video codec, which has artificial intelligence, which is chosen as a synergetic network computing architecture microtubule cytoskeleton of the neuron. A complex algorithm intellectual preprocessing, the result of which is no longer an image and a description of the image.
Keywords: computer architecture microtubule cytoskeleton network, video codec.