КЛАССИФИКАЦИЯ ИЗОБРАЖЕНИЙ НА ОСНОВЕ ПРИМЕНЕНИЯ ЦВЕТОВОЙ ИНФОРМАЦИИ, ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ХААРА И МНОГОСЛОЙНОЙ НЕЙРОННОЙ СЕТИ
Тхи Тху Чанг Буй, Нгок Хоанг Фан, В. Г. Спицын
Институт кибернетики Национального исследовательского Томского политехнического университета, 634034, Томск, Россия
УДК 004.931
Предложен алгоритм классификации цифровых изображений, основанный на их цветовой информации, форме и текстуре. Разработана и реализована на языке объектно-ориентированного программирования C# программа для классификации цифровых изображений с использованием вейвлет-преобразования Хаара и многослойной нейронной сети. Сделан вывод о возможности использования коэффициентов прямого вейвлет-преобразования Хаара в качестве входных данных для нейронной сети при классификации цифровых изображений. Показано, что применение предложенного алгоритма, основанного на вейвлет-преобразовании Хаара и нейронной сети, позволяет эффективно выполнять классификацию цифровых изображений.
Ключевые слова: вейвлет-преобразование Хаара, нейронная сеть, моменты цвета, классификация цифровых изображений, обработка цифровых изображений.
The article describes the novel image classification algorithm based on the color information, shape and texture. A program for image classification using the Haar wavelet transform and neural network is developed and implemented in object-oriented programming language C#. The article makes a conclusion about the possibility of using Haar wavelet transform coefficients as input of a neural network for image classification. It is shown that use of the proposed based on the Haar wavelet transform and neural network gives a good performance for image classification.
Key words: Haar wavelet transform, neural network, color moments, image classification, image processing.
Введение. Классификация цифровых изображений, хранящихся в базах данных, с использованием традиционных алгоритмов машинного обучения характеризуется высокой трудоемкостью, что обусловлено большим количеством изображений и деталей, которыми описываются изображения. Указанные алгоритмы характеризуются невысокой стабильностью при классификации изображения из больших баз данных. Кроме того, классификация с использованием этих алгоритмов требует больших временных затрат. Существующие системы хранения изображений, такие как QBIC [1] и VisualSEEK [2], ограничивают методы классификации способами описания изображений, основанными на форме, текстуре и цветовой информации [3].
Одним из методов, используемых для распознавания, классификации и восстановления изображений, является метод, основанный на нейронных сетях. Для того чтобы уменьшить число
входных нейронов сети, система классификации изображений обычно располагается на шаге предобработки. Одним из шагов предобработки цифровых изображений является вейвлет-преобразование. В настоящее время вейвлет-преобразование является широко известным методом, применяемым для анализа изображений и получения таких характеристик изображения, как форма и текстура.
Классификация цифровых изображений на основе вейвлет-преобрзования и нейронной сети выполнена в работах [4-6]. В [4] использовано вейвлет-преобразование Хаара для классификации цифровых изображений из базы данных, содержащей 600 изображений (300 для обучения и 300 для тестирования нейронной сети). Показано, что 81,7 % изображений обучающего множества и 76,7 % изображений тестируемого множества были правильно классифицированы. В работе [5] для классификации изображений применялось вейвлет-преобразование Добеши. Использовались 120 цветных изображений самолетов для обучения нейронной сети и 240 изображений для ее тестирования. Наилучший результат работы - 88 % правильно классифицированных изображений. В работе [6] использовано вейвлет-преобразование Добеши для классификации изображений из базы данных, содержащей 400 цветных изображений самолетов (150 для обучения и 250 для тестирования нейронной сети). В [6] также показано, что 98 % изображений обучающего множества и 90 % изображений тестируемого множества были правильно классифицированы.
В данной работе предложен алгоритм, основанный на комбинации вейвлет-преобразования Хаара и нейронной сети для классификации цифровых изображений из базы данных. Цветное изображение самолета делится на три RGB-компоненты. Моменты цвета первого порядка и коэффициенты разложения вейвлет-преобразования Хаара [7] трех RGB-компонентов изображения являются входным вектором многослойной нейронной сети, обученной алгоритмом обратного распространения ошибки. Предложенная нейронная сеть определяет принадлежность изображения самолета одной из шести категорий (рис. 1).
а б в
Рис. 1. Категории изображений самолетов для классификации: а - коммерческий самолет в полете; б - коммерческий самолет на земле; в - вертолет в полете; г - вертолет на земле; д - военный самолет в полете; е - военный самолет на земле
Представление содержания цифровых изображений. Содержание и контуры цифровых изображений обычно используются в классификации изображений. В данной работе моменты цвета и вейвлет-коэффициенты разложения используются для представления содержания цифровых изображений.
Моменты цвета. Моменты цвета используются во многих системах восстановления цветного изображения [8], особенно в тех случаях, когда изображение содержит только один объект. Моменты цвета первого, второго и третьего порядков являются эффективными для представления распределения цвета изображений. В данной работе для подачи на вход нейронной сети используется момент цвета первого порядка. Моменты цвета определяются по формулам
=
1
Ш
N М
I ]
1=1 }=1
°к =
1 N М
МЫ § Iрк' )2
, 1/2
ь =
1
N М
,1/3
МЫ
IIр1 3 )3
1=1 ]=1
1_Н
Н1_
нн
Рис. 2. Однократное применение двумерного вейвлет-преобразования к квадратному изображению
где р^ ] - значение к-го цветного компонента изображения 1]-х пикселей; М, N - высота и ширина изображения; /лк, ок, вк - момент цвета первого, второго и третьего порядков.
Вейвлет-преобразованне. Вейвлет-преобразование обычно используется в системах восстановления содержания изображения. На каждом уровне вейвлет-преобразования сигнал разлага-
ется на четыре поддиапазона частот (квадранта) ЬЬп, ЬИп, ИЬп, ИИп, где Ь - низкая частота; И - высокая частота; п - уровень разложения. На рис. 2 представлены стандартные обозначения квадрантов преобразованного изображения: ЬЬ, ЬИ, ИЬ, ИИ. Квадрант ЬЬп представляет собой изображение с низким разрешением (сАп), ИЬп - вертикальные детали изображения (с¥п), ЬИп - горизонтальные детали изображения (сИп), ИИп - диагональную информацию изображения (сОп). В данной работе используется вейвлет-преобразование Хаара [8] по шести уровням разложения. Полученные вейвлет-коэффициенты подаются на входы нейронной сети.
Алгоритм классификации цифровых изображений. Целью данной работы является классификация большого числа цифровых изображений на основе информации о цвете и форме изображения. Предложенный алгоритм классификации основан на совместном применении момента цвета первого порядка, вейвлет-преобразования Хаара и многослойной нейронной сети.
Сначала размер исходного изображения уменьшается до размера 256*256 пикселей. После этого полученное изображение делится на три ЯОБ-компонента. Далее каждый компонент делится на шесть частей с одинаковым размером 128*128 пикселей (рис. 3). Входной вектор нейронной сети определяется следующими действиями:
1. Вычисляется момент цвета первого порядка каждой из шести частей трех базовых ЯОБ-компонентов, в результате чего получаются 18 входов для нейронной сети, которые содержат информацию о цвете изображения.
2. К каждой из шести частей трех базовых компонентов применяется вейвлет-преобразова-
ние Хаара шестого уровня разложения для получения горизонтальной, вертикальной и диагональной деталей размером 2*2 (сИ6, сУ6, сП6). Полученная информация подается на входы ней-
Рис. 3. Изображения самолета: а - изображение после уменьшения до размера 256x256 пикселей; б-ж - шесть частей с одинаковым размером 128x128 пикселей
ронной сети (при этом не используется изображение с низкой информативностью, полученное после применения вейвлет-преобразования (сА6)). Для того чтобы уменьшить число входов нейронной сети, используется только горизонтальная информация о шести частях красного компонента (еИ6-К), вертикальная информация о шести частях зеленого компонента (сК6^) и диагональная информация о шести частях синего компонента (еП6-Б). Всего на данном этапе получено 72 входа нейронной сети, которые содержат информацию о форме и текстуре изображения.
3. Применяется вейвлет-преобразование Хаара первого уровня разложения к каждому из трех базовых ЯОБ-компонентов. В результате определяются коэффициенты разложения ЕИ, Еу и Её каждого компонента, определяющие вклад горизонтальной, вертикальной и диагональной деталей. Таким образом, получаем еще девять входов нейронной сети. В результате после
третьего шага нейронная сеть имеет 99 входов.
Структура предложенной нейронной сети. В данной работе для классификации цифровых изображений используется многослойная нейронная сеть с одним скрытым слоем, обученная алгоритмом обратного распространения ошибки. Предложенная сеть еет 99 входных нейронов (х1-х99), 150 скрытых нейронов (И1-И150) и 6 выходных нейронов (у1-у6). Структура предложенной нейронной сети представлена на рис. 4.
Сигмоидальная функция а{х) = (1 + е-2 ^
часто применяется при решении задач клас-
Выходной слой
Входной слой
Скрытый слой
Рис. 4. Структура предложенной нейронной сети
Таблица 1
Различие методов классификации изображений
Источник информации Метод, предложенный в данной работе
[4] [5] [6]
Предложены методы Число нейронов на слое (входной -скрытый - выходной) Хаара, диагонального момента 49-49-30 Добеши, метод гистограммы 48-49-6 Добеши, моменты цвета 99-64-6 Хаара, моменты цвета 99-150-6
сификации. Преимуществами этой функции являются возможность оценки вероятности принадлежности объекта классу, эффективность вычисления производной, ограниченность выходного значения. В данной работе в качестве функции активации используется биполярная сиг-моидальная функция. С целью повышения скорости сходимости сети применяются алгоритм Нгуена - Видроу для инициализации весов нейронной сети и моментум (импульсный параметр) для обучения сети [9]. Значение моментума равно 0,05.
В табл. 1 показано различие между предложенным методом и методами [4-6] классификации изображений. Во второй строке указан способ представления изображения на входном слое нейронной сети.
Результаты экспериментов. Программа реализована на языке объектно-ориентированного программирования C# (Visual studio 2008) и предоставляет возможность создания и обучения многослойной нейронной сети, а также формирования базы данных для обучения и тестирования сети. Программа имеет отдельный интерфейс для проверки и тестирования сети.
В работе использованы 150 цветных изображений самолетов для обучения предложенной нейронной сети и 240 изображений для ее тестирования (обрабатывались изображения из базы URL: http://www.airplane-pictures.net). На этапе обучения сеть сходится после 150 000 эпох со среднеквадратичной ошибкой, равной 0,001. Программа была протестирована 30 раз. Результаты численных экспериментов показали, что 59-81 % изображений самолетов из тестируемого множества и устойчиво 98-100 % из обучающего множества были правильно классифицированы. Наилучший результат работы программы показал, что 100 % изображений самолетов из обучающего множества и 81 % изображений самолетов из тестируемого множества были правильно классифицированы. Таким образом, наилучшим результатом является средняя доля правильно распознанных изображений, равная 90 %. Классификация одного изображения размером 1024*787 пикселей на компьютере с процессором Intel(R) Core(TM)2 Duo 2.00 ГГц и ОЗУ объемом 2 Гб происходит в среднем за 425 мс.
В табл. 2 представлены результаты сравнения работы предложенного метода с другими методами классификации изображений. Полученные результаты показывают, что использование предложенного метода, основанного на комбинированном применении момента цвета первого порядка, вейвлет-преобразования Хаара и многослойной нейронной сети, позволяет эффективно проводить классификацию цифровых изображений из базы данных.
Таблица 2
Результаты работы различных методов классификации изображений
Характеристика метода
Источник информации
Предложенный метод
[4] [5] [6]
Количество изображений для обучения Количество изображений для тестирования Доля правильно классифицированных изображений, %
300 120 150 300 240 250 79 88 93
150 240 90
Заключение. В работе предложен алгоритм решения задачи классификации цифровых изображений на основе совместного применения момента цвета первого порядка, вейвлет-преобра-зования Хаара и многослойной нейронной сети. Разработана программа, реализующая предложенный алгоритм классификации цифровых изображений на языке объектно-ориентированного программирования C#. Показано, что использование предложенного алгоритма дает возможность эффективной классификации цифровых изображений.
Список литературы
1. Niblack W., Barber R., Equitz W., et al. The QBIC project: querying images by content using color, texture, and shape // Proc. of the Intern. conf. on storage and retrieval for image and video databases. Bel-lingham, Washington, USA, Febr. 1993. IS&T/SPIE, SPIE, 1993. P. 173-187.
2. Smith J. B. Chang S. F. Tools and techniques for color image retrieval // Proc. of the Intern. conf. on symp. on electronic imaging: science and technology storage and retrieval for image and video databases. San Jose (USA), Feb. 1996. IS&T/SPIE, SPIE, 1996. P. 426-437.
3. Swain M. J., Ballard D. H. Color indexing // Intern. J. Comput. Vision. 1991. V. 7, N 1. P. 11-32.
4. Park S. B., Lee J. W., Kim S. K. Content based image classification using a neural network // Pattern Recognition Lett. 2004. V. 25. N 3. P. 287-300.
5. Gonzalez A. C., Sossa J. H., Felipe E. M. Wavelet transforms and neural networks applied to image retrieval // Proc. of the 18th Intern. ranf. on pattern recognition. Hong Kong (China), 20-24 Aug. 2006. P. 909-912.
6. Lofti M., Solimani A., Dargazany A., et al. Combining wavelet transforms and neural networks for image classification // Proc. of the 41st Southeastern symp. on system theory. Tennessee (USA), Mar. 15-17, 2009. IEEE SSST, 2009. P. 44-48.
7. Буй Тхи Тху Чанг, Спицын В. Г. Разложение цифровых изображений с помощью двумерного дискретного вейвлет-преобразования и быстрого преобразования // Изв. Том. политехн. ун-та. 2011. Т. 318. № 5. С. 73-76.
8. Flickner M., Sawhney H., Niblack W., et al. Query by image and video content: The QBIC system // IEEE Comput. 1995. V. 28, N 9. P. 23-32.
9. Fausett L. V. Fundamentals of neural networks: architectures, algorithms, and applications. Upper Saddle River (USA): Prentic Hall, 1994. 476 p.
Буй Тхи Тху Чанг - асп. Института кибернетики Томского политехнического университета; тел. (382-2)41-89-12; e-mail: [email protected];
Фан Нгок Хоанг - асп. Института кибернетики Томского политехнического университета; тел. (382-2)41-89-12; e-mail: [email protected]; Спицын Владимир Григорьевич - д-р техн. наук, проф. Института кибернетики Томского политехнического университета; тел. (382-2)41-89-12; e-mail: [email protected]
Дата поступления - 05.09.11