Научная статья на тему 'Система технического зрения в задачах навигации мобильных объектов'

Система технического зрения в задачах навигации мобильных объектов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1697
611
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Миронов С. В., Юдин А. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Система технического зрения в задачах навигации мобильных объектов»

ниже Windows XP. Необходимо наличие компилятора gcc, библиотек GDSIILib и GraphViz.

Запуск программы может выполняться из командной строки Unix-shell или из командной строки эмулятора терминала Windows.

Для апробации разработанного ПО была выполнена трансформация топологии 8-битного дешифратора. На рисунке 3а приведена исходная топология 8-битного дешифратора (слой поликремния). Однако выход годных интегральных схем был очень низок из-за негативного влияния эффекта взаимной дифракции.

С использованием разработанной программы TPLConverter исходная топология модифицирована таким образом, чтобы ее можно было воспроизвести по технологии двойного фотошаблона. На рисунке 3б приведены результаты работы программы TPLConverter для слоя поликремния топологии 8-битного дешифратора.

В заключение отметим, что разработанное ПО TPLConverter может найти широкое применение при проектировании топологии субмикронных СБИС для технологии двойного фотошаблона. Получаемое на выходе описание топологии СБИС в формате GDSII пригодно для последующего воспроизводства СБИС по технологии двойного фотошаблона. Применение предложенных подходов позволяет автоматизировать решение задачи по преодолению фундаментального противоречия, связанного с эффектом оптической близости при производстве субмикронных СБИС.

Разработанное ПО не требует значительных вычислительных ресурсов и может использоваться в работе дизайн-центров и в учебном процессе.

б)

Рис. 3. Пример работы программы TPLConverter (слой поликремния)

Программа TPLConverter найдет применение как в виде отдельного полнофункционального приложения, так и в составе интегрированных маршрутов проектирования СБИС.

Дальнейшее развитие системы идет по пути совершенствования используемых структур обработки топологической информации и направлено на расширение функциональных возможностей разработанного ПО.

Литература

1. URL: http://www.itrs.net (дата обращения: 10.11.2010).

2. Зинченко Л.А., Резникова Е.В., Аверьянихин А.Е. Алгоритмы трансформации топологии субмикронных СБИС // Вест. МГТУ им. Н.Э. Баумана. № 1. 2011.

3. Shervani N. Algorithms for VLSI physical design automation // Kluwer Academic Publishes, 1995. 538 p.

4. URL: http://www.mentor.com/ (дата обращения: 10.11.2010).

5. URL: http://www-01.ibm.com/sofftware/awdtools/rup/ (дата обращения: 10.11.2010).

УДК 62-529

СИСТЕМА ТЕХНИЧЕСКОГО ЗРЕНИЯ В ЗАДАЧАХ НАВИГАЦИИ МОБИЛЬНЫХ ОБЪЕКТОВ

С.В. Миронов; А.В. Юдин (МГТУ им. Н.Э. Баумана, skycluster@gmail.com)

Работа посвящена разработке системы технического зрения для нужд навигации мобильного робота. Приведены алгоритмы калибровки видеокамеры, фильтрации шумов и распознавания двухмерных объектов на плоскости. Рассмотрены методы оптимизации системы. Приведена общая архитектура ПО для реализации системы, а также описаны объект автоматизации и типичная задача для технического зрения.

Ключевые слова: техническое зрение, робот, навигация, автоматизация, программное обеспечение.

Обработка визуальных данных с целью дальнейшего принятия решений в области управления любым автономным робототехническим комплексом носит для системы технического зрения фундаментальный характер.

В условиях динамически меняющегося окружения предполагается, что современные автономные системы способны выполнять ряд трудоемких работ, сопряженных с риском для жизни человека,

таких как разминирование, ремонт трубопроводов, мониторинг в агрессивных средах, автоматизация технологических процессов на производстве. Становится актуальным использование робототехни-ческих систем для решения задач обеспечения безопасности и охраны, а также комплексного ухода за больными, людьми в возрасте, когда необходимо постоянное присутствие другого человека.

Робототехнические системы во многих случаях позволяют улучшить экономические показатели промышленного производства за счет качества и скорости автоматизированных операций, непрерывного мониторинга, существенно повышающего надежность и эффективность системы управления. В свою очередь, качество робототехнической системы зависит от точности перемещения исполнительных механизмов и степени адаптации к различным средам - задачам, которые составляют основу навигации.

Применение технического зрения в навигации подвижных звеньев механизмов позволяет разработать единый универсальный технический модуль для разных сред и пространств за счет подобия человеческому глазу. Около 70 % информации человек получает через зрительную систему, что говорит о ее значимости для взаимодействия с внешним миром. Прочие системы, такие как слух, осязание или обоняние, в дополнение к очевидной специализации органа, по сравнению со зрением являются короткодействующими.

В отличие от других методов изучения окружающего пространства зрение как комплекс мер по ориентации в нем и по различению объектов наиболее универсально и непосредственно влияет на интеллект. Таким образом, наличие органа зрения у машины, которая претендует на автономное поведение, обязательно.

Архитектура системы управления с использованием технического зрения

Рассмотрим техническое зрение на примере базовой архитектуры робототехнической системы, основанной на модульном принципе (рис. 1). Информация датчиков Д1 и Д2 систематизируется в центральном компьютере К1 (модуль построения карты), после чего анализируется модулем принятия решений, который вырабатывает команды для исполнительной подсистемы.

Примечание: Д1, Д2 - датчики, К1 - компьютер, МК1 -микроконтроллер.

Рис. 1. Общие принципы взаимодействия подсистем

Внешние датчики и исполнители, используемые в робототехническом комплексе (РК), не могут быть подсоединены к компьютеру напрямую

через стандартные низкоуровневые интерфейсы, такие как PCI или ISA. Для решения этой проблемы используются платы расширения, представляющие собой один или несколько вспомогательных контроллеров. Вспомогательные контроллеры в отличие от главного компьютера работают на более низких тактовых частотах, а связь с ним осуществляется по интерфейсу общего назначения (например, CAN, USB, I2C).

В данном случае система технического зрения РК - совокупность программных модулей, принимающих, передающих и обрабатывающих информацию, полученную с помощью видеокамер (рис. 2).

Рис. 2. Основные компоненты системы технического зрения

Физические устройства и кабели, которые участвуют в работе системы, естественным образом дополняют ее до единого комплекса, но не рассматриваются по причине сильной зависимости их конфигураций от конкретного проекта.

Подсистема анализа визуальных данных. Подсистема включает программные модули, осуществляющие предварительную обработку видеопотока. Все модули, входящие в нее, не обладают какими-либо интеллектуальными функциями, а выполняют лишь строго возложенные на них задачи преобразования входных данных к более сжатому виду для упрощения работы следующей подсистемы.

Модуль «Драйвер видеокамеры» позволяет выделять очередной кадр из поступающего видеопотока. Модуль представляет собой интерфейс к компоненту операционной системы. Например, для Linux таким компонентом может быть код, использующий библиотеки v4llv4l2; для Windows могут использоваться средства DirectX (DirectDraw).

Модуль «Распознаватель» выделяет и классифицирует изображения. Получая их в виде на-

бора точек, он структурирует и фильтрует изображения. Выходной информацией модуля являются данные о видимой форме и размерах изображенных объектов, их типе и ориентации в пространстве. Таким образом, работа модуля сводится к автоматическому преобразованию растровых данных в векторные. Если видеопоток поступает от нескольких связанных между собой видеокамер (например, в системах стереоскопического зрения обычно используются две связанные камеры), данный модуль определяет положение объекта в пространстве, выполняя функции «Преобразователя координат».

Модуль «Преобразователь координат» определяет координаты распознанных объектов относительно выбранной точки, жестко связанной с системой видеокамер. Обычно алгоритм учитывает геометрические параметры системы видеокамер, а также данные, полученные в ходе ее калибровки (фокусное расстояние, величину искажения).

Подсистема принятия решений. Данная подсистема анализирует специальным образом подготовленную информацию, поступающую от предыдущей подсистемы. В результате анализа данных решаются следующие задачи:

• построение и поддержание непротиворечивого представления об окружающем мире;

• разработка стратегии решения поставленных задач;

• управляющее воздействие на исполнительные механизмы.

Следует выделить две наиболее общие части этой подсистемы - модули «Построитель карты» и «Искусственный интеллект».

В задачу «Построителя карты» входит определение положения объектов в мировой системе координат с учетом положения РК в этой системе и положения различных объектов относительно РК. Главная сложность заключается в том, что вся информация содержит погрешности, которыми нельзя пренебрегать. Алгоритм построения карты должен вести постоянное накопление данных и анализ их согласованности. При обнаружении противоречия необходимо определить менее достоверные данные и исключить их из рассмотрения. На этом этапе большую роль играют вспомогательные датчики, которыми оснащен РК. Если координаты РК в мировой системе координат можно определить достаточно точно, алгоритм работы модуля может быть значительно упрощен.

Модуль «Искусственный интеллект» отвечает за планирование действий РК. Результаты планирования выражаются в виде команд различным исполнительным механизмам.

Взаимодействие системы технического зрения с исполнительными центрами. Поскольку решаемая задача навигации ставит жесткие ограничения на время обработки сигналов всех датчи-

ков, необходимо обеспечить предобработку их данных без передачи информации главному компьютеру. Для решения этой задачи применяется метод делегирования полномочий системы принятия решений, который заключается в том, что подсистемы принятия решений присутствуют в виде связанных между собой агентов как на компьютере, так и на контроллере (рис. 3). Этот подход позволяет оперативно реагировать на нештатные ситуации, фиксируемые датчиками контроллера (Д2). При этом в системе по-прежнему возможно наличие контроллеров, не имеющих собственного агента принятия решений (например МК1). Для решения проблемы синхронизации агентов им назначаются роли (клиент/сервер). Клиентская часть системы берет на себя функции реагирования на нештатные ситуации, в то время как серверная часть - долговременное планирование и анализ данных датчиков на непротиворечивость.

Примечание: Д1, Д2, Д3 - датчики, К1 - компьютер, МК1, МК2 - микроконтроллеры.

Рис. 3. Подход к построению взаимодействия исполнительной подсистемы и подсистемы принятия решений с делегированием полномочий

Используются следующие типы протоколов передачи данных.

1. Протокол программного взаимодействия с модулем построения карты, который стандартизирует интерфейсы системных вызовов, выполняемых из подпрограмм драйверов датчиков в подпрограмму построения карты. Язык описания интерфейсов - C (Метка 1).

2. Протокол взаимодействия вынесенных датчиков с агентом принятия решений (Метка 2).

3. Протокол синхронизации агентов принятия решения (Метка 3).

Таким образом, система представлена набором модулей верхнего и нижнего уровней. Модули нижнего уровня связаны шиной нижнего уровня. Центр нижнего уровня отвечает за координацию

работы устройств нижнего уровня, раздачу команд управления, сбор данных и их первичную обработку. Также на нижнем уровне системы обязательна реализация рефлекторных реакций, то есть таких ответных действий системы, которые требуют незамедлительного исполнения.

Центры нижнего и верхнего уровней соединяются при помощи шины верхнего уровня. Центр верхнего уровня оперирует глобальными задачами робототехнической системы на основании данных, полученных с нижнего уровня. Это могут быть траекторное планирование движения манипулятора или мобильного робота, взаимодействие и обмен информацией с человеком, глобальное позиционирование, распознавание образов. Используя сетевую терминологию, можно сказать, что шина нижнего уровня является подсетью шины верхнего уровня. Система самодиагностики обеспечивает командный центр (операторов) информацией о состоянии всех элементов системы и выполняет аварийную остановку работы при наличии внутренних неполадок.

Проводя аналогию с человеком, центр верхнего уровня можно сравнить с головным мозгом, а нижнего уровня - со спинным, шины - с нервной сетью, а систему модулей нижнего уровня - с разветвленной сетью очувствления и моторики.

Применение систем технического зрения

Объект для автоматизации представлен мобильным роботом на базе PC-совместимой системной платы, работающим под управлением модульного ПО в операционной среде Linux. Шасси выполнено из комбинации металла и пластика. Робот двигается за счет пары независимых ведущих колес с дифференциальным законом управления двигателями и обратной связью через датчи-ки-энкодеры.

Робот в автономном режиме решает задачи распознавания объектов на цветном изображении, высокоуровневой обработки датчиков, построения карты объектов с высокой точностью определения координат, интеллектуального принятия решений, прецизионного наведения на объекты полигона [1].

Известно, что существующие робототехниче-ские соревнования отвечают современным требованиям промышленности в части задач, решаемых в ходе соревнований. В данном случае ставится задача мобильного робота - отсортировать случайно расположенные на полигоне шары белого и черного цветов по лункам с красным или синим маркером.

Реализация системы технического зрения

Для решения рассмотренной задачи мобильного робота необходимо разработать систему тех-

нического зрения, для чего необходимы следующие действия:

• исследование изменения параметров освещения окружающей среды;

• исследование параметров регистрирующего устройства (видеокамеры), установленного на мобильной платформе;

• разработка алгоритмов автоматической калибровки параметров регистрирующего устройства (видеокамеры) по установленным ранее параметрам;

• тестирование алгоритмов калибровки на различных аппаратных устройствах (видеокамерах) в предполагаемых условиях окружающей среды;

• разработка модульной архитектуры программной части комплекса, а именно системы управления движением мобильного робота, системы технического зрения;

• реализация программных модулей, необходимых для задач технического зрения.

Визуальное зрение робота в условиях неизвестной или меняющейся окружающей среды служит удобным инструментом для навигации. Рассмотрим несколько вариантов реализации системы технического зрения.

Простая реализация. Основные задачи системы технического зрения - быстрая обработка видеопотока, полученного с видеокамеры, фильтрация шумов, обнаружение объектов и восстановление их пространственных координат. Система должна различать лунки, шары, а также объекты, цвет которых отличается от цвета фона (зеленого).

Низкое качество видеокамеры может повлечь некорректную передачу цветов, а несовпадение центра матрицы и оптической оси объектива вызвать оптические аберрации, которые необходимо устранить. Поскольку заявленные условия являются наиболее значимыми в отношении применяемых алгоритмов, исследуем именно их. Кроме того, плохое качество видеокамеры во многом компенсируется ее низкой стоимостью, что в некоторых проектах может играть решающую роль.

Одним из возможных кадров подобной системы может быть кадр с синей лункой и наложив-шимся на синий цвет бликом от одной из ламп освещения. В этом случае можно выделить на кадре 2 области. Область 1 содержит пиксели, которые нужно классифицировать как синие, и при этом область подвержена блику. Область 2 содержит зеленые пиксели, которые также находятся вблизи блика, на стыке с синими пикселями.

Вычислим среднее значение цвета по областям и стандартное отклонение (результаты приведены в таблице):

м - П 8-(ПЛ ^ ]

где 1 - индекс, пробегающий по каждой точке рассматриваемой области (построчная развертка); х1 -цвет 1-й точки в координатах красной, синей и зеленой составляющих; М - вектор среднего значения; 8 - вектор отклонения от среднего; п - количество точек в рассматриваемой области.

Статистика по областям разного цвета

Область Вектор

М 8

1 (синяя лунка) '188,3325 195,814 к226,7814 \ '3,73064 3,0322 .5,6226у

2 (полигон) '195,6036^ 193,4523 ^193,0845, '4,7929^ 4,5150 , 4,8271^

Примечание: координаты векторов: красная, синяя и зеленая составляющие цвета. Все значения лежат в диапазоне от (0,0,0) - черный до (255,255,255) - белый.

Видно, что и синий, и зеленый цвета по значениям близки к полутоновому серому цвету (200,200,200). Области синего и зеленого цветов на данной видеокамере пересекаются, следовательно, надежное выделение монохромных областей без предварительной обработки невозможно.

Распределение цветов выражается в шуме в области серо-зеленого цвета. Обычным приемом устранения такого шума является свертка с усредняющим фильтром. Пример масок такого фильтра:

' 1 2 1 ^ ' 1 1 1 "

2 4 2 1 1 1

,1 2 1, ,1 1 1,

Однако размытие и усреднение цвета исследуемых объектов являются трудоемкими операциями для больших изображений (сложность алгоритма в общем случае для квадратных изображений - ш2хп2, где т - размер стороны изображения; п - размер стороны маски фильтра) и не смогут решить проблему фильтрации неточечных помех (например бликов).

Размещение и калибровка камеры. Камера крепится к роботу на высоте порядка 30 сантиметров над полигоном так, чтобы граница области видимости находилась на расстоянии не больше 1 метра. При таком расположении ближайшие к роботу объекты видны с минимальными искажениями (рис. 4).

Для калибровки камеры применяется табличный метод: для каждого пикселя изображения строится таблица соответствия «экранные коорди-наты-пространственные координаты». Для этого на изображении выделяются достоверные точки, для которых точно известны пространственные координаты. Для остальных точек отображение экранных координат в пространственные вычис-

ляется по координатам ближайших достоверных точек.

Для вычисления используется метод двухмерной интерполяции (рис. 5). Здесь для координат достоверных точек А, В, С известны пространственные координаты А\ В\ С\ Тогда пространственные координаты О' точки О вычисляются из пропорций АМ/МС=А,М,/М,С и МО/О]= =МО7О]Ч\

Для выделения достоверных точек применяется лист бумаги со специально нанесенным рисунком. Программа калибровки включает в себя следующие действия:

1) выделение экранных координат достоверных точек;

2) для каждой известной точки определение порядкового номера и выделение пространственных координат достоверных точек по известному расстоянию между ними;

3) для каждой точки изображения поиск трех ближайших достоверных точек, расположенных так, чтобы данная точка лежала внутри образованного ими треугольника, и определение пространственных координат методом двухмерной интерполяции.

Определение порядкового номера точки осложняется искажениями, вносимыми камерой. Для решения этой задачи были опробованы два подхода.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Метод выделения вертикальных и горизонтальных линий. Благодаря рисунку калибровочного листа, выделение горизонтальных линий сводится к наложению фильтра, пропускающего только синие составляющие цвета. Аналогично для выделения вертикальных линий применяется фильтр, пропускающий только красные составляющие цвета пикселей. Имея информацию о ли-

ниях, можно легко подсчитать порядковый номер данной точки.

Метод поиска соседей. Алгоритм подсчета номера точки опирается только на экранные координаты центрального столбца точек. Учитывая, что центральный столбец точек минимально искажен, поиск соседей проводится влево и вправо от него. Этот метод оказался более устойчивым, так как меньше зависит от параметров цветопередачи видеокамеры.

Фильтрация шумов и распознавание. Обработка каждого кадра изображения включает следующие этапы:

- классификация цветов пикселей,

- применение шумоподавляющего фильтра,

- локализация объектов и определение их пространственных координат.

Классификация цвета пикселей. Среди множества алгоритмов классификации рассмотрим простейший. Цвет определяется по максимальной цветовой составляющей:

red, r > g, r > b,

blue, b > r, b > g,

color = green, g > r, g > b,

black, r < bp, g < bp, b < bp, white, r > wp, g > wp, b > wp.

Такой подход позволяет с малыми вычислительными затратами (например, по сравнению с нейросетевыми алгоритмами [2]) получить изображение с шестью возможными состояниями каждого пикселя.

Фильтрация. На этом этапе выделяются монохромные области изображения, что позволяет ускорить работу алгоритма локализации в несколько раз за счет устранения единичных пикселей, содержащих шум.

Изображение разбивается на квадратные участки площадью s: 3x3, 5x5, 7x7 пикселей. Для каждого участка считается количество пикселей i-го цвета si.

Критерием зашумленности области является выражение max(s) - min(s) < d, где i - цвет

(красный, зеленый, синий, черный, белый); d -порог, определяемый экспериментально (обычно принимался равным 0,8s); si - количество пикселей i-го цвета в рассматриваемой области.

Если условие оказывается выполненным, область признается содержащей шум и исключается из дальнейшей обработки.

Локализация объектов. После фильтрации с помощью алгоритма заливки проводятся поиск и определение основных параметров монохромных пятен на кадре: площадь и периметр видимого пятна, мировые координаты реперных точек объекта, геометрические размеры (диаметр).

При совпадении диаметра объекта с ожидаемым значением объект признается действительным и готовится к дальнейшей обработке, иначе он расценивается как препятствие.

Улучшенная реализация. В процессе работы над рассмотренной выше реализацией системы технического зрения выяснилось, что применяемые методы можно значительно улучшить за счет применения другого цветового пространства для точек получаемого с видеокамеры изображения. Применяемый в простом варианте анализ R, G и B каналов цвета давал нужный результат, но недостатком разработанной системы можно назвать необходимость проведения процедуры настройки порогов для системы при изменении параметров освещения. Этот недостаток позволяет устранить следующий метод.

Цветовое пространство CIE L*a*b*. Многие исследования восприятия цвета показали, что человеческий глаз имеет фоторецепторы для коротких (S), средних (М) и длинных (L) волн, более известные как синие, зеленые и красные фоторецепторы (RGB). Математически это определено как первое цветовое пространство CIE XYZ [3]. Одним из вариантов данного цветового пространства является CIE L*a*b* - наиболее полная цветовая модель для описания всего набора цветов, видимых человеческим глазом.

В отличие от стандартного (и, вероятно, более известного) RGB цветового пространства в CIE L*a*b* применяются три параметра: светлота (L*), положение между пурпурным и зеленым цветами (a*), положение между желтым и голубым цветами (b*).

Достоинство CIE L*a*b*, которое обусловило выбор этого цветового пространства, в том, что оно несет информацию о разности цветов, отделяя уровень освещенности точки в сцене и таким образом сводя количество параметров от трех в RGB к двум. Значит, систему не требуется перенастраивать при смене освещенности.

Преобразование из RGB в CIE L*a*b*. На данном этапе необходимо преобразовать изображение с видеокамеры, которое доступно в виде RGB-массива, в массив L*a*b*. Преобразование из sRGB в CIE L*a*b* осуществляется в два этапа: 1) из sRGB в CIE XYZ, 2) из CIE XYZ в CIE L*a*b*.

Обратим внимание, что в первом преобразовании интенсивность каждого sRGB канала должна быть выражена как число с плавающей запятой в диапазоне между 0 и 1. Значения интенсивности каналов в CIE XYZ оцениваются по следующей формуле:

X 0.41245

Y = 0.35758

Z 0.18042

0.21267 0.71516 0.07217

0.01933 0.11919 0.95023

f (R) f(G) f(B)

где функция f(K) определяется следующим образом:

f(K) = \

K

для t > 0,008856,

12,92

' K + 0,055Y 1,055 J

для t £ 0,008856.

IV

Функция f(K) необходима для аппроксимации нелинейного поведения гаммы в пространстве sRGB. В приведенной формуле используется значение 7=2,2, что соответствует среднему значению для реалистичного отображения.

Во втором преобразовании компоненты выбранной белой точки определяются как Xn=0,950456, Yn=1,0, Zn=1,088754. Значения ин-тенсивностей в пространстве CIE L*a*b* рассчитываются по следующим формулам:

L* = 116 • g(Y/Y) -16,

a* = 500 •[ g(X/Xn) - g(Y/Yn)],

b* = 200 •[ g(Y/Yn) - g(Z/Zn)].

Функция g(t) выбрана таким образом, чтобы избежать точки бесконечной сингулярности при t=0:

g(t) =

t3 для t > 0,008856,

7,787 • t + — для t £ 0,008856. 116

После подобного преобразования работа с заливкой сцены эталонными цветами может производиться намного точнее и быстрее, так как уровень помех и бликов значительно снижен по сравнению с sRGB-пространством, использованным ранее. Следовательно, такие этапы, как классификация цвета пикселя, фильтрация и локализация

объектов, значительно улучшаются и по качеству выносимых решений, и по скорости выполнения.

В заключение отметим, что описанный набор алгоритмов позволяет успешно справиться с задачей ориентации на игровом полигоне. Погрешность определения пространственных координат составляет менее 5 мм на расстоянии 0,5 м и обусловлена главным образом низким разрешением обрабатываемых кадров (для минимизации времени обработки выбрано разрешение 256x256 точек). Время полной обработки одного кадра составляет менее 10 мс на кадр.

В долгосрочной перспективе разработанный комплекс мер позволит вести работу по таким направлениям, как определение границ применимости различных существующих решений и методов искусственного интеллекта, совершенствование методов и алгоритмов распознавания изображений, создание комплексной системы автономного функционирования в динамической среде.

Литература

1. Миронов С.В., Трушкин Ф.А. Система анализа визуальных данных мобильного робототехнического комплекса // Мобильные роботы и мехатронные системы: матер. науч. шк.-конф. (Москва, 23-24 октября 2006). М.: Изд-во Моск. ун-та, 2006.

2. Бухалто А.Н. [и др.]. Нейрокомпьютеры в системах обработки изображений. Кн. 7; [под общ. ред. Ю.В. Гуляева и А.И. Галушкина]. М.: Радиотехника, 2003. 192 с.

3. CIE, Commission Internationale de l'Eclairage Proceedings. Cambridge University Press, 1931.

4. Буянов А.А., Власов А.И., Макеев С.С. Исследование нейросетевых алгоритмов, применяемых для распознавания образов // Молодые ученые - науке, технологиям и профобразованию для устойчивого развития: проблемы и новые решения: 2-я Междунар. конф. СНГ. М., 2000. Ч. 2, 3.

5. Власов А.И. Аппаратная реализация нейровычисли-тельных управляющих систем // Приборы и системы управления. 1999. № 2. С. 61-65.

УДК 004.424.4

ПОИСК ЭЛЕКТРОННЫХ ИЗОБРАЖЕНИЙ ПО СЕМАНТИЧЕСКИМ ПРИЗНАКАМ

С.Ю. Папулин (МГТУ им. Н.Э. Баумана, papulir@mail.ru)

Статья посвящена поиску изображений по семантическим признакам, основанному на преобразовании визуальных признаков изображения в вид, удобный для восприятия человеком. Рассмотрена общая концепция поиска изображений по текстовому описанию особенностей изображений, а также поиска текстовой информации по семантическим признакам изображения.

Ключевые слова: поиск изображений, поиск текстовой информации, семантический признак, семантический признак связи, семантический объект, образ, семантический преобразователь, признак изображения, аннотация изображения.

Известно, что визуальные данные являются наиболее информативным источником для познания окружающего мира, поскольку все, что попадает в поле зрения, обрабатывается параллельно. Так, для описания одного конкретного предмета

может потребоваться несколько предложений, имеющих последовательную форму построения, и потеря хотя бы одного из них или какого-либо значимого слова может исказить образ предмета. В то же время с помощью визуального представ-

i Надоели баннеры? Вы всегда можете отключить рекламу.