Научная статья на тему 'Нечеткое агрегирование мультимодальной информации в интеллектуальном интерфейсе'

Нечеткое агрегирование мультимодальной информации в интеллектуальном интерфейсе Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
172
82
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Нечеткое агрегирование мультимодальной информации в интеллектуальном интерфейсе»

УДК 004.5

НЕЧЕТКОЕ АГРЕГИРОВАНИЕ МУЛЬТИМОДАЛЬНОЙ ИНФОРМАЦИИ В ИНТЕЛЛЕКТУАЛЬНОМ ИНТЕРФЕЙСЕ

(Работа выполнена при поддержке гранта Президента РФ МК2010, проект № МК-3013.2010.9)

А.Н. Алфимцев, к.т.н. (Московский государственный технический университет им. Н.Э. Баумана, [email protected], [email protected])

Интеллектуальным человеко-машинным интерфейсом можно назвать интерфейс, использующий для взаимодействия несколько модальностей - жесты, речь, внешность пользователя. Но для успешного использования разнородного потока команд в интерфейсе их необходимо распознать и агрегировать с учетом возникающей неопределенности и неточности данных. В статье предлагается метод нечеткого агрегирования мультимодальной информации, для которого источниками данных являются результаты распознавания объектов алгоритмами нижнего уровня.

Ключевые слова: нечеткие операторы агрегирования, интеллектуальный интерфейс, модальность, распознавание образов.

В настоящее время проводятся широкие исследования в области интеллектуальных мульти-модальных интерфейсов [1]. Под модальностью обычно понимается присущая человеку форма воздействия на другого человека или компьютер с помощью речи, жестов, прикосновений, мимики, внешности и т.п. Считается, что человеко-машинный интерфейс является интеллектуальным, даже если в рамках одной формы взаимодействия с компьютером, например, с помощью жестов, могут использоваться различные модальности. При этом возникает задача объединения, или, как часто говорят, агрегирования различных модальностей. Агрегирование может выполняться на двух уровнях - нижнем и верхнем [2]. Будем полагать, что с каждым сигналом ^0, У={у^), у^О, у^), ..., у^„)} связана своя модальность 0е{1, ..., m}, m -число модальностей). Агрегирование, имеющее дело с сигналами, обычно относится к нижнему уровню. Сигналы и соответствующие им модальности на нижнем уровне синхронизированы, взаимосвязь и взаимовлияние сигналов хорошо просматриваются, модальности часто относятся к одной форме воздействия. Агрегирование верхнего уровня обычно осуществляется после работы алгоритмов распознавания нижнего уровня, каждый из которых распознает группы сигналов, относящихся к одной форме воздействия или даже одной модальности. Функции принадлежностей на верхнем уровне могут формироваться с помощью различных моделей. Формы модальностей могут не зависеть от времени.

Например, в алгоритме распознавания динамических жестов с использованием модели, основанной на нечетких конечных автоматах и множествах нечетких эталонных грамматик, для определения сходства (близости) распознаваемого жеста с эталонным используется мера

т

Ак = т=ах[цк], (1)

агрегирующая функции принадлежности Ц языка распознаваемого жеста различным нечетким языкам эталонных жестов как максимум из всех

значений этих функций (в данном случае ke {1, ..., Щ, K - число распознаваемых объектов). Обычно подобные агрегирующие функции Ak называют операторами агрегирования. Оператор агрегирования (1) назовем max-оператором. Использование max-оператора для распознавания модальностей обеспечивает высокий уровень надежности, но может быть неэффективным для использования на верхнем уровне.

Другим популярным оператором агрегирования, помимо max-оператора, является средневзвешенный арифметический оператор:

т

Ак = 2 ^ цк, (2)

1=1

т

где wi - весовой коэффициент, 2 ^ = 1 •

1=1

Агрегирование с помощью средневзвешенного арифметического может приводить к недостаточной надежности (точности) распознавания, понимаемой как процент успешных распознаваний из числа всех попыток. Это может быть следствием эмпиричности выбора весовых коэффициентов wi, а также трудности учета возможной взаимозависимости функций принадлежности.

Тем не менее использование операторов агрегирования зарекомендовало себя как перспективный путь для мультимодального распознавания, которое может преследовать различные цели. Одна из них - управление функционированием виртуальных объектов в интеллектуальном интерфейсе на основе распознанных объектов реального мира. Поэтому основной задачей настоящей статьи является разработка метода нечеткого агрегирования мультимодальной информации, для которого источниками информации являются результаты распознавания объектов алгоритмами нижнего уровня.

Агрегирование модальностей

с помощью операторов Сугено и Шоке

Нечеткой мерой называется функция g: 2R^■[0, 1], где R - множество каких-либо пара-

метров, характеризующих некоторый объект [3]. Нечеткая мера g(Qi) определяет совокупную значимость параметров, входящих в множество Qi. Нечеткая мера удовлетворяет ряду условий: в частности, g(0)=O, g(Y)=1; если Q, PеY и QcP, то g(Q)<g(P). Если ц - некоторая функция принадлежности, определяемая на универсуме допустимых отсчетов yie Yi, i=1, ..., т, относящихся к одному промежутку времени, а Y={Yl, ..., Ym} -множество модальностей, то нечеткие операторы можно определить следующим образом.

Нечеткий оператор Сугено [4]:

Ak = Ак = шах[шт(ц*, g(Qi)], (3)

где ц^)^ц2(У2)^••• ^Ш(Уш), Qi={Yl, ..., Yi}, i=1, ..., т.

Нечеткий оператор Шоке [5]:

1=1»

Ak=аш=X[цk(Уi)-цж^т), (4)

где цк (У1 ) ^ ц2 (у2 ) ^ ••• ^ цШ (Уш ), Qi = {X, •••, Ч}, i = 1,•••,:, цШ+1 (Уш+1) = 0.

Наиболее распространены (вследствие простоты) методы вычисления нечеткой меры, основанные на понятии g^-нечеткой меры, введенной Сугено. Нечеткая мера называется g^-нечеткой мерой, если для нее справедливо условие: для всех Q,PcY, таких, что QnP=0, имеет место g(Q^P)= =g(Q)+g(P)+^g(Q)g(P) для некоторого Х>-1.

Рассмотрим процедуру наиболее популярного метода вычисления g^-нечеткой меры [4], обозначая ее по-прежнему просто g.

Шаг 1. Для каждой модальности (сигнала) Yi, i=1, ..., т, выбрать значение нечеткой меры g(Yi)e[0, 1] как степень важности модальности Yi. Значения g(Yi) могут быть установлены экспертом, получены в результате наблюдений или каким-либо другим путем.

Шаг 2. Найти значение используя уравнение (5).

Х +1 =П(1 + ^)) .

(5)

Шаг 3. Для всех Qi={Y1, ..., Yi}, i=1, ..., т, вычислить рекурсивно нечеткие меры g(Qi), используя следующие выражения:

g(Ql)=g(Yl),

g(Qi)=g(Yi)+g(Qi_l)+Xg(Yi)g(Qi_l), (6)

1=2, ..., т.

Метод нечеткого агрегирования мультимодальной информации на основе операторов агрегирования Сугено и Шоке

Рассмотрим сначала процедуру формирования множества Y1 и процедуру распознавания отдельным алгоритмом 1 с помощью функции ц(Уу.).

В общем случае исходными для агрегирования являются 1 алгоритмов, 1=1, ..., m, использующих скрытые модальности. В данной работе эти модальности и способы их агрегирования не рассматриваются, используется только результат работы каждого из этих алгоритмов как источник новой отдельной модальности (сигнала) Y1, 1=1, ..., m, и функции принадлежности Ц(Уу), у у. е X,

1=0, ..., m, j1=0, ..., п1. Задачей является агрегирование модальностей Y1, 1=0, ..., m. Для того чтобы сформировать множество Y1 и функции принадлежности ц(Уу,), УiJl е X 1=0, ..., m, jl=0, ..., П1, каждый алгоритм проходит предварительную обработку в соответствии со следующей процедурой 1.

Шаг 1. Задается совокупность пустых множеств Хк =0, к=1, ..., К.

Шаг 2. Для каждого эталонного объекта к к=1, ..., X, с использованием скрытых модальностей формируется своя эталонная модель Ок, к=1, ..., К.

Шаг 3. Для распознаваемого объекта по тем же принципам и модальностям формируется модель О.

Шаг 4. Модель О сравнивается с каждой моделью Ок, к=1, ..., К, в результате вычисляется множество отсчетов {у1, у2, •••, уК}, характеризующих близость модели О к моделям Ок, к=1, ..., К.

Шаг 5. Формируются множества ^ ук, к=1, ..., К, которые принимаются за новые множества Хк. Если множества Хк перестают изменяться, осуществляется переход к шагу 6 (могут использоваться и другие критерии перехода к шагу 6). В противном случае процедура начинается с шага 2.

Шаг 6. Множества Хк объединяются, в реК

зультате получается множество У = (^Ук, кото-

к=1

рое упорядочивается (если оно числовое, упорядочение осуществляется по возрастанию), а его элементы индексируются, 1=1, ..., т, j1=0, ..., п1, в результате получается множество X = {Уу е X |

1=1, ..., т, j1=0, ..., п1}. На множестве Y1 задается функция принадлежности ц(уу), yijеYi, 1=1, ..., т,

j=0, ..., П1.

Распознавание по любому отдельному алгоритму 1 с помощью функции Цу ) может осуществляться в соответствии со следующей процедурой 2.

Шаг 0. С помощью процедуры 1 формируются множество Yi и функция принадлежности

Ц(У«,)' У* е Yi 1=0, ..., т, ji=0, ..., П1.

Шаг 1. Для каждого эталонного объекта к, к=1, ..., К, с помощью скрытых модальностей формируется своя эталонная модель Ск, к=1,

К.

Шаг 2. Для распознаваемого объекта по тем же принципам и модальностям формируется модель О.

Шаг 3. Модель О сравнивается с каждой моделью Ск, к=1, ..., К, в результате вычисляется множество отсчетов {у1, у*,..., у^}сУ,, характеризующих близость модели О соответственно к моделям Ск, к=1, ..., К.

Шаг 4. Модель О считается совпадающей с той эталонной моделью Ск , для которой значение ц(ук), где укеУ, максимально.

Таким образом, функция принадлежности ц(ук), где уке У, оценивает близость распознаваемой модели к соответствующей эталонной. В результате общий метод нечеткого агрегирования мультимодальной информации с помощью операторов Сугено или Шоке будет следующим.

Шаг 1. Для каждой модальности (сигнала) Yi, 1=1, ..., т, выбрать значение g(Yi)e[0, 1] как степень важности модальности Y1. Значения g(Y1) могут быть установлены экспертом, получены в результате наблюдений или каким-либо другим путем.

Шаг 2. Найти значение X, используя уравнение (5).

Шаг 3. Для распознаваемого объекта по каждому алгоритму i=1, ..., т и для каждого к=1, ..., К вычислить множество функций принадлежности ц(у*), у* еУ , i=1, ..., т, с помощью процедуры 2.

Шаг 4. Для каждого к=1, ..., К упорядочить множество функций ц(у*) таким образом, чтобы

ц(у^)^ц(ук2)^...*ц(ук> е{1,...,т}•

Шаг 5. Для каждого к=1, ..., К вычислить рекурсивно значения нечетких мер g(Qk), где Ок = {у ,...,у }, i=1, ..., т, используя формулу (6).

Шаг 6. Вычислить для всех к=1, ..., К значения операторов Ак = АС (или Ак = АШ). Распознаваемый объект считается совпадающим с тем эталонным объектом, для которого значение Ак = АС (или Ак = АШ) максимально.

Пример нечеткого агрегирования мультимодальной информации

Рассмотрим нечеткое агрегирование мульти-модальной информации на примере распознавания пользователя по изображению верхней части его тела. Данный пример особенно актуален в интел-

лектуальных интерфейсах пользователя с современными компьютеризированными бытовыми приборами и биометрическими системами. Для распознавания пользователя используются три алгоритма: скрытая марковская модель (СММ), алгоритм определения цвета (АОЦ), алгоритм нахождения соотношений (АНС). Каждому алгоритму требуется обучение на всех пользователях, которых необходимо распознать. Для этого была заполнена БД, состоящая из записей знакомых пользователей. БД, хранящая необходимую информацию для алгоритмов распознавания, представлена на рисунке 1.

В алгоритме 1 используется модальность (множество отсчетов) у = {уч = Рч — Q4 | ji=0,

..., n1}. Используются эталонные СММ Gk, k=1, ..., K. Этим СММ соответствуют вероятности pk, k=1, ..., K, распознавания с помощью этих моделей эталонных лиц, на которых происходило обучение моделей. Для вновь распознаваемого лица, используя те же модальности и модели Gk, k=1, ..., K, вычисляются вероятности Qk, k=1, ..., K, его распознавания с помощью моделей Gk. Множество отсчетов yk = Pjk — Qk, k=1, ..., K, вычисляется как разность вероятностей Р* и Qk. На множестве у = {y4i = Рч — Q4 | jj = 0,...,n1} задается функция принадлежности ц(уч ), j1=0, ..., n1. Ее график показан на рисунке 2а, из которого видно, что ц(уч ) ={1/ую=0; 1/yn=1,5; 0/уп=2}. В алгоритме 2 используется модальность

j2=0, ..., n2, которая получается с помощью эталонных цветовых моделей Gk, k=1, ..., K, в цветовом пространстве RGB. Здесь |,

j2=0, ..., n2, k=1, ..., K - наборы эталонных значений красного, зеленого и синего цветов, на которых происходило обучение моделей, r2j ,g2ji ,b2j1

j2=0, ... , n2 - аналогичные наборы для вновь распознаваемого пользователя. На множестве Y2 задается функция принадлежности ц(уч ), j = 0,...,n2. Ее график показан на рисунке 2б, из которого видно, что ц(уЧ2) ={1/у20=0; 0,5/у21=20; 0/у22=40}.

В алгоритме 3 используется модальность (множество отсчетов) У3 ={узь = ~ Азь)2 +

+(Вкз -В3. )2 -с^,2 +(1^. -В3. )2 НК,-К)21 ^з=0, ..., п3}, которая получается с помощью эталонных моделей отношений С к, к=1, ..., К. Здесь

Ч' в3ь' С*з' ' ' = 0,Пз - наборы

значений, соответственно, расстояний между глазами, глазами и носом, носом и ртом, глазами и ртом, глазами и подбородком, на которых происходило обучение моделей; А3^, В3^, С3^, ,

Е3^, ¡з=0,..., п3 - аналогичные наборы для вновь распознаваемого лица. На множестве У3 задается функция принадлежности ц(у^ ), ,Ъ=0, ..., п3. Ее график показан на рисунке 2в, из которого видно, что у^ ) = {1/у20=0; 0,5/у21=5; 0/у22=10}.

К У1Л) 1 К уг1У 1

0,5 0,5 \

0 1,5 2 УЬх 0 20 40 У2^

(а) (б)

1

0,5

0 5 10 Уз1з

(в) Рис. 2. Функции принадлежностей, соответствующие модальностям У1 (а), У2 (б), У3 (в)

Продемонстрируем работу метода на примере рассмотренных модальностей и соответствующих им алгоритмов для одного распознаваемого объекта.

На первом шаге метода для каждой модальности Уь i=1, ..., т, выбираются значения степени важности g(Yi)£[0, 1]. Экспертом в зависимости от силы алгоритма распознавания выбраны следующие значения: g(Y1)=0,9, g(Y2)=0,8, g(Y3)=0,4. Так как СММ имеет наиболее высокую надежность и устойчивость распознавания, для него задано самое большое значение степени важности. Эффективность решения задачи распознавания с помощью АОЦ несколько ниже, чем у первого алгоритма, поэтому его степень важности меньше. АНС является наиболее слабым из рассматриваемых алгоритмов, поэтому степень важности результатов распознавания этого алгоритма для общего результата агрегирования минимальная.

На втором шаге ищутся значения X, для чего фактически необходимо лишь решить уравнение (5) с полиномом степени (т-1) для нахождения корня, значение которого больше -1:

х+1 = (1+)) • (1+ЫУг ))•(!+ЫУ3));

X +1 = (1 + ^(У2) + ВД ) + X 2g(Y1 )е(У2) + Xg(Yз) + +Х2 g( Y2 )g(Yз) + X2 g( Yl ) + X3g( Yl )g(Y2 )g(Yз)); ВД)^)^))*2 + (g(Yl)g(Y2) + +g(Y2)g(Yз) + g(Yl)g(Yз))X + ВД) + (7)

+g(Y2) + g(Yз) -1) = 0.

Подставляя в (7) заданные g(Yi), получим:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0,288Х2+1,4Х+1,1=0. (8)

Корнем данного уравнения является значение Х=-0,989.

На третьем шаге для распознаваемого объекта по каждому алгоритму i=1, ..., 3 (в данном случае для одного к=1) вычисляется множество функций принадлежности ц(ук),ук е X . Предположим, что получены следующие значения функций принадлежности: ц(у1)=0,9, ц(у2)=0,9, ц(у3)=0,1.

На четвертом шаге для каждого к=1, ..., К упорядочивается множество функций ц(ук) таким образом, чтобы ц(ук) > ц(ук ) >... > ц(ук ),

]пе{1, ..., т}. В рассматриваемом примере значения функций принадлежности уже упорядочены: ц(у1)=0,9>ц(у2)=0,9>ц(у3)=0,1.

На пятом шаге с использованием формулы (6) для каждого к=1, ..., К вычисляются значения нечетких мер ^Ок), где Ок = i=1, т:

g(Ql)=g(Yl)=0,9;

g(Q2)=0,8+0,9-0,989•0,8•0,9=0,98;

g(Q3)=0,4+0,98-0,989•0,4•0,98=1. (9)

На заключительном шаге метода для всех к=1, ..., К вычисляются значения операторов Лк = Л^ или Лк = ЛШ по формулам (3) и (4):

Лс=тах[тт(0,9, 0,9), min(0,9, 0,98),

тт(0,1, 1))]=тах[0,9, 0,9, 0,1]=0,9; (10) ЛШ=(0,9-0,9>0,9+(0,9-0,1>0,98+(0,1-0>1=0,88.

Подытоживая, отметим, что рассмотрен метод нечеткого агрегирования мультимодальной информации с использованием операторов агрегирования (операторов Сугено или Шоке).

Главные достоинства и отличия предлагаемого метода от известных аналогов следующие. Учет степени важности каждой модальности и их отношений происходит непосредственно в процессе распознавания за счет применения операторов агрегирования, использующих нечеткую меру. Надежность распознавания отдельных объектов (например внешности пользователя) повышается за счет использования нескольких источников информации. Кроме того, с помощью данного метода создаются основы для разработки систем

управления различными объектами (роботами, компьютерами, телевизорами и т.п.) и открываются пути повышения интеллектуальности и интуитивности человеко-машинных интерфейсов за счет использования широкого спектра модальностей и их отношений.

Литература

1. Sharma R. Speech-Gesture Driven Multimodal Interfaces for Crisis Management // The IEEE Proceedings. 2003. Vol. 91, № 9, pp. 1327-1354.

2. Ронжин А.Л., Карпов А.А., Ли И.В. Речевой и многомодальный интерфейсы. М.: Наука, 2006. 172 с.

3. Akasaka Y., Onisawa T. Individualized pedestrian navigation using fuzzy measures and integrals // Proc of IEEE Intern. Conf. on syst., man and cybern. Hawai, 2005. Vol. 2, pp. 1461-1466.

4. Tahani H., Keller J.M. Information fusion in computer vision using the Fuzzy integral // IEEE transactions on systems, man and cybernetics. 1990. Vol. 20, № 3, pp. 733-741.

5. Kwak K., Pedrycz W. Face recognition: A study in information fusion using fuzzy integral // Patt. Recog. Lett. 2005. Vol. 26, pp. 719-733.

УДК 004.652

СОВМЕСТНОЕ ОПИСАНИЕ ПРОСТРАНСТВЕННЫХ И АТРИБУТИВНЫХ ДАННЫХ НА ОСНОВЕ МНОГОМЕРНЫХ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ

О.И. Христодуло, к.т.н. (Уфимский государственный авиационный технический университет, [email protected])

Предложен метод совместного описания пространственных и атрибутивных данных на основе многомерных информационных объектов, позволяющий описать каждый тип географического объекта в виде одного многомерного информационного объекта, достичь общности описания слоев объектов разных типов, упростить описание структуры существующих БД систем обработки информации, сделать модель данных обозримой и понятной. Метод может использоваться для интеграции разнородных БД в корпоративных информационных системах.

Ключевые слова: атрибутивные и пространственные данные, многомерные информационные объекты, системы обработки информации, географический объект, операция добавления размерности.

Для совместного описания БД и операций над ними автором предложен специальный способ описания больших массивов информации с помощью многомерных информационных объектов (МИО). В зависимости от размерности МИО может описывать отдельный параметр, таблицу, класс пространственных объектов или всю БД.

В работах [1-3] введены математически формализованные процедуры построения многомерных моделей; для реализации основных функций обработки данных описаны операции порождения, проецирования, объединения и удаления. Основная идея заключается в обобщении реляционного подхода, при котором несколько различных отношений с одинаковой структурой предлагается размещать в некий многомерный объект, названный МИО.

Главным достоинством данного подхода является то, что многомерные модели данных (ММД) получили формализованное описание операций манипулирования данными, хранящимися в различных элементах (двух кубах) ММД, сохранив при этом все достоинства ММД, введенной Э. Коддом [4].

В дальнейшем удалось адаптировать предложенный подход для описания единым образом территориально распределенных разнородных

пространственных данных по территориально распределенным объектам и системам [5].

Характерной особенностью пространственных данных, используемых в геоинформационных системах (ГИС), является то, что одни и те же географические объекты могут быть представлены слоями разных типов (точечными, линейными и полигональными) с учетом степени детализации пространственных данных.

Точечный географический объект характеризуется парой координат X, Y. В зависимости от масштаба рассматриваемой территории такими объектами могут быть водозабор, скважина.

Линейный географический объект характеризуется совокупностью атрибутивных характеристик линейного объекта и набором узловых точек ломаной линии, представляющей этот объект. Примеры таких объектов - реки, границы муниципальных округов, горизонтали рельефа.

Полигональный географический объект характеризуется совокупностью атрибутивных характеристик полигонального объекта и совокупностью замкнутых линий, ограничивающих его контуры. Такими объектами могут быть представлены территории, занимаемые определенной особо охраняемой природной территорией, озером, рекой или целой республикой.

i Надоели баннеры? Вы всегда можете отключить рекламу.