Проектирование интерактивных приложений c многомодальным интерфейсом

Ронжин Андрей Леонидович; Карпов Алексей Анатольевич

УДК 004.5

А.Л. Ронжин, А.А. Карпов

Проектирование интерактивных приложений c многомодальным интерфейсом*

Рассматриваются основные типы ограничений, влияющих на организацию человеко-машинного взаимодействия и конфигурирование программно-аппаратных решений при проектировании многомодальных интерфейсов интерактивных приложений. Ключевые слова: многомодальный интерфейс, интерактивные приложения, окружающее интеллектуальное пространство, распознавание речи.

С усложнением и увеличением функциональности систем средства человеко-машинного взаимодействия становятся узким местом из-за того, что не могут обеспечить интерактивный диалог с пользователем с необходимой эффективностью и естественностью [1]. В отличие от традиционных интерфейсов на основе клавиатуры и мыши или одномодаль-ных интерфейсов, многомодальные системы обеспечивают более гибкое использование потоков информации. Это дает возможность человеку выбирать наиболее удобный способ передачи/приема информации.

В зависимости от использованных входных и выходных модальностей выделяют несколько основных типов многомодальных интерфейсов (речь+жесты, речь+чтение по губам, направление взгляда+указание+речь и т.д.). Также выделяют интерактивные и неинтерактивные многомодальные приложения [2]. В неинтерактивных приложениях процесс выполнения задачи определен заранее, и пользователь не может на него повлиять, например при автоматическом транскрибировании записей (заседаний, семинаров), автоматическом индексировании мультимедийных данных (радио, телевизионных новостей) [3]. Напротив, в интерактивных приложениях пользователь в ходе диалога с машиной получает необходимый ему сервис и сам определяет ход работы приложения. Примерами таких приложений являются интерактивное телевидение, справочные диалоговые системы, управление техническими системами, информационная поддержка совещаний [4].

Проектирование многомодальных интерактивных приложений

При построении многомодального интерактивного приложения необходимо определить: 1) кто его будет использовать; 2) какие возможности имеют клиентские устройства; 3) в каких условиях будет проходить взаимодействие; 4) какой тип сервиса будет предоставлять приложение. Организовать взаимодействие представляется возможным только в том случае, если клиентские устройства находятся в зоне взаимодействия с пользователем и связи с информационно-телекоммуникационными сервисами, а их пользовательские интерфейсы соответствуют физическим возможностям и предпочтениям пользователя и могут обеспечить коммуникацию в текущих условиях окружающего пространства для решения актуальных целей пользователя.

Для формализации и решения задачи построения многомодального интерактивного приложения была предложена концептуальная и теоретико-множественная модель, включающая следующие элементы:

- множество целей пользователей P = {pi,i е N},N = {1,...n}, на удовлетворение которых направлено множество сервисов S = {sg,gеM},M = {1,...m} , использующих информационно-коммуникационные ресурсы R = {rfe ,k е C},C = {1,...с};

- множество устройств, доступных пользователю: D = {db ,b е H},H = {1,...h};

- множество моментов времени T = {t} ;

- множество преобразований W = {Wf ,f е O},O = {1,...о} , выполняемых в ходе предоставления сервиса;

- множество потоков искусственных AS = {asq,q е E},E = {1,...е} и естественных сигналов NS = {nsa,a е U},U = {1,...ы} , использующихся при распознавании входных IM = {IM1, IM2,.. .IMNim } и синтезе выходных модальностей OM = {OM1, OM2,.. .OMNom };

*Работа выполнена в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» (ГК №П2360, №П2579) и гранта РФФИ № 10-08-00199-а.

- множество вариантов многомодальных интерфейсов, строящееся путем целенаправленного перебора возможных комбинаций входных и выходных модальностей: NM = {1М1ОМь1М1ОМ2,...,1М^М^М,...,ШМшOMNoм ,...,1М1...ШМшOMl...ОМ^М};

- множество допустимых системотехнических решений Да, включающее в себя

множества математических моделей MM, методов MO, алгоритмов АЬ, аппаратно-программных реализаций АР многомодальных интерактивных приложений, представленное в следующем виде: Да = |а = 1тт,то,а1,ар | тт е ММ, то е МО,а1 е АЬ,ар е АР} .

Учитывая, что в интерактивных системах обработка сигналов должна проводиться в режиме, близком к реальному времени, исходное множество преобразований W должно

удовлетворять: W(а): А3(а) х ^(а) х Т ^ А^а) х ^(а).

Также введены четыре вида ограничений (характеристик), влияющих на процессы организации взаимодействия: 1) ограничения на способы ввода и вывода со стороны пользователя, связанные с его/ее навыками использования клиентских устройств, информационных технологий, личными предпочтениями и психофизическими ограничениями: иС = {и) ,г е X}; 2) ограничения на способы ввода и вывода со стороны клиентского устройства, связанные с размерами, вычислительными и сетевыми возможностями, а также аппаратной частью, реализующей сенсорные и мультимедийные функции устройства: DC = {DCj,] е Y}; 3) множество ограничений среды, в которой планируется организовать

взаимодействие, это: уровень шумов, физические параметры атмосферы, тип помещения, число пользователей, расстояние между пользователем и клиентским устройством, наличие доступа к сетевым ресурсам и др: ЕС = {ЕС^,к е Z} ; 4) наконец, ограничения самих сервисов, связанные с предметной областью и типом обрабатываемых информационно-коммуникационных ресурсов: SC = ,1 е V} .

Для формирования множества допустимых системотехнических решений Да вводятся

соответствующие подмножества декартовых произведений исходных множеств, определяющих все потенциальное пространство проектных альтернатив:

FUC С Ра х Sа х Да х Ба х ASа х ^а; Б С Ра х Sа х Rа х Ба х ASа х NSа;

FEíC С Ра х Sа х Да х Ба х ASа х NSа; F^CC С Ра х Sа х Да х Ба х ASа х NSа . Таким образом, задача проектирования многомодального интерфейса сводится к поиску конструктивных путей формирования множества допустимых системотехнических решений Да , удовлетворяющих ограничениям иС,ВС,ЕС,БС :

/„а „а ла „а„„а „„а \

\Р1 ^ Л г а^у ■ ф(а): FUaC П FDac) П FEaC П FSC) ^ Вт

Ж(а): AS(а) х NS(а) х Т ^ AS(а) х NS(а) I

Дгез = '-»ГУ

где элементы множеств Вт ,ВЛ принимают значения {0,1} . Выбор полной комбинации модальностей, допустимых в проектируемом приложении, будет определяться следующим образом: Д^8 = {©а№М)¥(а) :©а(NM)хД^8 }, где ©а(NM) - множество комбинаций модальностей. На основе разрабатываемого подхода производился обоснованный выбор

конкретных вариантов реализаций отображений ф(а) , ^(а). Окончательное решение о структуре и функциях многомодального интерфейса и программно-аппаратном обеспечении, необходимом для его реализации, принималось с учетом стоимостных затрат.

Многомодальные приложения в интеллектуальном зале

На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных приложений и конфигурирования программно-аппаратных ресурсов были разработаны приложения, относящиеся к различным классам интерактивных информационно-управляющих сервисов: справочный многомодальный киоск [5], интеллектуальный зал.

Разработанный интеллектуальный зал представляет собой распределённую систему, которая содержит сеть интеллектуальных программных модулей, активационных устройств, мультимедийных средств и аудиовизуальных сенсоров (рис. 1). Среди наиболее

важных примененных технологий следует отметить автоматическое распознавание речи, идентификацию диктора, локализацию источников звука, определение положения и слежение за подвижным объектом и лицом человека, определение позы человека. Кроме того, в разработанных интерактивных приложениях используется технология аудиовизуального синтеза русской речи «говорящая голова», созданная в ходе совместных проектов с ОИПИ НАН Беларуси и университетом Западной Богемии.

Основная задача зала - обеспечение участников совещания или лекции необходимыми сервисами на основе автоматического анализа текущей ситуации. Осведомлённость зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников. Применение многомодального пользовательского интерфейса, использующего речь, движения, позы и жесты участников для выявления их потребностей, обеспечивает естественный способ взаимодействия с интеллектуальным залом.

L1- группа света 1

L2- группа света 2

L3- группа света 3

L4- группа света 4

R1 - привод штор

R2- привод экрана

Активаторы

Приложения

СИСТЕМА УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМ ЗАЛОМ

Слежение за подвижным объектом

Слежение за лицом человека

Детектор

позы человека

Локализация источников звука

Дистанционное распознавание речи

Идентификация диктора

# W X X

Cam1_Cam2 СатЗ Сат4 Сат5

Сатб ■ ■ ■ Сат15

J

М1.М2.МЗ.М4 М5.М6.М7.М8 М9.М10.М11.М12

Видеосенсоры Аудиосенсоры

Рис. 1. Технологическая инфраструктура интеллектуального зала

Дистанционное распознавание голосовых команд, записанных с использованием массивов микрофонов, позволяет управлять освещением, шторами, проекционным экраном, поворотом камер и более сложными приложениями, например телевизором, радио-, аудио-, видеоплеером. Реализованы многомодальные приложения «Справочная СПИИРАН», предлагающее в интерактивном режиме информацию о сотрудниках института, научных подразделения и текущих мероприятиях, и «Карта Санкт-Петербурга», где посредством голосового дистанционного запроса производятся поиск улицы и вывод на экран сенсорного монитора интересующего участка карты города. Приложение «Умная доска» позволяет делать рукописные записи на сенсорной плазменной панели и с помощью голосовых команд управлять графическим интерфейсом. В приложении «Монитор состояния зала» на экран выводится информация о состоянии оборудования, пространственном положении пользователей, их речевой активности, а также реализовано сенсорное управление оборудованием.

Заключение

Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым участником. Изучение различных комбинаций многомодальных интерфейсов для управления оборудованием интеллектуального зала помогает разрешить фундаментальные вопросы человеко-машинного взаимодействия и является богатейшим ресурсом для новых прикладных моделей в области безопасности, медицины, робототехники, логистики и других научных направлений.

Литература

1. Юсупов Р.М. От умных приборов к интеллектуальному пространству / Р.М. Юсупов, А.Л. Ронжин. - Вестник Рос. академии наук: научный и общественно-политический журнал. - 2010. - Т. 80, вып. 1. - C. 45-51.

2. Quickset: Multimodal interaction for distributed applications. Proceedings of the Fifth ACM International Multimedia Conference / P.R. Cohen, M. Johnston, D. McGee et al. -New York: ACM Press, 1997. - P. 31-40.

3. Tranter S. An Overview of Automatic Speaker Diarization Systems // S. Tranter, D. Reynolds. - IEEE Trans. ASLP. - 2006. - Vol. 14, № 5. - P. 1557-1565.

4. Akker R. Supporting Engagement and Floor Control in Hybrid Meetings / R. Op den Akker, D. Hofs, H. Hondorp et al. // Springer. - 2009. - LNAI 5641. - P. 276-290.

5. Ронжин А.Л. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / А.Л. Ронжин, А.А. Карпов // Информационно-измерительные и управляющие системы. - 2009. - Т. 7, № 4. - С. 22-26.

Ронжин Андрей Леонидович

Канд. техн. наук, доцент, зав. лабораторией речевых и многомодальных интерфейсов, Учреждение Российской академии наук,

Санкт-Петербургский институт информатики и автоматизации РАН

Тел.: (812-3) 28-70-81

Эл. адрес: [email protected]

Карпов Алексей Анатольевич

Канд. техн. наук, сотр. лаборатории речевых и многомодальных интерфейсов, Учреждение Российской академии наук,

Санкт-Петербургский институт информатики и автоматизации РАН

Тел.: (812-3) 28-70-81

Эл. адрес: [email protected]

A.L. Ronzhin, A.A. Karpov

Development of interactive applications with multimodal interface

Main types of constraints influenced on arrangement of human-machine interaction and configuration of hardware-software complexes at development of multimodal interfaces of interactive application are considered.

Keywords: multimodal interface, interactive applications, ambient intelligent space, speech recognition.

Проектирование интерактивных приложений c многомодальным интерфейсом Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ронжин Андрей Леонидович, Карпов Алексей Анатольевич

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ронжин Андрей Леонидович, Карпов Алексей Анатольевич

Текст научной работы на тему «Проектирование интерактивных приложений c многомодальным интерфейсом»