УДК 004.5
А.Л. Ронжин, А.А. Карпов
Проектирование интерактивных приложений c многомодальным интерфейсом*
Рассматриваются основные типы ограничений, влияющих на организацию человеко-машинного взаимодействия и конфигурирование программно-аппаратных решений при проектировании многомодальных интерфейсов интерактивных приложений. Ключевые слова: многомодальный интерфейс, интерактивные приложения, окружающее интеллектуальное пространство, распознавание речи.
С усложнением и увеличением функциональности систем средства человеко-машинного взаимодействия становятся узким местом из-за того, что не могут обеспечить интерактивный диалог с пользователем с необходимой эффективностью и естественностью [1]. В отличие от традиционных интерфейсов на основе клавиатуры и мыши или одномодаль-ных интерфейсов, многомодальные системы обеспечивают более гибкое использование потоков информации. Это дает возможность человеку выбирать наиболее удобный способ передачи/приема информации.
В зависимости от использованных входных и выходных модальностей выделяют несколько основных типов многомодальных интерфейсов (речь+жесты, речь+чтение по губам, направление взгляда+указание+речь и т.д.). Также выделяют интерактивные и неинтерактивные многомодальные приложения [2]. В неинтерактивных приложениях процесс выполнения задачи определен заранее, и пользователь не может на него повлиять, например при автоматическом транскрибировании записей (заседаний, семинаров), автоматическом индексировании мультимедийных данных (радио, телевизионных новостей) [3]. Напротив, в интерактивных приложениях пользователь в ходе диалога с машиной получает необходимый ему сервис и сам определяет ход работы приложения. Примерами таких приложений являются интерактивное телевидение, справочные диалоговые системы, управление техническими системами, информационная поддержка совещаний [4].
Проектирование многомодальных интерактивных приложений
При построении многомодального интерактивного приложения необходимо определить: 1) кто его будет использовать; 2) какие возможности имеют клиентские устройства; 3) в каких условиях будет проходить взаимодействие; 4) какой тип сервиса будет предоставлять приложение. Организовать взаимодействие представляется возможным только в том случае, если клиентские устройства находятся в зоне взаимодействия с пользователем и связи с информационно-телекоммуникационными сервисами, а их пользовательские интерфейсы соответствуют физическим возможностям и предпочтениям пользователя и могут обеспечить коммуникацию в текущих условиях окружающего пространства для решения актуальных целей пользователя.
Для формализации и решения задачи построения многомодального интерактивного приложения была предложена концептуальная и теоретико-множественная модель, включающая следующие элементы:
- множество целей пользователей P = {pi,i е N},N = {1,...n}, на удовлетворение которых направлено множество сервисов S = {sg,gеM},M = {1,...m} , использующих информационно-коммуникационные ресурсы R = {rfe ,k е C},C = {1,...с};
- множество устройств, доступных пользователю: D = {db ,b е H},H = {1,...h};
- множество моментов времени T = {t} ;
- множество преобразований W = {Wf ,f е O},O = {1,...о} , выполняемых в ходе предоставления сервиса;
- множество потоков искусственных AS = {asq,q е E},E = {1,...е} и естественных сигналов NS = {nsa,a е U},U = {1,...ы} , использующихся при распознавании входных IM = {IM1, IM2,.. .IMNim } и синтезе выходных модальностей OM = {OM1, OM2,.. .OMNom };
*Работа выполнена в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» (ГК №П2360, №П2579) и гранта РФФИ № 10-08-00199-а.
- множество вариантов многомодальных интерфейсов, строящееся путем целенаправленного перебора возможных комбинаций входных и выходных модальностей: NM = {1М1ОМь1М1ОМ2,...,1М^М^М,...,ШМшOMNoм ,...,1М1...ШМшOMl...ОМ^М};
- множество допустимых системотехнических решений Да, включающее в себя
множества математических моделей MM, методов MO, алгоритмов АЬ, аппаратно-программных реализаций АР многомодальных интерактивных приложений, представленное в следующем виде: Да = |а = 1тт,то,а1,ар | тт е ММ, то е МО,а1 е АЬ,ар е АР} .
Учитывая, что в интерактивных системах обработка сигналов должна проводиться в режиме, близком к реальному времени, исходное множество преобразований W должно
удовлетворять: W(а): А3(а) х ^(а) х Т ^ А^а) х ^(а).
Также введены четыре вида ограничений (характеристик), влияющих на процессы организации взаимодействия: 1) ограничения на способы ввода и вывода со стороны пользователя, связанные с его/ее навыками использования клиентских устройств, информационных технологий, личными предпочтениями и психофизическими ограничениями: иС = {и) ,г е X}; 2) ограничения на способы ввода и вывода со стороны клиентского устройства, связанные с размерами, вычислительными и сетевыми возможностями, а также аппаратной частью, реализующей сенсорные и мультимедийные функции устройства: DC = {DCj,] е Y}; 3) множество ограничений среды, в которой планируется организовать
взаимодействие, это: уровень шумов, физические параметры атмосферы, тип помещения, число пользователей, расстояние между пользователем и клиентским устройством, наличие доступа к сетевым ресурсам и др: ЕС = {ЕС^,к е Z} ; 4) наконец, ограничения самих сервисов, связанные с предметной областью и типом обрабатываемых информационно-коммуникационных ресурсов: SC = ,1 е V} .
Для формирования множества допустимых системотехнических решений Да вводятся
соответствующие подмножества декартовых произведений исходных множеств, определяющих все потенциальное пространство проектных альтернатив:
FUC С Ра х Sа х Да х Ба х ASа х ^а; Б С Ра х Sа х Rа х Ба х ASа х NSа;
FEíC С Ра х Sа х Да х Ба х ASа х NSа; F^CC С Ра х Sа х Да х Ба х ASа х NSа . Таким образом, задача проектирования многомодального интерфейса сводится к поиску конструктивных путей формирования множества допустимых системотехнических решений Да , удовлетворяющих ограничениям иС,ВС,ЕС,БС :
/„а „а ла „а„„а „„а \
\Р1 ^ Л г а^у ■ ф(а): FUaC П FDac) П FEaC П FSC) ^ Вт
Ж(а): AS(а) х NS(а) х Т ^ AS(а) х NS(а) I
Дгез = '-»ГУ
где элементы множеств Вт ,ВЛ принимают значения {0,1} . Выбор полной комбинации модальностей, допустимых в проектируемом приложении, будет определяться следующим образом: Д^8 = {©а№М)¥(а) :©а(NM)хД^8 }, где ©а(NM) - множество комбинаций модальностей. На основе разрабатываемого подхода производился обоснованный выбор
конкретных вариантов реализаций отображений ф(а) , ^(а). Окончательное решение о структуре и функциях многомодального интерфейса и программно-аппаратном обеспечении, необходимом для его реализации, принималось с учетом стоимостных затрат.
Многомодальные приложения в интеллектуальном зале
На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных приложений и конфигурирования программно-аппаратных ресурсов были разработаны приложения, относящиеся к различным классам интерактивных информационно-управляющих сервисов: справочный многомодальный киоск [5], интеллектуальный зал.
Разработанный интеллектуальный зал представляет собой распределённую систему, которая содержит сеть интеллектуальных программных модулей, активационных устройств, мультимедийных средств и аудиовизуальных сенсоров (рис. 1). Среди наиболее
важных примененных технологий следует отметить автоматическое распознавание речи, идентификацию диктора, локализацию источников звука, определение положения и слежение за подвижным объектом и лицом человека, определение позы человека. Кроме того, в разработанных интерактивных приложениях используется технология аудиовизуального синтеза русской речи «говорящая голова», созданная в ходе совместных проектов с ОИПИ НАН Беларуси и университетом Западной Богемии.
Основная задача зала - обеспечение участников совещания или лекции необходимыми сервисами на основе автоматического анализа текущей ситуации. Осведомлённость зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников. Применение многомодального пользовательского интерфейса, использующего речь, движения, позы и жесты участников для выявления их потребностей, обеспечивает естественный способ взаимодействия с интеллектуальным залом.
L1- группа света 1
L2- группа света 2
L3- группа света 3
L4- группа света 4
R1 - привод штор
R2- привод экрана
Активаторы
Приложения
СИСТЕМА УПРАВЛЕНИЯ ИНТЕЛЛЕКТУАЛЬНЫМ ЗАЛОМ
Слежение за подвижным объектом
Слежение за лицом человека
Детектор
позы человека
Локализация источников звука
Дистанционное распознавание речи
Идентификация диктора
# W X X
Cam1_Cam2 СатЗ Сат4 Сат5
Сатб ■ ■ ■ Сат15
J
М1.М2.МЗ.М4 М5.М6.М7.М8 М9.М10.М11.М12
Видеосенсоры Аудиосенсоры
Рис. 1. Технологическая инфраструктура интеллектуального зала
Дистанционное распознавание голосовых команд, записанных с использованием массивов микрофонов, позволяет управлять освещением, шторами, проекционным экраном, поворотом камер и более сложными приложениями, например телевизором, радио-, аудио-, видеоплеером. Реализованы многомодальные приложения «Справочная СПИИРАН», предлагающее в интерактивном режиме информацию о сотрудниках института, научных подразделения и текущих мероприятиях, и «Карта Санкт-Петербурга», где посредством голосового дистанционного запроса производятся поиск улицы и вывод на экран сенсорного монитора интересующего участка карты города. Приложение «Умная доска» позволяет делать рукописные записи на сенсорной плазменной панели и с помощью голосовых команд управлять графическим интерфейсом. В приложении «Монитор состояния зала» на экран выводится информация о состоянии оборудования, пространственном положении пользователей, их речевой активности, а также реализовано сенсорное управление оборудованием.
Заключение
Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым участником. Изучение различных комбинаций многомодальных интерфейсов для управления оборудованием интеллектуального зала помогает разрешить фундаментальные вопросы человеко-машинного взаимодействия и является богатейшим ресурсом для новых прикладных моделей в области безопасности, медицины, робототехники, логистики и других научных направлений.
Литература
1. Юсупов Р.М. От умных приборов к интеллектуальному пространству / Р.М. Юсупов, А.Л. Ронжин. - Вестник Рос. академии наук: научный и общественно-политический журнал. - 2010. - Т. 80, вып. 1. - C. 45-51.
2. Quickset: Multimodal interaction for distributed applications. Proceedings of the Fifth ACM International Multimedia Conference / P.R. Cohen, M. Johnston, D. McGee et al. -New York: ACM Press, 1997. - P. 31-40.
3. Tranter S. An Overview of Automatic Speaker Diarization Systems // S. Tranter, D. Reynolds. - IEEE Trans. ASLP. - 2006. - Vol. 14, № 5. - P. 1557-1565.
4. Akker R. Supporting Engagement and Floor Control in Hybrid Meetings / R. Op den Akker, D. Hofs, H. Hondorp et al. // Springer. - 2009. - LNAI 5641. - P. 276-290.
5. Ронжин А.Л. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / А.Л. Ронжин, А.А. Карпов // Информационно-измерительные и управляющие системы. - 2009. - Т. 7, № 4. - С. 22-26.
Ронжин Андрей Леонидович
Канд. техн. наук, доцент, зав. лабораторией речевых и многомодальных интерфейсов, Учреждение Российской академии наук,
Санкт-Петербургский институт информатики и автоматизации РАН
Тел.: (812-3) 28-70-81
Эл. адрес: [email protected]
Карпов Алексей Анатольевич
Канд. техн. наук, сотр. лаборатории речевых и многомодальных интерфейсов, Учреждение Российской академии наук,
Санкт-Петербургский институт информатики и автоматизации РАН
Тел.: (812-3) 28-70-81
Эл. адрес: [email protected]
A.L. Ronzhin, A.A. Karpov
Development of interactive applications with multimodal interface
Main types of constraints influenced on arrangement of human-machine interaction and configuration of hardware-software complexes at development of multimodal interfaces of interactive application are considered.
Keywords: multimodal interface, interactive applications, ambient intelligent space, speech recognition.