ТЕМБРАЛЬНЫЕ ПРОСТРАНСТВА В ЗАДАЧАХ СОНИФИКАЦИИ КИБЕРФИЗИЧЕСКИХ СИСТЕМ
Г.Г. Рогозинский, кандидат технических наук; А.Д. Сотников, доктор технических наук.
Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича
Расширение использования аудиальной модальности при работе с различными системами отображения информации за счет средств сонификации требует разработки комплекса методов отображения сложных данных и описания звуковых объектов. Рассмотрены тембральные пространства, проектируемые с учетом сонификации.
Ключевые слова: сонификация, тембр, мультидоменная модель, киберфизические системы
TIMBRAL SPACES FOR SONIFICATION OF CYBER-PHYSICAL SYSTEMS G.G. Rogozinsky; A.D. Sotnikov.
The Bonch-Bruevich Saint-Petersburg state university of telecommunications
The further development of auditory modality for the purposes of various systems of data representation based on sonification, demands the research of the complex data mappings and sound objects' descriptions. The paper reviews timbral spaces, designed for the sonification purposes.
Keywords: sonification, timbre, multi-domain model, cyber-physical systems
Сонификация как совокупность методов представления различных данных с помощью неречевого звука начинает свою историю с работ Крамера [1], Бараша [2], Эдворти [3] и других, появившихся в конце 1990-х гг. на стыке акустики, звукового дизайна, компьютерных технологий звукового синтеза и анализа данных.
К настоящему моменту времени элементы сонификации находят все большее применение в различных системах, однако существующие методы сонификации [4] не обладают достаточным инструментарием для системного подхода к аудиальному представлению состояния различных сложных систем, в том числе и киберфизических. Последние представляют собой новую технологическую парадигму, объединяющую различные информационно-телекоммуникационные системы с позиций выделения и интеграции в единое целое слоя физических элементов и их информационных (кибернетических) представлений (цифровых теней) [5, 6].
С ростом увеличивающейся информационной нагрузки одним из наиболее слабых звеньев сложных систем становится человек-оператор. Полное исключение человеческого фактора по-прежнему невозможно в силу очевидных причин. При этом в условиях современной высокотехнологичной среды взаимодействие человека с информационными системами становится все более сложным и многообразным, что может привести к значительной нагрузке на оператора системы и, как следствие, к ошибочным реакциям и действиям в контуре управления.
Следовательно, совершенствование методов сонификации и распространение их на область киберфизических систем, с одной стороны, требует проработки вопросов формирования описаний для звуков, участвующих в процессе сонификации, а с другой -моделей, учитывающих связи между киберфизическими системами и подсистемами сонификации.
Мультидоменная модель коммуникаций
Проектирование полимодальных интерфейсов взаимодействия в человеко-машинных системах требует разработки соответствующих методов описания, анализа и конструирования представлений свойств и характеристик объектов/процессов в киберфизических системах.
В качестве фундаментальной основы для описания и анализа проблемы предлагается использовать модифицированную доменную модель инфокоммуникаций [7, 8], позволяющую формально описать процессы взаимодействия, обслуживаемые соответствующими интерфейсами участников процесса.
Рассматриваемая модель предполагает разделение пространства взаимодействия на три области (домена), каждый из которых связан с группами объектов общей природы -физическими, информационными (кибернетическими) и когнитивными.
Перечисленные выше объекты представляют сущности соответствующих доменов -физического (ФД), информационного (ИД) и когнитивного (КД). На границах доменов реализуются интерфейсы, позволяющие осуществлять взаимодействие между элементами системы.
Каждый элемент системы обладает конечным упорядоченным набором состояний, определяющих собственный тезаурус элемента.
Для объекта А, принадлежащего физическому домену и обладающего множеством
состояний собственного тезауруса (А)% , существует множество представлений в тезаурусе
%в, являющихся сущностями информационного домена. Информационное взаимодействие состоит в изменении состояния объекта-приемника в ответ на воздействие сигнала, сформированного в соответствии с изменением состояния объекта-передатчика:
^А ЯщнаП %
А' М(а)
(1)
Возникающее в процессе функционирования системы взаимодействие человека с информационной средой и, через нее, с физической средой, затрагивает все три домена. Выражение (1) в этом случае принимает вид:
I
А с А ^
где О, О - операторы преобразования представлений объекта ФД при формировании
сигнала, его трансформациях в процессе передачи и приема; - тезаурусы сигнала
и приемника соответственно.
В обобщенном случае полимодального представления информации введем векторный
оператор Ъ, каждым элементом которого является оператором преобразования тезауруса объекта ИД к тезаурусу соответствующего интерфейса представления информации.
Для четырехмодального случая, включающего зрительную О, аудиальную 0А , тактильную О и ольфакторную 0° компоненты, имеем [9]:
Ъ = { 0А; О; ; О}.
(2)
В результате воздействия векторного оператора Ъ на тезаурус объекта в ИД в общем случае имеем:
о£ —-
C
£
£
■и,
i=\..Mm
где - г модальность; - максимальное количество модальностей данных
в рассматриваемой системе.
В соответствии с выражением (2) переход от объектов ИД к КД для восприятия сенсорными органами человека-оператора будет записано выражением (3):
о
£
л
■И,
QN
i=1..Mm
о
£
£
■M,
£
(3)
J i=1..Mm
где д - тезаурус человека-оператора в когнитивном домене.
Отдельно для аудиальной модальности выражение (3) преобразуется к виду:
C £с -В-« о £C -2Ц< с) л f
qn
где Ю - информационный (кибернетический) домен; СП - когнитивный домен;
- оператор редукции или сокращения тезауруса, такой что <дС ^ <дС .
Представленные выше выражения дают формальное описание процессам, имеющим место в различных доменах рассматриваемой модели и позволяют использовать единый символьный аппарат, что важно с позиций разработки методов и теоретических моделей, направленных на формирование унифицированного комплекса средств проектирования полимодальных интерфейсов представления данных [10].
Три класса звуковых пространств
В терминах мультидоменной модели представление звука в виде звукового сигнала, существующего в информационном пространстве, может быть записано как:
>
£
и
A
A
>
ID
CD
A£ —W Anл = S £
Звуковой сигнал может быть представлен с помощью трех принципиально различающихся классов пространств [11].
Первый класс, примером которого является традиционное для радиотехнических приложений пространство Амплитуда-Частота-Время (AFT), является наиболее объективным и не содержит субъективных дескрипторов. Переход к нему затрагивает только
S
лишь область ИД и фактически соответствует операции внутридоменного преобразования тезауруса:
О
(4)
Новый тезаурус X включает в себя расширенный набор дескрипторов, базирующихся на частотно-временных преобразованиях, например, на преобразовании Фурье.
Второй класс пространств, примером которого является пространство Шеффера [12], является следствием субъективизации частотно-временного представления сигнала и обозначается как sAFT, то есть:
где
¡6 —Ц¡6)6
- переход к КД, то есть субъективизация частотно-временного
представления звукового сигнала в тезаурусе пользователя 'и, в частности можно отметить нотную запись и прочие условные обозначения, используемые композиторами для
описания характеристик звука; Ы6
переход к представлению сигнала,
определяемому в результате когнитивной деятельности.
Третий класс пространств, примером которого служит фонографическое пространство Динова-Гибсона (PhG) [13], является субъективизацией исходного сигнала без дополнительных преобразований в ИД:
я 6
63
5 6
04
5 6
Таким образом, имеет место следующая схема, отражающая генезис трех возможных классов звуковых пространств (рис. 1).
Соответственно, любой звук, описываемый тремя классами пространств, в символьной форме будет представлять собой комплекс из трех групп дескрипторов:
£
и
и
и
и
?
>
г
и
£
>
>
и
5
£
<
>
Рис. 1. Три класса звуковых пространств в рамках мультидоменной модели
Тембральные пространства сонификации
Терминологически разделяем понятия тембрального и звукового пространств для реализации предлагаемых методов сонификации.
Звуковые пространства (AFT, sAFT и PhG) описывают звуковые объекты в известных терминах и в совокупности могут теоретически описать любой звуковой объект. Тем не менее в вопросах мультипараметрической сонификации значительную важность приобретает выделение конкретных параметров, определяющих тот или иной тембр. Эти параметры, в свою очередь, определяются используемым для сонификации алгоритмом синтеза звука.
Таким образом, размерность тембрального пространства напрямую связана с алгоритмом синтеза звука. Рассматриваемые тембральные пространства являются дискретными и конечномерными. В отличие от «классических» тембральных пространств, описанных в литературе [14, 15], и проектируемых изначально для описания тембров акустических инструментов, тембральные пространства, рассматриваемые в данном исследовании, предназначаются для компьютерного синтеза звука. С одной стороны, в такой ситуации имеем дело с существенно большим количеством параметров, с другой стороны, упрощается задача формализации описания тембра, так как он изначально уже формализован в виде совокупности параметров алгоритма синтеза звука. Это позволяет построить тембральное пространство, исходя непосредственно из вектора входных параметров алгоритма синтеза и обработки звука. Звуковой объект, таким образом, будет представлен в виде точки в соответствующем тембральном пространстве.
С позиций системного подхода к построению тембральных пространств необходимо выделить два решения. Первый заключается в генерализации тезаурусов ряда распространенных алгоритмов синтеза звука и построению на их основе обобщенного универсального тембрального пространства. Очевидным положительным моментом является
универсальность обозначенного пространства и теоретическая возможность использования его с различными алгоритмами синтеза звука и сонификации.
В то же время необходимо отметить разнообразие современных алгоритмов синтеза звука, которые, будучи не связанными с конкретными реализациями, оказываются ограниченными только инструментарием программных средств, что, в свою очередь, открывает значительную вариативность в методах синтеза и обработки звука. В связи с этим обстоятельством, сложно представить возможность сведения описания любого тембра синтезированного звукового объекта к единому тезаурусу, к примеру, вариантов алгоритма синтеза на основе частотной модуляции и гранулярного синтеза. В первом случае, параметры имеют в значительной степени абстрактный смысл (частота модуляции, алгоритм коммутации операторов) и относятся в основном к частотному или к частотно-временному домену [16]. Во втором случае, параметры несут стохастический характер и относятся, преимущественно, к временному домену [17]. Оперирование разными внутридоменными масштабами и разными принципами формирования звуковых объектов приводит к сильному ограничению на применение универсальных тембральных пространств, по крайней мере, в абсолютной формулировке.
Альтернативным решением является подход к построению тембральных пространств, исходя непосредственно из алгоритма синтеза звука. В отличие от предыдущих тембральных пространств, которые создавались для акустических инструментов с относительно небольшой вариативностью тембральных качеств, тембральные пространства синтезированного звука будут существенно отличаться. При этом при условии, что алгоритм синтеза известен, имеем представление обо всех параметрах, определяющих формирование того или иного тембра. Исходя из этого положения, можно заключить, что построенные таким образом тембральные пространства дают полную и точную характеристику получаемых тембров.
Обратной стороной такого подхода является то обстоятельство, что каждый новый алгоритм синтеза звука будет порождать новое тембральное пространство. Это ограничивает область применения такого подхода. Однако удачным решением представляется формирование ряда протопространств, являющихся надмножеством над семейством пространств со схожими тезаурусами. Кроме того, при достаточной вариативности тембров в рамках заданного тембрального пространства целесообразно использовать одно и то же выбранное пространство для получения группы различных тембров.
Определим ряд характеристик тембральных пространств, позволяющих установить ряд их важных свойств и взаимоотношений.
Степень принадлежности или подобие пространств. В «классическом» варианте компьютерного синтеза звука формирование любого тембра можно разделить на следующие обобщенные этапы: генерация звуковой основы, манипуляция исходными элементами для формирования основного тембра, дополнительная обработка. Например, в типовой модели субтрактивного синтеза звука первый этап будет включать в себя генераторы волн, второй -их сумму, различные виды модуляции, определяющие генерацию дополнительных компонент спектра и блок фильтров. Финальный этап включает в себя различную обработку - дилэй, ревербератор, хорус/фейзер/фланжер и т.д.
Как правило, дополнительная обработка рассматривается как побочный элемент синтеза звука. Следовательно, при возможности «расслоить» тезаурус тембра на три компоненты:
т"т - т{Т° и Ти (г)*- т**Тх
'ТО _ „ „ Л__ _______ „ „ „ г- . ^
где - тезаурус формирования основного тембра; - тезаурус манипуляции элементами тембра; ^ - тезаурус дополнительной обработки, можно установить степень подобия одного тембрального пространства другому и, тем самым, сократить или обобщить описание.
Размерность тембрального пространства определяется количеством параметров тембрального пространства. Отметим, что данная величина может в значительной мере превышать реальное количество параметров, используемых в конкретной реализации алгоритма синтеза. В связи с этим дополнительно целесообразно ввести понятие фактической размерности тембрального пространства, определяемой исходя из количества параметров алгоритма синтеза звука, реально участвующих в формировании тембра.
Под предельным шагом измерения X будем понимать минимальное приращение значения вдоль оси Х ^-мерного тембрального пространства SN. Так как существует ограничение вопросами компьютерного синтеза звука, то имеем право утверждать о конечности шага размерности. Кроме того, многие интерфейсы синтезаторов накладывают существенные ограничения на величину шага. В частности, это в ряде случаев обусловлено необходимостью обеспечения совместимости со стандартом MIDI 1.0 [18], который определяет количество значений стандартного 7-битного контроллера как 27 и контроллера
14
с расширенным диапазоном значений как 2 .
Кроме шага по различным осям следует учитывать шаг заметности. Формирование звукового тембра в мультипараметрической среде представляет собой сложный и нелинейный процесс, в котором весьма вероятны ситуации, при которых для минимальной заметности изменения тембра требуется шаг, превышающий минимальное разрешение по оси. Это может быть обусловлено как самим алгоритмом синтеза звука, так и психоакустическими факторами.
Шаг заметности в общем случае является нелинейной величиной, зависящей от комбинации других параметров. Например, при относительно низкой частоте среза фильтра нижних частот высокочастотные компоненты будут неявными, и их изменения не будут четко фиксироваться слухом. В то же время при открытии фильтра те же изменения в высокочастотной области могут вызвать более заметные ощущения.
Еще одной важной характеристикой тембрального пространства будет вес. В общем предельном случае вес W тембрального пространства SN определяется как:
W Sn = П^-
i=\..N
где А{ - предельный шаг по оси 1 К-мерного тембрального пространства Ем.
В практической ситуации вес тембрального пространства должен определяться по шагам заметности, однако это усложняет задачу его нахождения из-за нелинейности распределения шагов заметности, так как:
1=1..N
где А ( - шаг заметности по оси 1 К-мерного тембрального пространства Ем, зависящий от положения в Ем.
Некоторые построения в М-мерном тембральном пространстве Ем
Несмотря на то, что тембр, очевидно, является точкой в К-мерном тембральном пространстве Ем, на практике, с учетом предельного шага и минимального шага заметности, целесообразнее говорить об окрестности £ вблизи точки х е Ем. Для этой окрестности характерна одинаковость ощущения тембра с точностью до а.
В этой связи целесообразно под понятием «тембр» понимать данную окрестность 8, а под реализацией тембра - точку х из этой окрестности 8.
В практике синтеза звука, как правило, имеют место нестационарные звуковые объекты, при формировании которых параметры алгоритма синтеза подвергаются различным модуляциям. Таким образом, более общий случай существования звукового объекта как элемента тембрального пространства следует описывать траекторией движения внутри тембрального пространства Егс (рис. 2).
Рис. 2. Несколько траекторий формирования тембра в N-мерном тембральном пространстве 3N
Предложенные авторами звуковое и тембральное пространства позволяют дать описание звуковых объектов, используемых в системах сонификации с большим количеством элементов. Совокупность приведенных построений в тембральном пространстве SN указывает на необходимость введение метрики MN с учетом разделения тембров, что будет выполнено в дальнейших исследованиях. Это позволит установить реальный потенциал исследуемого тембрального пространства и определить предпочтительное размещение тембров внутри данного пространства с учетом перцепционного разделения тембров, что, в свою очередь, является важнейшим аспектом при отображении киберфизических моделей на звуковое и тембральное пространства.
Литература
1. Kramer G. An Introduction to Auditory Display. In G. Kramer (Ed.), Auditory Display: Sonification, Audification, and Auditory Interfaces. Reading, MA: Addison Wesley. 1994. Pp. 1-78.
2. Barrass S.A. Perceptual Framework for the Auditory Display of Scientific Data // ACM Transactions on Applied Perception. 1994. № 2 (4). Pp. 389-402.
3. Edworthy J. Does sound help us to work better with machines? A commentary on Rautenberg's paper' About the importance of auditory alarms during the operation of a plant simulator' // Interacting with Computers. 1998. 10. Pp. 401-409.
4. Herman T., Hunt A. The Sonification Handbook. Logos Verlag. 2011. 584 p.
5. Малыгин И.Г., Комашинский В.И., Королев О.А. Информационно-управляющие системы водного транспорта в период четвертой индустриальной революции // Транспорт: наука, техника, управление. 2017. № 8. С. 3-12.
6. Куприяновский В.П., Намиот Д.Е., Синягов С.А. Кибер-физические системы как основа цифровой экономики // International Journal of Open Information Technologies. 2016. Vol. 4. № 2. Pp. 18-25.
7. Sotnikov A.D., Rogozinsky G.G. The Multi Domain Infocommunication Model as the Basis of an Auditory Interfaces Development for Multimedia Informational Systems // T-Comm: Телекоммуникации и транспорт. 2017. Т.11. № 5. С. 77-82.
8. Сотников А.Д. Принципы анализа прикладной области в инфокоммуникационных системах здравоохранения // Труды учебных заведений связи. 2004. № 171. С. 174-183.
9. Рогозинский Г.Г. Комашинский В.И. Модифицированная доменная модель мультисенсорного мониторинга киберфизических систем // Моринтех. 2017. Т. 38. № 4. Ч. 3.
10. Рогозинский Г.Г., Мультидоменный подход и модели объектов киберфизического пространства в задачах отображения информации // Труды учебных заведений связи. 2017. Т. 3. № 4. С. 88-93.
11. Рогозинский Г.Г. Три класса звуковых пространств для проектирования систем сонификации // T-Comm: Телекоммуникации и транспорт. 2018. Т.12. № 1. С. 59-64.
12. Schaeffer P. In Search of a Concrete Music. CA: UC Press, 2012.
13. Динов В.Г. Звуковая картина. Записки о звукорежиссуре. СПб.: Геликон Пресс,
2007.
14. Wessel D. Timbre Space as a Musical Control Structure // Computer Music Journal.
1979.
15. Алдошина И.А., Приттс Р. Музыкальная акустика. 3.9. Тембр. СПб.: Композитор,
2006.
16. Roads C. The Computer Music Tutorial. Cambridge, MA. MIT Press, 1996. 1256 pp.
17. Roads C. Microsound. Cambridge, MA. MIT Press, 2004. 424 pp.
18. Протокол MIDI 1.0. URL: https://www.midi.org/specifications/item/the-midi-1-0-specification (дата обращения: 18.03.2018).
References
1. Kramer G. An Introduction to Auditory Display. In G. Kramer (Ed.), Auditory Display: Sonification, Audification, and Auditory Interfaces. Reading, MA: Addison Wesley. 1994. Pp. 1-78.
2. Barrass S.A. Perceptual Framework for the Auditory Display of Scientific Data // ACM Transactions on Applied Perception. 1994. № 2 (4). Pp. 389-402.
3. Edworthy J. Does sound help us to work better with machines? A commentary on Rautenberg's paper' About the importance of auditory alarms during the operation of a plant simulator' // Interacting with Computers. 1998. 10. Pp. 401-409.
4. Herman T., Hunt A. The Sonification Handbook. Logos Verlag. 2011. 584 p.
5. Malygin I.G., Komashinskij V.I., Korolev O.A. Informacionno-upravlyayushchie sistemy vodnogo transporta v period chetvertoj industrial'noj revolyucii // Transport: nauka, tekhnika, upravlenie. 2017. № 8. S. 3-12.
6. Kupriyanovskij V.P., Namiot D.E., Sinyagov S.A. Kiber-fizicheskie sistemy kak osnova cifrovoj ehkonomiki // International Journal of Open Information Technologies. 2016. Vol. 4. № 2. Pp. 18-25.
7. Sotnikov A.D., Rogozinsky G.G. The Multi Domain Infocommunication Model as the Basis of an Auditory Interfaces Development for Multimedia Informational Systems. T-Comm: Telekommunikacii i transport. 2017. T.11. № 5. S. 77-82.
8. Sotnikov A.D. Principy analiza prikladnoj oblasti v infokommunikacionnyh sistemah zdravoohraneniya // Trudy uchebnyh zavedenij svyazi. 2004. № 171. S. 174-183.
9. Rogozinskij G.G., Komashinskij V.I. Modificirovannaya domennaya model' mul'tisensornogo monitoringa kiberfizicheskih sistem // Morintekh. 2017. T. 38. № 4. Ch. 3.
10. Rogozinskij G.G. Mul'tidomennyj podhod i modeli ob"ektov kiberfizicheskogo prostranstva v zadachah otobrazheniya informacii // Trudy uchebnyh zavedenij svyazi. 2017. T. 3. № 4. S. 88-93.
11. Rogozinskij G.G. Tri klassa zvukovyh prostranstv dlya proektirovaniya sistem sonifikacii // T-Comm: Telekommunikacii i transport. 2018. T.12. № 1. S. 59-64.
12. Schaeffer P. In Search of a Concrete Music. CA: UC Press, 2012.
13. Dinov V.G. Zvukovaya kartina. Zapiski o zvukorezhissure. SPb.: Gelikon Press, 2007.
14. Wessel D. Timbre Space as a Musical Control Structure // Computer Music Journal.
1979.
15. Aldoshina I.A., Pritts R. Muzykal'naya akustika. 3.9. Tembr. SPb.: Kompozitor, 2006.
16. Roads C. The Computer Music Tutorial. Cambridge, MA. MIT Press, 1996. 1256 pp.
17. Roads C. Microsound. Cambridge, MA. MIT Press, 2004. 424 pp.
18. Protokol MIDI 1.0. URL: https://www.midi.org/specifications/item/the-midi-1-0-specification (data obrashcheniya: 18.03.2018).