ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЩЕСТВА
Использование бинаурального эффекта в ЫОЫ-телефонии в целях снижения требований к ширине полосы пропускания с сохранением уровня качества
Андреев Т.С., Ефимушкин ВА., ЦНИИС
Введение
Оказание услуги традиционной узкополосной телефонии с момента его зарождения претерпело большое количество изменений. Наряду с развитием сетевых составляющих, совершенствовались и терминальные устройства. Однако неизменным оставался принцип воспроизведения принимаемой голосовой информации, которая выводится только на один звуковой канал, при этом абонент использует одно ухо для прослушивания речи собеседника. Таким образом, в целом не учитываются бинауральные свойства человеческого слуха.
Отмеченное обстоятельство остается в силе и для телефонии, реализованной на базе сетей связи следующего поколения (Next Generation Network, NGN), называемой в статье для краткости NGN-телефонией. Между тем для NGN-телефонии актуальными остаются требования к пропускной способности каналов и трактов и обеспечения качества услуг (Quality of Service, QoS) [1].
В статье предлагается метод применения бинаурального эффекта в терминальных устройствах в целях снижения требований к скорости передачи телефонного сигнала по сетям NGN и приводится описание эксперимента, подтверждающего эффективность предлагаемого метода.
Проблема повышения эффективности использования пропускной способности
В сетях NGN, в основе которых лежит технология коммутации пакетов IP для подготовки речевого сигнала к инкапсуляции в пакеты IP применяются различные типы кодеков, стандартизованных сектором стандартизации Международного союза электросвязи (МСЭ-Т) в серии рекомендаций G [2-5]. На качество передачи и обслуживания пакетов IP влияет большое число факторов, таких как задержки передачи пакетов по сети, задержки обработки сигнала в кодеках, потери пакетов, эхо в каналах и трактах, неравномерность остаточного затухания, величина пропускной способности и др. На эти параметры существуют соответствующие нормы, которые должны соблюдаться при проектировании, построении и эксплуатации сетей NGN. Далее в статье предполагается, что это условие выполнено. Но даже при выполнении этого условия, требования к повышению эффективности использования пропускной способности каналов сети постоянно растут.
При построении сетей NGN применяются широкополосные волоконно-оптические направляющие системы и транспортные технологии передачи, обеспечивающие пропускную способность более 10 Гбит/с. Но в современной, быстро развивающейся инфокомму-
никационной инфраструктуре объемы передаваемого трафика возрастают многократно [6]. Это, кроме всего прочего, обусловлено спросом на контент-ориентированные услуги, в число которых входит передача видео в формате высокой четкости и другой информации, занимающей большие объемы трафика. Вместе с этим телефонный трафик передается по тем же сетям, что и трафик контент-ориентированных и других услуг. Вдобавок, телефонный трафик является трафиком реального времени, для приемлемой передачи которого должен обеспечиваться соответствующий приоритет.
Таким образом, величина пропускной способности в телефонии на базе NGN является одним из основных параметров, влияющих на качество предоставления услуги. Различные значения скоростей передачи соответствующих речевых кодеков диктуют различные требования к величине пропускной способности сети NGN.
Решением проблемы может стать применение новых терминальных устройств, позволяющих использовать низкоскоростной кодек и обеспечивающих воспроизведение выходного речевого сигнала с качеством не хуже, чем при обычном телефонном аппарате и кодеке G.711 [2]. Такими устройствами могут стать аппараты, позволяющие использовать преимущества бинаурального эффекта восприятия звуковой информации.
Свойства бинаурального эффекта
Наличие бинаурального слуха, то есть двух слуховых приемников, обеспечивает ряд преимуществ в получении и обработке звуковой информации в отличие от моноурального слуха. К их числу можно отнести: бинауральную чувствительность и суммацию громкости, бинауральные слияния звукового образа и биения, эффект предшествования, бинауральную маскировку и демаскировку, эффекты правого и левого уха и др. [7].
Остановимся на анализе свойств бинауральной чувствительности и суммации громкости. Анализ порогов слышимости, выполненный при моноуральном и бинауральном прослушивании аудио сигналов [7] показал, что уровень слуховых порогов при бинауральном восприятии сигналов, таких как речь, шум и музыка, ниже, чем при моноуральном. Интенсивность звука для достижения порога слышимости при восприятии звука двумя слуховыми приемниками ниже на 3 дБ, то есть нужно создать в два раза больше акустическую мощность, чтобы звуковой сигнал, находящийся на пороге слышимости при прослушивании бинаурально, услышать при переходе на моно-уральное прослушивание (одним ухом).
Таким образом, наличие двух слуховых приемников позволяет услышать значительно более тихие звуки, что имеет существенное значение для оценки качества восприятия.
Бинауральная суммация громкости проявляется в том, что, как показали эксперименты Флетчера, сигнал при заданном уровне громкости, например, 70 дБ, будет звучать в два раза громче, если
Спецвыпуск T-Comm, август 2009
141
ТЕХНОЛОГИИ ИНФОРМАЦИОННОГО ОБЩЕСТВА
он подается на два уха, чем на одно, т.е. громкость удваивается (суммируется). Построенные на разных частотах кривые зависимости оцененной громкости (сон) от уровня подаваемого сигнала показали, что по мере повышения этого уровня преимущества бинаурального слуха возрастают. Так, при уровне сигнала ниже 35 дБ, чтобы звуки были равногромкими при моно- и бинауральном слушании, подаваемый на два уха сигнал может быть на 3 дБ ниже по интенсивности. При уровне выше 35 дБ эта разница увеличивается и остается примерно постоянной при дальнейшем увеличении уровня подводимого сигнала [7].
Дифференциальная чувствительность, т.е. способность человеческого слуха замечать различия в звуках как по частоте, так и по интенсивности, как показали многочисленные эксперименты, при бинауральном слушании выше, чем при моноуральном. Результаты, полученные в различных исследованиях, позволяют считать, что при бинауральном слушании дифференциальная чувствительность по интенсивности выше в 1,65 раза, по частоте — выше в 1,44 раза [7].
Таким образом, наличие двух слуховых приемников позволяет услышать более тонкое различие звуков по высоте и по громкости, что имеет принципиально важное значение как для улучшения качества восприятия речевой информации, так и для снижения требований к величине пропускной способности сети NGN. Данный эффект является основой предлагаемого метода применения бинаурального эффекта в терминальных устройствах в целях снижения требований к скорости передачи телефонного сигнала по сетям NGN.
Влияние рассмотренных преимуществ бинаурального эффекта может быть исследовано в ходе проведения соответствующего эксперимента.
Методика проведения эксперимента
Целью проведения эксперимента является определение типа кодека с наименьшей скоростью, при котором при использовании бинаурального эффекта обеспечивается воспроизведение речевого фрагмента с качеством не хуже, чем у кодека G.711 [2] без применения бинаурального эффекта.
Схема испытания рассматриваемого эксперимента приведена на рисунке. Испытание состоит из двух этапов: синтеза закодированных фрагментов речевых сигналов и анализа воспроизведения полученных фрагментов.
Рассмотрим первый этап проведения эксперимента. Источником речевого фрагмента является запись речевого сигнала с аналогового микрофона, подключенного к микрофонному входу персонального компьютера. На компьютере должно быть установлено программное обеспечение, реализующее функции кодеров и декодеров испытываемых кодеков, с помощью которых осуществляется преобразование записанного фрагмента. Название и значения скоростей испытываемых кодеков приведены в таблице.
На втором этапе полученные закодированные речевые фрагменты прослушиваются помощниками проведения эксперимента в количестве, соответствующем методу усредненной экспертной
Кодеки, используемые в эксперименте
Тип кодека Скорость передачи, кбит/с
G.711 ц-закон [2] 64
G.726-32 [31 32
G.726-16 [3| 16
GSM FR 13
G.729 [41 8
G.723.1 in [51 6,3
G.723.la [5] 5,3
прослушать все фрагменты в произвольной последовательности, причем фрагменты, закодированные кодеком G.711 [2], должны воспроизводиться только с одного звукового канала (для определенности — левого), а остальные фрагменты — с обоих каналов одновременно (как с левого, так и с правого). Воспроизведение моносигнала на два звуковых канала производит аудиокарта персонального компьютера, дублирующая моносигнал. Таким способом реализуется модель использования бинаурального эффекта. Отметим, что отсутствие стереопередачи не снижает бинаурального эффекта [7].
После завершения испытаний каждый участник на основе метода MOS определяет, при каком кодеке качество восприятия закодированного фрагмента будет близко (не хуже или лучше) к качеству сигнала, закодированного G.711 [2]. В итоге оценки всех участников сравниваются, и делается вывод об оптимальном кодеке.
Заключение
Предлагаемый метод применения бинаурального эффекта в тер-минальныхустройствахв целях снижения требований к скорости передачи телефонного сигнала по сетям NGN на первом этапе, вероятно, не будет востребован в сфере предоставления услуг традиционной телефонии. Использование бинаурального эффекта может быть актуально для услуг центров обработки вызовов (call-центров) и контакт-центров, диспетчерских и операторских служб, служб поддержки пользователей и т.п. Для таких служб, в которых род деятельности связан со стационарным продолжительным обслуживанием телефонных вызовов, использование бинаурального эффекта может стать заделом на дальнейшую перспективу. Другим вариантом применения метода является использование обычной стереогарнитуры мобильных терминалов в сетях сотовой подвижной связи Wi-Fi и WiMax.
Литература
1. Ефимушкин ВА, Ледовских Т.В. Качество услуг связи: задачи национальной стандартизации // Т-Comm. Телекоммуникации и транспорт. — 2008. — № 5. — С. 39-44.
2. ITU-T Recommendation G.711. Pulse code modulation (PCM) of voice frequencies. November 1988.
3. ITU-T Recommendation G.726. 40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM). December 1990.
оценки (Mean Opinion Score, MOS) [8]. Каждый эксперт должен
Источник
фрагмента
речевого
сигнала
G.711
s G.726-32
Ьй G.726-16
о GSM FR
Ч
О G.729
G.723.1m
G.723.1 a
Устройство воспроизведения звука на два канала
Схемо проведения эксперимента
4. ITU-T Recommendation G.729. Coding of speech at 8 kbit/s using conjugate-struc-ture algebraic-code-excited linear prediction (CS-ACELP). March 1996.
5. ITU-T Recommendation G.723.1. Dual rate speech coder for multimedia communications transmitting at 5.3 and 6.3 kbit/s. May 2006. левый канал . \ \ 6. Москвитин ВД Рост информации — глав-
ный фактор развития пакетных сетей//Электро-связь. - 2008. - № 10. - С. 32-33.
7. Алдошина ИА Основы психоакустики. Часть 5. Бинауральный слух//Звукорежиссер.
правый канал V - 2000.-№ 1.-С13-21.
8. ITU-T Recommendation G. 107. The Е-model, a computational model for use in transmission planning. March 2005.
■o)))
o)))
142
Спецвыпуск T-Comm, овгуст 2009