еще и широкий спектр дополнительных возможностей по защите системы и предоставлению доступа к сервисам. Правильная настройка системы позволит эффективно использовать весь комплекс инструментов.
Библиографический список
1. Э. Немеет, Г. Снайдер, С. Сибасс, Т. Хейн. UNIX: руководство системного администратора. Для профессионалов. 3-еизд. СПб.: Питер; К.: издательская rpynnaBHV, 2003. + 925с.:ил.
2. Д. Бэндл. Защита и безопасность в сетях Linux. Для профессионалов. СПб.: Питер, 2002. + 480 е.: ил.
ВОЛКОВ Виктор Евгеньевич, аспирант. ШАХОВ Владимир Григорьевич, к.т.н., профессор кафедры автоматики и систем управления.
Дата поступления статьи в редакцию: 13.02.06 г. ©Волков В.Е., Шлхов В.Г.
В. Г. ШАХОВ
Омский государственный технический университет Омский государственный университет путей сообщения
ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ ВСТРОЕННЫХ ЗВУКОВЫХ КОДЕКОВ ОПЕРАЦИОННОЙ СИСТЕМЫ (ОС) WINDOWS
В СИСТЕМАХ IP-ТЕЛЕФОНИИ
В статье рассматриваются возможности реализации компрессии/декомпрессии звука с помощью встроенных в ОС Windows звуковых кодеков при разработке систем передачи речи через сеть Interhet/Ethernef.
По прогнозам западных консалтинговых компаний, например, Frost & Sullivan [8] объем рынка IP-телефонии (Internet Protocol) в среднем будет возрастать на 130-140 % ежегодно. В 2005 году предполагается рост трафика IP-телефонии до 33%, особенно возрастет число звонков на дальние расстояния (около 70% трафика междугородних и международных переговоров). По данным Frost & Sullivan, в 2003 г. совокупный объем мирового трафика VoIP (Voice IP) составил 75 млрд мин, в 2004 году он вырос до 160 млрд мин, а в 2005 г. прогнозируется его увеличение до 265 млрд мин. Если в 2000 г. доходы от услуг Интернет-телефонии в мире составили 74 млн долларов, то по прогнозам к 2006 году они достигнут почти 40 млрд. долл.
Компрессия звука в IP-телефонии является необходимой при передаче речи в реальном времени по каналам связи с ограниченной пропускной способностью и желательной при передаче речи в реальном времени по высокоскоростным каналам связи. В первом случае сжатие обеспечивает устойчивую связь без искажений и потерь полезного речевого сигнала, во втором - существенно сокращает объем передаваемых данных, затраты и, благодаря этому, позволяет снижать цены на услуги
IP-телефонии и привлекать новых пользователей цифровой телефонии.
Современные IBM-совместимые компьютеры, как правило, обладают аппаратной возможностью вводить-выводить звук с помощью стандартной звуковой карты [3]. Во всех версиях ОС Windows (начиная с Windows 95) присутствует специальный интерфейс, предназначенный для преобразования форматов звуковых данных. Он называется (АСМ) Audio Compression Manager (диспетчер сжатия звука) (4). Интерфейс позволяет изменять частоту, разрядность, количество каналов, а также тип сжатия звуковых данных (format tag). При достаточной мощности процессора преобразование может выполняться в реальном времени.
АСМ включает в себя набор кодеков, выполняющих необходимые преобразования. Кодеки, компрессоры/декомпрессоры, представляют собой исполняемые файлы с расширением '.асш. Они находятся в системной папке C:\Windows\system. Как правило, кодек позволяет осуществить не только сжатие, но и распаковку звуковых данных, то есть восстановление исходного сигнала. Пользователь может самостоятельно удалять ненужные ему кодеки и устанавливать новые, что придает системе
гибкость. После установки кодека все программы, пользующиеся системой АСМ, получают возможность работать с этим форматом звуковых данных. Оцифровка, компрессия/декомпрессия, реализация сетевых протоколов TCP/IP, UDP и воспроизведение звука на уровне функций и процедур управляется с помощью средств application programming interface (API) ОС Windows либо другой альтернативной ОС. Современные среды программирования С+ + Builder, Delphi, Visual С -I- + , и др. обладают возможностью использования интерфейса API и, соответственно, могут применяться для создания программ ввода, компрессии/декомпрессии, воспроизведения звука и передачи потока сжатой речи по IP сети.
Целью исследования явилось выявление возможностей управления встроенными звуковыми кодеками операционной системы (ОС) Windows с помощью средств API ддя компрессии-декомпрессии звука при разработке программного обеспечения для передачи речи в IP сетях.
Для исследования возможностей АСМ ОС Windows в среде С + + Builder 5.0 [1], [2] разработана программа CONVERTER (рис. 1).
Она функционирует следующим образом. Открывается файл с записанной ранее речью, например, со следующими характеристиками: формат PCM (Pulse-Code Modulation - импульсно-кодовая модуляции) моно, 8000 Гц, 8 бит. Далее пользователь выбирает формат преобразования звука, например, GSM6.10, моно, 8000 Гц и указывает новое имя файла, который будет получен в результате преобразования. После этого нажимается клавиша "Начать". Программа CONVERTER пытается с
помощью звукового кодека преобразовать звуковые данные из исходного формата в требуемый, в данном случае из формата РСМ в формат GSM 6.10. Если преобразование было успешным, то программа предлагает преобразовать еще один файл.
Исследование возможности применения встроенных кодеков ОС Windows для компрессии-декомпрессии звука проводилось в следующем порядке: 1) В ОС Windows ХР (сборка 2600) с помощью ранее разработанной программы ШИФРАТОР[5] была записана речь (фразы, команды по ГОСТ 16600-72 [3]) в файлы формата wav (формат для хранения несжатого оцифрованного звука) [2]); 2) Полученные 10 файлов общей длительностью 356 секунд и объемом 2846452 байта с помощью программы Converter были преобразованы кодеками ОС Windows во все доступные для преобразования форматы. 3) Для сжатых файлов вычислялся средний коэффициент сжатия и битрейт (bitrate) - количество единиц информации, необходимых для хранения (передачи) одной секунды потока звуковых данных. Исходный формат звука: формат РСМ, моно, частота дискретизации 8000 Гц, 8 двоичных разрядов на отсчет, битрейт 64000 бит/сек, — был выбран исходя из минимальной достаточности динамического диапазона и полосы частот, необходимых для передачи человеческой речи [9].
Апробация разработанной программы CONVERTER показала эффективность ее применения для управления кодеками при компрессии/декомпрессии речи. В таблице 1 представлены результаты проведенных экспериментов.
Из приведенной таблицы видно, что часть кодеков ОС Windows с указанными атрибутами не смог-
Мзстср преобразования форматок
- jr
V ,
я' 1
м i -i
л. « í
ktt
Указание имени исходного Файла я У казание типа преобразования * Указание имени результирующего Файла Преобразование данных
/ /
ЗФайл "Тест 1.wav", размер 301634 байт, имеет формат РСМ, 8,000 кГц; 8 бит; Моно
Укажите имя исходного файла: |С:\1 Мест 1.wav
Обзор...
У >*
"И Назад
Вперед \ X Отмена
156
Рис. 1. Главное окно программы CONVERTER
Таблица 1
Тип кодека Атрибуты Работоспособность Средний коэффициент сжатия Bitrate, бит/с Субъективное качество
РСМ 8,000 кГц; 1 бит; Moho Да 1 64000 4.1
DSP Group TrueSpeech™ 8,000 кГц; 1 бит; Moho Да 7,50 8529 3.5 - 4,0
GSM 6.10 8,000 кГц; Moho Да 4,92 1jC08 3,7
IMA ADPCM 8,000 кГц; 4 бит; Moho Да 1.97 32428 3,8
Microsoft ADPCM 8,000 кГц; 4 бит; Моно Да 1.95 32769 3,8
MPEG Layer-3 8kBit/s; 8,000 кГц;Моно Да 8,06 7940 2.5 - 3,0
16kBit/s; 8,000 кГц,Моно 4,02 15939 2,5 - 3.0
ССГГ A-Law 8,000 кГц; 8 бит; Моно Да 1 64000 4,1
CC1T u-Law 8,000 кГц; 8 бит; Моно Да 1 64000 4,1
Alex AC3 Audio - 5 kbps; 8kHz; mono Да 12,81 4996 2,5 - 3,0
6 kbps; 8kHz; mono 10,68 5995 2,5 - 3,0
8 kbps; 8kHz; mono 8,01 7993 2.5 - 3,0
ACELP.nel 5 kbps; 8kHz; mono Нет -
6,5 kbps; 8kHz; mono
8,5 kbps; 8kHz; mono
Microsoft G723.1 8 кГц; Моно; 6400 бит/с Нет - -
8 кГц; Моно; 5333 бит/с
Windows Media Audio VI 5 kbps; 8kHz; mono Нет - -
6 kbps; 8kHz; mono
8 kbps: 8kHz; mono
Windows Media Audio V2 5 kbps; 8kHz; mono Нет - -
6 kbps; 8kHz; mono
8 kbps: 8kHz; mono
ла выполнить преобразования форматов. Это означает, что они имеют либо нестандартные алгоритмы управления, либо несовместимы с установленной операционной системой. Анализ работоспособных кодеков показывает, что оптимальным по критерию качество[6,7]-битрейт среди встроенных звуковых кодеков является кодек DSP Group TrueSpeech™ (8529 бит/сек), а по критерию оптимальный битрейт -Alex АСЗ Audio (4996 бит/сек).
Таким образом, разработанная программа CONVERTER и исходные коды к ней могут быть использованы при компьютерном моделировании передачи речевой информации по IP-каналам связи. С помощью программы можно исследовать эффективность реализации различных цифровых алгоритмов компрессии/декомпрессии речи (в составе кодеков) в режиме реального времени. На практике используемые алгоритмы управления кодеками могут применяться при разработке программного обеспечения для дуплексной передачи речи по IP-каналам связи.
Библиографический список
1. Архангельский А.Я. С++ Builder 6. Справочное пособие. Книга 1. Язык С + +. / А.Я. Архангельский - М.: Бином-Пресс, 2002. - 544 с.
2. Гордеев О. Программирование звука в Windows. Руководство для профессионалов / О. Гордеев — СПб.: BHV -Санкт- Петербург, 1999. — 364 с.
3. ГОСТ 16600-72. М.: Издательство стандартов, 1972.
4. Гук М. Аппаратные средства IBM PC. Энциклопедия. / М.Гук - СПб.: Питер, 2000. - 816 с.
5. Нопин C.B. Моделирование защиты речевой информации с помощью персонального компьютера. / C.B. Нопин, В.Г. Шахов.//Омский научный вестник. 2004. - №4(29). - С. 124-126.
6. http://arcw.comptek.ru/telephony/tnotes/tt l-12.html
7. http://framerelay.nm.ru/liter/voip.htm
8. http://www.irost.com
9. ITU-T Recommendation G.7U. Pulse Code Modulation of 3kHz Audio Channel.-1988
НОПИН Сергей Викторович, программист ОНИИП, аспирант.
ШАХОВ Владимир Григорьевич, к.т.н., профессор кафедры автоматики и систем управления.
Дата поступления статьи в редакцию: 16.01.06 г. © Нопин C.B., Шахов В.Г.