Научная статья на тему 'Исследование алгоритма синтеза речевых сигналов в ЦсА на основе избирательного воздействия на частотные интервалы'

Исследование алгоритма синтеза речевых сигналов в ЦсА на основе избирательного воздействия на частотные интервалы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
156
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
РЕЧЕВОЙ СИГНАЛ / АНАЛИЗ РЕЧЕВОГО СИГНАЛА / ЧАСТОТНЫЕ ПРЕДСТАВЛЕНИЯ / ИНФОРМАЦИОННЫЕ ЧАСТОТНЫЕ ИНТЕРВАЛЫ / НЕИНФОРМАЦИОННЫЕ ЧАСТОТНЫЕ ИНТЕРВАЛЫ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Курлов А. В., Фирсова А. В., Белов А. С.

В статье рассматривается алгоритм синтеза речевых сигналов. Представлено описание алгоритма обнаружения пауз. Показаны результаты оценки информационных и неинформационных частотных интервалов и результаты оценки качества звучания результатов синтеза речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Курлов А. В., Фирсова А. В., Белов А. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование алгоритма синтеза речевых сигналов в ЦсА на основе избирательного воздействия на частотные интервалы»

УДК 621.391

ИССЛЕДОВАНИЕ АЛГОРИТМА СИНТЕЗА РЕЧЕВЫХ СИГНАЛОВ В ЦСА НА ОСНОВЕ ИЗБИРАТЕЛЬНОГО ВОЗДЕЙСТВИЯ НА ЧАСТОТНЫЕ ИНТЕРВАЛЫ

А.С. БЕЛОВ А.В.

В статье рассматривается алгоритм синтеза речевых сигналов. Представлено описание алгоритма обнаружения пауз. Показаны результаты оценки информационных и неинформационных частотных интервалов и результаты оценки качества звучания результатов синтеза речи.

Ключевые слова: речевой сигнал, анализ речевого сигнала, частотные представления, информационные частотные интервалы, неинформационные частотные интервалы. [email protected]

ФИРСОВА

Белгородский государственный национальный

исследовательский университет e-mail:

[email protected]

[email protected]

В настоящее время существует развитая индустрия по производству слуховых аппаратов (СА), предназначенных для протезирования людей с ослабленным слухом, которых по данным Всемирной организации здравоохранения в мире насчитывается свыше 10%. В большинстве случаев потери слуха проявляются в виде снижения или даже полной потери подвижности (эластичности) отдельных элементов механической системы человеческого уха, что приводит к ослаблению реакции на воздействие внешней акустической волны.

Для компенсации указанных потерь реакции на акустическое воздействие необходимо осуществлять довольно сложную обработку звуковых сигналов, что доступно только при использовании технических устройств на базе цифровых процессоров. Так как потери слуха индивидуальны для каждого пользователя, то предусматривается процедура адаптации к ним за счёт соответствующих настроек режимов функционирования СА на этапе их подбора (как правило, врачом - сур-дологом).

В современных цифровых СА используется от трёх до 16 частотных диапазонов (каналов обработки). Применяемые при этом способы разделения на частотные компоненты (аппроксимации отрезков трансформант Фурье) и соответствующие процедуры синтеза являются ноу-хау и детально неизвестны.

Вместе с тем, несмотря на постоянное совершенствование СА, отзывы пользователей свидетельствуют о том, что в настоящее время отсутствуют эффективные алгоритмы разделения анализируемых отрезков сигналов на информационные частотные компоненты, то есть содержащие важную акустическую информацию, в том числе речевую, и неинформационные, обусловленные неизбежным присутствием, так называемых, помех окружающей среды и аппаратурных шумов. Ясно, что в последнем случае синтез выходных сигналов на основе аудиограммы за счёт усиления, в том числе и компонент, обусловленных помехами, приводит к некомфортности пользования СА.

Исследования особенностей распределения энергии по частотным интервалам сигналов, соответствующих звукам русской речи и шумам в паузах, показало, что звуки русской речи сосредоточены в достаточно узком частотном интервале, а энергия шумов распределена достаточно равномерно по всему частотному диапазону. Несмотря на различие длительностей различных звуков речи, оказалось возможным при различных сочетаниях длительности интервала анализа и количества частотных интервалов оценить характеристику сосредоточенности энергии вида:

^ = / т / Я , (1)

где Я - количество интервалов, на которые разбивается ось частот,

/ш - минимальное количество частотных интервалов (частотная концентрация), в которых сосредоточена заданная доля энергии звукового отрезка, так что имеет место:

/ N1 = шт . (2)

Здесь для правых частей выполняется неравенство

Л т , N

I Р(к)N ^ т II *М II = т I X , (3)

к=1 г=1

где т - задаваемая доля общей энергии, которая должна быть сосредоточена в указанном минимальном количестве частотных интервалов,

■ N - отрезок сигнала, длительностью N отсчетов,

Р

Р (к)N - значения энергий в заданных интервалах, после упорядочивания их по убыванию. Верхний индекс t обозначает один из звуков русской речи, причём индекс в скобках у слагаемых суммы слева соотношения (3) означает, что части энергий Рш упорядочиваются по убыванию, то есть имеет место

Р(к^ ^ {РN, Г = 1,--, Р(к+1)N - Р(к)N , к = 1, -, Я , (4)

Проведенные исследования показали возможность использования данного метода для определения границ между звуками речи и паузами. Все исследования проводились на речевых сигналах, записанных с частотой дискретизации 8кГц и разрядностью кода 16 бит. В рамках данной работы был предложен алгоритм, в котором решение о принадлежности отрезка участку речи или паузы принимается на основе сравнения величины частотной концентрации вида (1) с пороговым значением. Если полученное значение величины частотной концентрации превышает заданный порог, принимается решение о том, что текущий фрагмент относится к шумам в паузе, в противном случае - к участку речи. Эксперименты показали, что наиболее эффективным при реализации алгоритма обнаружения пауз является использование следующих параметров: длительность окна анализа N=256, количество интервалов, на которые разбивается ось частот, Я=16, доля энергии, при которой определяется величина частотной концентрации, т=0,87, пороговое значение величины частотной концентрации кш=0,6 (Р1=0,08, Р2=0,00).

На предыдущих этапах также было представлен алгоритм определения информационных и неинформационных частотных компонент отрезков сигналов, соответствующих участкам речи. К информационным частотным интервалам относятся те, которые попадают в минимальный набор интервалов, составляющих заданную долю энергии. На рис. 1-5 представлены фрагменты сигналов, соответствующих звукам русской речи и распределение их энергии по оси частот с указанием информационных и неинформационных частотных интервалов. На рисунках квадратным маркером отмечены частотные интервалы, которые были приняты как информационные.

О 50 100 150 200 250 300 0 0.5 1 1.5 2 2.5 3 3.5 4

Длительность фрагмента сигнала (отсчетов) Частота: кГц

а) б)

Рис. 1. Фрагмент сигнала, соответствующий звуку «а»: а) изменение сигнала во времени (/”й=8кГц); б) распределение энергии по частотным интервалам (/а=8кГц, N=256, Я=16)

Амплитуда сигнала Амплитуда сигнала Амплитуда сигнала

а)

б)

Рис. 2. Фрагмент сигнала, соответствующий звуку «ж»: а) изменение сигнала во времени (/г=8кГц); б) распределение энергии по частотным интервалам (/а=8кГц, ЛГ= 256, К = 16)

Частота, ]

а) б)

Рис. 3. Фрагмент сигнала, соответствующий звуку «к»: а) изменение сигнала во времени (/г=8кГц); б) распределение энергии по частотным интервалам (/а=8кГц, N=256, Я=16)

а)

Частота, кГц б)

Рис. 4. Фрагмент сигнала, соответствующий звуку «н»: а) изменение сигнала во времени (/г=8кГц); б) распределение энергии по частотным интервалам (/а=8кГц, N=256, Я=16)

і фрагмента

а)

Частота, і б)

Рис. 5. Фрагмент сигнала, соответствующий звуку «ч»: а) изменение сигнала во времени (/й=8кГц); б) распределение энергии по частотным интервалам (/а=8кГц, N=256, Я=16)

Анализ рисунков показывает, что количество информационных интервалов, а также их номера зависят от типа звука. Так для сигналов, соответствующих гласным и сонорным согласным, информационные частотные интервалы расположены в низкочастотной области. Для сигналов, соответствующих шумоподобным и взрывным согласным, информационные интервалы могут быть распределены более равномерно по частотной оси и преобладать в области средних и высоких частот.

В существующих слуховых аппаратах усиление сигнала осуществляется во всем диапазоне частот, что приводит также к усилению шумов. В рамках данной работы предлагается воздействовать только на информационные компоненты, а неинформационные компоненты при этом оставлять без изменений. Таким образом, именно коэффициенты

при аппроксимациях х г N (Ш) отрезков трансформант Фурье в частотных интервалах, где присутствует заметная часть энергии информационных компонент, должны компенсировать потери слуха.

1 N = (м>1WN ) _ X сгигМ ,

Г = 1

(5)

где Сг - коэффициенты воздействия для каждого частотного интервала,

= Г1 V, и N ) - результата обратного преобразования Фурье:

П

иГк = | X ^ (Ш) ехр(уШ(к - 1))^Ш / 2П , к = 1,.., N ,

где Х ^

(Ш)

- результат оценки трансформанты Фурье,

N - длительность окна анализа.

Модель синтеза речевых сигналов представляет собой:

WN = (м>1 ,•••, wN ) = Х сі Х аNqiN ,

г=1 і=1

где Сг - коэффициенты воздействия для каждого частотного интервала,

'^'iN - собственные числа субполосной матрицы г-го частотного интервала,

(6)

N - скалярное произведение вида:

а

kN

(qkN , xN ) ,

iN - собственные вектора субполосной матрицы г-го частотного интервала,

■ iN - анализируемый отрезок сигнала,

Г

N - длина окна анализа фрагмента сигнала.

Анализ результатов экспериментов показывает, что общая средняя оценка качества звучания для проведенных экспериментов колеблется в диапазоне от 4,39 до 4,64 баллов по пятибалльной шка- ле оценок. Это свидетельствует о возможности выбора любых из перечисленных параметров. Наилучшее качество звучания наблюдается при выборе следующих параметров: N=512, Я=64, т=0,89, Лдж=0,5. Выбор такой длины окна анализа может приводить к неточному определению границ между паузами и звуками речи. Поэтому рекомендуется выбирать меньшую длину окна анализа. Так при вы- боре параметров N=256, Я=64, т=0,81, Лаж=0,4 средняя оценка качества звучания по всем проведен- ным экспериментам равна 4,6. Наименьший средний балл при следующих параметрах: N=256, Я=32, т=0,84, Лаж=0,5. Важно отметить, что разные дикторы в качестве наилучших параметров отмечали различные сочетания длины окна анализа, количества интервалов, на которые разбивается ось частот, доли энергии, при которой оценивается величина частотной концентрации. Это связано с тем, что у каждого человека имеются свои особенности слухового аппарата.

Исследования выполнены при поддержке ФЦП «Научные и научно-педагогические кадры для инновационной России» на 2009-2013 годы, гос.контракт № 16.740.11.0312.

Литература

1. Жиляков, Е.Г. Вариационные методы частотного анализа звуковых сигналов [Текст] / Е.Г.

Жиля-

ков, С.П.Белов, Е.И. Прохоренко // Труды учебных заведений связи. - СПб, 2006. вып. 174. - С. 163172.

2. Жиляков, Е.Г. Уменьшение объема битового представления речевых данных на основе нового

метода удаления пауз [Текст] / Е.Г. Жиляков, С.П.Белов, Е.И. Прохоренко // Вопросы радиоэлектроники. Серия

«Электронная вычислительная техника (ЭВТ)». - Москва, 2007. - вып. 2. - С. 8292.

3. Белов С. П., Белов А. С., Жиляков Е.Г., Прохоренко Е.И. Способ обнаружения пауз в речевых

сигналах и устройство его реализующее.

RESEARCH SYNTHESIS ALGORITHM OF SPEECH SIGNALS IN DHA BASED SELECTIVE IMPACT ON THE FREQUENCY RANGES

A.S. BELOV A.V. KURLOV A.A. FIRSOVA

Belgorod National Research University

e-mail: [email protected] [email protected] [email protected]

In the article the synthesis algorithm of speech signals. An algorithm for detecting pauses. Shows the results of evaluation of information and non- information on frequency domain and the evaluation results in sound quality speech synthesis.

Keywords: speech signal, analysis of the speech signal, the frequency representation, information frequency intervals, nondata frequency intervals.

i Надоели баннеры? Вы всегда можете отключить рекламу.