Научная статья на тему 'Разработка алгоритма распознавания изолированных слов на основе метода фонетического декодирования слов с кластеризацией минимальных речевых единиц'

Разработка алгоритма распознавания изолированных слов на основе метода фонетического декодирования слов с кластеризацией минимальных речевых единиц Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
106
42
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Граевский К. А.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Разработка алгоритма распознавания изолированных слов на основе метода фонетического декодирования слов с кластеризацией минимальных речевых единиц»

РАЗРАБОТКА АЛГОРИТМА РАСПОЗНАВАНИЯ ИЗОЛИРОВАННЫХ СЛОВ НА ОСНОВЕ МЕТОДА ФОНЕТИЧЕСКОГО ДЕКОДИРОВАНИЯ СЛОВ С КЛАСТЕРИЗАЦИЕЙ МИНИМАЛЬНЫХ РЕЧЕВЫХ ЕДИНИЦ

К. А. Граевский

Нижегородский государственный лингвистический университет имени Н. А. Добролюбова, г. Н. Новгород, Россия

На современном этапе развития информационных систем и компьютерных технологий существует ряд актуальных задач, требующих решения. Одной из таких задач является задача автоматического распознавания речи (АРР). В идеальном случае решение данной проблемы можно представить как безошибочное распознавание слитной речи (непрерывного потока) компьютером, т. е. когда пользователь общается с машиной совершенно привычным образом, никак не подстраиваясь под какие-либо условия.

Но есть еще один вид систем АРР - системы, направленные на распознавание изолированных слов. Такие системы могут воспринимать лишь слова, отделенные друг от друга паузами. В представляемой статье рассматривается именно такая система.

Анализируемый (входной) речевой сигнал X (t) в дискретном времени t = ОД,... сначала разбивается на ряд последовательных сегментов данных х (l) длиной в одну минимальную речевую единицу (МРЕ): примерно 10-15 mc. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем ^ и

отождествляется с той X из них, которой

отвечает минимум информационного рассогласования (МИР) между вектором x(t) и соответствующим эталоном х*, v < R , по признаку минимума v-й решающей статистики:

Wv X : р x/xv =minp x/xv

г

Это известная формулировка критерия МИР [2]. Реализуется данный критерий с помощью метода обеляющего фильтра (ОФ), который основан на авторегрессионной модели (АР-модели) МРЕ общего вида: р

Xr I =Y,ClriXr + Л ^ ; ^ - 1; 2, ...

i=1

Последняя определяется своим вектором АР-коэффициентов &г = ¿^ . , г = 1, R, заданного порядка р и дисперсией а^ = const

порождающего процесса л ^ типа «белого» шума.

В этом случае набор оптимальных решающих статистик принимает следующий вид:

р х/хг □ -[а^(х)/ао-1], г =1,Д

Здесь стг х - выборочная дисперсия отклика уг I г-го обеляющего фильтра на вектор анализируемого сигнала х = х / .

В результате исходный речевой сигнал преобразуется в последовательность фонетических символов или букв языка. Для данного преобразования используется ИС ФАР [1]. Последовательность фонетических символов информационная система фонетического анализа речи (ИС ФАР) отображает в виде последовательности цифровых символов, в которой каждая цифра соответствует отдельному фонетическому символу. Эта последовательность - фонетический код слова. Далее очевидно необходимо сравнение фонетического кода анализируемого слова

*

х= Х|. х2..... х/ , хг-е ху с аналогичными кодами слов-эталонов

Ут~ Ут,1> Ут,2> • • • > Ут,Ь ,

х* ,т<М.

Другими словами следует декодировать составленный на первом этапе фонетический код. Для этого используется метод фонетического декодирования слов (МФДС), предложенный профессором В. В. Савченко. Он имеет ряд очевидных преимуществ перед существующими методами, так как использует специальный математический аппарат для преодоления проблемы больших речевых баз данных (РБД).

В соответствии с критерием МИР и выражения для оптимальных решающих статистик далее был разработан алгоритм автоматического распознавания изолированных слов.

Разработанный алгоритм реализует второй этап распознавания (первый этап реали-

зуется ИС ФАР). Он имеет структурную схему, показанную на рисунке. Она включает в себя ряд блоков обработки данных:

- ИС ФАР - информационная система фонетического анализа речи, которая предоставляет фонетический код анализируемого слова;

- БД кодов - база данных кодов эталонов, с которыми сравнивается анализируемое слово;

БС - блоки сравнения, в которых происходит сравнение эталона и входного слова, их количество равно количеству эталонов в БД кодов;

- РУ - решающее устройство выбирает тот из совпавших эталонов, число фонем в котором максимально.

___БС(у.) |-^ "

-:>| БСЫ |-►

--ЕС(уз) |-► ру

ИСФАР —__-Хгр^Г]_►

-----!т ""

_____1_»| БС(у„) —»

БД кодов

Исследования эффективности разработанного алгоритма проводились на речевых базах данных, составленных из *^ау файлов десяти числительных от нуля до девяти от одного диктора. В ИС ФАР была сформирована фонетическая база данных (ФБД) со следующими параметрами: порядок АР-модели - 12; порог по сегментации - 0,7; порог по величине информационного рассогласования (ВИР) одноименных МРЕ нового диктора - 1,2; порог по длине МРЕ - 3. В автоматическом режиме система выделила 26 МРЕ.

На первом этапе исследования были установлены наиболее устойчивые фонетические коды каждого числительного. Для этого с помощью ИС ФАР было анализировано по пять реализаций каждого числительного.

Сформированный фонетический код:

- ноль: 3-9;

- один: 16 - 13;

- два: 3-8-21;

- три: 2 - 10;

- четыре: 5-17-1;

- пять: 1 - 7;

- шесть: 20-6-7;

- семь: 5-10-4;

- восемь: 19 - 5 - 26;

- девять: 17 - 2 - 7.

По этим кодам-эталонам была вычислена вероятность распознавания. Она вычислялась на основе анализа ста реализаций каждого числительного и составила 54,2 %. Это весьма невысокий показатель. Далее была произведена кластеризация МРЕ методом ближайших соседей [3] с ограничивающим порогом в 0,6, в результате чего получили несколько кластеров. И присвоили каждому кластеру буквенное обозначение.

Кластер:

- А-1,2,24;

- В-4, 11,26;

- С-5, 6, 7;

- Б-8, 9;

- Е- 10, 13, 17;

- Б - 12, 25;

- в- 16,22.

Таким образом, фонетические коды-эталоны стали представлять собой следующие последовательности:

- ноль: 3 - Б;

- один: в - Е;

- два: 3 - Б - 21;

- три: А - Е;

- четыре: С - Е - А;

- пять: А - С;

- шесть: 20 - С - С;

- семь: С - Е - В;

- восемь: 19 - С - В;

- девять: Е - А - С.

Для определения того, какие МРЕ были объединены в кластеры, на вход ИС ФАР по очереди подавались фонемы, произнесенные тем же диктором. Были получены следующие показатели:

- кластер «А» соотносится с фонемами «Э» и «Е», при этом среднее арифметическое значение ИР 0,802;

- кластер «В» соотносится с фонемами «М» и «Н», при этом среднее арифметическое значение ИР 1,168;

- кластер «С» соотносится с фонемой «Ч», при этом среднее арифметическое значение ИР 0,556.

Что касается остальных кластеров, то их принадлежность к какой-либо фонеме определена не была. Это может объясняться тем,

что такой фонемы не было в ФБД, с которой сравнивались кластеры (эта ФБД не включала в себя взрывные и мягкие согласные), либо потому что они относятся не к определенной фонеме, а к какому-либо переходному процессу.

После этого вновь была вычислена вероятность распознавания. Все числительные имели вероятность распознавания равную или более 90 %, кроме «четыре» и «восемь», которые имели 51 % и 63 % соответственно.

Для данных числительных, наряду с уже имеющимися для них кодами-эталонами, было включено еще по одному коду для каждого.

Дополнительные коды:

- четыре: С - А - А;

- восемь: 19 - С - Е - В.

После повторных испытаний вероятность распознавания увеличилась до 90 % и 96 % соответственно.

Средняя, по всем числительным, вероятность распознавания составила 93,1 %. Этот показатель отвечает требованиям, предъявляемым к системам подобного рода. Разработанный алгоритм может быть применен в различных областях, таких, например, как

аудиопоиск ключевых слов в файлах большого объема (аудиокниги) или в уже классических системах голосового набора в мобильных телефонах.

Литература

1. Информационная система фонетического анализа слитной речи: Программа для ЭВМ / В. В. Савченко, Д. Ю. Акатьев, И. В. Губочкин, Н. В. Карпов, Д. А. Пономарев / Свид-во Роспатента о гос. рег. № 2008615442 по заявке 2008614233 от 15.09.2008.

2. Мандель И. Д. Кластерный анализ. М.: Финансы и статистика, 1988.

3. Савченко В. В. Информационная теория восприятия речи // Известия вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.

4. Савченко В. В. Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в информационной метрике Кульбака-Лейблера // Известия вузов России. Радиоэлектроника.

5. Савченко В. В. Метод фонетического декодирования слов в задаче автоматического распознавания речи на основе принципа минимума информационного рассогласования // Известия вузов России. Радиоэлектроника.

i Надоели баннеры? Вы всегда можете отключить рекламу.