УДК 004.056
ИССЛЕДОВАНИЕ ОСОБЕННОСТЕЙ ИДЕНТИФИКАЦИИ
ДИКТОРОВ ПО ГОЛОСУ
Р.А. Васильев
Предлагается метод фонетического анализа речи - выделение списка элементарных речевых единиц типа отдельных фонем из непрерывного потока разговорной речи конкретного диктора. В статье описан практический алгоритм идентификации диктора — процесс определения говорящего из заданного набора дикторов.
Ключевые слова: идентификация по голосу, фонетический анализ речи, метрика Кульбака-Лейблера, минимальные звуковые единицы
В связи с возросшей информатизацией современного общества, увеличением числа объектов и потоков информации, которые необходимо защищать от несанкционированного доступа, а также необходимостью интеллектуализации всех форм взаимодействия пользователей автоматизированных систем управления с техническими средствами, все более актуальными становятся проблемы использования механизмов речевых технологий для разграничения доступа к информационно-вычислительным системам, в частности метод идентификации пользователей системы по голосу. Привлекательность данного метода — удобство в применении. Продукты с проверкой голоса сейчас предлагают более 20 компаний.
К настоящему моменту у нас и за рубежом реализованы системы автоматической идентификации по голосу, большинство из которых строятся по единой концептуальной схеме:
производится регистрация пользователя и вычисляется шаблон; выбираются участки речевого потока для дальнейшего анализа; осуществляется первичная обработка сигнала; вычисляются первичные параметры; строится «отпечаток» (шаблон) голоса;
производится сравнение «отпечатков» голосов и формируется решение по идентичности голосов или «близости» голоса к группе голосов.
Условно говоря, человеческий мозг объединяет и запоминает в себе как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждой отдельной фонемы в соответствующей «сфере» своей памяти вокруг абстрактного «центра» с заданным «радиусом», изображенные на рис. 1 [1, 2]. «В поисках путей решения проблемы адекватной системы описания отдельных фонем в работах [3, 4] само понятие «фонема» впервые было строго определено в теоретико-информационном смысле как «множество однородных минимальных звуковых единиц (МЗЕ), объединенных в кластер по критерию минимального информационного рассогласования (МИР) в метрике Кульбака-Лейблера».
246
О О
Рис. 1. Образцы произношения каждой отдельной фонемы в соответствующей «сфере.»
Несмотря на существующие различия в реализациях фонем одного диктора, все они воспринимаются человеком как нечто общее, иначе речь утратила бы свою информативность. Можно поэтому утверждать, что одноименные реализации хг у, у = 1, Зг, Зг >> 1, в сознании человека группируются в соответствующие классы или речевые образы фонем Хг ={хг у} , г = 1, Я, вокруг некоторого центра - эталонной метки
данного образа. В информационной теории восприятия речи указанные эталоны определяются в строгом, теоретико-информационном смысле [3]:
речевая метка х с Хг образует информационный центр-эталон г-го речевого образа, если в пределах множества Хг она характеризуется минимальной суммой информационных рассогласований (ИР) по Кульбаку-Лейблеру относительно всех других его меток-реализаций хг ■, у = 1, Зг .
Нетрудно увидеть, что именно в понятии информационного центра (ИЦ) г-го множества реализаций Хг дается наиболее информативное описание свойств соответствующей фонемы. Одновременно становится очевидным и механизм формирования самого этого множества. Анализируемый (входной) речевой сигнал X (?) в дискретном времени ? = 0,1,... сначала разбивается на ряд последовательных сегментов данных х(?) длиной в одну МЗЕ: примерно 10...15 мс. После этого каждый такой парциальный сигнал рассматривается в пределах конечного списка фонем {Х г} и отождествляется с той Ху из них, которой отвечает минимум информационного рассогласования (МИР) между вектором х(?) и соответствующим
эталоном ху, п £ Я. Это известная [4] формулировка критерия МИР в задачах автоматического распознавания речи. Задача существенно упрощается, если воспользоваться гауссовой (нормальной) аппроксимацией закона распределения каждой фонемы вида Р^ = N (к г), где К - автокорреляционная матрица (АКМ) размера п х п, п > 1.
Голос формируется из комбинации физиологических и поведенческих факторов. В настоящее время идентификация по голосу используется для управления доступом в помещение средней степени безопасности, например, лаборатории и компьютерные классы. Идентификация по голосу удобный, но в тоже время не такой надежный, как другие биометрические методы. Например, человек с простудой или ларингитом может испытывать трудности при использовании данных систем. Существует также возможность воспроизведения звукозаписи с магнитофона.
Особенности фонетического строя речи. В связи с тем, что голосовая автоматическая идентификация дикторов бесконтактна и не требует от человека особых усилий в России и за рубежом активно ведутся работы по созданию голосовых замков и систем ограничения доступа к информации. Интерес к этой тематике активно подогревается тем, что по прогнозам наличие голосовых интерфейсов обмена информацией должно стать стандартом для карманных компьютеров и сотовых телефонов. Автоматическое распознавание дикторов - это один из важных фрагментов будущих голосовых интерфейсов. На сегодняшний день существует два различных подхода к решению задачи биометрической идентификации человека по голосу. Оба этих подхода построены на учете структуры речевого сигнала. В свою очередь, структура речевого сигнала образуется последовательностью всплесков колебаний и пауз между ними (рис. 2).
2 10*
1 ю4
о
-1 10*
4000 6000 8000 МО4 1.2 104 1.4-Й* 1.6 Ю4 1.8 Ю4
Рис. 2. Пример голосовой фразы и выделения из нее 8 фрагментов
Программа экспериментальных исследований. Эксперимент состоял из двух этапов. На первом этапе были выбраны двадцать наиболее
распространенных фонем русского языка: «а», «о», «у», «э», «ш», «щ», «р», «с», «в», «з», «ж», «и», «л», «л'», «ф», «х», «ч», «е», «ы», «м». Все они последовательно во времени, многократно (в разных реализациях) проговаривались в микрофон группой из десяти дикторов, все разного возраста, мужчины и женщины, в режиме продолжительного (до 1с), достаточно информативного звучания. Полученные сигналы через АЦП (частота дискретизации 8 кГц) были записаны в память ПК в виде соответствующих звуковых файлов для последующего анализа.
На втором этапе идентификация дикторов осуществлялась по требованиям в соответствии с ГОСТ 16600-72 "Передача речи по трактам радиотелефонной связи. Требования к разборчивости речи и методы артикуляционных измерений". В соответствии с ГОСТ 16600-72 были выбраны тексты фраз и команд последовательно во времени, многократно (в разных реализациях) проговаривались в микрофон группой из десяти дикторов, все разного возраста, мужчины и женщины, в режиме продолжительного (до 1мин), достаточно информативного звучания. Полученные сигналы через АЦП (частота дискретизации 8 кГц) были записаны в память ПК в виде соответствующих звуковых файлов.
Для реализации предложенных экспериментальных исследований был разработан лабораторный образец информационной системы фонетического анализа слитной речи (ИС ФАР). Данная система представляет собой фонетический анализатор. Варианты применения такого анализатора можно привести из самых различных областей. Это может быть, например, задача анализа качества речи по ее фонетическому составу, как для отдельного диктора, так и для идентификации диктора по голосу. В качестве прикладной задачи можно привести текстонезависимую идентификацию разных дикторов по голосу в режиме реального времени.
ИС обеспечивает выполнение следующих возможностей:
1) автоматическое выделение фонем из входных данных;
2) обработка фонем;
3) хранение фонем;
4) визуализация полученных результатов;
5) текстонезависимая идентификация дикторов по голосу.
Ниже представлена блок-схема работы ИС ФАР (рис. 3). Здесь М - динамический микрофон AQG D77 S. МПУ - микрофонный ламповый предусилитель со встроенным аналого-цифровым преобразователем. БВД - блок ввода данных. БВР - блок вывода результатов, БД - база данных, БОД - блок обработки данных, АТР - подсистема автоматического транскрибирования речевых сигналов. Блоки, ограниченные штриховой линией выполнены в виде соответствующих программных модулей и составляют собственно информационную систему. Звуковой сигнал поступает с микрофона М на предусилитель МПУ, который осуществляет его усиление и преобразование в цифровой вид. Преобразованный таким образом сигнал
поступает по шине ШВ в персональный компьютер, где осуществляется его запись в звуковой файл. Этот файл считывается БВД, где осуществляется его предварительная обработка, анализ и запись полученных результатов в базу данных в соответствии с выбранным режимом обработки.
Рис. 3. Блок-схема работы ИС ФАР
БВР осуществляет извлечение данных из БД, соответствующих требуемому критерию, и отображение их в виде, удобном для пользователя. БОД предназначен для организации возможности работы с группами дикторов и формирования входных данных для БВР.
Подсистема АТР позволяет производить отображение в различных режимах и автоматическую разметку входного сигнала на фонемы в соответствии со списком фонем какого-либо диктора из БД. Кроме того, возможно озвучивание выбранных фрагментов сигнала, сохранение результатов транскрибирования в текстовый файл и анализ получаемых результатов.
Информация, содержащаяся в БД, может быть, как непосредственно считана БВР, так и поступать в БВР через БОД.
Интерфейс ИС ФАР состоит из главной формы, на этой форме отображаются дикторы, внесенные в БД и главное меню программы. При выборе любого диктора из списка в правой части окна отображается краткая информация о нем. Кроме того, при помощи имеющегося меню, можно выбирать различные режимы работы, загрузки, сохранения и отображения данных.
В процессе эксперимента на сегментирование подавались фразы отдельных дикторов и производилась идентификация конкретного диктора посредством подсчета распознанных фонем. Решение о принадлежности произнесенной фразы конкретному диктору принимается автоматически после подсчета всех распознанных фонем и вычисления доминирующих фонем среди всех остальных, что представлено ниже на рис. 4.
На рис. 4 видно, что в произнесенной фразе всего выделено 759 фо-
250
нем, из них 609 фонем принадлежат диктору «роман», а 150 фонем распознаны как «ложные» фонемы, похожие на фонемы других дикторов. Таким образом, по большему количеству принадлежащих определенному диктору фонем, можно идентифицировать кто произнес фразу. При этом в системе «ИСФАР» нет привязки к произнесенным командам и фразам и осуществляется автоматическая текстонезависимая идентификация диктора.
Сегментирование сигнала [- X
Огнм Впа *
Рис. 4. Окно выполнения идентификации диктора по количеству фонем
В ходе решения поставленной задачи были получены следующие результаты:
благодаря применению МОФ в задаче ФАР удается резко сократить вычислительную сложность решаемой задачи идентификации и одновременно в полной мере использовать оптимальные свойства решающей статистики МИР;
проанализирован процесс речеобразования и исследована работа артикуляторного аппарата человека, в результате чего выработаны пути построения модели идентификации голосового сообщения;
произведён обзор и анализ методов, которые могут использоваться при идентификации голосового сообщения - нейросети, частотные цифровые фильтры, Фурье-анализ, кепстральный анализ, методы машинного обучения, векторное квантование, гауссовы смеси и вейвлет-анализ. Показана предпочтительность выбора Фурье-анализа как основы построения модели;
построена структурная схема модели идентификации голосового сообщения по фонемной составляющей и индивидуальным характеристикам голоса;
спроектирована структура базы данных голосовых сообщений для тестирования и статистической оценки качества работы предложенной модели;
исследования осуществлены в терминах универсального теоретикоинформационного подхода и информационной теории восприятия речи. Их главная цель - создание необходимой методологической и программной базы для дальнейшей конструкторской разработки системы идентифи-
кации диктора по голосу.
Список литературы
1. Савченко В.В. Информационная теория восприятия речи // Изв. вузов России. Радиоэлектроника. 2007. Вып. 6. С. 3-9.
2. Савченко В. В., Акатьев Д.Ю., Карпов Н.В. Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра // Изв. вузов России. Радиоэлектроника. 2007. Вып.4. С.11-19.
3. Савченко В.В. Теоретико-информационное обоснование гауссовой модели сигналов в задачах автоматического распознавания речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 1. С. 24-33.
4. Савченко В.В., Губочкин И.В. Оптимизация авторегрессионной модели сигналов в задаче автоматического распознавания речи // Изв. вузов России. Радиоэлектроника. 2008. Вып. 2. С. 26-31.
5. Савченко В.В., Карпов Н.В. Анализ фонетического состава речевых сигналов методом переопределенного дерева // Сист. упр-я и информ. технол. 2008. №2 (32). C. 297-303.
Васильев Роман Александрович, аспирант, [email protected], Россия, Нижний Новгород, Нижегородский государственный лингвистический университет им. Н. А. Добролюбова
RESEARCH OF FEATURES OF IDENTIFICATION OF ANNOUNCERS ON A VOICE
R.A. Vasilyev
In work the method of the phonetic analysis of speech - allocation of the list of elementary speech units such as separate phonemes from a continuous stream of informal conversation of the specific announcer is offered. In article the practical algorithm of identification of the announcer is described — it is process of definition speaking of the set of announcers.
Key words: identification on a voice, biometric systems of protection, the phonetic analysis of speech, Kulbaka-Leybler's metrics, the minimum sound units, the digital filter.
Vasiliev Roman Aleksandrovich, postgraduate, [email protected], Russia, Nizhny Novgorod, the Nizhny Novgorod State Linguistic University of N.A.Dobrolyubov