Научная статья на тему 'Сегментация и построение структуры слова первого порядка для систем распознавания речи'

Сегментация и построение структуры слова первого порядка для систем распознавания речи Текст научной статьи по специальности «Науки о Земле и смежные экологические науки»

CC BY
116
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Сегментация и построение структуры слова первого порядка для систем распознавания речи»

4. Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики. М.: Российск. гос. гуманит. ун-т, 1997. 168 с.

УДК 658

А.В. Аграновский, Д.А.Леднов, С.А.Репалов, П.М.Сулима

СЕГМЕНТАЦИЯ И ПОСТРОЕНИЕ СТРУКТУРЫ СЛОВА ПЕРВОГО ПОРЯДКА ДЛЯ СИСТЕМ РАСПОЗНАВАНИЯ РЕЧИ

На всем множестве разнообразных задач обработки речи исследователи неизбежно сталкиваются с проблемой сегментации речи и с необходимостью построить такое представление слова, которое было бы инвариантным относительно длительности произношения слова. Здесь будет рассмотрена операция сегментации и сделана попытка построить инвариантную структуру слова в приложении к задаче распознавания речи.

Пусть, акустические параметры речи наблюдаются тремя устройствами. Первое из устройств за время наблюдения определяет амплитуду огибающей. Второе устройство за это же время наблюдения определяет частоту основного тона. Третье устройство следит за спектральными составляющими речи. Каждое из устройств отображает свои данные в своем пространстве наблюдений. Данные в каждом пространстве наблюдения являются случайными величинами, а процесс, их порождающий, - марковским процессом. Распределение плотности вероятности марковского процесса р(1,г) прогнозируется уравнением Колмогорова первого порядка для пространств наблюдений основного тона и огибающей

^■ + и(1,2)^ + ^-ЪЦ,г)^=0, сЛ дг 2 022

где а(1,г), Ь^.г) - функции, определяющие динамику математического ожидания и

дисперсии, с начальным условием вида

1 (20-г’)21

Ри=т=:—7г=ехР1-

Т I— г 1 О ( >

Ьол/2я [ 2Ьо ] где принято, что значение первого измерения 2о является средним начального нормального распределения.

Для пространства наблюдений спектральных состояний плотность распределения прогнозируется уравнением Колмогорова п-го порядка, порядок уравнения зависит от числа максимумов в полученном спектральном представлении. Если в прогнозируемом распределении вероятности измеренное новое значение величины в пространстве наблюдений имеет вероятность ниже некоторого порогового значения, то выдвигается гипотеза, что в слове произошло изменение фонемы. Гипотеза становится решением в том случае, если, по крайней мере, в двух пространствах наблюдений она выдвигается синхронно. Таким образом, слово разбивается на последовательность интервалов моментами, в которые были при-

няты решения о смене фонем [1]. Каждый из таких интервалов характеризуется следующими параметрами: а) есть или нет основной тон; б) выше или ниже средняя амплитуда огибающей на интервале, чем средняя амплитуда огибающей слова; в) выше или ниже средняя амплитуда огибающей на интервале, чем некоторое пороговое значение амплитуды, соответствующее абсолютному порогу слышимости. Именно такую структуру можно назвать структурой слова первого порядка или грубой структурой.

Задача экспериментального исследования состояла в том, чтобы выяснить устойчивость грубой структуры слов при их произвольных произношениях. Пять дикторов (мужчин) по двадцать раз произносили слова из словаря, состоящего из 44 двух- и трехсложных слов. В 98% случаев грубая структура слова сохранялась, причем независимо от диктора. Анализ изменений грубой структуры слов приводит к заключению, что ее изменчивость тем выше, чем больше количество фонем в слове.

Однако факт относительной устойчивости грубой структуры слов можно использовать в командных системах распознавания речи для сужения пространства поиска эталонного слова.

ЛИТЕРАТУРА

1. Аграновский А.В., Леднов Д.А., Телеснин Б.А Сегментация речи (математическая модель)//Информационные технологии, 1998, №9, С.24-28.

УДК 681.51

С.А.Синютин

ПРИМЕНЕНИЕ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ ДЛЯ СТРУКТУРНОГО АНАЛИЗА ЭЛЕКТРОФИЗИОЛОГИЧЕСКИХ

СИГНАЛОВ

Анализ электрофизиологических сигналов (ЭФС) имеет определенные отличия от анализа сигналов например, в сейсмической разведке или в гидролокации. Различия в основном связаны с происхождением сигналов и ожидаемыми результатами анализа. При анализе сигналов техногенного характера или отклика физических систем (механических, электромеханических) численные значения параметров сигнала ( амплитуда, частота, спектр, автокорреляционная функция) практически всегда связаны с характеристиками исследуемых систем. Например, исследуя время появления эхо сигнала и его интенсивность при сейсмическом зондировании земной коры можно определить характер пластов и глубины их замечания. Это возможно, поскольку в основе метода лежит относительно точная физическая модель процесса. При анализе ЭФС такой модели практически никогда не бывает. Например достаточно подробно изучена электрические активность отдельного нейрона (форма импульсов, амплитуда, задержки проведения и т.п.),

i Надоели баннеры? Вы всегда можете отключить рекламу.