Научная статья на тему 'Способ обнаружения психоэмоционального расстройства человека на основе декомпозиции на эмпирические моды и формантного анализа речевых сигналов'

Способ обнаружения психоэмоционального расстройства человека на основе декомпозиции на эмпирические моды и формантного анализа речевых сигналов Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
156
18
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
речевой сигнал / декомпозиция на эмпирические моды / формантная разборчивость / форматный анализ / психоэмоциональное расстройство.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович

Представлен способ обнаружения психоэмоционального состояния, суть которого заключа‐ ется в адаптивном разложении речевого сигнала на равноартикуляционные полосы частот, с помощью улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом и опре‐ делении формантной разборчивости, а также частоты, ширины, уровня и добротности формантных об‐ ластей в данных полосах с помощью формантного анализа. Кратко представлено математическое опи‐ сание декомпозиции, и приведена упрощенная блок‐схема предложенного способа. Проведено исследование способа с использованием сформированной базы фонетически сбалансированных рече‐ вых сигналов, зарегистрированных у здоровых людей и людей с психоэмоциональными расстройствами. В соответствии с результатами исследования разработанный способ обеспечивает высокую точность определения психоэмоциональных расстройств: ошибка первого рода 8,16 %, ошибка второго рода 5,66 %.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алимурадов Алан Казанферович, Тычков Александр Юрьевич, Чураков Петр Павлович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Способ обнаружения психоэмоционального расстройства человека на основе декомпозиции на эмпирические моды и формантного анализа речевых сигналов»

УДК 004.934

А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков

СПОСОБ ОБНАРУЖЕНИЯ ПСИХОЭМОЦИОНАЛЬНОГО РАССТРОЙСТВА ЧЕЛОВЕКА НА ОСНОВЕ ДЕКОМПОЗИЦИИ НА ЭМПИРИЧЕСКИЕ МОДЫ И ФОРМАНТНОГО АНАЛИЗА РЕЧЕВЫХ СИГНАЛОВ

Аннотация. Представлен способ обнаружения психоэмоционального состояния, суть которого заключается в адаптивном разложении речевого сигнала на равноартикуляционные полосы частот, с помощью улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом и определении формантной разборчивости, а также частоты, ширины, уровня и добротности формантных областей в данных полосах с помощью формантного анализа. Кратко представлено математическое описание декомпозиции, и приведена упрощенная блок-схема предложенного способа. Проведено исследование способа с использованием сформированной базы фонетически сбалансированных речевых сигналов, зарегистрированных у здоровых людей и людей с психоэмоциональными расстройствами. В соответствии с результатами исследования разработанный способ обеспечивает высокую точность определения психоэмоциональных расстройств: ошибка первого рода 8,16 %, ошибка второго рода 5,66 %.

Ключевые слова: речевой сигнал, декомпозиция на эмпирические моды, формантная разборчивость, форматный анализ, психоэмоциональное расстройство.

Введение

Речь была и остается самым естественным средством обмена информацией для человека. Поэтому модернизация существующих и разработка новых способов обработки речевых сигналов всегда были в центре внимания специалистов при создании перспективных информационно-коммуникационных систем «человек - машина»: речевой ввод команд в компьютерных системах; системы автоматического создания текстовых документов на основе распознавания речи; синтез речи при автоматическом озвучивании текстовых файлов; голосовое управление; оценка состояния здоровья человека по голосу и т.п. В основе обработки речевых сигналов, применяемой в подобных системах, используются различные подходы, в том числе основанные на формантном анализе [1].

Известно, что звуки, являясь, по сути, неделимыми элементами речи, характеризуются уникальным распределением энергии в спектральной области. В спектре каждого звука присутствуют области повышенной концентрации энергии, называемые формантами. Расположение формант, их число и параметры позволяют однозначно установить звук речи, поскольку определяются самим процессом воспроизведения речеобразующей системой человека. Изменяемый объем полостей гортани, рта, движения артикуляционного аппарата говорящего всегда подобны при создании каждого из звуков речи. Анатомические отличия людей друг от друга порождают отличия в высоте и тембре голоса, но характер распределения формант остается постоянным.

Речь представляет собой один из самых сложных приобретаемых навыков речевого аппарата и очень чувствительна к нарушениям работы нервной системы человека. В работах [2-4] представлены результаты исследований частотной локализации формантных областей при патологиях в моторике речеобразующей системы. Различные патологии

© Алимурадов А. К., Тычков А. Ю., Чураков П. П., 2019.

(физиологические или психологические) вызывают смещения формантных областей по частоте и приводят к деформации и трансформированию звуков при воспроизведении. В соответствии с результатами данных исследований выявили, что параметры формант (частота, ширина, уровень и др.) способны служить маркерами психоэмоциональных расстройств человека.

Форматный анализ успешно применяется для оценки психоэмоциональной окраски речи человека. Разнообразие способов анализа обусловлено как важностью проблемы, так и отсутствием достаточно эффективных способов ее решения. Учитывая нерегулярность моторики речеобразующей системы при психоэмоциональных расстройствах, можно сказать, что возможности этих способов существенно ограниченны. Это ограничение обусловлено использованием неадаптивных методов обработки сложных нестационарных речевых сигналов. По этой причине актуальной является разработка новых способов, основанных на адаптированных методах обработки, повышающих эффективность обнаружения психоэмоциональных расстройств человека.

Целью данной работы является разработка способа обнаружения психоэмоционального расстройства человека на основе формантного анализа и адаптивной технологии обработки речевых сигналов. Работа является развитием ранее опубликованных трудов авторов [5, 6] и выполнена при финансовой поддержке совета по грантам Президента РФ, проект № СП-246.2018.5.

Речеобразующая система человека

Речеобразующая система человека состоит из легких, трахеи, полости глотки (горла, языка, ротовой и носовой полостей (рис. 1)). Воздушный поток, выдавливаемый из легких, проходит через голосовые связки и речевой тракт, колеблясь на разных частотах.

Рис. 1. Речеобразующая система человека

Речевой сигнал представляет собой нестационарный акустический сигнал сложной формы, амплитудные и частотные характеристики которого быстро изменяются во времени. Речь состоит из вокализованных и невокализованных участков, образующихся со-

ответственно в результате периодических и непериодических колебаний голосовых связок. Периодические колебания голосовых связок называются основным тоном. Частота колебаний связок называется частотой основного тона.

Речевой тракт (см. рис. 1) представляет собой трубку неоднородного сечения длиной 170 мм (у взрослого человека). Примерно посередине тракта имеется ответвление в виде носовой полости, которая может перекрываться мягким нёбом. Если носовая полость перекрыта, то формантный анализ сильно упрощается. Если предположить, что речевой тракт - это трубка с постоянным сечением, резонансные частоты определяются в соответствии с формулой

с

fn = (2п - 1) —,

где n = 1, 2, 3... - номер форманты; c - скорость воздушного потока; L - длина тракта.

При скорости воздушного потока 350 м/с для тракта длиной 170 мм резонансные частоты должны быть кратны частоте, близкой к 500 Гц. Однако в действительности сечение речевого тракта не является равномерным, в результате чего частотная локализация формантных областей находится на разных расстояниях.

Построение математической модели речевого тракта с учетом нестационарной природы речевого сигнала является достаточно сложной задачей. Однако если речевой сигнал разделить на фрагменты малой длительности (примерно 10-20 мс), то параметры речевого тракта можно считать неизменными и в качестве модели можно использовать линейную систему с постоянными коэффициентами:

где ak и bk - параметры фильтра, характеризующие речевой тракт; dk - нули линейной системы; Ck - полюса системы. При этом полюса хорошо описывают вокализованные звуки, а невокализованные звуки достаточно подробно описываются нулями системы.

Формантная структура звуков, формантная разборчивость

Для описания формантной структуры звука достаточно выделить четыре частоты, которые нумеруются в порядке возрастания. Самая низкая форманта ближе всех расположена к частоте основного тона. Высокие форманты имеют малые уровни, но именно они несут информацию об индивидуальных особенностях геометрической формы речео-бразующей системы человека.

Поскольку в процессе воспроизведения речи конфигурация тракта меняется, то, соответственно, меняется частотная локализация формантных областей. Звуки, образованные с участием голосовых связок, имеют наиболее ярко выраженные формантные области в спектре, поэтому анализ формантной структуры вокализованных участков речи наиболее интересен для задачи обнаружения психоэмоционального расстройства человека.

Для разных звуков речи русского языка характерны определенные частотные диапазоны формант. В табл. 1 представлены усредненные частоты трех формант для пяти вокализованных звуков речи.

Разборчивость речи представляет собой меру понятности, выраженную относительным числом правильно понятных элементов речи: звуков, слогов, слов и фраз. Формантная разборчивость определяется произведением частотного F и динамического D диапазонов тракта связи, т.е. A = kFD, где k - коэффициент пропорциональности. Учитывая, что объем информации, передаваемой по речевому тракту за время T, также про-

порционален произведению F и Д получаем I = АТ, т.е. формантная разборчивость пропорциональна объему информации в единицу времени.

Таблица 1

Усредненные частоты трех формант для пяти вокализованных звуков русской речи

Вокализованный звук речи Формантные частоты, Гц

/1 /2 /3

О 275 850 2400

И 250 2300 3000

А 575 1700 2450

Е 400 2000 2550

У 640 1200 2400

Несмотря на разнообразие применяемых обозначений, определений, большинство предложенных методов определения разборчивости представляют собой развитие идей Коларда [2]. Теория разборчивости и методы определения основаны на представлении речевого сигнала в виде совокупности формант. Формантная теория расчета принимает форманты за элементы звуков речи, несущие информацию и определяющие разборчивость. Понятие «форманта» распространяется на все звуки речи. Нужно иметь в виду различие между смыслом, вкладываемым в это понятие формантной теории, и акустическим определением спектров звуков. Спектральный анализ звуков обнаруживает до десяти формант в отдельных случаях. Однако исследования речи показывают, что слуховое восприятие (по крайней мере для гласных звуков) полностью определяется четырьмя формантами, поэтому формантная теория относит к формантам только те области концентрации энергии в спектре, которые определяют звук.

Форматная теория разборчивости основана на предположении, что в пределах некоторой полосы частот речевого сигнала А/ вероятность встречаемости формант ААвтах = = Пв/М, где N - число формант во всей полосе частот речевого сигнала; п - число формант в полосе А/

Адаптивная обработка

Исследования методов обработки речевых сигналов выявили перспективность использования адаптивной технологии анализа нестационарных сигналов - улучшенной полной множественной декомпозиции на эмпирические моды с адаптивным шумом (ПМДЭМАШ) [7]. В настоящее время технология улучшенной ПМДЭМАШ широко используется в различных научных приложениях, в том числе и при решении задач обнаружения психоэмоциональных расстройств [8, 9].

Классическая декомпозиция на эмпирические моды (ДЭМ) - это адаптивный метод анализа нестационарных сигналов, возникающих в нелинейных системах, который обеспечивает локальное разложение сигнала на быстрые и медленные колебательные функции [10]. В результате разложения исходный сигнал представляется в виде суммы амплитудно- и частотно-модулированных функций - эмпирических мод (ЭМ). Аналитическое выражение ДЭМ выглядит следующим образом:

с(п) = ^ + Г((п),

¿=1

где x(n) - исходный сигнал; IMFi(n) - ЭМ; r,(n) - конечный остаток; i = 1, 2, ..., I - номер ЭМ; n - дискретный отсчет времени.

Отличительной особенностью улучшенной ПМДЭМАШ является добавление к исходному сигналу контролируемого шума для создания новых экстремумов. Это позволяет устранить недостатки существующих разновидностей декомпозиций: смешивание ЭМ; остаточный шум в ЭМ; наличие «паразитных» ЭМ на ранних этапах декомпозиции.

Алгоритм и математическое описание метода улучшенной ПМДЭМАШ:

1. С помощью аппарата ДЭМ и путем выражения формулы (E-^^xjCn)^) = (xj(n)) -

-(м(хДп))) локальных средних значений шумовых копий исходного сигнала (хДп) = х(п) +p0E1(wj(n))) определяется первый остаток:

ri(n) = (M (хДп))),

где Ei(-) - аппарат извлечения ЭМ методом ДЭМ (i - номер моды); Xj(n) = x(n) + Wj(n) -шумовые копии исходного сигнала (x(n) - исходный речевой сигнал, Wj(n) - реализации белого шума с нулевой средней единичной дисперсией); M(-) - аппарат, создающий локальное среднее значение применяемого сигнала; Pi = SiStd(ri) - коэффициент, допускающий выбор различных значений отношения сигнал/шум.

2. На первом этапе для i = 1 вычисляется первая мода: IMFi(n) = x(n) - n(n).

3. Вычисляется второй остаток как усредненное локальное среднее значение шумовых копий первого остатка гг(п) +p1E2(Wj(n)), и определяется вторая мода:

ÎMF2(n) = r1(n) -r2(n) = г1(п) - (М (г1(п) + ргЕ2 (w;(n)))).

4. На последующих этапах для i = 3,.., I вычисляется i-й остаток:

П(п) = (M (ri.1(n) + pi_1Ei(wJ(n)))).

5. Вычисляется i-я мода:

ÎMFiin) = ri_1(n) - ri{n).

6. Переход к шагу 4 для следующего значения i.

Константы р,- выбираются так, чтобы получить желаемое отношение сигнал/шум между добавленным шумом и остатком, к которому добавляется шум. Для получения шумовых реализаций с меньшими амплитудами для последних стадий декомпозиции в остальных модах будем воспринимать шум как результат его предварительной обработки ДЭМ, т.е. без их нормализации стандартным отклонением.

Описание способа

На рис. 2 представлена упрощенная блок-схема способа обнаружения психоэмоционального расстройства человека. Суть способа заключается в адаптивном разложении речевого сигнала на равноартикуляционные полосы частот с помощью улучшенной ПМДЭМАШ и определения формант и формантной разборчивости в данных полосах. Структурно способ делится на три этапа: предварительная обработка (блоки 2-4), фор-мантный анализ (блоки 5/8, 9), декомпозиция (блоки 6, 7). Блоки 11, 12 применяются только для исследования предложенного способа. Рассмотрим кратко этапы обработки предложенного способа.

Рис. 2. Упрощенная блок-схема способа обнаружения психоэмоционального расстройства человека

Блок 1. Ввод речевого сигнала осуществляется со следующими параметрами: частота дискретизации 8000 Гц, разрядность квантования 16 бит. На рис. 3 представлена осциллограмма примера речевого сигнала-предложения «Лара врала, что была королевой Урала».

Рис. 3. Осциллограмма речевого сигнала

Блок 2. Обнаружение вокализованных участков представляет собой определение точных границ звуков речи, образованных с участием голосовых связок в общем речевом потоке. Корректное обнаружение границ вокализованных участков не только повышает эффективность форматного анализа, но и уменьшает количество вычислительных операций. На рис. 4 вокализованные участки отмечены прямоугольниками серого цвета. Невокализованные участки в дальнейшей обработке не используются.

Рис. 4. Вокализованные участки речевого сигнала

Блок 3. Сегментация представляет собой линейное деление вокализованных участков речевого сигнала на составляющие отрезки, называемые фрагментами. В осно-

ве сегментации заложен принцип: свойства речевого сигнала с течением времени изменяются медленно. Это приводит к кратковременному анализу, в котором фрагменты выделяются и обрабатываются так, как если бы они были короткими участками отдельных звуков с отличающимися свойствами. На рис. 5,а представлен фрагмент вокализованного участка длительность 100 мс. Длительность фрагмента в 100 мс определена эмпирически для повышения эффективности формантного анализа и декомпозиции.

а)

m

аГ 1

Го

с

< "10 200 400 600 800

Дискретные отсчеты времени

б)

оо

(О 1

ч

>1 _

5-1

< 0 200 400 600 800

Дискретные отсчеты времени

Рис. 5. Фрагмент вокализованного участка

Блок 4. Сегментация на фрагменты во временной области эквивалентна умножению сигнала на прямоугольное окно. В частотной области эквивалентна свертке из-за того, что передаточная функция прямоугольного окна имеет боковые лепестки, уровень которых достигает 20 %, спектр сигнала искажается (эффект Гиббса) [11]. Для уменьшения подобных искажений при обработке речевых сигналов применяются окна с плавно спадающими до нуля краями - окно Хемминга. На рис. 5,б представлен фрагмент вокализованного участка после оконной обработки.

Блок 5. Определение формант представляет собой определение числовых значений частоты, ширины, уровня и добротности полосы формантных областей. Частота формантной области Р определяется как частотная составляющая, имеющая максимальный по амплитуде уровень. Ширина формантной области ДР определяется как разность нижней Рь и верхней Рн частотной составляющей, на которых мощность спектральной огибающей снижается вдвое [12]. Добротность определяется как отношение частоты и ширины формантной области Q = Р/ДР. На рис. 6 представлен пример результата определения формант вокализованного участка.

см СО

m 01 си

с£

0.05

s

с,

I 0

I (

Первая форманта I Вторая , форманта Третья форманта

А А л л* \ л —>

500

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1000

1500

Частота, Гц

Рис. 6. Результат определения формант вокализованного участка

Блок 6. Важным условием адаптивного разложения речевого сигнала на равноар-тикуляционные полосы частот является возможность формирования адаптивного базиса, функционально зависимого от структуры самого сигнала. Это условие выполняется в методе улучшенной ПМДЭМАШ, частотно-избирательные свойства которого обеспечивают адаптивность при разложении и позволяют учитывать внутренние особенности сигнала (скрытые модуляции, области концентрации энергии и т.п.). Результат разложения приведен на рис. 7. Вокализованный участок речевого сигнала был разложен на девять частотных составляющих - равноартикуляционных частотных диапазонов. Однако для удобства визуализации ЭМ9 не отображена на рис. 7.

Рис. 7. Результат разложения вокализованного участка с помощью улучшенной ПМДЭМАШ

Блок 7. Задача определения информативных ЭМ сводится к обнаружению частотных диапазонов, отражающих информацию о частотной локализации формантных областей. В основе определения заложен принцип, что информативные моды имеют большую энергию, чем трендовые моды. Амплитудное распределение ЭМ хорошо описывается с помощью функции кратковременной энергии. Для сжатия амплитуды сигнала в большом динамическом диапазоне применяется логарифмирование энергии, максимально приближая работу способа к работе слухового аппарата человека. На рис. 8 представлена зависимость логарифма энергии ЭМ от ее номера. Как видно из рис. 7, 8, наиболее информативными, отражающими информацию о частотной локализации фор-мантных областей являются ЭМ1 - ЭМ5.

Номер ЭМ

Рис. 8. Зависимость логарифма энергии ЭМ от ее номера

Блок 8. Результат определения формант информативных ЭМ представлен на рис. 9. Для упрощения формы спектра формант строились с использованием прямых линий, соединяющих вершины частотных составляющих. Локализации формантных областей: - первая форманта - сумма ЭМ3, ЭМ4 и ЭМ5;

- вторая форманта - ЭМ2;

- третья форманта - ЭМ1.

гм

m

СО Ч

L> <

0.02 0.01 О

1 тах I I _ Полоса

1 -"Z ik_

тах/2 - тЛ~ Третья форманта

0 500 1000 F F* 1500

Ш « 01

ГО

5 .

к 0.05

5

<

Частота, Гц

500 F F" 1000

Частота, Гц

m

0.04

го

5

ш <

0.02

Fl F

500

1000

Частота, Гц

Рис. 9. Результат определения формант информативных ЭМ

I тах 1 1 Полоса

тах/2 Вторая форманта

1500

1 л —^ 1 —— Полоса

тах/2^| г ~f -- Л! Л Первая форманта

1500

Блок 9. Формантная разборчивость речи представляет собой величину смещения частотной локализации формантных резонаторов вследствие патологий моторики рече-образующей системы. В реальных условиях определению формант будут мешать различные искажения, помехи и акустические шумы, создающие маскировку. Поэтому фор-мантная разборчивость уменьшится и будет определяться по следующей формуле [12]:

где Рв(Е') - коэффициент, показывающий, какая часть формант в полосе будет воспринята в реальных условиях; Е' - уровень восприятия формант.

Считая значения ДЛ5 в смежных полосах спектра речи независимыми, получаем свойство аддитивности формант. Формантная разборчивость для всей полосы частот определяется по формуле

1 1

При разложении с помощью улучшенной ПМДЭМАШ на пять равноартикуляцион-ных частотных диапазонов при условии, что ДЛ^ах = АЛ2шах = ... = 0,25 и £|=1АЛ5тах = 1, формантная разборчивость равна:

5

5—1

Уровень восприятия формант: Е' = В'р - Ь - Впо^е, где В'р - уровень спектра формант; Ь - затухание при передаче речи; Впо\ве - спектральный уровень шума (с интегральным уровнем ощущения не менее 10дБ). Данные значения Ь взяты из работы [12].

Блок 10. Вывод результата заключается в формировании полученных значений формантной разборчивости, частоты, ширины, уровня и добротности полосы формант-

ных областей в удобный для дальнейшего определения «норма/патология» вид. Это осуществляется посредством распространенного метода, используемого в приложениях по обработке речевых сигналов - смешанных гауссовских моделей (Gaussian Mixture Model, GMM).

Исследование способа

Для тестирования предложенного способа сформирована группа исследуемых людей при поддержке центра психологической диагностики федерального казенного учреждения здравоохранения «Медицинская санитарная часть Министерства внутренних дел Российской Федерации по Пензенской области» (ЦПД ФКУЗ «МСЧ МВД РФ по Пензенской области»). Группа сформирована из наблюдаемых врачом-психиатром ЦПД ФКУЗ «МСЧ МВД РФ по Пензенской области» пациентов с эмоциональной нагрузкой, соответствующей третьему классу по степени напряженности. В группу отобрано 53 человека мужского и женского пола в возрасте от 18 до 79 лет. В том же количестве сформирована контрольная группа условно здоровых людей (без признаков психоэмоциональных расстройств и дефектов речи) из числа сотрудников и преподавателей Пензенского государственного университета.

В соответствии с разработанной авторами методикой была зарегистрирована база данных речевых сигналов. В подготовленном помещении с помощью специально настроенных параметров и расположения микрофона осуществлялась регистрация речи, воспроизводимой участниками обеих групп при чтении трех видов текстового материала:

- фонетически сбалансированный текст публицистической статьи из газеты, состоящий из 100 слов;

- фонетически сбалансированный текст литературного произведения, состоящий из 100 слов;

- специально подобранные слова, составленные из них словосочетаний и предложения, включающие в себя звуки, максимально отражающие нарушения при воспроизведении речи.

Для оценки эффективности разработанного способа использовался параметр -ошибки первого и второго рода. При анализе значения формантной разборчивости, частоты, ширины, уровня и добротности полосы формантных областей главной задачей исследования являлось обнаружение психоэмоционального расстройства. Поэтому ошибкой первого рода будет ложное присваивания статуса «норма» речевому сигналу, произнесенному человеком с эмоциональным расстройством, а ошибкой второго рода -ложное присваивание статуса «патология» речевому сигналу, произнесенному здоровым человеком.

Исследование проводилось в два этапа: обучение и тестирование. Обучение на группе здоровых людей представляет собой формирование базы данных значений информативных параметров (формантной разборчивости, частоты, ширины, уровня и добротности полосы формантных областей), соответствующих статусу «норма». На этапе обучения также автоматически формируется пороговое значение статуса «норма» как среднее арифметическое значение данных информативных параметров. Тестирование на группе людей с психоэмоциональными расстройствами заключается в последовательном сравнении значений информативных параметров исследуемых речевых сигналов с пороговыми значениями.

Для определения ошибки второго рода последовательность действия исследования сохраняется, изменяются только группы. Обучение осуществляется на группе людей с психоэмоциональными расстройствами, а тестирование на группе условно здоровых людей.

Все этапы обработки сигналов и анализа данных были выполнены в среде математического моделирования © Matlab (MathWorks).

Исследование проводилось для трех видов речевых сигналов: слоги, слова и предложения. Сигнала длительностью не менее 100 мс были специально подготовлены с помощью аудиоредактора из зарегистрированной базы данных речевых сигналов. Для увеличения анализируемой информации слоги и слова в сигналах повторялись несколько раз (30 раз минимум). В табл. 2 представлены результаты определения психоэмоциональных расстройств.

Таблица2

Результаты определения психоэмоционального расстройства

Прогнозируемый результат Результат обнаружения Ошибки первого и второго рода, %

Патология Норма

Слоги

Патология 31 чел. 22 чел. 1st, а 41,5

Норма 13 чел. 40 чел. 2nd, в 24,52

Слова

Патология 35 чел. 18 чел. 1st, а 33,96

Норма 9 чел. 44 чел. 2nd, в 16,98

Предложения

Патология 49 чел. 4 чел. 1st, а 8,16

Норма 3 чел. 50 чел. 2nd, в 5,66

Результаты исследования и выводы

В сравнении между тремя видами сигналов наименьшее количество ошибок первого и второго родов (а = 8,16 %, в = 5,66 %) достигается при анализе предложений. Объясняется это большим количеством анализируемой информации о формантной разборчивости, частоте, ширине, уровне и добротности полос формантных областей вокализованных участков в предложениях. Худшие результаты наблюдаются в анализе более коротких сигналов: слоги - а = 41,5 %, в = 24,52 % и слова - а = 33,96 %, в = 16,98 %, которые никак не применимы в реальной практике.

В соответствии с результатами исследований можно сделать выводы:

- психоэмоциональные расстройства человека достаточно серьезно влияют на вокализованные характеристики речевого тракта;

- значения формантной разборчивости, частоты, ширины, уровня и добротности полосы формантных областей вокализованных участков анализируемых сигналов достаточно полно отображают нарушения работы артикуляционного отдела речевого тракта;

- предложенный способ обеспечивает точное определение психоэмоционального расстройства при анализе более длительных сигналов.

Библиографический список

1. Фант, Г. К. Акустическая теория речеобразования / Г. К. Фант ; пер. с англ. Л. А. Варшавского, В. И. Медведева ; науч. ред. В. С. Григорьева. - Москва : Наука, 1964. - 284 с.

2. Schuller, B. W. Computational Paralinguistics: Emotion, Affect and Personality in Speech and Language Processing / B. W. Schuller, A. M. Batliner. - New York : Wiley. - 2013. - P. 344.

3. Schwartz, T. L. Depression: Treatment Strategies and Management (Medical Psychiatry Series) / T. L. Schwartz, T. J. Petersen. - Boca Raton : Informa Healthcare, 2009. - 339 p.

4. Williamson, J. R. Vocal and facial biomarkers of depression based on motor incoordination and timing / J. R Williamson, Th. F. Quatieri, B. S. Helfer, G. Ciccarelli, D. D. Mehta // 4th International Workshop on Audio / Visual Emotional Challenge (AVEC) (Orlando, USA, 3-7 November 2014) -Orlando, USA : New York, NY ACM, 2014. - P. 65-72.

5. Alimuradov, A. K. Measurement of speech signal patterns under borderline mental disorders /

A. K. Alimuradov, A. Yu. Tychkov, A. V. Kuzmin, P. P. Churakov, A. V. Ageykin, G. V. Vishnevskaya / / 21st Conference of Open Innovations Association FRUCT (Finland, Helsinki, 6-10 November 2017). -Finland, Helsinki : IEEE, 2017. - P. 26-33.

6. Alimuradov, A. K. A method to determine cepstral markers of speech signals under psychogenic disorders / A. K. Alimuradov, A. Yu. Tychkov, A. V. Ageykin, P. P. Churakov // 2018 Ural Symposium on Biomedical Engineering, Radioelectronics and Information Technology (USBEREIT) (Yekaterinburg, Russia, 7-8 May 2018). - Yekaterinburg, Russia : IEEE, 2018. - P. 128-131.

7. Colominasa, M. A. Improved complete ensemble EMD: a suitable tool for biomedical signal processing / M. A. Colominasa, G. Schlotthauera, M. E. Torres // Biomed. Signal Proces. - 2014. -Vol. 14. - P. 19-29.

8. Stassi, A. E. Vocal fold activity detection from speech related biomedical signals: a preliminary study / A. E. Stassi, G. A. Alzamendi, G. Schlotthauer, M. E. Torres / A. Braidot, A. Hadad (eds.) // VI Latin American Congress on Biomedical Engineering CLAIB (Parana, Argentina, 29-31 October 2014). IFMBE Proceedings. - Cham. : Springer. - Vol. 49. - P. 520-523.

9. Torres, M. E. Empirical mode decomposition. Spectral properties in normal and pathological voices / M. E. Torres, G. Schlotthauer, H. L. Rufiner, M. C. Jackson-Menaldi // 4th European Conference of the International Federation for Medical and Biological Engineering, ECIFMBE (Antwerp, Belgium, 23-27 November 2008). - Antwerp, Belgium : Springer, 2008. - P. 252-255.

10. Huang, N. E. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis / N. E. Huang, Sh. Zheng, R. L. Steven // Proceedings of the Royal Society of London. - 1998. - A 454. - P. 903-995.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11. Афонский А. А. Цифровые анализаторы спектра, сигналов и логики / А. А. Афонский,

B. П. Дьяконов. - Москва : Солон-Пресс, 2005. - 576 с.

12. Михайлов, В. Г. Измерение параметров речи / В. Г. Михайлов, Л. В. Златоусова ; под ред. М. А. Сапожникова. - Москва : Радио и связь, 1987. - 168 с.

Алимурадов Алан Казанферович, кандидат технических наук, директор студенческого научно-производственного бизнес-инкубатора, Пензенский государственный университет. E-mail: [email protected]

Тычков Александр Юрьевич, кандидат технических наук, заместитель директора Научно-исследовательского института фундаментальных и прикладных исследований, Пензенский государственный университет.

E-mail: [email protected]

Чураков Петр Павлович, доктор технических наук, профессор, кафедра информационно-измерительной техники и метрологии, Пензенский государственный университет. E-mail: [email protected]

Образец цитирования:

Алимурадов, А. К. Способ обнаружения психоэмоционального расстройства человека на основе декомпозиции на эмпирические моды и формантного анализа речевых сигналов / А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Вестник Пензенского государственного университета. - 2019. - № 2 (26). - С. 69-80.

i Надоели баннеры? Вы всегда можете отключить рекламу.