УДК 004.023
СИСТЕМА РАЗПОЗНАВАНИЯ РЕЧИ КАК ИНСТРУМЕНТ АВТОМАТИЧЕСКОГО ПРОТОКОЛИРОВАНИЯ ПРИЕМА ВРАЧА В МЕДИЦНИСКОЙ ИНФОРМАЦИОННОЙ СИСТЕМЕ
Савонин Дмитрий Александрович
студент института принтмедиа и информационных технологий Московский государственный университет печати имени Ивана Федорова 127550 Россия, г. Москва, ул. Прянишникова, д. 2А savonin@dmitry123.ru
Аннотация. Рассматривается технология распознавания речи, описываются способы и методы интеграции с медицинскими информационными системами. Приведены современные технологии для упрощения процесса разработки модулей интеграции.
Ключевые слова: системы распознавания речи, MFCC, акустическая модель, MEL-преобразования, медиа-контент.
Общение с помощью голоса всегда было естественным и удобным способом для передачи информации. Со времен появления первых компьютеров много сил было приложено разработчиками для достижения этой цели. Человеческая речь — это прежде всего, цифровой сигнал, при захвате которого мы не увидим ни четко выраженных слов, ни каких-нибудь фонем из-за того, что различные звуки, слова и буквы плавно перетекают друг в друга, не образуя четких границ, что делает процесс распознавания не очень простой и очевидной задачей. Одна и та же фраза, произнесенная разными людьми с разным тембром в разных условиях, будет иметь мало различимые между собой наборы частот. Несмотря на это человеческий мозг различает речь, исключая лишние шумы, и концентрируется именно на источнике звука, что говорит о наличие некой «анализирующей подсистемы», на основе которой моделируются процессы распознавания речи. Слышимая речь может быть разделена на более простые компоненты, входящие в состав друг друга, — словосочетания, слова, буквы, фонемы, сеноны. Фонема — минимальная единица звука, которую способен различить человек, состоящая из трех сеннов, которые позволяют представить ее как набор из трех состояний, плавно перетекающих друг в друга. Впервые такой подход был использовал при создании одной из первых в мире коммерческих машин распознавания речи, которая была разработана в 1961 г. компанией IBM. Машина могла различать 9 цифр и 16 слов. В основе принципа ее работы лежало использование трех микрофонов для захвата трех уровней частот — низкого, среднего и высокого, наборы которых сопоставлялись заранее подготовленной карте, где из всех возможных 27 выборок последовательностей звуков сопоставлялись нужные цифры и слова.
Разработка любых задач из реальной жизни требует эмуляции нужных процессов на программном уровне. Так как человеку очень трудно воспринимать
незнакомую информацию, он может только догадываться об истинном содержимом из-за отсутствия необходимых данных в своей памяти, для чего вводится понятие акустической модели.
Акустическая модель — одна из самых главных составляющий всех систем распознавания речи, решение задачи которой заключается в сопоставлении всех возможных вероятностей перехода сенонов в друг друга для дальнейшего образования фонем, букв, слов и предложений. Главный принцип работы таких моделей основан на скрытых марковских процессах (СММ), с помощью которых, используя алгоритм Ви-терби, можно сопоставить скрытый набор состояний видимому, в результате чего можно получить набор сенонов и связей между ними максимально похожих на те, что были определены в акустической модели. Это означает, что для решения задачи распознавания речи необходимо решить задачу синтеза речи для построения акустической модели. Для построения акустической модели необходимо получить из цифрового сигнала звука набор векторов, понятный для системы распознавания речи — набор обработанных спектров, реализация которых основана на получении MFCC (Mel Frequency Cepstral Coefficients) MEL — частотные кепстральные коэффициенты. Такой набор коэффициентов основан на алгоритме дискретного преобразования Фурье, MEL-преобразовании и дискретном косинусном преобразовании. Преобразуя полученный из ряда Фурье спектр сигнала, применив в нему MEL-преобразование (приведение к MEL-метрике, позволяющее примерно оценить восприятие частоты внутренним ухом человека, игнорируя завышенные или заниженные частоты) получаем вектора, которые можно сравнивать со сгенерированной акустической моделью. Таким образом, система распознавания речи способная воспринимать только тот набор входных данных, которой она была обучена, что позволяет создавать целые классы языковых моделей по опреде-
ленной тематике для автоматического ведения деятельности любого рода.
Сегодня существует масса готовых систем распознавания речи как от крупных интернет-компаний, предоставляющих облачные вычисления на их мощностях (Google или Yandex), так и от производителей готовых коробочных решений (центр речевых технологий) для различных нужд компаний и учреждений, в том числе решения для здравоохранения и социальных служб: автоматическое заполнение врачебных документов с помощью голосового ввода, электронный документооборот в системе здравоохранения, телефонная электронная очередь пациентов. Современные медицинские информационные системы нуждаются в таком функционале, как автоматическое заполнение электронной истории болезни или протоколирование операции с помощью голоса, что не только увеличивает скорость его заполнения, но и позволяет вести протокол даже при отсутствии физической возможности.
Любая медицинская информационная система (предоставляющая возможности для работы с электронной медицинской картой), несмотря на особенности своего строения и формата предоставления функционала ведения приема, должна быть обучена базовым функциям интеграции с внешними системами, в том числе системами распознавания речи, что требует наличия внешнего модуля, предоставляющего такой функционал с использованием открытых протоколов передачи данных, таких как HTTP и формат отправки пакетов, основанных на XML, SOAP, REST и т.д. Требование к наличию такого функционала обязывает компанию-разработчика медицинской информационной системы разработать модуль интеграции между удаленными или коробочными системами распознавания речи и конечной МИС. Сегодня для разработки таких модулей существуют готовые инструменты, (большинство из них дорогостоящие, потребляют неприемлемое количество ресурсов или не выполняют нужную задачу из-за особенностей информационной системы). Самым популярным из них является WildFly — это Java-EE сервер приложений для интеграции двух систем вместе за счет разработки универсальной связывающей шины, которая выполняет функцию адаптера, преобразуя запросы от одной системы к другой, средствами HTTP-протокола переда-
чи данных. Система распознавания речи в итоге представляет для разработчиков API сервис для интеграции с ее сервисами и, возможно, клиентскую библиотеку с готовой реализацией, что позволяет исключить вопрос использования тяжеловесных решений.
В 2014 г. был официально установлен как рекомендуемая версия к использованию стандарт HTML5 для разметки страниц во Всемирной паутине, основной упор в разработке которой был направлен на развитие мультимедиа технологии в WEB, что позволяет работать с устройствами аудио-видео записи и воспроизведения медиаконтента из окна браузера пользователя без установки специализированных драйверов или программного обеспечения. В обновленной версии стандарта были утверждены библиотеки для работы с мультимедиа контентом, в том числе для записи и воспроизведения звука, что позволяет использовать указанный стандарт как основу для захвата и передачи звукового сигнала на серверы с установленной системой распознавания речи для их дальнейшей обработки, что делает современные WEB-технологии благоприятной средой для разработки клиентских частей модуля интеграции с системой распознавания речи.
Таким образом, благодаря наличию современных технологий для обработки медиаконтента и современным протоколам передачи данных можно разработать модуль для интеграции с системами распознавания речи, требующий лишь реализации нужного модуля внутри медицинской информационной системы без необходимости создания сетевой инфраструктуры между ними.
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Шалимов И.А., Бессонов М.А. Анализ состояния и перспектива развития технологий определения языка аудиосообщения.
2. Речевые технологии SpeechKit [Электронный ресурс] — URL: https://tech.yandex.ru/speechkit (дата обращения: 01.06.16).
3. Как устроена технология распознавания речи [Электронный ресурс] — URL: https://habra-habr.ru/company/yandex/blog/198556 (дата обращения: 01.06.16).
VOICE RECOGNITION SYSTEM AS A TOOL FOR AUTOMATIC MANAGEMENT OF THE DOCTOR APPOINTMENT IN MEDICAL INFORMATION SYSTEM
Dmitry Alexandrovich Savonin
Moscow State University of Printing Arts 127550 Russia, Moscow, Pryanishnikova st., 2A
Annotation. The paper deals with speech recognition technology, describes the ways and methods of in-integration with health information systems. Presents modern technology to simplify the development process of integration modules.
Keywords: voice recognition system, MCC, acoustic model, MEL-conversion, media-content.