Научная статья на тему 'Методы обработки естественного языка в виртуальных голосовых помощниках'

Методы обработки естественного языка в виртуальных голосовых помощниках Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
974
201
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
VOICE ASSISTANT / ALEXA / CORTANA / KNOWLEDGE GRAPH / ALICE / SPEECHKIT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хлопенкова Анна Юрьевна, Белов Юрий Сергеевич

Данная статья посвящена обзору существующих голосовых помощников. Дается общее определение голосовым помощникам. Рассматривается программная реализация каждой из систем. Показано графическое представление устройств. Приводится обзор реализации графа знаний. Разбирается структура работы технологии SpeechKit.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

This article is devoted to existing voice assistants. A general definition of voice assistants is given. The software implementation of each of the systems is considered. A graphical representation of the devices is shown. An overview of the implementation of the knowledge graph is provided. The structure of the SpeechKit technology is analyzed.

Текст научной работы на тему «Методы обработки естественного языка в виртуальных голосовых помощниках»

УДК 004.032.6

Информационные технологии

Хлопенкова Анна Юрьевна, студент-магистр, Калужский филиал ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)» Белов Юрий Сергеевич, к.ф -м.н., доцент, Калужский филиал ФГБОУ ВО «Московский государственный технический университет имени Н.Э. Баумана (национальный исследовательский университет)»

МЕТОДЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА В ВИРТУАЛЬНЫХ

ГОЛОСОВЫХ ПОМОЩНИКАХ

Аннотация: Данная статья посвящена обзору существующих голосовых помощников. Дается общее определение голосовым помощникам. Рассматривается программная реализация каждой из систем. Показано графическое представление устройств. Приводится обзор реализации графа знаний. Разбирается структура работы технологии SpeechKit.

Ключевые слова: голосовой помощник, Alexa, Cortana, граф знаний, Алиса, SpeechKit.

Annotation: This article is devoted to existing voice assistants. A general definition of voice assistants is given. The software implementation of each of the systems is considered. A graphical representation of the devices is shown. An overview of the implementation of the knowledge graph is provided. The structure of the SpeechKit technology is analyzed.

Key words: voice assistant, Alexa, Cortana, knowledge graph, Alice, SpeechKit.

Голосовые помощники построены на искусственном интеллекте (ИИ), технологиях машинного обучения и распознавания голоса. Поскольку конечный пользователь взаимодействует с цифровым помощником, в программировании ИИ используются сложные алгоритмы, позволяющие учиться на вводе данных и лучше предсказывать потребности пользователя. Некоторые помощники разработаны с использованием более продвинутых технологий когнитивных вычислений, которые позволяют цифровому помощнику понимать и выполнять многошаговые запросы с многочисленными взаимодействиями и выполнять более сложные задачи, такие как бронирование мест в кинотеатре [3].

Среди популярных голосовых помощников можно выделить следующие: Alexa от Amazon, Cortana от Microsoft и Алиса от Яндекса. Рассмотрим структуру работы каждого из них.

Alexa (рис. 1)

Alexa построена на основе обработки естественного языка (NLP -Natural Language Processing) - процедур преобразования речи в отдельные слова, звуки и идеи. Интерпретация звуков требует больших вычислительных ресурсов поэтому записанная речь отправляется на серверы Amazon для более эффективного анализа [2].

Обработка сигналов является одной из наиболее важных задач в области звукозаписи на больших дистанциях. Основная задача - улучшить целевой сигнал, что означает возможность идентифицировать окружающий шум, такой как телевизор, и минимизировать его.

им

МкП|ММН Lrtjlll iiEiirt

0<f Button (town №9 IkiLtnn

Рис.1 Аппаратное представление голосовой колонки Alexa

Для решения этих проблем используются семь микрофонов, как показано на рис.1, чтобы приблизительно определить, откуда поступает сигнал, для того чтобы устройство могло сосредоточиться на нем. Акустическое эхоподавление может вычесть этот сигнал, тем самым оставив только важный сигнал [5].

Декодер определит, какая последовательность слов является наиболее вероятной, учитывая входные характеристики и модель, состоящую из двух частей. Первая из этих частей является предварительной, которая дает наиболее вероятную последовательность, основанную на огромном количестве существующего текста, без учета особенностей, другая - это акустическая модель, которая основана на глубоком обучении, рассматривая пары аудио и стенограмм. Далее применяется динамическое кодирование, которое должно происходить в реальном времени [1; 6].

Cortana

Возможности обработки естественного языка в Cortana получены от Tellme Networks и связаны с базой данных семантического поиска под названием Satori. Пример работы системы представлен на рис.2.

о

Hi, Гт Cortana.

о

WTMt «о 1**J МЯ M M rwmrdKJ abouti

Stotfi ter ~ZM • nmwdar Iс 20 ттлм »am па» "

Рис.2 Пример работы голосового помощника Cortana

Microsoft Satori - хранилище на основе графов знаний из графической базы данных и вычислительной платформы Trinity от Microsoft Research. Граф знаний Satori представлен на рис. 3.

Веб-сервисы данных позволили придать структуру ранее неструктурированным веб-данным и собрали наборы данных в сети Интернете. Google и Microsoft научили поиск «понимать» Интернет, углубившись во внутреннюю архитектуру графа знаний Google и Microsoft Satori. Сущности в графе знаний в Satori - это семантические объекты данных, каждый с уникальным идентификатором, набором свойств, основанных на атрибутах темы реального мира, которые они представляют, и связями, представляющими отношение темы с другими сущности. Они также включают действия, которые будут представлены в рекомендации для принятия [4].

итрчкицк

v.i-ih

¿□тчпкг!

^^^ AjAmm — yi ч

А \

©Х1л L>

/ К Microsoft "Лтв*--**

/ \ vtw

___ P44W4H X / |

\

- ---i F сачияу

Рис.3 Реализация графа знаний

Согласно данным на 1 июня 2014 года Satori нанес на карту более 400 миллионов городов, а граф знаний достиг полмиллиарда. Граф знаний в основном расширяет возможности поиска Google, позволяя устранять неоднозначность поисковых запросов, обеспечивая обобщение ключевых фактов в журнале поиска и предлагая возможности для расширенного поиска. Satori, с другой стороны, акцентирует внимание на популярных поисках майнинга «активных объектов», которые являются «набором динамических действий, которые могут быть назначены в качестве свойств для определенных типов объектов». Satori - это базовая технология сохранения данных системы Bing, которая предназначена для глубокого понимания мира не только как совокупности сущностей (людей, места и вещей), но также и отношений между этими сущностями.

Алиса (рис. 5)

Алиса базируется на технологии, именуемой SpeechKit. SpeechKit представляет собой клиентскую библиотеку, через которую звук поступает на сервер, обрабатывается и возвращается в интерфейс Алисы в виде текста и звука.

При анализе речевого потока используется одна общая языковая модель и тематические модели поменьше в зависимости от области применения. Эти модели классифицируют пользовательский ввод и выбирают наилучшие варинаты для перевода голоса в текст. После этого запрос передается Алисе, и она пытается понять, к какой категории он принадлежит. Данный блок называется классификатором интентов, или «намерений» [7].

Рис. 5. Пример работы голосового помощника Алиса на ПК

Запрос разбивается на токены, представляющие собой либо отдельные слова, либо какие-то пунктуационные знаки, например, арифметические операции или дефисы, как показано на рис. 6. Далее для токенов применяется эмбеддинги, обученные на больших данных. Одним из самых простых методов эмбеддинга слов является метод контекстных векторов. Данный метод основан на следующем алгоритме: для данного текстового корпуса составляется словарь, из которого каким-то способом выбирается п слов. Например, самых часто встречающихся. Затем вычисляется, сколько раз каждое слово из словаря встречается в контексте выбранных п слов, таким образом получается вектор

Рис. 6 Пример разбиения входной строки на токкены

Для идентификации принадлежности запроса к определенному интенту используется метод ближайших соседей. Преимуществом данного метода является гибкость на большом наборе данных.

В случае, если запрос не подошел ни под один из сценариев система сама решает какой подобрать ответ. Данная задача реализуется одним из двух подходов: генеративным, когда ответ создается посимвольно или собирается из небольших кусочков слов или фраз, и ранжирующим, когда есть какой-то набор ответов-кандидатов и выбирается из него наиболее подходящий.

Библиографический список:

1. Alexandre Gonfalonieri. How Amazon Alexa works? Your guide to Natural Language Processing (AI) [Электронный ресурс]. Medium, 2018. URL: https://towardsdatascience.com/how-amazon-alexa-works-your-guide-to-natural-language-processing-ai-7506004709d3 (дата обращения: 10.10.2019).

2. Hari Parthasarathi. New Speech Recognition Experiments Demonstrate How Machine Learning Can Scale [Электронный ресурс]. Alexa Blogs, 2019. URL: https://developer.amazon.com/blogs/alexa/post/9e8392c6-5476-4a34-a2d8-c4e47 9677954/new-speech-recognition-experiments-demonstrate-how-machine-learning-can-scale (дата обращения: 10.10.2019).

3. Margaret Rouse. Voice assistant [Электронный ресурс]. // Whatls.com, 2017. URL: https://whatis.techtarget.com/definition/voice-assistant (дата обращения: 12.10.2019).

4. Mobile Computing and Wireless Networks: Concepts, Methodologies, Tools, and Applications. Contemporary research in information science and technology. IGI Global, 2015, DOI: 10.4018/978-1-4666-8751-6.

5. Белов Ю.С., Либеров Р.В. Подходы и проблемы распознавания личности по голосу // Электронный журнал: наука, техника и образование. 2015. № 3 (3). С. 68-77.

6. Гришунов С.С., Белов Ю.С., Молчанов А.Н., Бурмистров А.В. Интеллектуальная модель программного комплекса верификации пользователей по голосу // Вопросы радиоэлектроники. 2017. № 6. С. 70 -74.

7. Молотилин Т., Ивтушок Е. Алиса, скажи что-нибудь. Как устроена голосовая помощница Яндекса и чему ей еще предстоит научиться [Электронный ресурс]. Научный журнал N+1, 2018. URL: https://nplus1.ru/material/2018/02/27/yandex-alice (дата обращения: 15.10.2019).

УДК 821.111 Филологические науки

Вишнякова А. В., доцент кафедры «Лингводидактика и зарубежная филология» Севастопольский государственный университет, Россия, г.Севастополь

КОНЦЕПТ HUMILIATION В ТВОРЧЕСТВЕ МАРТИНА ЭМИСА

Аннотация: в статье рассматривается репрезентация концепта HUMILIATION в творчестве Мартина Эмиса. Данный концепт представлен как

i Надоели баннеры? Вы всегда можете отключить рекламу.