УДК 004.021
DOI: 10.24412/2071-6168-2024-10-346-347
ОПРЕДЕЛЕНИЕ УРОВНЯ УДОВЛЕТВОРЕННОСТИ КЛИЕНТА В CALL-ЦЕНТРАХ
П.А. Рудакова, Т.А. Семенов, А.А. Сычугов, В.В. Котов
В статье особое внимание уделено формализации задачи оценки удовлетворённости клиентов, анализе различных подходов к её решению с использованием машинного обучения и речевой аналитики, а также их применимости. Целью данной статьи является исследование и оценка потенциала использования современных технологий машинного обучения и анализа эмоций в речи для определения уровня удовлетворенности клиентов call-центров. Заключительная часть статьи посвящена выбору наиболее подходящего метода, построению модели и её применению на наборе данных для демонстрации эффективности предложенного подхода. В результате выявлено, что модели продемонстрировали хорошую способность к распознаванию эмоциональной окраски и адекватному предсказанию уровня удовлетворенности клиентов. Авторами был сделан вывод, что интеграция анализа эмоций и сен-тимента позволяет более точно оценивать восприятие услуг клиентами.
Ключевые слова: нейросетевые технологии, удовлетворенность клиентов, сверточные нейронные сети, мел-кепстральные коэффициенты, технологии распознавания речи, полносвязная нейронная сеть.
На рубеже тысячелетий произошло становление и последующее закрепление в качестве доминирующего подхода в теории и практике маркетинговой деятельности концепции маркетинга взаимоотношений. Ее ключевая идея заключается в рассмотрении партнерских взаимодействий в качестве наиболее ценного актива для компаний, ведушдх свою деятельность в современных условиях, характеризующихся высоким уровнем конкуренции и постоянно нарастающей турбулентностью [1].
Основное общение с клиентами в современном мире осуществляется посредством телефона через операторов call-центра. Контактный центр - это централизованный отдел, в который направляются телефонные звонки от текущих и потенциальных клиентов. Такие центры могут располагаться либо внутри компании, либо переданы на аутсорсинг другой компании, которая специализируется на этом. Центр обработки входящих вызовов одновременно обрабатывает значительный объем вызовов, просматривает и перенаправляет вызовы кому-либо, имеющему на это право, и регистрирует вызовы. Интерактивная система голосового ответа (IVR) отвечает на вызовы и использует технологию распознавания речи, чтобы либо отвечать на запросы клиентов с помощью автоматического сообщения, либо направлять вызовы соответствующим операторам или получателям центра обработки вызовов через автоматического распределителя вызовов [2].
В современной бизнес-среде, где конкуренция за клиента становится всё острее, качество обслуживания клиентов в call-центрах играет решающую роль в создании положительного имиджа компании и укреплении её позиций на рынке. Эффективность взаимодействия с клиентами напрямую влияет на их удовлетворённость и лояльность, что, в свою очередь, стимулирует повторные обращения и рекомендации их услуг другим. В этом контексте, возможность точно и оперативно оценивать удовлетворенность клиентов является не просто желательной, но и необходимой задачей для любого предприятия, стремящегося к успеху.
С развитием технологий машинного обучения и речевой аналитики открываются новые возможности для автоматизации и усиления процессов мониторинга и управления клиентским опытом [3]. Машинное обучение и речевая аналитика позволяют не только эффективно обрабатывать большие объемы информации, но и выявлять скрытые закономерности в речевом поведении клиентов, что может служить надежным индикатором их удовлетворенности услугами. Это особенно важно в условиях, когда традиционные методы опросов и анкетирования могут быть недостаточно быстры или точны, или, когда они могут быть навязчивыми и вызывать отторжение у клиентов. Основной целью реализации сервиса является обработка аудиофайла для выявления нежелательного контента как со стороны клиента, так и со стороны сотрудника центра обработки звонков. Список эмоций может быть крайне большим, начиная от легкой симпатии и заканчивая явным презрением. Однако, для облегчения решения задачи они были обобщены в три группы: положительные, негативные, нейтральные. Так как даже при виде человека в живую, очень сложно определить каждую даже опытным специалистам [4].
Цель данной статьи - исследовать и оценить потенциал применения современных технологий машинного обучения и анализа эмоций в речи для определения уровня удовлетворенности клиентов call-центров. Основное внимание уделено тому, как данные технологии могут интегрироваться в существующие системы обслуживания клиентов, и какие преимущества это может принести для бизнеса.
Для формализации задачи оценки удовлетворенности клиентов в call-центрах посредством анализа речи необходимо определить ключевые переменные и параметры, влияющие на итоговую оценку. Удовлетворенность клиента не ограничивается только содержанием разговора; она также включает эмоциональную окраску и способ представления информации.
Определим ключевые переменные:
1. Эмоциональная окраска речи (E). Включает анализ спектра эмоциональных состояний, таких как радость, гнев, грусть, страх, удивление и нейтральность. Эмоциональная окраска может быть измерена через различные акустические признаки, включая интонацию, темп речи и громкость [5].
2. Сентимент речи (С). Анализ сентимента текстов разговоров направлен на выявление эмоциональной окраски высказываний клиентов, определение их настроения и эмоциональных реакций, таких как недовольство, удовлетворение или нейтральное отношение к продуктам или услугам [6].
Для количественной оценки удовлетворенности вводится переменная S, представляющая уровень удовлетворенности клиента. Эта переменная вычисляется как функция от параметров речи:
5 = f(E,С),
где E - эмоциональная окраска, измеренная по акустическим признакам, C - эмоциональная окраска, измеренная на основе анализа текста речи, отражающая сентимент высказываний.
Функция / может быть определена с использованием методов машинного обучения, где входными данными являются извлеченные характеристики речи, а выходом - оценка удовлетворенности клиента.
Задача состоит в разработке и обучении модели, способной интерпретировать речевые данные и преобразовывать их в метрики, коррелирующие с удовлетворенностью клиента. Для достижения этой цели необходимо выполнить следующие шаги:
1. Определение и формализация переменных. Точное определение переменных Е и С.
2. Разработка функции оценки удовлетворенности. Создание модели /(Е,С), которая будет использовать обработанные данные для вычисления уровня удовлетворенности клиентов.
3. Сбор и подготовка данных. Агрегация аудиозаписей и транскрипций разговоров, а также соответствующих оценок удовлетворенности, полученных от клиентов.
4. Обучение и валидация модели. Применение методов машинного обучения для обучения модели на основе собранных данных и последующая оценка её эффективности на тестовом наборе данных.
5. Анализ результатов и оптимизация. Оценка точности, полноты и других метрик качества модели с целью её дальнейшей оптимизации на основе полученных результатов.
Разработка такой модели позволит автоматизировать процесс оценки удовлетворенности клиентов, что в свою очередь улучшит качество обслуживания и повысит эффективность работы саИ-центров.
Для извлечения переменной эмоциональной окраски речи (Е), определенной в рамках нашей задачи, мы применяем методы обработки аудиосигналов с использованием сверточных нейронных сетей (СНС). Эмоциональная окраска речи — это комплексный параметр, который может быть в достаточной степени точно определён с помощью модели СНС, классифицирующей эмоции. Сверточные нейронные сети широко используются не только в задачах компьютерного зрения и анализа изображений, но и активно внедряются в область обработки аудиосигналов. Их основное преимущество в контексте речевой аналитики заключается в способности автоматически извлекать значимые признаки из входных данных без необходимости ручного указания этих признаков [7-9].
Все современные системы распознавания речи имеют схожую архитектуру [10] (рис.).
Структура систем распознавания речи
Основным методом получения признаков для дальнейшего распознавания речи является метод выделения мел-кепстральных коэффициентов (Mel Frequency Cepstral Coefficients, MFCC), которые позволяют более точно моделировать восприятие человеком звуковых частот [11]. Мел-кепстральные коэффиценты (MFCC) - это набор признаков, которые эффективно описывают форму звукового спектра, базируясь на восприятии звуков человеческим ухом. MFCC являются одним из наиболее эффективных методов получения признаков для дальнейшего распознавания речи. Они позволяют выделить кепстральные признаки, отражающие особенности фильтра речевого тракта, что значительно повышает точность распознавания, особенно в дикторонезависимых системах [12]. MFCC учитывают нелинейную частотную шкалу, основанную на мел-шкале, которая соответствует воспринимаемой человеком высоте звука.
Сверточные нейронные сети демонстрируют высокую эффективность в задачах определения эмоционального состояния говорящего [13,14]. В контексте анализа речи, сверточные сети обычно работают со спектрограммами и мел-кепстральными коэффициентами или спектрограммами, которые представляют собой визуальное изображение частотного спектра звука во времени. В технологиях распознавания речи человека спектрограммы являются перспективным источником данных для анализа формантного состава звуков речи с помощью нейронных сетей. Они визуализируют динамическое изменение интенсивности частотных составляющих сигнала. Ввиду того, что звук и, в частности, речевые сообщения, остается наиболее естественной формой обмена информацией, данное направление востребовано в различных технологиях, связанных с обработкой звуковых данных [15,16]. Сверточные слои автоматически определяют и выделяют значимые паттерны в этих данных, что может включать особенности дикции, интонации или эмоциональной окраски речи [17].
Математически операцию свертки можно представить как:
S(i,j) = (l х K)(i,j) = ZmZ„/(m,n)K(i - m, j - n) где I — это входное изображение спектрограммы, K — ядро свертки, а S(i,j) — сгенерированные свойства или признаки.
После операции свертки в сверточных нейронных сетях (СНС) обычно следует применение функции активации, такой как ReLU (Rectified Linear Unit), которая добавляет нелинейность в обработку данных, необходимую для эффективного обучения сложных задач. Это шаг критичен, поскольку он помогает модели лучше различать разные типы сигналов и паттернов в данных. После функции активации обычно следует операция пулинга, которая уменьшает размерность выходных данных из сверточных слоев, сохраняя при этом важные признаки. Пулинг улучшает устойчивость модели к небольшим изменениям и смещениям во входных данных, а также помогает уменьшить количество параметров и вычислительную сложность модели [18].
В контексте анализа речи и звуков мел-кепстральные коэффициенты и спектрограммы являются двумя распространенными типами входных данных для сверточных нейронных сетей. Они отражают мел-шкалу частот, которая мимикрирует чувствительность человеческого уха к различным тонам. Обычно MFCC используются в зада-
чах распознавания речи и идентификации говорящего, поскольку они эффективно кодируют тембральные характеристики звука [19].
Чтобы формализовать процесс классификации эмоций на основе акустических признаков и корректно интегрировать его с другими компонентами модели, определим математическое представление параметра E, отражающего эмоциональную окраску речи. Эта модель анализирует различные акустические характеристики голоса и выдает вектор вероятностей принадлежности аудиосигнала к одному из классов эмоций: "Нейтрально", "Спокойно", "Радостно", "Грустно", "Злость", "Испуг", "Отвращение", "Удивление". Математически можно описать в виде вектора акустических признаков, извлекаемых из аудио сигнала:
Е = [ei, б2.....е8],
где каждый элемент е; вектора представляет собой вещественную вероятностную меру эмоциональной окраски речи со значением от 0 до 1.
Для оценки удовлетворённости клиента на основе анализа эмоциональности содержания его речи, аудиозапись сначала должна быть преобразована в текст с помощью технологии распознавания речи (Speech-to-Text, STT). Этот процесс позволяет получить текстовую расшифровку разговора, которая затем анализируется на предмет сен-тимента.
Оценка сентимента текста — это задача классификации текста, при которой определяется эмоциональный тон текста, например, как положительный, нейтральный или отрицательный. В отличие от методов, использующих сверточные нейронные сети для анализа эмоций на основе визуальных или акустических признаков, анализ сенти-мента сосредоточен исключительно на тексте, работая с его лексической и грамматической структурой. Для решения этой задачи применяются различные методы машинного обучения и обработки естественного языка [20]:
1. Лексиконные подходы. Используют предварительно составленные списки слов с заранее заданными тональностями (например, словари AFINN, SentiWordNet). Эти методы оценивают сентимент текста на основе количества положительных и отрицательных слов.
2. Машинное обучение. Методы машинного обучения, такие как наивный байесовский классификатор, метод опорных векторов (SVM) и нейронные сети, обучаются на наборах данных, содержащих тексты с заранее размеченным сентиментом. Эти модели учатся определять сентимент на основе признаков текста.
3. Глубокое обучение. Современные модели, основанные на нейронных сетях, такие как LSTM (Long Short-Term Memory) и трансформеры (например, BERT - Bidirectional Encoder Representations from Transformers), эффективно работают с контекстуальными зависимостями в тексте и могут выдавать более точные результаты оценки сентимента.
В контексте нашего исследования параметр C, представляющий сентимент текста, математически описывается как вектор вероятностей, полученный из модели анализа сентимента. Этот вектор отражает вероятности принадлежности текста к определённым эмоциональным категориям, таким как положительный, нейтральный или отрицательный:
С = [Ci, сг, Сз] ,
где с1, с2, с3 представляют вероятности того, что текст выражает положительный, нейтральный и отрицательный сентименты соответственно.
Таким образом процесс извлечения параметра C выглядит следующим образ:
1. Анализ сентимента. Используя модель глубокого обучения, такую как LSTM или BERT, текстовая транскрипция обрабатывается для классификации сентимента. Модель вычисляет вероятности принадлежности текста к каждой из эмоциональных категорий.
2. Преобразование вывода модели. Выход модели, представляющий собой вероятности для каждой категории сентимента, преобразуется в вектор C, который используется далее для анализа удовлетворенности клиента.
Для проверки точности и надежности модели анализа сентимента, она должна быть обучена на большом корпусе текстов с заранее размеченными эмоциональными категориями. Валидация происходит путем тестирования модели на независимой выборке данных, что позволяет оценить, насколько точно модель определяет сентимент текста.
В рамках нашего исследования функцияf, предназначенная для оценки удовлетворённости клиентов, может быть определена как полносвязная нейронная сеть (FCNN). Эта модель позволяет комплексно анализировать и интегрировать информацию из различных входных данных, в данном случае из переменных E (эмоциональная окраска речи) и C (оценка сентимента текста).
Полносвязная нейронная сеть состоит из нескольких слоёв, каждый из которых связан со всеми нейронами предыдущего слоя. Это создаёт плотную сеть связей, где информация обрабатывается последовательно через каждый слой:
f(x) = a(Wn х(... а(Шг х a(Wx х х + bi) + ^)...) + Ьп),
где x - входной вектор, состоящий из объединённых переменных E и C; Wt и bt- веса и смещения г'-го слоя сети; а -функция активации, такая как ReLU или сигмоид, которая применяется после каждого линейного преобразования.
Процесс обучения полносвязной нейронной сети начинается с подготовки данных, которая включает нормализацию входных данных для улучшения сходимости обучения. Далее, набор данных разделяется на тренировочные, валидационные и тестовые подмножества. В процессе обучения сети используются алгоритмы оптимизации, такие как стохастический градиентный спуск или Adam, для минимизации ошибки между предсказаниями сети и реальными данными удовлетворенности клиентов.
Для обучения и оценки моделей были использованы комбинированные датасеты, включающие:
1. Эмоциональные аудиокорпусы:
• Emo-DB: Немецкий эмоциональный речевой корпус, содержащий 535 аудиозаписей с семью эмоциональными состояниями: гнев, скука, отвращение, страх, радость, грусть и нейтральность.
• IEMOCAP: Многофункциональный датасет, состоящий из приблизительно 12 часов аудиовизуальных данных на английском языке, аннотированных по эмоциональным меткам.
2. Реальные аудиозаписи звонков:
• Аудиозаписи звонков были отобраны вручную из открытых источников и размечены аннотациями по уровню удовлетворенности клиентов.
Анализ данных
1. Распределение эмоций. В объединенном датасете представлено шесть основных эмоциональных состояний. Распределение по эмоциям было следующим: нейтральность (40%), радость (15%), грусть (15%), гнев (10%), страх (10%), отвращение (10%).
2. Распределение уровней удовлетворенности. Уровни удовлетворенности клиентов распределились следующим образом:
1 - крайне не удовлетворен (10%),
2 - не удовлетворен (15%),
3 - нейтрально (30%),
4 - удовлетворен (25%),
5 - полностью удовлетворен (20%).
Предобработка данных
1. Аудиоданные. Проведена очистка и нормализация аудиоданных: применены фильтрации высоких и низких частот для удаления шумов и артефактов, выравнены уровни громкости записей для обеспечения конси-стентности данных.
Извлечены признаки:
• MFCC: вычислены 13 мел-кепстральных коэффициентов для каждого аудиофрейма с окном 25 миллисекунд и шагом 10 миллисекунд.
• Дельта-коэффициенты: Вычисление первых и вторых производных MFCC для учета динамики изменения признаков.
2. Текстовые данные.
• Распознавание речи. Аудиозаписи преобразованы в текст с помощью автоматических систем распознавания речи (ASR).
• Очистка текста. Удалена пунктуация, стоп-слова, текст приведен к нижнему регистру.
• Лемматизация и стемминг. Слова приведены к базовым формам для уменьшения размерности и улучшения качества векторизации.
• Векторизация. TF-IDF: тексты преобразованы в векторы признаков с использованием метода TF-IDF. Эмбеддинги слов: использованы предобученные модели Word2Vec или GloVe для представления слов в виде векторов в высокомерном пространстве.
Модели машинного обучения
1. Классификация эмоциональной окраски речи: Сверточная нейронная сеть (СНС).
• Архитектура: Три сверточных слоя с фильтрами размеров 32, 64 и 128, каждый из которых сопровождается слоем подвыборки (Pooling). Затем следуют два полносвязных слоя с 256 и 64 нейронами и выходной слой с функцией softmax.
• Гиперпараметры: Использована функция активации ReLU, пакетная нормализация и Dropout с вероятностью 0,5 для предотвращения переобучения.
• Обучение: Оптимизатор Adam с начальной скоростью обучения 0,001 и функцией потерь Cross-Entropy.
2.Анализ сентимента текста: Модель BERT.
• Настройка: Использована предобученная модель BERT-base с дополнительным слоем классификации.
• Тонкая настройка (Fine-tuning): Модель дообучалась на нашем датасете с использованием небольшого коэффициента обучения (2e-5) и метода ранней остановки для предотвращения переобучения.
3. Оценка уровня удовлетворенности клиентов: Полносвязная нейронная сеть (FCNN).
• Входные данные: Объединенные признаки из аудио (эмоциональные признаки) и текста (результаты сентимент-анализа).
• Архитектура: Три скрытых слоя с 128, 64 и 32 нейронами соответственно, с функцией активации ReLU.
• Выходной слой: Один нейрон с линейной активацией для предсказания уровня удовлетворенности.
• Обучение: Функция потерь MSE, оптимизатор Adam, скорость обучения 0,0001.
Процесс обучения и валидации
1. Разделение данных. Датасет был разделен на тренировочную (70%), валидационную (15%) и тестовую (15%) выборки с соблюдением равномерного распределения по классам.
2. Метрики оценки.
• Для классификации эмоций и сентимента: Точность (Accuracy), полнота (Recall), точность (Precision), Fl-мера (F1-score).
• Для регрессии уровня удовлетворенности: Среднеквадратическая ошибка (MSE), коэффициент детерминации (R2).
Результаты
1. Классификация эмоциональной окраски речи:
• Точность на тестовой выборке: 82%.
• Fl-мера: Средневзвешенное значение 0,81.
• Матрица ошибок: Наиболее частые ошибки наблюдались при различении эмоций «страх» и «грусть».
2. Анализ сентимента текста:
• Точность на тестовой выборке: 85%.
• Fl-мера: 0,84.
• Замечания: Модель BERT эффективно справилась с пониманием контекста и тональности высказываний.
3. Оценка уровня удовлетворенности клиентов:
• Среднеквадратическая ошибка (MSE): 0,12 на тестовой выборке.
• Коэффициент детерминации (R2): 0,88, что указывает на высокую степень объяснения дисперсии данных моделью.
• Сравнение с базовой моделью: Простая линейная регрессия показала MSE 0,25 и R2 0,65, что подтверждает преимущество предлагаемой модели.
Анализ полученных результатов
Классификация эмоциональной окраски речи. Модель СНС продемонстрировала высокую эффективность в распознавании эмоциональных состояний по аудиоданным. Точность 82% сопоставима с результатами современных исследований в области обработки речи. Однако ошибки в различении похожих эмоций, таких как «страх» и «грусть», указывают на необходимость улучшения модели, возможно, через увеличение объема данных или применение более сложных архитектур.
Анализ сентимента текста. Использование модели BERT позволило достичь высокой точности в анализе тональности текстовых данных. Это подчеркивает эффективность трансформерных моделей в задачах обработки естественного языка, особенно в понимании контекстуальных нюансов и скрытых смыслов.
Оценка уровня удовлетворенности клиентов. Интеграция аудио- и текстовых признаков в полносвязной нейронной сети привела к значительному улучшению точности предсказания уровня удовлетворенности клиентов. MSE 0,12 и высокий R2 свидетельствуют о том, что модель успешно улавливает сложные зависимости между эмоциональным состоянием клиента, содержанием разговора и его удовлетворенностью.
Комбинирование аудио- и текстовых данных оказалось эффективным для более точной оценки удовлетворенности клиентов. Этот мультимодальный подход учитывает как эмоциональные, так и содержательные аспекты взаимодействия.
Высокое качество аннотаций и балансировка классов в датасете способствовали достижению высоких показателей точности. Тем не менее, ограниченный объем реальных звонков может влиять на обобщающую способность модели.
Однако выделяются следующие ограничения:
1.Языковые различия. Использование датасетов на разных языках может создавать дополнительные сложности и требует адаптации моделей к конкретному языку.
2.Шум и артефакты. Несмотря на предпринятые меры по очистке данных, остаточные шумы могут негативно влиять на точность моделей, особенно в реальных условиях колл-центров.
Возможные пути улучшения.
1. Расширение датасета:
• Сбор большего объема реальных данных. Увеличение количества размеченных аудиозаписей реальных звонков позволит модели лучше обобщать и повышать ее применимость в практике.
• Многоязычные данные. Интеграция данных на разных языках и адаптация моделей для многоязычной
обработки.
2. Улучшение моделей:
• Модели с механизмом внимания. Внедрение архитектур с механизмами внимания (Attention) для лучшего учета контекстуальных зависимостей в данных.
• Мультимодальные трансформеры. Использование моделей, способных одновременно обрабатывать аудио- и текстовые данные, таких как SpeechBERT или модифицированные версии существующих трансформеров.
3. Тонкая настройка гиперпараметров:
• Автоматизированный поиск. Применение методов байесовской оптимизации или гипероптимизации с помощью библиотек вроде Hyperopt для поиска оптимальных значений гиперпараметров.
4. Аугментация данных:
• Техники увеличения данных. Применение методов аугментации аудио (например, добавление искусственного шума, изменение высоты тона) и текстовых данных (перефразирование, синонимизация) для повышения устойчивости модели.
5. Учёт дополнительных факторов:
• Метаданные звонков. Включение в модель информации о длительности звонка, времени суток, исторических данных о клиенте.
• Анализ речи оператора. Оценка влияния поведения и речи оператора на удовлетворенность клиента.
Проведенное исследование подтвердило эффективность использования современных методов машинного
обучения и глубоких нейронных сетей для оценки удовлетворенности клиентов на основе анализа речи в колл-центрах. Мультимодальный подход, объединяющий аудио- и текстовые данные, позволяет получить более точные и надежные результаты, что имеет непосредственное практическое применение для улучшения качества обслуживания и повышения лояльности клиентов.
Дальнейшие исследования могут быть направлены на преодоление выявленных ограничений, расширение объема и качества данных, а также на внедрение более продвинутых моделей, учитывающих сложные контекстуальные и эмоциональные зависимости в коммуникации между клиентом и оператором.
Список литературы
1. Лисин Н. В., Агеносов А. В., Пьянзина Е. П., Хмелькова Н. В. Совершенствование маркетинговых взаимодействий компании на основе технологий распознавания речи // Вестник Гуманитарного университета. 2022. 2(37). С. 24 - 30. DOI 10.35853/vestnik.gu. 2022.2(37).02.
2. Седойкина А.А. Перспективы внедрения системы искусственного интеллекта для повышения эффективности бизнес-процессов в call-центре // Human Progress. 2020. № 6 (2). С. 7. DOI 10.34709/IM.162.7
3. Старостин В. С. Трансформация маркетинговых технологий в эпоху машинного интеллекта // Вестник ГУУ, 2018. №1. С. 28 - 34.
4. Никифоров А.А. Разработка модуля распознавания эмоций разговора колл-центра с использованием рекуррентных искусственных нейронных сетей, для выявления нежелательного контента // Вестник науки. 2023. № 7 (64). С. 226 - 232.
5. Сергунов Д.И., Артемова А.А., Гришунов С.С. Система распознавания эмоций по голосу на основе сверточной нейронной сети // E-Scio. 2019. № 7(34). С. 67 - 72.
6. Юрганов А.А. Сентимент-анализ как инструмент исследования текстов // Проблемы Науки. 2017. № 29 (111). С. 39 - 41.
7. Ververidis D., Kotropoulos C. Emotional speech recognition: Resources, features, and method // Speech Communication. 2006. № 48 (9). P. 1162-1181.
8. Бредихин А. И. Алгоритмы обучения сверточных нейронных сетей // Вестник ЮГУ. 2019. № 1 (52). С.
41-54.
9. Nassif A. B., Shahin I., Attili I., Azzeh M., Shaalan K. Speech recognition using deep neural networks: a systematic review // IEEE Access. 2019. № 7. Pp. 19143 - 19165. D01:10.1109/access.2019.2896880
10. Huang X., Acero A. Spoken language processing: a guide to theory, algorithm, and system development. Prentice Hall, 2001. 1008 p.
11. Тампель И. Б. Автоматическое распознавание речи - основные этапы за 50 лет // Научно-технический вестник информационных технологий, механики и оптики. 2015. № 15(6). С. 957 - 968.
12. Алексеев И. В., Митрохин М. А. Современные методы распознавания речи для построения голосового интерфейса управления системами специального назначения // Известия вузов. Поволжский регион. Технические науки. 2019. № 2 (50). С. 3 - 10.
13. Sapakova B. S., Sarsembayev A. A. Overview of Emotion Classification Methods Using Deep Learning for Audio Data // Science and Business: Ways of Development. 2023. № 5(143). Pp. 41-47.
14. Ливингстон С.Р. RAVDESS - датасет для распознавания эмоций по записи голоса // PLOS ONE. 2018. № 1 / 35. 10.1371/journal.pone.0196391.
15. Болдышев А.В., Медведева А.А., Прохоренко Е.И., Гайворонская Д.И. Построение спектрограмм звуковых сигналов на основе субполосных представлений // Экономика. Информатика. 2024. № 51(1). С. 250 - 260. DOI 10.52575/2687-0932-2024-51 -1-250-260
16. Столбов М. Б., Иванов В. Л. Анализ и модели речевых сигналов. СПб.: НИУ ИТМО. 2024. 97 с.
17. Горбунова Е.С. Методы проектирования искусственных интеллектуальных систем распознавания эмоций на основе нейросетей // Теория и практика современной науки. 2016. № 11. С. 221 - 226.
18. Leran Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. № 86(11). Pp. 2278-2324.
19. Аксёнов О. Д. Метод мел-частотных кепстральных коэффициентов в задаче распознавания речи // Электронные системы и технологии: 55-я юбилейная конференция аспирантов, магистрантов и студентов, Минск, 22-26 апреля 2019 г.: сборник тезисов докладов. Белорусский государственный университет информатики и радиоэлектроники. Минск. 2019. С. 45 - 46.
20. Ермаков С. А., Ермакова Л. М. Методы оценки эмоциональной окраски текста // Вестник Пермского университета. Серия: Математика. Механика. Информатика, 2012. № 1. С. 85 - 90.
Рудакова Полина Андреевна, аспирант, [email protected], Россия, Тула, Тульский государственный университет,
Семенов Тимофей Александрович, студент, [email protected], Россия, Тула, Тульский государственный университет,
Сычугов Алексей Алексеевич, д-р техн. наук, директор института прикладной математики и компьютерных наук, xru2003@list. ru, Россия, Тула, Тульский государственный университет,
Котов Владислав Викторович, д-р техн. наук, профессор, [email protected], Россия, Тула, Тульский государственный университет
DETERMINING THE LEVEL OF CUSTOMER SATISFACTION BASED ON MACHINE LEARNING IN CALL-CENTERS
P.A. Rudakova, T.A. Semenov, A.A. Sychugov, V. V. Kotov
The article pays special attention to the formalization of the problem of assessing customer satisfaction, analysis of various approaches to solving it using machine learning and speech analytics, as well as their applicability. The purpose of this article is to study and evaluate the potential of using modern technologies of machine learning and emotion analysis in speech to determine the level of customer satisfaction in call centers. It is emphasized that the task of analyzing the emotional coloring and content of speech includes the development and training of a model that can interpret speech data and convert them into metrics that correlate with customer satisfaction. To train the model, we used a dataset made up of various conversation recordings and corresponding text transcriptions. The final part of the article is devoted to choosing the most suitable method, building a model and its application on a data set to demonstrate the effectiveness of the proposed approach. As a result, it was revealed that the models demonstrated a good ability to recognize emotional coloring and adequately predict the level of customer satisfaction. The authors concluded that the integration of emotion and sentiment analysis allows for a more accurate assessment of customer perceptions of services.
Key words: machine learning technology, customer satisfaction, convolutional neural networks, mel-cepstral coefficients, speech recognition technologies, fully connected neural network.
Rudakova Polina Andreevna, postgraduate, [email protected], Russia, Tula, Tula State University,
Semenov Timofey Alexandrovich, student, semenov. timofeisemyonov@yandex. ru, Russia, Tula, Tula State
University,
Sychugov Alexey Alexeevich, doctor of technical sciences, director of the institute of applied mathematics and computer science, [email protected], Russia, Tula, Tula State University,
Kotov Vladislav Viktorovich, doctor of technical sciences, professor, [email protected]. Russia, Tula, Tula State
University
УДК 004.021
Б01: 10.24412/2071-6168-2024-10-352-353
МОДЕЛИ И МЕТОДЫ АНАЛИЗА ПОГОДНЫХ ИЗМЕНЕНИЙ ПОД ВОЗДЕЙСТВИЕМ ОКРУЖАЮЩИХ
ФАКТОРОВ
Ю.А. Леонов, Р.А. Филиппов, Г.В. Царева, А.А. Курдин
В данной статье рассматриваются модели и методы анализа погодных изменений под воздействием окружающих факторов. Прогнозирование погоды начинается с наблюдения за текущим состоянием атмосферы и знания основных погодных параметров, таких как температура, давление, влажность, ветер, осадки и так далее. Для их измерения используются метеостанции, которые могут быть как обслуживаемыми, так и полностью автоматизированными. Прогнозирование погоды является наиболее развитой областью метеорологии. Выделяют три основных метода прогнозирования: синоптический, численный и статистический. Цель данной статьи заключается в исследовании моделей и методов анализа погодных изменений, под воздействием окружающими факторами.
Ключевые слова: прогноз погоды, атмосферные параметры, метеостанции, синоптическое прогнозирование, численные методы, статистическое прогнозирование, автоматизированные системы.
Введение. В современных условиях прогнозирование погоды остается сложным и актуальным вызовом для научного сообщества и общества в целом. Несмотря на наличие обширных данных от метеостанций и разнообразных методов прогнозирования, точность прогнозов под воздействием окружающих факторов остается недостаточной. Проблема заключается не только в повышении точности прогнозов, но и в эффективном анализе погодных изменений с учетом сложных взаимосвязей между различными атмосферными параметрами.
Одним из ключевых аспектов является ограниченное количество метеостанций в различных регионах и их неравномерное распределение. Это влияет на точность и полноту данных, что приводит к ограничениям в предсказании погоды в некоторых областях. Кроме того, существующие методы прогнозирования могут быть недостаточно адаптированы к сложным изменениям в атмосфере, вызванным внешними воздействиями.
Проблема также заключается в необходимости более эффективного использования современных технологий, включая методы машинного обучения, для анализа обширных объемов данных и повышения точности прогнозов. В среднем, точность прогноза для краткосрочных периодов (несколько дней вперед) может достигать 90% и выше. Однако для долгосрочных прогнозов точность может снижаться, особенно при попытке предсказания погодных изменений на более длительные периоды. Недостаток систем, способных в реальном времени адаптироваться к динамике погоды и учитывать окружающие факторы, представляет собой значительное ограничение в сфере прогнозирования погоды.
Таким образом, проблемой, требующей внимания и решения, является не только улучшение методов прогнозирования, но и разработка современных систем, способных более эффективно анализировать погодные изменения под воздействием окружающих факторов, что потенциально приведет к более точным и адаптивным прогнозам в различных регионах.
Теоретический анализ. Существует три основных подхода к прогнозированию погоды: синоптические, численные и статистические методы. Каждый из них представляет собой уникальный подход к анализу атмосферных процессов и предсказанию будущих изменений. Рассмотрим, в чем заключается их различия, с целью выбора, наиболее подходящего для последующего анализа.
Синоптический метод. Описание: Синоптический метод прогнозирования основан на наблюдении за текущими атмосферными условиями и их интерпретации с использованием синоптических карт [1]. Синоптики анализируют распределение атмосферных параметров, таких как давление, температура, влажность, ветер, и на основе этого делают выводы о будущих изменениях погоды.
Принцип работы: Синоптики используют метеорологические карты, на которых отображаются изобары (линии равного давления) и другие линии, представляющие различные атмосферные параметры. Они ищут паттерны и корреляции между различными элементами карты для предсказания движения циклонов, антициклонов и других атмосферных явлений.
Численный (гидродинамический) метод. Описание: Численный метод прогнозирования основан на математических моделях, описывающих движение атмосферы [2]. Эти модели решают систему уравнений гидродинамики, учитывая множество параметров и начальные условия. Результаты численных вычислений предсказывают состояние атмосферы в будущем.
Принцип работы: Модели численного прогнозирования используют компьютерные алгоритмы для решения уравнений, описывающих физические процессы в атмосфере. Они разбивают атмосферу на трехмерную сетку и обновляют значения параметров на каждом шаге по времени.
Статистический метод. Описание: Статистический метод прогнозирования основан на анализе статистических связей между текущими и прошлыми атмосферными условиями и будущими изменениями погоды [3]. Модели строятся на основе статистических закономерностей, выявленных из исторических данных.
Принцип работы: Статистические модели используют методы регрессии, корреляции и другие статистические методы для анализа данных. Они могут использовать информацию о том, какие атмосферные условия в прошлом приводили к определенным изменениям погоды, чтобы делать предсказания для будущих событий.
После проведенного анализа был выделен синоптический метод прогнозирования, в качестве наилучшего
варианта.