ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2013 Управление, вычислительная техника и информатика № 3(24)
УДК 519.217.2
Т. А. Гультяева, А. А. Попов
КЛАССИФИКАЦИЯ ПОСЛЕДОВАТЕЛЬНОСТЕЙ С ИСПОЛЬЗОВАНИЕМ СКРЫТЫХ МАРКОВСКИХ МОДЕЛЕЙ В УСЛОВИЯХ НЕТОЧНОГО ЗАДАНИЯ ИХ СТРУКТУРЫ
Рассматривается задача классификации последовательностей с использованием методологии скрытых марковских моделей. Классификация проводится как с использованием стандартного подхода, так и с использованием классификатора к ближайших соседей и метода опорных векторов в пространстве признаков, инициированных скрытыми марковскими моделями. Исследовалось поведение классификаторов при ошибках в спецификации структуры марковской модели.
Ключевые слова: скрытые марковские модели, производные от логарифма функции правдоподобия, классификатор к ближайших соседей, метод опорных векторов.
Скрытые марковские модели (СММ) широко используются в задачах моделирования различных процессов, демонстрируя при этом хорошие описательные способности. Построенные на обучающих выборках СММ используются также и для задач классификации. Однако на этих задачах СММ не всегда показывают необходимый уровень дискриминирующих свойств.
В работе в качестве объектов классификации рассматривается множество смоделированных последовательностей, порожденных двумя близкими по своим параметрам СММ. Параметризация СММ проводится в соответствии с выбранной их структурой, под которой будем понимать число скрытых состояний и размер словаря наблюдаемых символов. В реальных ситуациях априорная информация о структуре СММ, как правило, отсутствует. Задача структурной идентификации в этом случае может быть поставлена, но на практике, как правило, она не решается в полном объеме. Рассматривается возможность использования традиционного классификатора на основе СММ, классификатора к ближайших соседей (кЫЫ) и метода опорных векторов (БУМ) в пространстве признаков, инициированных обученными скрытыми марковскими моделями в условиях их структурной неопределенности.
1. Постановка задачи
СММ - это случайный процесс с ненаблюдаемой стационарной марковской цепью. СММ описывается следующими параметрами [1]:
1. Вектор вероятностей начальных состояний
П = {пг} , г = ,
где пг = Р {д1 = г}, д1 - скрытое состояние в начальный момент времени / = 1; N -количество скрытых состояний в модели.
2. Матрица вероятностей переходов
А=К}, i, ■>=1^,
где й- = P {д{ = Дд{_1 = г} , t = 2, T, где T - длина наблюдаемой последовательности.
3. Матрица вероятностей наблюдаемых символов выглядит следующим образом:
в = {ьг (^}, г = ,
где Ьг ^ ) = Р {о(\д( = г}, о( - символ, наблюдаемый в момент времени t = 1, Т .
Рассматривается случай, когда функция распределения вероятностей наблюдаемых символов описывается смесью нормальных распределений
М __ _1 / \2 1^ 2 ___
Ьг ^) = у Ту (Ссту) е~(о _Ц1 )' 1, г = 1, N, t = 1, Т,
1=1
где Ту - это вес 1-й компоненты смеси в г-м скрытом состоянии, г = 1, N , 1 = 1, М, М - это количество смесей. Параметры и ст2 являются соответственно математическим ожиданием и дисперсией 1-й компоненты смеси в г-м скрытом состоянии, г = 1, N, 1 = 1, м .
Таким образом, СММ полностью описывается матрицей вероятностей переходов, а также вероятностями наблюдаемых символов и вероятностями начальных состояний: X = (А, В, п).
В работе рассматривает поведение традиционного классификатора, основанного на отношении логарифмов функций правдоподобия, классификаторов kNN и БУМ в условиях структурной неопределенности СММ. Один из возможных вариантов такой неопределенности заключатся в том, что исследователю точно не известно число скрытых состояний модели.
Метод ближайших соседей основан на оценивании сходства объектов. Классифицируемый объект относится к тому классу, которому принадлежит большинство из его соседей - к ближайших к нему объектов обучающей выборки. Этот классификатор достаточно подробно описан, например в [2].
Основная идея метода опорных векторов - это перевод исходных векторов в пространство более высокой размерности и поиск разделяющей гиперплоскости с максимальным зазором в этом пространстве. Этот классификатор описан в [3].
2. Пространства признаков
В качестве пространств признаков, в которых производится классификация, рассматриваются пространства первых производных от логарифма функции правдоподобия по различным параметрам СММ.
Приведем формулы для вычисления первых производных от логарифма функции правдоподобия по некоему параметру п (более подробно вывод формул приведен в [4-6]):
д 1п Ь (0 |х) = У ГУ (к )_1 дск( дП к=11 t=l
где О = (О1, О2, ..., 0К } , 0к - к-я наблюдаемая последовательность длиной Т, К - количество последовательностей, с'к - параметр масштаба для последовательности 0к. В дальнейшем индекс к будем опускать для удобства.
Учитывая, что ct = ^У<а t (i) J , формула для вычисления производной от параметра масштаба по параметру п имеет вид
dct = _ 2^ да^(i)
5п С г-=1 5п ,
где at (i), t = 1, T, i = 1, N, - так называемая прямая переменная с масштабом [6]. Для вычисления производных
да t (i) да t (i) Sex t (i)
'xy да xy
дЦ
используются следующие формулы: 1 шаг.
x, z = І, Ж , y = І, M,
сйІІП *(1), i = І-Ж;
2 шаг.
дп
да t (i) дп
дп
(j) a,
К j= дП "
f Ж
Л
f Ж
bi(t)+ XaU( j )afl К j=і
сь, (t+1)
дп
где
да' ! (j) дс ! дсхt .(j) ----- --------
t-^J! = ,—і- 6с,—і(;) +—t—^-L ct—І, і = І, Ж , t = І, T - І.
дц дц
Производные
сьі (1) дп
дц
в зависимости от аргумента п имеют вид
(t) = 0. Щ(t)=т ot-ц
дax
xy
дц x
im 2
где 5i
если i = хит = y, 10, иначе;
■(x-y >=!0:
СЬі (t )= Tim e-(ot—Ц/m )2/Xv,X„ g, (x y)
дстXy
xy
3. Результаты
Исследования проводились при следующих условиях. Для моделирования последовательностей была выбрана цепь с N = 4 скрытыми состояниями. Рассматривалась задача двухклассовой классификации с моделями Х1 и Х2, определенными на одинаковых по структуре скрытых марковских цепях и различающимися только в матрицах переходных вероятностей. Параметры моделей будем отличать по их верхнему индексу.
f 0.2 0.5 0.3 0.05 > f 0.2 + dA 0.5 - dA 0.3 0.05
Акі = 0.2 0.25 0.5 0.05 , A^2 = 0.2 0.25 + dA 0.5 - dA 0.05
0.5 0.25 0.2 0.05 0.5 - dA 0.25 0.2 + dA 0.05
.2 О 0.25 0.5 0.05 j 0. 2 0.25 0.5 0.05
Параметры гауссовских распределений для модели ^ и Х2 выбирались одинаковыми для каждой модели. Параметр который можно варьировать в определенных пределах, определял степень близости конкурирующих моделей.
Таким образом, последнее скрытое состояние являлось своего рода шумовым: вероятность перейти в него и остаться в нем очень мала.
Обучающие и тестовые последовательности моделировались по методу Монте-Карло. Для проведения экспериментов было сгенерировано по 5 обучающих наборов последовательностей для каждого класса. К каждому набору этих последовательностей моделировалось по 500 тестовых последовательностей. Результаты классификации усреднялись.
Число скрытых состояний и количество компонент гауссовых смесей при моделировании последовательностей будем обозначать параметрами N и М, а параметры рабочих моделей, используемых при обучении и тестировании, - как N1 и М,.
На рис. 1 - 3 приведены графики, отражающие результаты классификации:
- для kNN в пространстве первых производных от логарифма функции правдоподобия по элементам матрицы переходных вероятностей имеют пунктирную линию;
- для БУМ в этом же пространстве - имеют штриховую линию с короткими штрихами;
- для БУМ в объединенном пространстве (включаются все пространства по различным параметрам модели) - имеют штриховую линию с длинными штрихами;
- графики для традиционного подхода - сплошную линию.
Рис. 1. Зависимость среднего процента верно классифицированных последовательностей от параметра близостей моделей ^ при М = 2 и при
N| = М, = 2 (а); Nl = М, = 3 (б); Nl = М, = 4 (в); Nl = М, = 6 (г)
На рис. 1 приведены зависимости среднего процента верно классифицированных последовательностей от параметра близостей моделей ^ для случая, когда моделирование производилось при N = 4 и М = 2. Для рабочих моделей при обучении и тестировании выбирались различные параметры N1 и М. На рис. 2 и 3 приведены аналогичные зависимости для М = 4 и М = 6 соответственно.
По рис. 1 можно отметить, что уже при Nl = М1 = 3 у БУМ- и М^классифика-торов наблюдаются примерно такие же результаты, как Nl = М1 = 6 , в то время как традиционный классификатор показывает худшие результаты. Аналогичная картина наблюдается и на рис. 2 и 3 при Nl = Мг = 4 . Таким образом, для классификации по производным, по всей видимости, не нужны особо точные оценки, в то время как для традиционного классификатора этот момент является критическим.
%
90
80
70
60
50
%
90
80
70
60
50
(
Рис. 2. Зависимость разности среднего процента верно классифицированных последовательностей от параметра близостей моделей ^ при М = 4 и при
N1 =М1 = 2 (а); N1 =М1 = 3 (б); N1 =М1 = 4 (в); N1 =М1 = 6 (г)
При увеличении параметра ^ заметна общая тенденция к уменьшению выигрыша от использования классификаторов в пространстве производных. Это связано с тем, что традиционный классификатор при достаточном различии моделей уже сам показывает хорошие результаты, близкие к 100 %. В то же время анализ рис. 1 - 3 говорит о том, что чувствительность классификаторов kNN и БУМ к ошибкам спецификации структуры СММ несколько ниже, чем у традиционного классификатора. Выигрыш от их использования составил: на рис. 1, а - до 14 %, на рис. 2, а - до 18 %, на рис. 3, в - до 40 %. Общая тенденция такова: чем меньше
взято количество Ы1 и М1, тем больший выигрыш в точности классификации можно получить, используя кЫЫ или БУМ.
%
90
80
70
60
50!
0
%
90
80
70
60
50
0
Рис. 3. Зависимость среднего процента верно классифицированных последовательностей от параметра близостей моделей ^А при М = 6 и при
N1 =Мг = 2 (а); N =Мг = 3(6); =Мг = 4 (в); =Мг = 6 (г)
Традиционный классификатор показывает хорошие результаты, когда выбираются количества скрытых состояний и смесей Nl и Мг большие, чем истинные значения N и М.
Таким образом, когда нет возможности провести структурную идентификацию СММ можно рекомендовать использовать классификатор kNN или БУМ в пространстве первых производных от логарифма функции правдоподобия в силу их меньшей чувствительности к такой ошибки спецификации структуры как недобор числа скрытых состояний и компонент гауссовых смесей.
При выборе пространства производных по тому параметру, по которому генерирующие последовательности модели отличаются, выигрыш в сравнении с использованием объединенного пространства, получается максимально 4 % (рис. 1, а), 3% (рис. 2, в), 6 % (рис. 3, 6).
Классификатор БУМ всегда показывает лучшие результаты, чем kNN в пространстве первых производных по элементам матрицы переходных вероятностей: до 10 % (рис. 1, а), 16 % (рис. 2, 6), 8 % (рис. 3, а). Кроме того, по рис. 2, а, 6, 3, в видно, что kNN при некоторых значениях параметра ёА проигрывает традиционному классификатору.
Заключение
Исследования показали, что в условиях структурной неопределенности использование классификатора к ближайших соседей и классификатора, основанного на методе опорных векторов, приводит к повышению качества классификации в сравнении с традиционным подходом, основанным на отношении логарифмов функций правдоподобия. При этом прирост процентов верной классификации в рассмотренной двухклассовой задаче в сравнении с традиционным подходом в ряде случаев может достигать 40 % как для kNN, так и для SVM. Последний показывает более точные результаты в сравнении с kNN. Максимальное улучшение достигает около 18 %.
ЛИТЕРАТУРА
1. Rabiner L.R. A tutorial on hidden markov models and selected applications in speech recognition // Proc. IEEE. 1989. V. 77(2). P. 257-285.
2. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Изд-во Института математики, 1999. 270 с.
3. Platt J.C. Sequential minimal optimization: a fast algorithm for training support Vector Machines [Электронный ресурс]: Technical Report MSR-TR-98-14; Microsoft Research. URL: http://luthuli.cs.uiuc.edu/~daf/courses/Optimization/Papers/smoTR.pdf.
4. Гультяева Т.А. Вычисление первых производных от логарифма функции правдоподобия для скрытых марковских моделей // Сб. научных трудов НГТУ. Новосибирск: Изд-во НГТУ, 2010. № 2(60). С. 39-46.
5. Гультяева Т.А. Особенности вычисление первых производных от логарифма функции правдоподобия для скрытых марковских моделей при длинных сигналах // Сб. научных трудов НГТУ. Новосибирск: Изд-во НГТУ, 2010. № 2(60). С. 47-52.
6. Гультяева Т.А., Попов А.А. Классификация зашумленных последовательностей, порожденных близкими скрытыми марковскими моделями // Научный вестник НГТУ. Новосибирск: Изд-во НГТУ, 2011. № 3(44). С. 3-16.
Гультяева Татьяна Александровна Попов Александр Александрович
Новосибирский государственный технический университет
E-mail: [email protected], [email protected] Поступила в редакцию 12 апреля 2012 г.
Gultyaeva Tatyana A., Popov Alexander A. (Novosibirsk State Technical University). Classification of sequences with use of hidden Markov models under conditions of the inexact task of their structure.
Keywords: hidden Markov models, derivative of log likelihood function, classifier of k nearest neighbors, support vector machines.
The problem of sequences classification with use of methodology of hidden Markov models (HMM) is considered. Classification is spent both with use of the standard approach, and with classifier of k nearest neighbors (kNN), and a support vector machines in space of the signs initiated by HMM. The behavior of qualifiers was investigated while errors in the structure specification of HMM are presented.
Researches have shown that under conditions of structural uncertainty use of qualifiers of k nearest neighbors and the classifier based on a SVM, leads to improvement of classification quality in comparison with the traditional approach based on the ratio of logarithms of likelihood function. Thus the gain in correct classification in the considered two-class problem in comparison with the traditional approach in some cases can reach 40 % both for kNN, and for SVM. The last shows more exact results in comparison with kNN. The maximum improvement reaches about 18 %.