ВЕСТНИК ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА
2018 Управление, вычислительная техника и информатика № 42
УДК 004.852
DOI: 10.17223/19988605/42/9
В.Е. Уваров
РАСПОЗНАВАНИЕ НЕПОЛНЫХ ПОСЛЕДОВАТЕЛЬНОСТЕЙ, ОПИСЫВАЕМЫХ СКРЫТЫМИ МАРКОВСКИМИ МОДЕЛЯМИ, В ПРОСТРАНСТВЕ ПЕРВЫХ ПРОИЗВОДНЫХ ОТ ЛОГАРИФМА ФУНКЦИИ ПРАВДОПОДОБИЯ
Предлагается метод распознавания неполных последовательностей, который заключается в классификации последовательностей в пространстве признаков, образованном первыми производными от логарифма функции правдоподобия того, что случайный процесс, описываемый скрытой марковской моделью, сгенерировал распознаваемую неполную последовательность. В качестве классификатора в предлагаемом методе применяется метод опорных векторов.
Ключевые слова: скрытые марковские модели; машинное обучение; последовательности; пропущенные наблюдения; неполные данные.
Теория скрытых марковских моделей (СММ) была представлена еще в 1970-х гг. Л. Баумом и его коллегами [1]. Изначально СММ применяли для распознавания речи. В конце 1980-х гг. СММ начали использовать в биоинформатике, например для обработки цепочек ДНК. Тем не менее наибольшую популярность СММ обрели после 1990-х гг., и данная тенденция продолжается и в настоящее время, что можно подтвердить частотой упоминания термина «hidden Markov model» в публикациях [2].
Однако в теории СММ остается малоизученная область, касающаяся вопросов применения СММ для анализа неполных данных. Данные вопросы являются актуальными, поскольку в сложных системах, например при приеме данных с космических и авиационных аппаратов, а также других источников, приходится иметь дело с потоками данных от различных датчиков в сложной помеховой обстановке, когда возможно пропадание информации или ее искажение. В настоящей работе рассматривается такой случай неполных данных, как наличие пропусков в распознаваемых последовательностях. Такие последовательности с пропусками будем называть неполными. В рассматриваемой ситуации пропуски не генерируются самим случайным процессом, описываемым СММ, а возникают в произвольных местах последовательностей за счет внешних условий.
Данная статья является продолжением исследований по распознаванию последовательностей, описываемых СММ, проводимых на кафедре теоретической и прикладной информатики Новосибирского государственного технического университета [3]. Отличие проводимого исследования заключается в том, что распознаваемые последовательности могут содержать пропуски.
1. Описание скрытой марковской модели
1.1. Структура скрытой марковской модели
Скрытой марковской моделью называют модель, описывающую случайный процесс, находящийся в каждый момент времени t е{1,..., T} в одном из N скрытых состояний 5 ,...,} и в новый
момент времени переходящий в другое или в прежнее состояние согласно некоторым вероятностям переходов. Состояния считаются скрытыми, однако они проявляются в тех или иных особенностях наблюдаемых последовательностей. В данной работе рассматриваются СММ с непрерывной плотностью распределения наблюдений, когда в общем случае многомерные наблюдения - это векторы действительных чисел. Значения наблюдаемых величин при условии того, что СММ находится в конкретном скрытом состоянии, подчиняются некоторым вероятностным законам. В случае СММ с непрерывной
плотностью распределения наблюдений эти вероятностные законы описываются функциями условной плотности распределений наблюдений.
Рассмотрим параметры, которыми можно полностью задать конкретную СММ. Обозначим скрытое состояние, в котором находится описываемый СММ процесс в момент 7, символом ц, многомерное наблюдение, которое он сгенерировал в момент времени 7, - символом о, а многомерное наблюдение, не привязанное к конкретному времени, - символом о. СММ с непрерывной плотностью распределения характеризуется вектором вероятностного распределения начального скрытого состояния
П = |п = р {^ = , г = 1, , матрицей вероятностей переходов из одного скрытого состояния в другое А = |агу = р{qt+1 = Зу | qt = ), г,у = 1, ы| , а также функциями условной плотности распределений
многомерных наблюдений В = \Ъг {о) = / {о | q = si), г = 1, N, о е Я2 | [4]. В данной работе в качестве
функций условной плотности распределения наблюдений рассматривается смесь многомерных норм -
мальных распределений: (о) = 2 тг^(о; цгт, 1,гт ), 7 = 1,N, о е Я , где М- число компонент в смеси
т=1
для каждого скрытого состояния, тгт > 0 - вес т-й компоненты смеси в 7-м скрытом состоянии м -
( 2 тгт = 1, г = 1, N), Ц7т - математическое ожидание нормального распределения, соответствующего
т=1
т-й компоненте смеси в 7-м скрытом состоянии, - ковариационная матрица нормального распределения, соответствующая т-й компоненте смеси в 7-м скрытом состоянии, а g(о; ), о е Я2 -функция плотности многомерного нормального распределения, т.е. g(o;цim, ~Егт) =
1 _е-°'5(°-Цт) ), о <е Я2 . Таким образом, некоторую конкретную СММ будем зада-
z Is.
вать в виде набора определяющих ее параметров X = {П, A, B}.
1.2. Распознавание целых последовательностей, описываемых СММ
Пусть определено несколько классов, соответствующих некоторым различным случайным процессам с номерами 1,D , которые описываются соответствующими СММ Xj,...,X0, а также имеется последовательность многомерных наблюдений O = {or,...,} . Для классификации последовательности,
т.е. определения того, каким именно процессом, описываемым соответствующей СММ, она была порождена, как правило, применяют критерий максимума функции правдоподобия (МФП). В этом случае последовательность O относят к тому классу r*, для которого значение логарифма функции правдоподобия является максимальным: r* = arg max (inp (O | X )) .
r e1,...DV V "
Для расчета логарифма функции правдоподобия того, что последовательность O была сгенерирована процессом, описываемым СММ X, т.е. p(O |X) = ln 2 p({»i,...,},{qi,q2,...,Чт}|X), обычно
ql,q2,...,qT
применяют алгоритм forward-backward [5]. Для вычисления самого значения in p (O | X) необходима
лишь первая часть forward-backward алгоритма, поэтому приведем только ее.
Во оригинальном алгоритме forward-backward вероятности умножаются друг на друга, т.е. числа меньше единицы, имеющие, как правило, значения, обратные количеству скрытых состояний, умножаются в количестве, пропорциональном длине последовательности. Для длинных последовательностей (длиной более 100) данные произведения достаточно быстро становятся меньше минимальных аппаратно реализуемых чисел современных машин. Для исправления этой проблемы необходимо либо использовать длинную арифметику, что значительно замедлит вычисления, либо масштабировать все
промежуточные произведения, чтобы они не стремились к нулю. Эффективные методы масштабирования, которые практически не замедляют обучения, известны и приведены в [4].
Первая часть forward-backward алгоритма (ее достаточно для вычисления логарифма функции правдоподобия) производит вычисление отмасштабированных прямых вероятностей pijyo^o2,...,ot},qt = si | A,),
t = 1, T, i = 1,N, т.е. вероятностей того, что последовательность многомерных наблюдений , o2,..., ot}
была порождена процессом, описываемым моделью А, и что данный процесс находился в скрытом состоянии Si в момент времени t. Алгоритм вычисления отмасштабированных прямых вероятностей и логарифма функции правдоподобия:
1) инициализация:
a (i)=o ), i=IN; (29)
2) индукция:
âi+1(/) = è>i+1)
N
Z a't (j)a
j=1
, i = 1,N, t = 1,T-1,
где
at (j) =
щЦ)
N _ ' E at(n)
n=1
j = \,N, t = \,T-\ ■
(30)
(31)
Определим параметр масштаба:
с* =i ХйДО
-1
t = l,T.
(32)
тогда
a!t(i) = ctàt(i),
i = 1, N' t = 1'T-1,
T=1
at) = 1 П t i = 1, N, t = 1,T -1.
Логарифм функции правдоподобия для последовательности наблюдений может быть вычислен с помощью параметров масштаба:
т
ln[p(O\X)] = -£lnc. (33)
t=i
2. Распознавание неполных последовательностей, описываемых СММ
Прежде чем производить распознавание неполных последовательностей, описываемых СММ, необходимо оценить параметры соответствующих СММ, т.е. обучить их. Вполне вероятно, что в реальной ситуации обучение придется также проводить на неполных последовательностях, соответственно, необходимо иметь алгоритмы обучения СММ по неполным последовательностям. Тем не менее в данной статье будет рассмотрен только вопрос распознавания неполных последовательностей. Вопрос обучения СММ на неполных последовательностях был рассмотрен автором в предыдущих работах [6, 7, 8], где был предложен алгоритм обучения СММ, основанный на маргинализации пропущенных наблюдений.
2.1. Распознавание неполных последовательностей с помощью маргинализации пропущенных наблюдений
Как и ранее, будем называть неполной, или «дефектной», последовательностью такую последовательность О, в которой значение некоторых наблюдений не определено. Обозначим пропуск символом 0 . Тогда О = {о( еЯ*, г = 1,т}, Я* = Я2 ^{0}.
Для получения алгоритма распознавания неполных последовательностей с помощью СММ необходимо прежде всего обратиться к формулам (29)-(33), по которым производится расчет прямых и
обратных вероятностей. Видно, что вычисление значений Ь (О ) , i = 1, N, t = 1,T, в формулах (29)-(33), которые используются как в алгоритме обучения СММ, так и в алгоритме распознавания последовательностей, невозможно, если = 0, где символ 0 означает пропущенное наблюдение, так как не определено конкретное наблюдаемое значение, а значит, нельзя рассчитать значение Ь{ (ог) , которое соответствует данному наблюдению. Чтобы можно было использовать эти формулы в случае неполных последовательностей, нужно каким-то образом доопределить значение сомножителя Ь (0), 1 = 1, N, для тех прямых вероятностей, которые рассчитываются по отсутствующим в последовательности наблюдениям.
Предлагаемый в данной работе подход состоит в том, чтобы считать, что на месте пропуска могло стоять любое наблюдение из Я2 [9]. Руководствуясь этой идеей, представим значение Ь (0), 1 = 1, N, как интеграл по всем возможным значениям пропущенного наблюдения:
Ь (0) = | Ь (х) ^ = 1, 1 = 1, N .
Справедливость данного равенства обусловлена тем, что в один момент времени имеется только одно наблюдение х, а также тем, что Ь(х) - условная плотность распределения наблюдения х в скрытом
состоянии Sг, 1 = 1, N. Руководствуясь теми же соображениями, определим значение плотности нормального распределения, входящего в смесь, для наблюдения-пропуска [9]:
£(0,^т,^) = |g(x,vlm,№ = 1, 1 = 1,N, т = 1,М.
Теперь выражение Ь*(ог), 1 = 1,N, г = 1,Т, определено для всех о е-К*, и формулы (29)-(33) расчета прямых и обратных вероятностей можно расширить на случай неполных последовательностей.
Модифицированный алгоритм вычисления прямых вероятностей (отмасштабированный), используемый при распознавании неполных последовательностей: 1) инициализация:
«1(0 = -
71:
я А (оО, иначе,
1 = 1, N:
2) индукция:
Ёа'(
}=1
Ь (ом)
Ёа'(- )а-
-=1
1 = 1, N, г = 1, Т -1.
иначе,
где а;0)= ^
2 Щ(п)
«г О') V ГТ7
п=1
Параметр масштаба вычисляется по формуле: -1 X о, (') • ' - !•/ . Логарифм функции прав-
лю
1=1
-1
доподобия вычисляется по формуле 1п [р (0|Х)] = - £ 1п с.
г=1
Назовем описанный выше прием доопределения неизвестных величин «маргинализацией пропущенных наблюдений», так как здесь вычисляется маргинальное распределение Ь* (0), г = 1, N, для случайной величины 0, которая может принимать любое значение из множества Я2. Легко видеть, что с помощью процедуры маргинализации можно проводить распознавание неполных последовательностей по критерию МФП, поскольку необходимые формулы для вычисления логарифма функции правдоподобия доопределены на случай пропущенных наблюдений.
О1 =
Ог+1 =
2.2. Распознавание неполных последовательностей в пространстве первых производных от логарифма функции правдоподобия
Распознавание последовательностей, описываемых СММ, можно проводить не только с помощью критерия максимума функции правдоподобия. Ранее был разработан и успешно применен метод распознавания последовательностей в пространстве первых производных от логарифма функции правдоподобия того, что случайный процесс, описываемый СММ, сгенерировал распознаваемую последовательность, по различным параметрам СММ. Данный метод распознавания показал преимущество над критерием МФП в случаях близости СММ, описывающих классы, по параметрам, а также в условиях, когда СММ обучались на последовательностях, подверженных разного рода помехам [3]. Тем не менее случая полностью пропущенных наблюдений в последовательностях в данном исследовании не рассматривалось. Поскольку пропуски в наблюдениях также можно интерпретировать как своего рода помехи, то целесообразно исследовать применимость данного метода к анализу неполных последовательностей, описываемых моделями, обученными на неполных последовательностях.
Далее приведено описание упомянутого выше метода. Для наглядности рассмотрим случай двух-классовой классификации. Для каждой последовательности наблюдений О принадлежность к одной из двух моделей будем определять с помощью значений производных по различным параметрам модели.
(12 К)
О , О ,..., О } и две СММ ^ и ^2. Для каждой обучающей по-
д 1пр(О\\)■
д 1п р(О|А2)
. Транспониро-
следовательности О из {О1, О1,..., ОК } будет построен вектор вида
I ; д 1п р(О\^2
ванные версии этих векторов объединяются вместе в обучающую матрицу X, в которой столбцы соответствуют признакам (производным по параметрам моделей), а строки - последовательностям наблюдений. Также составляется вектор правильных ответов У = {у,...,ук} , где ук ^{1,2} - это номер
СММ, которая соответствует случайному процессу, породившему О, к = 1, К . Затем производится обучение классификатора по методу опорных векторов с помощью обучающей матрицы X и вектора правильных ответов У. Для распознавания строится аналогичный вектор для рассматриваемой последовательности О и определяется, к какой группе этот вектор ближе по методу опорных векторов [10]. Описанный двухклассовый случай легко обобщить на многоклассовый случай, используя стратегии «каждый против каждого» или «один против всех», часто применяемые для бинарных классификаторов.
Далее приводится способ вычисления производных от логарифма функции правдоподобия по параметрам СММ [3].
Исходя из формулы (33),
д 1п р(О\Х)=_ К
í т 1 дск Л Е- '
V-! ск дП ,
(34)
дП к=1
Вычисление производной от параметра масштаба по некоторому параметру модели п производится следующим образом:
дт| ¿=1 дт|
Для вычисления г- _ ^ д.^ продифференцируем по шагам алгоритм вычисления прямых
д|
переменных с масштабом: Шаг 1:
1 = Щ (36)
Шаг 2:
N
Е
-=1
даг- (-)
аи+а;-( ] )-
N
Ь (г)+£(а;-1(7)а-)дШ,
(37)
^кСО-^а ГЛ +
где ———+ дц дц
—У— / = 1,^, * = 2,Г.
С7Г|
да((г) .
Таким образом, для вычисления значений —, г = 1, ЛГ, нам потребуется вычислить производил
да
ные
В случае недиагональной матрицы при вычислении производной по элементу ковариационной матрицы придется дифференцировать элементы обратной матрицы, поэтому будем рассматривать случай, когда матрицы Е1т, 1 = 1, N, т = 1, М являются диагональными.
ТТ ¿г Эа, (?) Эй, (О дац
Далее приведен способ вычисления производных —'——, —'——, —для указанных значении параметра п (параметр п может принимать значения щ, а1г-, т1т, д,т, "2т, 1, - = 1, N, т = 1, М, г = 1,2 ):
«аса3(1),11, -=^,
5п- [0, 1 ф -,
]
дЬ, (г)
дп
= 0, 1,- = 1,N, г = 1,Т,
]
да1 (1)
да
= 0, 1,11, =1, N,
чь
дЬ (г)
да11-1 да
= 0, 1,1\,- = 1,N, г = 1,Т,
("1, х = а1-,
дх I 0, х Ф а11
1, - =1, N,
дЬ (г) _ | g (О ;Дш, ), 1 = ^ ;; „_ГТ7
дт_ |0, 1Ф1
1,11 = 1, N, г = 1, Т, т = 1,М,
(38)
(39)
(40)
(41)
(42)
(43)
да1(1) _ дт,-„,
дЬ (1) . .
п——1, 1 = 1
ад
дД
1,т
0,5т1mg(ot \Дт, 2т )
дх,-
О - Дт 1 = 1 T1mg(ot ;Д1т, "1т) „22 , 1 1
1, = 1, N, т = 1, М,
1 Ф1
1
1,11 = 1, N, г = 1, Т, т = 1, М, г = 1,2,
1 Ф1
да1 (1) _ дД
2 т
дЬ1 (1) . .
п1——, 1 =11,
дД,т 0, 1 Ф1
1,^=1, N, т = 1, М, г = 1,2,
дЬ (г) д2
А
0,5^ (О ;Дт, 21т ) 0,
( 2 2 \ О - Дт
у22
V 21т У
1
2 Л 1
г =и
1 Ф1 ,
(44)
(45)
(46)
1,11=1,N, г = 1,Т, т = 1,М, 2 = 1,2, (47)
0
0
дах (г)
ах 2
дЬ, (1) . . П——, г = и
дХ2т' 1 г, г1 = 1, N, т = 1, М, г = 1, г. (48)
0, г Ф г1,
Формулы (34)-(48) можно доопределить на случай неполных последовательностей, воспользовавшись приемом маргинализации пропущенных наблюдений, описанным в предыдущем подразделе. Таким образом, в формулах (34)-(48) будем считать Ь,(0) = 1, г = 1,N, а g(0,р;ш,Еш) = 1, г = 1,N, т = 1,М , где символ 0 означает пропущенное наблюдение. К тому же будут внесены дополнительные изменения в формулу (45):
дКт
0,5тlmg (О ^^гт , Егт )
0,
Е2
г = г1 и о( Ф !
иначе,
г,г1 = 1,N, * = 1,Т, т = 1,М, г = 1,г,
и формулу (47):
дЕ 21
0,5ад (о*
'ргт' Егт )
0,
/ Л 2
(2 z » О1 - рг'т у гг V Е/т У
г = г\ и о{ Ф 0,
иначе,
г,г = 1, N, I = 1,Т, т = 1,М, г = 1,2 .
3. Результаты вычислительного эксперимента
В данном разделе разработанный метод распознавания неполных последовательностей в пространстве первых производных от логарифма функции правдоподобия сравнивается с методом распознавания неполных последовательностей с помощью маргинализации пропущенных наблюдений.
В качестве истинных СММ были взяты модели ^ и со следующими характеристиками. Число скрытых состояний N = 3, количество компонент в смесях М = 3. Размерность векторов наблюдений Z = 2. Вектор распределения начального состояния: П = [1,0,0], матрица вероятностей переходов:
"0,1 + АА 0,7-АА 0,2 А = 0,2 0,2 + АА 0,6 - АА 0,8-АА 0,1 0,1 + АА
веса компонентов смесей:
Г0,3 + Ат 0,4 -Ат 0,3 ^
{тгт, г = 1, N, т = 1, М }
0,3 0,4 + Ат 0,3 -Ат 0,3 -Ат 0,4 0,3 + Ат
V ' ' 'У
(номеру строки соответствует номер скрытого состояния, а номеру столбца - номер компоненты смеси), векторы математических ожиданий компонент смесей:
{^т ,
г = 1, N, т =
1, М
(0-Ар 0 + Ар)Т (1 -Ар 1 + Ар)Т (2-Ар 2 + Ар)Т^
(3-Ар 3 + Ар,)Т (4-Ар 4 + Ар)Т (5-Ар 5 + Ар)Т (6-Ар 6 + Ар)Т (7-Ар 7 + Ар)Т (8-Ар 8 + Ар)Т
V У
(номеру строки соответствует номер скрытого состояния, а номеру столбца - номер компоненты смеси), все ковариационные матрицы компонент смесей {Хгт, г = 1, N, т = 1,М| были выбраны диагональными, значения всех элементов на диагонали были равны 0,1 + Ас. При этом у первой модели
О - р,Ш
- <
ДЛ = 0, Дт = 0, Дд = 0, До = 0, а у второй модели ДА = 0,05, Дт = 0,05, Дд = 0,01, До = 0,01. Такой выбор параметров максимально усложняет задачу распознавания, поскольку случайные процессы, описываемые такими моделями, очень близки по свойствам и порождаемые ими последовательности трудно различить. С помощью каждой из моделей ^ и Х2 было сгенерировано К = 100 обучающих и тестовых последовательностей длиной Т = 100, причем каждая из последовательностей содержала О пропусков (число О изменялось от 0 до 90 в ходе эксперимента) в случайных местах. С помощью обучающих
неполных последовательностей были получены оценки моделей и по алгоритму обучения СММ по неполным обучающим последовательностям, основанному на маргинализации пропущенных наблюдений [6, 7, 8]. Также с помощью производных от обучающих последовательностей и оценок СММ был обучен классификатор метода опорных векторов, гиперпараметры которого подобраны с помощью кросс-валидации по четырем блокам. Затем с помощью ¡Ц и \2 проводилось распознавание неполных тестовых последовательностей с помощью метода маргинализации пропущенных наблюдений по критерию максимума функции правдоподобия (сплошная линия) и с помощью первых производных от логарифма функции правдоподобия, используя метод опорных векторов в качестве классификатора (рис. 1, штриховая линия), причем использовались производные по всем параметрам моделей. Фиксировался процент верно распознанных последовательностей. На рис. 1 приведены усредненные результаты после 50 запусков описанного выше эксперимента с различными начальными значениями генератора случайных чисел.
Маргинализация Производные
Рис. 1. Зависимость процента верно распознанных тестовых последовательностей от доли пропусков в обучающих и тестовых последовательностях
Как видно, метод распознавания, основанный на производных, начинает превосходить метод, основанный на маргинализации пропущенных наблюдений, начиная примерно с 20% пропусков в обучающих и тестовых последовательностях. При этом преимущество метода на основе производных увеличивается с увеличением процента пропусков, достигая 10% при 90% пропусков в последовательностях.
Заключение
В данной статье был предложен метод распознавания неполных последовательностей, который заключается в классификации последовательностей в пространстве признаков, образованном первыми производными от логарифма функции правдоподобия того, что случайный процесс, описываемый скрытой марковской моделью, сгенерировал распознаваемую неполную последовательность. Сравнительный анализ предложенного метода и разработанного автором ранее метода распознавания неполных последовательностей, основанного на маргинализации пропущенных наблюдений, показал, что предложенный метод позволяет достичь большего процента верно распознанных последовательностей, чем метод маргинализации, начиная с некоторого (в проведенном эксперименте - более 20%) процента пропусков в обучающих и тестовых последовательностях. Таким образом, предложенный метод может быть рекомендован к применению в условиях сильных помех, когда имеется много пропущенных данных, однако распознавание неполных последовательностей все же необходимо проводить.
ЛИТЕРАТУРА
1. Baum L.E., Petrie T. Statistical inference for probabilistic functions of finite state Markov chains // The Annals of Mathematical
Statistics. 1966. V. 37. P. 1554-1563.
2. Упоминания ключевого слова «hidden Markov models» между 1800 и 2008 годами : данные из Google Ngram Viewer. URL:
http ://tinyurl .com/ gmq5 snv
3. Gultyaeva T.A., Popov A.A., Kokoreva V.V., Uvarov V.E. Classification of observation sequences described by Hidden Markov
Models // Proc. of the Int. Workshop Applied Methods of Statistical Analysis Nonparametric approach AMSA-2015. Novosibirsk, Belokuriha, 14-19 Sep. 2015. P. 136-143.
4. Rabiner L.R. A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition // Proc. of the IEEE. 1989.
V. 77. P. 257-285.
5. Baum L.E., Egon J.A. An inequality with applications to statistical estimation for probabilistic functions of a Markov process and
to a model for ecology // Bulletin of the American Meteorological Society. 1967. V. 73. P. 360-363.
6. Попов А.А., Гультяева Т.А., Уваров В.Е. Исследование подходов к обучению скрытых марковских моделей при наличии
пропусков в последовательностях // Обработка информации и математическое моделирование : материалы Рос. науч.-техн. конф. Новосибирск, 21-22 апр. 2016. С. 125-139.
7. Popov A., Gultyaeva T., Uvarov V. A comparison of some methods for training hidden Markov models on sequences with missing
observations // Proc. of 11th Int. Forum on Strategic Technology IF0ST-2016. 2016. V. 1. P. 431-435.
8. Попов А.А., Гультяева Т.А., Уваров В.Е. Исследование методов обучения скрытых марковских моделей при наличии
пропусков в последовательностях // Актуальные проблемы электронного приборостроения (АПЭП-2016) : труды XIII международной конференции : в 12 т. Новосибирск, 2016. Т. 8: Моделирование и вычислительная техника. Информационные системы и технологии. С. 149-152.
9. Cooke M., Green P., Josifovski L., Vizinh A. Robust automatic speech recognition with missing and unreliable acoustic data //
Speech Communication. 2001. V. 34, No. 3. P. 267-285.
10. Boser B.E.; Guyon I.M., Vapnik V.N. A training algorithm for optimal margin classifiers // Proc. of the fifth annual workshop on Computational learning theory - COLT '92. 1992. P. 144.
Уваров Вадим Евгеньевич. E-mail: [email protected] Новосибирский государственный технический университет
Поступила в редакцию 7 апреля 2017 г.
Uvarov Vadim E. (Novosibirsk State Technical University, Russian Federation).
Recognition of incomplete sequences described by hidden Markov models using first derivatives of likelihood function logarithm.
Keywords: hidden Markov models; machine learning; sequences; missing observations; incomplete data. DOI: 10.17223/19988605/42/9
Hidden Markov model (HMM) conception was presented yet in 1970-s, however problems which concern using HMMs in case of incomplete data remain poorly investigated. These problems are quite relevant since in complex systems, e.g. when receiving signals from spacecrafts or aircrafts, one has to deal with datastreams of various sources in noisy environments when there is a high possibility of data loss or corruption. In this paper, we deal with the problem of missing observations in sequences. From now on we will refer to such sequences as incomplete. We consider a case when such missing observations are not generated by random process itself but rather occur randomly in sequences because of some external interference.
We propose a method for recognition of incomplete sequences which is based on classification of incomplete sequences using first derivatives of likelihood function logarithm with respect to various HMM parameters. We use a support vector machine classifier for that purpose. The likelihood in that case is the probability of incomplete sequence being generated by a HMM.
The proposed method was compared to a previously developed method for recognition based on marginalization of missing observations. The proposed method proved to be more effective than the other method in situation when the number of missing observations in training and testing sequences is high (more than 20% in our particular experiment). Thus, we propose to prefer the usage of the proposed method in situations when there is big loss of data but the recognition is still had to be done.
REFERENCES
1. Baum, L.E. & Petrie, T. (1966) Statistical inference for probabilistic functions of finite state Markov chains. The Annals of Mathematical Statistics. 37. pp. 1554-1563. DOI: 10.1214/aoms/1177699147. https://projecteuclid.org/euclid.aoms/1177699147
2. Google Ngram Viewer. (n.d.) Frequencies of "hidden Markov models " keyword in literature published between 1800 and 2008year
provided by Google Ngram Viewer. [Online] Available from: http://tinyurl.com/gmq5snv
3. Gultyaeva, T.A., Popov, A.A., Kokoreva, V.V. & Uvarov, V.E. (2015) Classification of observation sequences described by Hidden
Markov Models. Proc. of the Int. Workshop Applied Methods of Statistical Analysis Nonparametric approach AMSA-2015. Novosibirsk, Belokuriha. September 14-19, 2015. pp. 136-143.
4. Rabiner, L.R. (1989) A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition. Proc. of the IEEE.
77. pp. 257-285. DOI: 10.1109/5.18626
5. Baum, L.E. & Egon, J.A. (1967) An inequality with applications to statistical estimation for probabilistic functions of a Markov
process and to a model for ecology. Bulletin of the American Meteorological Society. 73. pp. 360-363. DOI: 10.1090/S0002-9904-1967-11751-8
6. Popov, A., Gultyaeva, T. & Uvarov, V. (2016) [Training hidden Markov models on incomplete sequences]. Obrabotka informatsii
i matematicheskoe modelirovanie [Information processing and mathematical modelling]. Proc. of Russian Conference. Novosibirsk. April 21-22, 2016. pp. 125-139. (In Russian).
7. Popov, A., Gultyaeva, T. & Uvarov, V. (2016) A Comparison of Some Methods for Training Hidden Markov Models on Sequences
with Missing Observations. Proc. of 11th Int. Forum on Strategic Technology IFOST-2016. 1. pp. 431-435. DOI: 10.1109/IF0ST.2016.7884147
8. Popov, A., Gultyaeva, T. & Uvarov, V. (2016) [Training hidden Markov models on sequences with missing observations]. Proc. of
13th Int. Conference on Actual Problems of Electronic Instrument Engineering (APEIE 2016). Vol. 1. pp. 317-320.
9. Cooke, M., Green, P., Josifovski, L. & Vizinh, A. (2001) Robust automatic speech recognition with missing and unreliable acoustic
data. Speech Communication. 34(3). pp. 267-285.
10. Boser, B.E., Guyon, I.M. & Vapnik, V.N. (1992). A training algorithm for optimal margin classifiers. Proc. of the Fifth Annual Workshop on Computational Learning Theory. COLT '92. pp. 144. DOI: 10.1145/130385.130401