УДК 519.6
ОТБОР ПРИЗНАКОВ В ЗАДАЧЕ КЛАССИФИКАЦИИ ПРИ СМЕЩЕНИИ КОНЦЕПТА ДЛЯ ПОТОКОВ ДАННЫХ
П. А. Турков, О.В. Красоткина, В.В. Моттль, А. А. Сычугов
Представлен новый байесовский инструмент для отбора признаков в задаче распознавания образов на потоках данных. Предлагается иерархическая вероятностная модель с разреженной регуляризацией для оценки параметров решающего правила. Предложенный подход дает строгую байесовскую формулировку критерия для выбора предсказателя. Экспериментальные результаты показывают, что предложенный инструмент превосходит другие методы анализа смещения концепта.
Ключевые слова: отбор признаков, смещение концепта, изменение генеральной совокупности, классификация на потоках данных, обучение с учителем, распознавание образов.
При сегодняшнем развитии аппаратных и программных технологий потоки данных используются повсеместно, что ставит сложную задачу хранения, анализа и визуализации подобных больших и быстрых объемов данных. Одной из значительных проблем в области потоков данных является задача их классификации. Классические алгоритмы классификации требуется адаптировать для работы в потоковой среде из-за основных ресурсных ограничений по используемой памяти и времени работы. Существуют по меньшей мере три особенности классификации на потоках данных: большая длина, смещение концепта и отбор признаков. Смещение концепта является общим атрибутом потоков данных, который присутствует в случае изменения исследуемого объекта. Отбор признаков был подробно изучен с традиционной точки зрения анализа данных, но на потоках данных указанная особенность является более сложной проблемой. Смещение концепта и большой размер делают невозможным применение классических методов отбора признаков в ходе процедуры обучения.
Большинство предыдущих и текущих исследований в области анализа потоков данных проводится в стационарной среде, когда алгоритму обучения предоставлен весь набор данных. За прошедшие годы было разработано много решений для статической классификации, а несколько довольно точных классификаторов могут использоваться для данных больших объемов. Тем не менее, в некоторых из последних приложений алгоритмы обучения работают в динамических средах. Управление дорожным движением, сенсорные сети, мониторинг, анализ логов веб-активности или телекоммуникации являются примерами таких приложений. Смещение концепта происходит, когда исследуемое явление, о котором были собраны данные, изменяется с течением времени. Такие изменения отражаются в поступающих объектах и снижают точность классификаторов, построенных на ранее полученных учебных объектах. В задачах такого рода и ха-
рактер, и сам факт изменений часто скрыты от непосредственного наблюдения, что делает обучение еще более трудным [1]. Реальными примерами наличия смещения концепта являются системы мониторинга, обнаружение финансового мошенничества, определение спама,потенциально вредоносного трафика в сетевом взаимодействии, прогнозы погоды и предпочтения клиентов [2]. Вопрос о разработке легкого алгоритма обучения на потоках данных стал важным пунктом исследований. Были разработаны различные подходы к анализу потоков данных со смещением концепта, включающие в себя методы отбора объектов, обнаружения смещения, ансамбли классификаторов, условные деревья и использование границы Хёфдинга для оценки производительности [3 - 7].
К сожалению, большинство существующих методов классификации на потоках данных сконцентрированы только на проблемах бесконечной длины и смещения концепта, в то время как огромный объем данных, который необходимо собрать и обработать, является одной из главных причин низкой скорости и больших накладных расходов. По этой причине алгоритмы обработки данных должны уменьшить количество обрабатываемых признаков [8]. Существуют три основных подхода к отбору признаков: фильтрация, обертка и встроенные методы. Фильтрационный подход заключается в удалении нерелевантных признаков из исходного набора перед их передачей в алгоритм обучения. Как правило, первоначальный набор данных анализируется для выделения подмножества релевантных признаков, которых будет достаточно для успешной классификации. В методах-обертках подмножество релевантных признаков выбирается с помощью применяемого классификатора. Обетки используют подходящий поисковый алгоритм в пространстве возможных признаков и оценивают каждое потенциальное подмножество, запуская целевой классификатор [10, 9]. Целью метода является нахождение подмножества признаков, которое обеспечивает наилучшее качество классификации. Во встроенных методах поиск оптимального подмножества признаков встроен в сам классификатор, и может быть рассматрен как поиск в комбинированном пространстве подмножеств признаков и гипотез [11, 12, 13, 14, 15, 16]. Встроенные методы имеют то преимущество, что они включают в себя взаимодействие с классификационной моделью, на самом деле эти методы работают одновременно с классификацией объектов и поиском признаков.
Обнаружение информативного подмножества признаков в большом объеме потока данных является весьма трудной задачей. Во-первых, поток данных является бесконечным, так что любой офф-лайн алгоритм выбора признаков, который сохраняет весь поток данных для анализа, будет вызывать переполнение памяти. Во-вторых, важность признаков динамически изменяется с течением времени из-за смещения концепта, т.е. ранее важные особенности могут стать незначительными, и наоборот. И в-третьих, для онлайн-приложений важно получать подмножество признаков за вре-
82
мя, близкое к реальному. В целом, можно отметить, что все существующие алгоритмы для отбора признаков, как использующие пакеты данных [17], так и одиночные объекты [18, 20], не могут обрабатывать большие потоки данных эффективно из-за ограничений по времени и памяти.
В данной статье предлагается иерархическая вероятностную модель для оценки изменения параметров правила решения с разреженной регуляризацией. Предлагаемый подход дает строгую Байесовскую формулировку критерия для выбора предсказателя. В наших предыдущих работах для ранговой регрессии [21] и регрессии Кокса [22], было показано, что такой тип оценки является несмещенной, имеет обобщающие и оракульные свойства, его максимальный риск сходится к конечному значению. Экспериментальные результаты показывают, что предлагаемая система превосходит существующие методы анализа смещения концепта как на модельных данных, так и на публично доступном множестве реальных данных.
1. Иерархическая вероятностная модель с отбором признаков для задачи распознавания образов при смещении концепта
1.1. Байесовский подход к отбору признаков в задаче распознавания образов. Начнем с рассмотрения задачи отбора признаков в распознавании образов без смещения концепта. Пусть каждый объект генеральной совокупности шеО будет представлен точкой в линейном признаковом
пространстве х(ю) = (х^ю),...,хп(ю))е X = Нп, а его скрытая принадлежность к одному из двух классов будет определяться индексом класса у (ю) = У е {1,-1}. Функция
(х(ю), у (ю)): О® X х У (1)
известна в пределах конечного обучающего множества {(х(юу), y(Wj )) = (xj, yj),} =1,..., Щ где N - число наблюдений.
Необходимо продолжить функцию (1) на весь набор О таким образом, чтобы можно было оценить класс новых объектов ю е О, не представленных в обучающей совокупности. Допустим, что существует вероятностное пространство 5х¥ с некоторой функцией вероятности (р(х, у). В качестве вероятностной модели источника данных рассмотрим два параметрических семейства распределений (^(х | а,Ь) и ф^(х | а,Ь), а еРп, Ь еР, связанных с индексами классов у = ±1. Эти два условных распределения вероятности сосредоточены главным образом по разные стороны неизвестной дискриминантной гиперплоскости аг х + Ь 0:
((х | y, а Ь, с) ~ у 2 Л . (2)
у(аГ х + Ь)
1 + exp
а2
В строгом смысле эти функции не являются плотностями распределения вероятности, так как их интегралы по Р" не равны какому-либо конечному числу. Но мы используем терминологию Морриса Де Гроота, который называет такие функции плотности распределения несобственными плотностями [23]. Эта пара несобственных плотностей полностью определяет вероятностную модель источника данных. Оба распределения (2) являются «равномерными» вдоль бесконечных осей, параллельных гиперплоскости, а также в бесконечных областях агх + £>1 для объектов класса у = 1, и агх + &<-1 для противоположного класса
у = -1.
На самом деле условные распределения (2) в вероятностной форме выражают суть знаменитого метода логистической регрессии, чья основная идея заключается в описании вероятностной принадлежности
объектов классам с помощью логистической функции вида 0(2) = —-—.
1 + е~2
Полагаем, что случайные векторы признаков отдельных объектов в обучающем наборе являются условно независимыми, таким образом, совместная плотность распределения для индексов фиксированного класса - это произведение
Ф(хь...,х^ | у\9...„уи9*9Ь,с) = ПУ=1Ф у : (х /1 * А с). (3)
^ * У
Пусть дополнительно направляющий вектор а = (ахап) е Рл
разделяющей гиперплоскости ^=\агхт будет рассматриваться как
вектор независимых случайных величин с нулевым математическим ожиданием и, в общем случае, с разными дисперсиями г = (г1?...,гЛ):
1 2
I П) = -7—ехр(-(1/2/*)я,-).
Относительно смещения гиперплоскости Ъ никакой априорной информации не предполагается, следовательно,
4>(а| г) - ч>(а | г) - П^О^Г172 ехр[-\Л!=1-а}\ (4)
V 1 гг )
И, наконец, будем рассматривать независимые априорные гамма-распределения величин, обратных дисперсиям
у( 11ц | а, р) ©с (1 /г7- )а_1 ехр[(-р( 1 )] с одинаковыми математическими
ожиданиями Е(\!ц) = а/р и дисперсиями Уаг(\/ц) = а/р . Чтобы избавиться от двойной параметризации, зададим а = 1+1/(2ц) и р = 1/(2|1). Теперь имеем параметрическое семейство гамма-распределений, определяемых только одним параметром ц>0, таким что Е( 1 //}) = 1+2)1 и Уаг(1/гг) = 2|1( 1+2(1):
1(Иг1 | т)- (Иц)1/(2|) ехр[(-(1/2|и)(1/гг)]. (5)
Априорная совместная плотность дисперсии вектора г = (гх,...,тп) является произведением:
О (г | т) - ПП=1|(1/Г/ )1/(2т) ехр[(-(1/2|1)(1/гг)]} (6)
Совместная апостериорная плотность распределения параметров гиперплоскости (а = (#!,...,ап),Ь) и дисперсий г = (г;,...,гп) (4) будет определяться формулой Байеса
р((а, Ь), г|х j, уj, j = 1,..., N, с, |) -- ¥(а|г)О(г|)Ф(х^, j = 1,...,N|уj, j = 1,...,N,а,Ь,с). (7)
Байесовская оценка параметров гиперплоскости (а, Ь) совместно с дисперсиями г в соответствии с (7) и (6) приводит к адаптивному критерию обучения
((а,Ь),г | с,|)=а^тах р(а,Ь | х j,уj,7=1,...,N,с)=а^тах[1п¥(а | г) +
+ 1п О (г | т) + 1п Ф(х7 , У=1,..., N | у7 , У=1,..., N, а, Ь, с)]. (8)
Плотность ¥ (а | г) (4) является нормальным условным априорным распределением направляющего вектора относительно фиксированных дисперсий, а О (г 1¡и) (6) - априорное гамма-распределение условий. Рассмотрим произведение ¥ (а|г)О (г 1и) и его логарифм 1п ¥ (а|г) + 1п О (г 1и) как иерархическую априорную модель скрытого направляющего вектора а , в данном случае с двумя уровнями иерархии.
Именно эта иерархическая априорная модель обеспечивает селективное свойство байесовской оценки (8), выделяя элементы направляющего вектора, которые являются «адекватными» обучающим данным «•= ¥, т.е., а2? 0 (4), и подавляя ц®« до пренебрежимо малых значений а2®0 «лишние».
В самом деле, если и®0 в (5), случайные значения 1/ц стремятся к неслучаному равенству Щ @...@ 1/гп @ 1, так как [Е(1/ц)®1,Каг(1/г)®0], и все квадраты элементов направляющего вектора аг2 одинаково штрафуются в (4) в сответствии с ограничением 1п ¥ (а | г)® тах . Но растущий параметр I ® ¥ позволяет независимым неотрицательным значениям 1/ц произвольно отличаться друг от друга [ Е (Щ )®ж,Уаг(1/г1 )®«|, а требования [1п О (г | и)® тах,1п ¥ (а | г)® тах] обеспечивают их рост 1/ц® ¥ .
В результате оцениваемая разделяющая гиперплоскость ^п=а1х1 + Ь 0 будет принимать во внимание только подмножество наиболее информативных признаков хг и практически игнорировать остальные [26].
85
Параметр 0< |<¥ служит в качестве параметра селективности. Если ¡=0 критерий обучения (8) становится классическим критерием логистической регрессии без возможности выбора признаков, а если т®¥ , то он становится крайне селективным.
Таким образом, данный метод является вероятностным обобщением традиционного метода логистической регрессии, которое наделяет его способностью подавлять избыточные признаки на заданном уровне селективности.
1.2. Вероятностная модель смещения концепта, основанная на марковском свойстве дрейфующей разделяющей гиперплоскости. Будем использовать комбинированные обозначения w = (а, Ь) е Р п+1 для параметров разделяющей гиперплоскости, а именно, ее направляющий вектор ае Р п и параметр положения Ь е Р, и, соответственно, расширенная нотация х = (х,1) еР п+1 для вектора признаков. Таким образом, уравнение гиперплоскости будет иметь вид wгх 0.
Ключевым элементом нашего байесовского подхода к проблеме смещения концепта является понимание изменяющегося во времени вектора параметров дрейфующей разделяющей гиперплоскости
wгКаг,Ьг)=>1,/ч>п+1,г)е Кп+\ =аг,г,п ™п+1,/ =Ьг (9) как векторного случайного процесса с независимыми компонентами, обладающего марковским свойством [27]:
w г = qw м + % г еР п+\ Е(% г) = 0, Е(%, % ] ) = Вше(4,..., <+1), (10)
ёг =(1-q2)гг,г = 1,...,п, dn+1=1-q2.
где %г = (Хи,г=1,...,п+1) - векторный «белый шум» (Е(%г%Т)=0,) с нулевым
математическим ожиданием независимых элементов, каждый из которых имеет свою независимую дисперсию >0, г=1,...,п+1. Будем использовать обозначения г = (гх,...,гп) предполагая, что коэффициент q в (10) остается постоянным.
Если | q <1, каждый элементарный случайный процесс и,г г является
стационарным и эргодичным на бесконечной оси дискретного времени г = ...,1,2,3,.... Математическое ожидание каждого случайного процесса равно нулю, а его асимптотическая стационарная дисперсия полностью определяется параметрами марковского уравнения
Е(Щ,г)=Е(^п+1,г)=0, Уаг(мг,г)=Уаг(Щ г)= ^2=г,г=l,..., n,
1-q2 (11)
Уаг К+1,г )=Уаг (Ьг )=^п+-=1.
, l-q2
Дополнительно предположим, что коэффициент q удовлетворяет ограничениям 0£д<1. Этот коэффициент остается неизменным в течение всего векторного процесса wг=(аг,Ь)еРп+1 и определяет предполагаемую
скрытую динамику разделяющей гиперплоскости. Чем меньше разница 1^>0, тем медленнее допустимое смещение, но все независимые случайные процессы остаются эргодическими, а их стационарные дисперсии Уаг(м?^ )=г, Уаг(мп+1 г )=1. Равенство <5=0 не представляет
инетереса, так как в этом случае направляющий вектор будет хаотически меняться со временем вместо того, чтобы постепенно смещаться. Но если q=l, марковское уравнение (10) превращается в строгое равенство Wгг-1, и сохраняет вероятностный смысл только в сочетании с некоторым предположением о распределении одного из значений, например w 0.
В дальнейшем будем рассматривать стационарные отклонения г=(г1>0,...,гп>0) из первых п случайных процессов (м1г,...,) (11), т.е.
элементов направляющего вектора аг=(аи,..., апЛ). Их оценка будет
инструментом отбора признаков в нашей технике обработки потока данных. Чем меньше Уаг (мгг )=г, тем меньше будут все расчетные значения
г -го элемента смещенного направляющего вектора (а/г-г,г = ...,1,2,3,...), и
меньше вес г -го признака ,г = ...,1,2,3,...) в классификации объекта
аТ хг + а Л г + Ь/ 0. Если г ® 0, соответствующий признак почти
полностью подавляется.
Напротив, стационарная дисперсия последнего случайного процесса мп+1 г, т.е. параметра положения гиперплоскости Ь(,
предполагается предопределенной Уаг(мп+1) = 1. Это означает, что смещение параметра положения всегда остается активным.
Обучающий набор - это конечная последовательность конечных учебных пакетов {(Хг,¥г),г = 1,...Т}, каждый из которых состоит из конечного числа объектов обучения (Хг,Уг) = {(х^, уу,г),j = 1,..., Nг},
ассоциированных с соответствующим моментом дискретного времени г = 1,...,Т. Если все направляющие вектора ^г,г = 1,...,Т) являются фиксированными, вектора признаков Хг = (хjt, j = 1,..., Nг) внутри и на
протяжении пакетов будут условно независимы и распределены в соответствии с (3):
Ф( X г, г=1,..., Т^, W г, г=1,..., Т, с)=ПТ=1П^^г (х | у^, W г, с). (12)
Предполагая, что «белый шум» в марковском уравнении (10) является нормально распределеннным, условная плотность вероятности каждого вектора параметров гиперплоскости wг относительно его непосредственного предыдущего значения wг_1 будет также нормальной:
У(*; | _1, г) - М(*; | qwt_1, Бг ) =
1
|Бг |1/2 (2р)-/2 еХР
/
1 л
-qwt-1) Б--qwt-1) • (13)
2 У
Если дополнительно предположим, что не существует никакой априорной информации о первом значении вектора параметров *1, то априорная плотность распределения скрытой последовательности параметров гиперплоскости по всему интервалу наблюдения ,; = 1,...,Т) будет произведением этих условных плотностей:
;,; = 1,...,Т| г) = П1=2УК I *м,г). (14)
Априорная совместная плотность вектора дисперсий о (г | и) остается такой же, как и в случае отсутствия смещения (6).
1.3. Критерий обучения. Совместная апостериорная плотность распределения всей скрытой последовательности параметров гиперплоскости и вектора дисперсий будет пропорциональна произведению (6), (12) и (14):
р(*;,; = 1,...,Т, г |( X;, У;),; = 1.....т I С, и) -
- ^(*;,; = 1,...,т I г)о(г I и)Ф(Х;,; = 1,...,т | у,*;,; = 1,...,т,с). (15)
Максимизация совместной плотности распределения приводит к обобщению байесовского критерия обучения (8) для случая смещения параметров гиперплоскости в отношении (12) и (14):
(*;,; = 1,...,т,г | с,и) = а^шах р(*;,; = 1,...,т,г| (Х;,У;),; = 1,...,т,с,и) =
*;=1,...,Т ,г
= а^шах [1п¥,; = 1,...,Т | г) + 1п0(г | и)+ 1пФ(Х;,;=1,...,Т | У;,,;=1,...,Т,с)]. (16) ,;=1,...,Т,г
Пара ,М,...,Т| г)0(г | и) в (15) и 1п,М,...,Т| г) + 1п0(г | и) в (16) является прямым обобщением двух-уровневой иерархической модели для статичной скрытой гиперплоскости *=(а, Ь) (подразд. 1.1) в случае смещения *; =(а;,Ь). Совместная плотность ,М,...,Т | г) (14) является априорной условной нормальной моделью смещающейся разделяющей гиперплоскости с фиксированными стационарными дисперсиями \Уат (а1Л )=г ,(г1,..., гп )=г] (11) элементов направляющего вектора, а априорная
гамма-модель этих дисперсий О (г | и) остается такой же, как в (6).
Подставляя плотности распределения (2), (13) и (14) в (16), получаем следующий критерий обучения:
(*;,*=1,...,т,г| с,и)= а^шт J(*;,;=1,...,т,г | с,и), * (=1,...,Т ,г
J,*=1,...,Т,г | с,и) = (т-1)1п | бг | + ЕТ=2(*;-qwt-¡)Тб-^-1) -
■ 21п О(г | и) + 2с ХТ=1Е N 11п1 1 + ехр
}=1'
(
К 88
2 Т
2 У;, ] *; Ч у к о
Метод покоординатного спуска используем для двух групп переменных, а именно параметров гиперплоскости ^ t, ¿=1,...,Т) и дисперсий г=(1,...,п). Когда одна из этих групп фиксируется, возникают следующие две задачи частичной оптимизации из итерационной процедуры:
J, ¿=1.....Т | г, с) =
■trt=2(wt-4Wt-1)T Dr1(wt-qwt_i) +
f ( о ^
1 + exp
V
2 t
^ yt,jwt xt,j S JJ
(17)
J (г | w х, ¿=1,..., Т, т) = .
= (Т-1)Ь|Вг |+ ^¿_1)ТD-1(w^м)-21Па(г|ц). (18)
Эти чередующиеся задачи оптимизации являются выпуклыми.
2. Оценка параметров в иерархической вероятностной модели
2.1. Приближенная процедура динамического программирования для оценки смещающейся гиперплоскости при зафиксированных весах признаков. Идея динамического программирования. Целевая функция (17) зависит от Т переменных wT), упорядоченных относительно
временной оси, каждая из которых представляет собой вектор размерности (п+1) — w ¿еР п+ (9). Несмотря на то, что общее число переменных равно Т (п+1) , структура критерия обладает специфическим свойством, которое позволяет минимизировать его, по крайней мере, теоретически, всего за Т шагов.
Критерий (17) является парно-сепарабельным, т.е. может быть представлен как сумма элементарных функций, каждая из которых зависит от одной wt или двух векторных переменных ^м, w t) в соседние
дискретные моменты времени. Наиболее подходящим способом решения задач оптимизации такого рода является хорошо известный принцип динамического программирования [28, 29].
Основное понятие динамического программирования состоит в последовательности функций Беллмана. Рассмотрим критерий (17) относительно только начальной части всего временного интервала 5=1,...,t:
^ у7 _1
Jt(w5,s=1,...,11 r,c) = Y =2(ws_qws-1) Dr (ws_qws-1) +
+ 2cYS=1! N^ln
s=2
f f „ \\
1 + exp
2 T
ys, jw s xs, j
s2 JJ
(19)
Если мысленно зафиксируем последний аргумент wt еР "+1 и мысленно минимизируем этот критерий (17) по всем целевым переменным (w1v.., wt-1), результатом будет функция от wt:
Jt(wt | r,c) = min Jt (ws,s=1,...,t1 r,c) = min Jt(w1,...,wt-1, wt | r,c). (20) ws ,s=1,...,t-1 w1,...,w?-1
V
Таковы функции Беллмана ^ ^ | г, с), Р И+1®Р , ¿=0,..., Т, J0(w 0| г, с)°0, полностью определяемые заданным обучающим множеством {(X, У(), х = 1,...Т}.
Фундаментальным свойством функций Беллмана является следующее рекуррентное соотношение, которое практически очевидно следует из их определения (19) - (20):
0 | г,0еРи+1,х = 0,
Jt(w11 r,c) = 2cZNll\n
r Го „ ^
1 + exp
2 t Tyt,jwT xt,j
+
V v S JJ
T —1 ~
+ min [(wt—qwt—1) Dr (wt—qwt—1) + Jt—i(wt—11 r, c)], (21)
wt—1eR
w teR n+1,t=1,..., T.
Если компьютер имеет «достаточно большой» объем памяти и «достаточно большую» скорость вычислений, и, кроме того, есть доступный «достаточно эффективный» метод решения задачи оптимизации в (21), можно рекуррентно вычислить все функции Беллмана и хранить их в памяти. Впоследствии последнияя из них будет полностью определять оптимальное значение параметров гиперплоскости в последний момент времени (wT | r, q, c):
(wT | r, q, c)= min JT (wT | r, q, c). (22)
wT eP n+1
Все остальные элементы искомого решения [(wv11 r, q,c),...,(wT | r, q,c)] задачи (17) можно найти по обратному рекуррентному соотношению, которое практически очевидно следует из (21):
wt—1 = argmin[(wt —qwt—1)T D—1(wwt —qwt—1) + J— 1(wt—1 | r,c)], t = T,T—1,...,2. (23)
wt—1eP n+1
Для обучающей совокупности {(Xt, Yt), t = 1,...T} второе слагаемое в рекуррентном представлении последовательности функций Беллмана (21)
F (w t | r, c)= min [(w t —qw t—1)T D—1(w t —qw t—1) + Jt—1(w t—1 | r, c)] (24) w t—1eR n+1
является непрерывным и кусочно-квадратичным, если предыдущая функция Беллмана, а именно JJt-1(wt-1 | r,c) является непрерывной и кусочно-квадратичной. Исходная функция J0(w 0| r, c)°0 может быть рассмотрена как квадратичная, и, следовательно, все функции Беллмана будут непрерывными и кусочно-квадратичными в P n+1 .
Но из-за логарифмического первого слагаемого в (21) функции Беллмана сами не являются квадратичными, и поэтому не существует параметрического способа эффективно вычислять и компактно хранить их в памяти.
Для того, чтобы сохранить вычислительные преимущества процедуры динамического программирования, прибегнем к следующей операции: эвристически заменим подлинные кусочно-квадратичные функции Беллмана ~ ^ | г, с) на их подходящие квадратичные аппроксимации У\ ^*| г, с):
У\ ^*1 г, с) = (w*)Т^*)+соЩ @ t7í(w*1 г, с). (25)
Тогда каждая функция Беллмана 1 г, с) будет приближенно представляться своей матрицей Гессе О'* ((и+1)х(и+1)) и точкой минимума \¥'*еР "+1. Так как слагаемое сот^ является константой, можем его игнорировать.
Такая идея предполагает квадратичное представление исходной функции Беллмана ~'0^0) как О'0=0 и, например, ^у'0=0.
Пусть предыдущая функция Беллмана рассматривается как приблизительно квадратичная -1 (w*-11 г, с) = ^*^-й'*-1 )Т О'*-1 (w^-й'*-1) без постоянного слагаемого, тогда функция Ъ ^ | г, с) (24) в (21) также может быть представлена в квадратичной форме:
Ъ (w(| г, с) = ^)Т (Б+д2О^)-1(w(-т<-1).
В соответствии с (21) следующая функция Беллмана *) может быть приближенно представлена как сумма следующего вида ~ (w* | г,с) = 2с^^тах^Д-у,*wТхи) + ^()Т (Бг +д2О(-1'-1)*).(26)
Однако неквадратичная функция связи в качестве первого слагаемого приводит всю функцию Беллмана к неквадратичной форме.
Данная Эвристическая идея состоит в замене неквадратичных функций | г, с) подходящими квадратичными
•Л ^*| г, с) = К-1/'*)Т ((wt-1/'*) @ Л К| г с)
при ограничениях
= агёгтп (w*| г, c), (2у)
[О' = V!*./', * | г, с) а* w*=~'(. ( )
Для определения вектора W't достаточно решить задачу выпуклой оптимизации 1\ (w* | г, с) ® min(w*еР "+1) (26) относительно следующего пакета данных (X*, У*):
( (о \\
wt е^1
w't = argmin [2с^^= ^п
2_ т
2 Уs,jw5 х
1 + ехр
V V ' ))
+
(28)
Т 2 / -1 -1 + (wt-дЪ\-1) (Бг +д О*-1' ) ^*-дй'*^)]
Это «почти» обычная задача логистической регрессии, решаемая стандартными средствами выпуклой оптимизации. После чего матрица Гессиана определяется следующим образом:
91
= д 2Бг + _ +с 2С[_1Иг _1С(_1
где Иг _ = diag
ехР(_сУг_ .w(чх(1)
(ехр(_
■су{ _и w г_1х г_и
)) +1)2
О
г _1
Уг _1,1хг _1,1 уг _1,2хг _1,2
уг N _1хг _1, N _1
Квадратичное динамическое программирование. Таким образом, эвристически заменили все функции Беллмана в (21) их квадратичными аппроксимациями ~'г ^г | г,с) = ^г_~'г )Т<г (wг_~'г) (25), каждая из которых параметрически представлена точкой минимума W'г (28) и Гессианом <г.
Пусть {(Х1, У1),...,(ХТ, УТ)} - доступная обучающая последовательность пакетов данных, г=(г1,..., гп) - зафиксированный вектор, если веса признаков (10). Квадратичная версия процедуры динамического программирования (21) состоит в реккурентном пересчете параметров \у'геРп+1 и <г [(п+1><п+1)] квадратичных функций Беллмана:
~'0 = 0, <3'0 = 0, г = 0;
\у'г = [решение задачи логистической регрессии (28) для (Хг, Уг)], (29)
<'г = ЪТ (Бг + д 2<7_1) _1 Z г.
В соответствии с (22) последний результат \у'Т является приблизительной оценкой вектора параметров гиперплоскости ^Т | г, д, с) для последнего пакета данных обучающей совокупности. Квадратичная форма обратного рекуррентного соотношения (23) описывает оставшиеся оценки [^ | г,д,с),...,(1¥т_1 | г,д,с)]
=(д2Б_1 + Q'г_1)-1(дD-1Wг + ~'м^м), г = Т,Т_1.....1.
2.2. Оценивание весов признаков для фиксированного смещения гиперплоскости. Пусть задача (17) была решена, и (^г | г,с),г=1,...,Т) является ее решением при фиксированном векторе дисперсий г=(г1,...,гп). В
предыдущем разделе показано, как это решение может быть приближенно найдено с помощью простого алгоритма динамического программирования.
Если длина обучающей последовательности является достаточно большой Т , критерий (18) может быть представлен в виде
з(г^г,г=1,...,Т,т) ® хп=1
т ®
Т_1 + -ту
11
1п— + —
Г Г
ЕТ=2Кг )2 +
2
1
Слагаемые являются выпуклыми функциями, а их частные производные Э/Э(1/г )[.]=0 дают простые формулы для решения (г | w1,..., wT ,т) задачи (18)
wit )2+(i/m)
(r |w1,...,wT,m) =t-2V /,ty—, z-1,...,n. (30)
л T-i+(1/m)
2.3. Итерационная процедура оценки параметров и влияния отбора признаков. Как предполагалось в подразд. 1.2, элементы вектора r-(r1,...,rn) описывают априорные стационарные дисперсии элементов смещающегося направляющего вектора at-(azt,z-1,...,n) (11) и подлежат оценке в процессе
обучения. Пусть итерационная процедура начинается с некоторых начальных значений r 0-(r10,..., rn0), например r10-... -rn0-l.
На k -м шаге вектор rk-(r1k,..., rk) полностью определяет процедуру квадратного динамического программирования (29) результатом которой является оценка смещения разделяющей гиперплоскости [(wk |rk,q,c),...,(wk |rk,q,c)], Wk-(ak,bk). В свою очередь, рассчитанное смещение гиперплоскости дает новую оценку вектора rk+1-(r,k+1,..., rkn +1) (30),
и так далее. Опыт показывает, что эта итерационная процедура сходится за 10-15 шагов.
3. Экспериментальные результаты
3.1. Модельные данные. Для экспериментального исследования разработанного метода были использованы искусственные данные, сгенерированные с помощью двух двумерных нормальных распределений с дисперсиями 0.5 и математическими ожиданиями -1 и 1 соответственно. В этих данных множества двух классов являются равнонаполненными, метки класов принимают значения из множества {-1,1}. Каждый созданный объект имеет 100 признаков, из которых первые два сгенерированы с помощью упомянутых выше распределений и являются соответственно релевантными, для получения остальных использовалось еще одно нормальное распределение с нулевым математическим ожиданием. После генерации каждых 20 объектов распределения поворачивались относительно начала координат на угол 0.0314 радиана, всего было получено 2000 объектов. Проверка качества оцениваемых параметров осуществлялась по контрольной выборке, которой служило еще одно сгенерированное множество при тех же параметрах модельных распределений.
Для подбора оптимальных значений параметров m, d и q была проведена серия экспериментов с их различными значениями. Так, параметры m и d варьировались от -3 до 3 с шагом 1 по шкале десятичных логарифмов, q - от 0,1 до 0,9 с шагом 0,1.
Для сравнения использовались некоторые алгоритмы для распознавания при смещении решающего правила из программного пакета Massive Online Analysis (MOA) [30].
• OzaBagAdwin - bagging с использованием метода ADWIN [31], который позволяет обнаруживать и оценивать происходящие в генеральной совокупности изменения. Составляющими ансамбля являются деревья решений для потоковых данных, листья которых представляют собой адаптивные байесовские классификаторы. Для опредедения оптимального значения числа компонентов ансамбля была проведена серия экспериментов, оптимальное значение выбиралось по минимуму ошибки.
• SingleClassifierDrift - одиночный классификатор в форме дерева решений с адаптивным байесовским правилом с обнаружением изменений концепта методом EDDM [32].
• AdaHoeffdingOptionTree представляет собой адаптивное дерево решений с дополнительными (option) узлами; максимальное количество таких узлов - 50.
Итоговые результаты приведены в табл. 1, где последняя строка соответствует результату для предложенного метода (LrFeatureSelection).
Таблица 1
Экспериментальные результаты: модельные данные
Алгоритм Доля верно классифицированных объектов, %
OzaBagAdwin 85,38
SingleClassifierDrift 84,72
AdaHoeffdingOption Tree 85,24
LrFeatureSelection 86,26
В табл. 2 показаны итоговые значения вектора дисперсии.
Таблица 2
Экспериментальные результаты: вектор дисперсий
Номер признака 1 2 3 100
Дисперсия 47,6407 48,1681 0,7355 0,0052
Как можно видеть, первые две компоненты вектора являются на несколько порядков большими, чем остальные, что означает отбор первых двух признаков в качестве значащих.
3.2. Реальные данные. Программное обеспечение для обнаружения сетевых вторжений защищает компьютерную сеть от несанкционированных пользователей. Задачей обучения детектора вторжений является построение прогнозной модели (т.е. классификатора), способной различать «плохие» соединения, называемые вторжениями или атаками, и «хорошие», т.е. обычные нормальные соединения.
94
В качестве реальных данных был использован набор данных KDDCup'99 [33], который представляет собой набор TCP дампов, собранных на протяжении девяти недель в рамках программы DARPA по обнаружению вторжений в 1998 году. В этой программе локальная вычислительная сеть (LAN) моделировала типичную LAN военно-воздушных сил США, записывая все соединения. Соединение представляет собой последовательность TCP-пакетов, начатую и законченную в некоторое четко определенное время, содержащую поток данных между исходым и конечным IP-адресами по четко определенному протоколу. Каждое соединение имеет 41 признак и помечено либо как обычное, либо как нападение с указанием конкретного типа атаки, но так как мы решаем задачу классификации на два класса, то конкретный тип атаки не имеет значения. Этот набор данных существует в двух вариантах: полный - около 5 миллионов записей и его 10-процентное подмножество. В данной работе использовали 10-процентный набор данных, которые были нормализованы и разделены на 49 пакетов, каждый из которых содержит 10000 соединений.
Как и в предыдущем разделе, мы сравнили результаты, полученные с помощью метода, с результатами трех алгоритмов из программного пакета МОА. Контроль осуществлялся по принципу «interleaved-test-then-train», который состоит в предварительном расчете качества классификации на новой группе объектов, перед тем как использовать эту группу для обучения. Усредненные результаты представлены в табл. 3.
Таблица 3
Экспериментальные результаты: данные KDDCup'99
Алгоритм Доля верно классифицированных объектов, %
OzaBagAdwin 93.856
SingleClassifierDrift 92.88
AdaHoeffdingOptionTree 98.944
LrFeatureSelection 99.56
Заключение. Основной идеей данной статьи является новый метод отбора признаков для задач смещения концепта при анализе потоков данных. В центре внимания - иерархическая байесовская модель с регулируемой селективностью, которая позволяет получить несмещенные асимптотические оценки параметров, обладающих оракульными и обобщающими свойствами. Методологическая применимость предложенного алгоритма смещения концепта с регулируемой селективностью демонстрируется с помощью проведенных экспериментальных исследований на модельных и реальных данных. По сравнению с тремя распространенными алгоритмами смещения концепта предложенный метод показывает гораздо большую се-
лективность при выборе информативных признаков. В результате он имеет значительно меньшую абсолютную погрешность ошибки распознавания класса.
Даная работа поддержана грантами РФФИ №16-07-01008 (Ц2115.1 ГРФ),14-07-00964, 14-07-00661.
Список литературы
1. Widmer G., Kubat M. Learning in the presence of concept drift and hidden contexts // Machine Learning. 1996. 23 (1). P. 69 - 101.
2. P. Dongre, L. Malik. Stream Data Classification and Adapting to Gradual Concept Drift // International Journal of Advance Research in Computer Science and Management Studies. March 2014. Volume 2. Issue 3. P. 125 - 129.
3. Chen, S., Wang, H., Zhou, S., Yu, P. Stop chasing trends: Discovering high order models in evolving data // Proc. ICDE. 2008. P. 923 - 932.
4. Hulten G., Spencer L., Domingos P. Mining time-changing data streams // SIGKDD, San Francisco, CA, USA, August 2001. P. 97 - 106.
5. Yang Y., Wu X., Zhu X. Combining proactive and reactive predictions for data streams // Proc. SIGKDD, 2005. P. 710 - 715.
6. Kolter J., Maloof M. Using additive expert ensembles to cope with concept drift // ICML. Bonn, Germany, August 2005. P. 449 - 456.
7. Wang H., Fan W., Yu P.S., Han J. Mining concept-drifting data streams using ensemble classifiers // KDD 2003. P. 226 - 235.
8. Zhou X., Li S., Chang C., Wu J., Liu K. Information-value-based feature selection algorithm for anomaly detection over data streams // Tehnicki vjesnik. 2014. 21(2). P. 223 - 232.
9. Sauerbrei W. The use of resampling methods to simplify regression models in medical statistics // Journal of the Royal Statistical Society, Series C (Applied Statistics). 1999. Vol. 48. Issue 3. P. 313 - 329.
10. Sauerbrei W., Schumacher M. A bootstrap resampling procedure for model building: Application to the cox regression model // Statistics in Medicine. December 1992. 11(16). P. 2093 - 2109.
11. Zou H. Hastie T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society, 2005, Vol. 67. P. 301 - 320.
12. Zou H. The adaptive lasso and its oracle properties // Journal of the American Statistical Association. 2006. Vol. 101. Issue 476. P. 1418 - 1429.
13. Zou H. Li R. One-step sparse estimates in nonconcave penalized likelihood models (with discussion). Annals of Statistics, 2008, 36. P. 15091566.
14. Seredin O., Kopylov A., Mottl V. Selection of Subsets of Ordered Features in Machine Learning // Machine Learning and Data Mining in Pattern Recognition, 6th International Conference, MLDM 2009. Leipzig, Germany, July 23 - 25, 2009. Lecture Notes in Computer Science. 5632. Springer, 2009. P. 16 - 28.
15. Seredin O., Mottl V., Tatarchuk A., Razin N., Windridge D. Convex Support and Relevance Vector Machines for selective multimodal pattern recognition // Proceedings of the 21th International Conference on Pattern Recognition, Tsukuba, Japan, November 11 - 15, 2012. P. 1647 - 1650.
16. Fan J., Samworth R., Wu Y. Ultrahigh Dimensional Feature Selection: Beyond The Linear Model // Journal of Machine Learning Research. 2009. Volume 10. P. 2013 - 2038.
17. Cai D., Zhang C., He X. Unsupervised Feature Selection for Multi-cluster Data // Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data mining KDD '10, ACM New York, NY, USA, 2010. P. 333 - 342.
18. Yang H., Lyu M.R., King I. Efficient Online Learning for Multitask Feature Selection // ACM Transactions on Knowledge Discovery from Data (TKDD). July 2013. Vol. 7. Issue 2. Article 6.
19. Song Q., Ni J., Wang G. A Fast Clustering-based Feature Subset Selection Algorithm for High-dimensional Data // IEEE Transactions on Knowledge and Data Engineering. Jan. 2013. Vol. 25. Issue 1. P. 1 - 14.
20. Maung C., Schweitzer H. Pass-efficient Unsupervised Feature Selection. Advances in Neural Information Processing Systems // Neural information processing systems foundation, 27th Annual Conference on Neural Information Processing Systems. NIPS 2013. P. 1628 - 1636.
21. Krasotkina O., Mottl V. A Bayesian approach to sparse learning-to-rank for search engine optimization // Proceedings of the 11th International Conference on Machine Learning and Data Mining (MLDM 2015). Hamburg, Germany, July 20-23, 2015. P. 382 - 394.
22. Krasotkina O., Mottl V. A Bayesian approach to sparse Cox regression in high-dimensional survival analysis // Proceedings of the 11th International Conference on Machine Learning and Data Mining (MLDM 2015). Hamburg, Germany, July 20-23, 2015. P. 425 - 437.
23. De Groot M. Optimal Statistical Decisions. McGraw-Hill Book Company, 1970.
24. Cortes C., Vapnik V. Support-Vector Networks // Machine Learning. 1995. 20. P. 273 - 297.
25. Vapnik V. Statistical Learning Theory. NY: J. Wiley, 1998.
26. Tatarchuk A., Mottl V., Eliseyev A., Windridge D. Selectivity supervision in combining pattern-recognition modalities by feature- and kernel-selective Support Vector Machines // Proceedings of the 19th International Conference on Pattern Recognition. 2008. Vol 1 - 6. IEEE. P. 2336 - 2339.
27. Markov M., Krasotkina O., Mottl V., Muchnik I. Time-varying regression model with unknown time-volatility for nonstationary signal analysis // Proceedings of the 8th IASTED International Conference on Signal and Image Processing. Honolulu, Hawaii, USA, August 14 - 16. 2006. P. 534 - 196.
28. Bellman R. Dynamic Programming. Princeton University Press, Princeton, NJ, 1957.
29. Sniedovich M. Dynamic Programming. Marcel Dekker, NY, 1991.
30. Bifet A., Holmes G., Kirkby R., Pfahringer B. MOA: Massive Online Analysis // Journal of Machine Learning Research (JMLR). 2010. http://sourceforge.net/proj ects/moa-datastream/.
31. Bifet A., Holmes G., Pfahringer B., Kirkby R., Gavalda R. New ensemble methods for evolving data streams // Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. Paris, France, June 28-July 1, 2009. P. 139 - 148.
32. Gama J., Medas P., Castillo G., Rodrigues P. Learning with drift detection. SBIA 2004 // The Brazilian Symposium on Artificial Intelligence. Lecture Notes in Computer Science. 2004. Volume 3171. P. 286 - 295.
33. KDD Cup 1999 Data. URL: http://kdd.ics.uci.edu/databases/ kddcup99.
Турков Павел Анатольевич, асп., pavel. turkovagmail.com, Россия, Тула, Тульский государственный университет,
Красоткина Ольга Вячеславовна, канд. физ.-мат. наук, доц., o. v. krasotkina'a yandex.ru, Россия, Тула, Тульский государственный университет,
Моттль Вадим Вячеславович, д-р техн. наук, проф., v.v.motti'a yandex.ru, Россия, Москва, Вычислительный центр им. А. А. Дородницына, РАН,
Сычугов Алексей Алексеевич, канд. техн. наук, директор института, xru2003@list. ru, Россия, Тула, Тульский государственный университет
FEATURE SELECTION FOR HANDLING CONCEPT DRIFT IN THE DATA STREAM
CLASSIFICATION
P.A. Turkov, O. V. Krasotkina, V. V. Mottl
This paper proposes a new Bayesian framework to feature selection in data streams pattern recognition problem. We suggest a hierarchical probabilistic model with sparse regu-larization for estimation of decision rule parameters. The proposed approach gives a strong Bayesian formulation of the shrinkage criterion for predictor selection. Experimental results show that the proposedframework outperforms other methods of concept drift analysis.
Key words: feature selection, concept drift, changing environment, data streams classification, supervised learning, pattern recognition.
Turkov Pavel Anatolievich, postgraduate, pavel. turkovagmail. com, Russia, Tula, Tula State University,
Krasotkina Olga Vyacheslavovna, doctorate of physico-mathematical sciences, do-cent, o. v. krasotkinaayandex. ru, Russia, Tula, Tula State University,
Mottl Vadim Vyacheslavovich, doctor of engineering sciences, professor, v. v. mottl@yandex. ru, Russia, Moscow, Dorodnicyn Computing Centre, RAS,
Sychugov Alexey Alexeevich, candidate of technical sciences, head of the Institute, [email protected], Russia, Tula, Tula State University
УДК 004.932
АЛГОРИТМЫ УТОЧНЕНИЯ ОСИ ЗЕРКАЛЬНОЙ СИММЕТРИИ,
НАЙДЕННОЙ МЕТОДОМ СРАВНЕНИЯ ПОДЦЕПОЧЕК СКЕЛЕТНЫХ ПРИМИТИВОВ
С.А. Федотова, О.С. Середин, О.А. Кушнир
Метод поиска оси зеркальной симметрии бинарного изображения, основанный на функции сравнения подцепочек примитивов, кодирующих скелет фигуры, позволяет искать ось симметрии не только идеально симметричных, но и почти симметричных (квазисимметричных) изображений за время, близкое к реальному. Для оценки симметричности фигуры относительно некоторой оси используется теоретико-множественное подобие Жаккарда, применяемое к подмножествам пикселей фигуры при делении ее осью. Зачастую ось, найденная скелетным методом, отклоняется в большей или меньшей степени от эталонной оси симметрии, определенной переборным методом из всех возможных осей, пересекающих фигуру. Поэтому предлагаются алгоритмы, позволяющие уточнить найденную быстрым скелетным методом ось, путем поиска ближайшей к ней оси с большим по мере Жаккарда значением симметричности. Экспериментальные исследования на базе изображений Flavia показывают, что предложенные алгоритмы позволяют найти эталонную ось симметрии (или немного отличающуюся по мере от эталонной) за время, близкое к реальному.
Ключевые слова: зеркальная симметрия, бинарные растровые изображения, подцепочки скелетных примитивов, алгоритмы уточнения.
Введение. При анализе форм бинарных изображений можно заметить, что ряду объектов как искусственного, так и природного происхождения присуща зеркальная (осевая) симметрия. Очевидно, что реальные изображения редко бывают идеально симметричны. Поэтому представляет интерес задача поиска приближенной симметрии и оценки степени симметричности изображения (рис. 1). Оценка симметричности фигур может применяться для решения многих задач, таких как анализ условий произрастания растений или обнаружения опухолей в медицинской обработке изображений.