Научная статья на тему 'Классификатор Байеса для переменного количества признаков'

Классификатор Байеса для переменного количества признаков Текст научной статьи по специальности «Математика»

CC BY
353
44
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
БАЙЕСОВСКИЙ КЛАССИФИКАТОР / МАШИННОЕ ОБУЧЕНИЕ / РАНЖИРОВАНИЕ / ПОКАЗАТЕЛЬ ХЕРСТА / ФРАКТАЛЬНАЯ РАЗМЕРНОСТЬ / ПРЕДСКАЗАНИЕ / ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ

Аннотация научной статьи по математике, автор научной работы — Турканов Г. И., Щепин Е. В.

Рассматривается подход ранжирования при помощи наивного байесовского классификатора для переменного количества признаков с применением теории фракталов, которая позволяет получить дополнительную информацию в классификаторхарактеристику самоподобия. Для этого будет модифицирован наивный Байесовский классификатор и определен показатель Херста данных, который связан с традиционной фрактальной размерностью.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по математике , автор научной работы — Турканов Г. И., Щепин Е. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Классификатор Байеса для переменного количества признаков»

УДК 519.237.8

Г. И. Турканов1, Е.В. Щепин1'2

"Московский физико-технический институт (государственный университет) 2Математический институт имени В. А. Стеклова РАН

Классификатор Байеса для переменного количества

признаков

Рассматривается подход ранжирования при помощи наивного байесовского классификатора для переменного количества признаков с применением теории фракталов, которая позволяет получить дополнительную информацию в классификатор-характеристику самоподобия. Для этого будет модифицирован наивный Байесовский классификатор и определен показатель Херста данных, который связан с традиционной фрактальной размерностью.

Ключевые слова: Байесовский классификатор, машинное обучение, ранжирование, показатель Херста, фрактальная размерность, предсказание, вычислительный эксперимент.

G.I. Turkanov1, E. V. Scepin•1'2

"Moscow Institute of Physics and Technology (State University) 1,2Steklov Mathematical Institute of Russian Academy of Sciences, Moscow, Russia

Bayes classifier for a variable number of features

The ranking approach using the Bayesian classifier for a variable number of features with the factual theory, which allows us to add more information to the classifier - characteristics of selfsimilarity. For this the Naive Bayes classifier is modified and defins Hurst data that is associated with traditional fractal dimension.

Key words: Bayesian classifier, machine learning, ranking, Hurst exponent, fractal dimension, prediction, computational experiment.

1. Введение

Так называемый наивный классификатор Байеса основан на предположении независимости рассматриваемых признаков [1]. А именно, оценка вероятности события по данной совокупности признаков, согласно Байесу, основана на произведении условных вероятностей этого события относительно рассматриваемых признаков.

И несмотря на то, что при практическом применении признаки, как правило, зависимы и байесовские оценки вероятностей могут сильно отличаться от реально наблюдаемых, этот простейший классификатор редко удается существенно превзойти [2].

Для практического применения байесовской оценки первоочередное значение имеет не ее точность, а ее ковариантность наблюдаемой вероятности, выражающаяся в том, что эта оценка тем больше, чем больше наблюдаемая вероятность события [3].

Целью исследований было увеличить точность классификатора при условии переменного количества признаков.

2. Байесовский классификатор

Существенным условием выполнения свойства ковариантности байесовской оценки является постоянство количества признаков, на основе которых она определяется.

Вероятностная модель для классификатора - это условная модель р(С\х1,х2, ■■■,Хп) над независимой переменной класса С и признаками Х1,Х2, ■■■,хп по теореме Байеса [4]:

р(С)р(Х1,Х2, ■■■,Хп\С)

р(С\Х1,Х2, ■■■,Хп) = ' -р-^■

Р(Х1,Х2, ■■■^Хп)

В свою очередь знаменатель представляет собой масштабный множитель, зависящий только от признаков Х1,Х2, ■■■,Хп, числитель же эквивалентен совместной вероятности модели:

р(С)р(Х1 ,Х2, ■ ■■, Хп\С) = р(С)р(Х1\С)р(Х2\С, Х1):р(Хп\С, Х1,Х2, ■■■,Хп-1 )■

Далее, в наивном байесовском классификаторе используется предположение о независимости признаков Х1 ,Х2, ■ ■■,Хп, то есть

п

К(х,С) = р(С)р(Х1,Х2, ■■■,Хп\С) = р(С) Л р(Хг\С)■

г=1

В случае с переменным количеством признаков использование такого классификатора в явном виде приводит к потере его ковариантности, то есть объект с большим количеством признаков получит заведомо заниженную оценку.

Самое простое, что можно сделать в случае переменного количества признаков - это перейти от произведения к среднему геометрическому условных вероятностей. В случае постоянного количества признаков переход от произведения к среднему геометрическому никак не отражается на ковариантности классификатора, а в случае переменного количества, очевидно, ее повышает:

1 п

Кп (Х,С ) = - р(С )Ц р(Хг\С )■

п .

г=1

Для дальнейшего повышения ковариантности классификатора в случае переменного количества признаков предложено проанализировать характер зависимости байесовского произведения от количества множителей.

Если общее количество признаков велико (тысячи), тогда как для классификации каждого события применяется лишь небольшая их часть (десятки), то логично ожидать, что логарифм байесовского произведения асимптотически линейно растет с ростом количества сомножителей.

А именно, пусть В(к,п) обозначает среднее значение логарифма байесовского произведения для к наблюдаемых событий с п признаками:

^ ^ ^ п ^ п

В(к,п) = пр(С)ПрХ\С) = -р(С)£ПрХ\С),

3=1 г=1 3=1г=1

тогда на практике для зависимых признаков нередко можно наблюдать, что разность В (к, п) - пВ(к, 1) растет пропорционально некоторой (обычно нецелой) степени количества признаков:

В(к, п) - пВ(к, 1) ~ спн■ (1)

Показатель Н этой степени называется показателем Херста.

Далее будет показана модификация байесовского классификатора на основе следующего члена асимптотического разложения логарифма байесовского произведения.

3. Показатель Херста

Известно, что показатель Херста представляет собой меру персистентности — склонности процесса к трендам (в отличие от обычного броуновского движения). Значение Н > 2 означает, что направленная в определенную сторону динамика процесса в прошлом, вероятнее всего, повлечет продолжение движения в том же направлении. Если Н < 2, то прогнозируется, что процесс изменит направленность. Н = 2 означает неопределенность — броуновское движение [5].

Рассмотрим систему наблюдений (хп,у, где хп - вектор признаков длины п € {п1,П2,---,пм}, у - класс из {0,1}, к - количество наблюдений. Предположим, что значения хп так же принимают значения из {0,1}.

Сперва перейдем к системе (х^ ,с&Т])j=l..F, где ¥ - общее количество признаков, а сЬг^:

= к^ТТ/СТ Е У + 1),

где к - количество наблюдений, в которых встречается признак Xj, уг - соответствующие этим наблюдениям классы.

Далее вычисляется среднее байесовских оценок для различного числа признаков п:

Е = --1-п V Я*п(х,С).

пе{п1,...,пК}

Затем рассчитывается стандартное отклонение:

ar,

\

\{т,...,пм }|

ne{ni,...,nN}

£ (Rn(x,C) - E)2

И окончательно в предположении (1) -

ln — ~ H ln п.

On

Откуда угол наклона прямой, построенной как аппроксимация последовательности ^:

Гп ^ (П} H

On ^cJ '

где

1 kn 1 kn

nax — > ctrt1 — min — > ctrrt n b Z—/ ь n h ' 1

Угол наклона H прямой:

— log rn

. C / On

H log ( П ) — log Гп =0

C On

- искомый показатель Херста.

Дополнительная информация, которую несет показатель Н как коэффициент самоподобия, далее была применена к байесовскому классификатору:

я" = Пн р(с) П г(хЕг ■

г=1

1

4. Экспериментальные результаты

В качестве экспериментальной базы использованы данные поисковой системы Yandex. Обучающая выборка была собрана за период с 27.10.2015 по 16.11.2015 и состоит из 24 099 318 пар фраза-баннер с общим числом 440 205 425 показов и 6 685 997 кликов.

Тестовый набор данных был собран с 17.11.2015 по 23.11.2015 и включает в себя 1139 066 пар фраза-баннер с общим числом 7182 355 показов и 40 877 кликов.

Метрикой качества выступает количество потерянных кликов по рекламным баннерам в зависимости от порога фильтруемых показов. На графике изображена разница между потерянными кликами, зеленый - наивный байесовский классификатор, синий - модифицированный. Отрицательные значения соответствуют меньшему значению потерянных кликов при одинаковом значении фильтруемых показов.

Рис. 1. Разница в фильтрованных кликах по наивному байесовскому классификатору и модифицированному

В качестве альтернативной метрики была использована ИОС-кривая. Для наивного байесовского классификатора значение площади под кривой составило 0.721377, для модифицированного метода - 0.760481. В качестве бинарной классификации выступало наличие или отсутствие клика в паре фраза-баннер.

Рис. 2. ROC-кривые двух классификаторов, синий - модифицированный метод

5. Интерпретация результатов

Экспериментальные результаты подтвердили лежащие в основе исследования предположения о положительном вкладе дополнительной информации в предсказание в виде фрактальной размерности.

Показатель H составил 0,68, что говорит о периодичной зависимости в данных. Улучшение в предсказании наблюдается на всем промежутке фильтруемых показов рекламных баннеров, относительное улучшение до 6% кликов.

Для подтверждения предположения о связи между показателем H и зависимостью используемых признаков был произведен еще один эксперимент. В исходные данные было добавлено искажение в виде дублирования 20% признаков, что привело к увеличению показателя H до 0, 81 и ухудшения классификатора по сравнению с более независимыми признаками.

Литература

1. Russell S, Norvig P. Artificial Intelligence: A Modern Approach (2nd ed.). New York: Prentice Hall, 2003.

2. Graepel T., Candela J., Borchert T., Herbrich R. Web-Scale Bayesian click-through rate prediction for sponsored search advertising in Microsoft's Bing search engine // Proceedings of 27th International Conference on Machine Learning. 2010. P. 13-20.

3. Turkanov G. Modified Naive Bayes with Hurst exponent as quantitative measure of data mutual dependence // Proceedings of Yandex School of Data Analysis Conference. Machine Learning: Prospects and Applications. 2015.

4. Bayes T. An essay, towards solving a problem in the doctrine of chances // Philos Trans R Soc Lond. 1763. V. 53. P. 370-418.

5. Feder J. Fractals. New York: Plenum Press, 1988. References

1. Russell S., Norvig P. Artificial Intelligence: A Modern Approach (2nd ed.). New York: Prentice Hall, 2003.

2. Graepel T., Candela J., Borchert T, Herbrich R. Web-Scale Bayesian click-through rate prediction for sponsored search advertising in Microsoft's Bing search engine. Proceedings of 27th International Conference on Machine Learning. 2010. P. 13-20.

3. Turkanov G. Modified Naive Bayes with Hurst exponent as quantitative measure of data mutual dependence. Proceedings of Yandex School of Data Analysis Conference. Machine Learning: Prospects and Applications. 2015.

4. Bayes T. An essay, towards solving a problem in the doctrine of chances. Philos Trans R Soc Lond. 1763. V. 53. P. 370-418.

5. Feder J. Fractals. New York: Plenum Press, 1988.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поступила в редакцию 23.09.2016

i Надоели баннеры? Вы всегда можете отключить рекламу.