В.В. Поддубный, О.Г. Шевелев, А.А. Фатыхов
СРАВНИТЕЛЬНЫЙ анализ эффективности алгоритмов РАСПОЗНАВАНИЯ АВТОРСТВА ТЕКСТОВ ПО ЧАСТОТАМ ПЕРЕХОДОВ
Рассматривается подход, предложенный Д.В. Хмелевым для распознавания авторства текстов. Предлагается четыре альтернативных меры сравнения матриц частот переходов элементов в тексте, использующихся для определения авторства. Приводятся результаты вычислительных экспериментов на примере распознавания авторов беллетристики и газетных статей. Делается вывод о предпочтительности использования меры хи-квадрат.
В мае 1999 г. на сайте русской фантастики появилась статья Д. Хмелева, в которой был предложен новый метод установления авторства текстов [1]. Данный метод позволял с высокой точностью классифицировать тексты по авторству на основе сравнения чисел появления паросочетаний букв. Несмотря на успешную реализацию метода и большую популярность, детальных исследований в этом направлении практически не проводилось.
В данной работе предлагается сравнение метода Д. Хмелева с аналогичными ему методами, используемыми в статистике, по их эффективности, т.е. точности распознавания автора, в зависимости от объемов выборок (размеров текстовых фрагментов) на различных текстовых данных.
МЕТОД И МЕРА ХМЕЛЕВА.
АЛЬТЕРНАТИВНЫЕ МЕРЫ
Ключевой идеей метода Хмелева является подсчет и обработка последовательностей элементов текста (сочетаний букв, но есть также работа [2], где обрабатываются сочетания грамматических классов слов). Распознаванию предшествует обучение системы. Обучение производится на текстах заданного множества авторов. Для каждого автора подсчитывается матрица-эталон употреблений всех пар рассматриваемых элементов в его текстах. При распознавании авторства произвольного текста подсчитывается аналогичная матрица и сравнивается со всеми имеющимися матрицами-эталонами. Автор, обладающий наиболее похожей матрицей-эталоном, будет предположительно автором рассматриваемого текста.
Несмотря на то, что в работе [1] о матрицах переходов говорится как о реализациях цепей Маркова, свойство марковости, определяемое уравнением Чепмена - Колмогорова [3] для вероятностей переходов, нигде не проверяется и не используется. Поэтому распознавание авторства с помощью таких матриц, на наш взгляд, корректнее называть распознаванием по частотам переходов. Методы, работающие на основе матриц частот переходов, могут варьироваться в зависимости о того, какие именно переходы подсчитываются (букв, слов, предложений, любых или с определенными свойствами) и какая мера используется для сравнения матриц. Для оценки эффективности методов зафиксируем элементы подсчета (остановимся на буквах, как в оригинальном методе Хмелева) без предобработки текста и рассмотрим различные меры сравнения матриц переходов. Так как матрицы частот переходов являются двумерными распределениями, то и сравниваются они с помощью мер сравнения двумерных распределений.
В работе [1] в качестве меры сравнения использовалась величина
L =-±±Щ1} • Ini , (1)
i=1 1 =1 ' i %/ П2г )
где Ш\у - число переходов из / элемента в} в анализируемом тексте; пц - общее число переходов из /-го элемента; т2$, п2/ - аналогичные числа для матрицы того автора, с которым производится сравнение; к -число элементов (если подсчитываются буквосочетания, то к = 32). Значение Ь тем меньше по модулю, чем меньше различие между матрицами. Эта величина близка по смыслу к информационной мере расхождения распределений, известной в статистике как направленная дивергенция Кульбака [4, 5]:
к к
i=1 j=1
I = 2
m1j m2j
(2)
где п = £ Пі , п2 = £ п2і . і=1 і=1
Меры, представленные формулами (1) и (2), «направлены» от матрицы анализируемого текста к матрице-эталону (усреднение по анализируемому тексту). Возможны и другие варианты - направленность на анализируемый текст (усреднение по матрице-эталону), симметричная мера (сумма мер в одну и в другую сторону пополам).
Значения логарифмов отношений частот под суммой в формулах (1) и (2) могут быть как положительными, так и отрицательными. Общая сумма может то уменьшаться, то увеличиваться в зависимости от значений строк матрицы. Поэтому различие между матрицами не будет расти постоянно. Для обеспечения более стабильных мер возьмем каждое слагаемое по модулю и получим еще две модификации меры. Назовем их модульными мерами, Хмелева и Кульбака соответственно.
Другим вариантом сравнения матриц является подсчет статистики хи-квадрат, значение которой также может выступать в качестве меры различия распределений [6]:
к к
X2 = n1n2 SS
1
i=1 j=1 m1j + m2 ij У n
m1j m2ij
(3)
Эта мера построена для двумерных распределений частот переходов исследуемых выборок. Мера хи-квадрат, в отличие от рассмотренных мер, является ненаправленной.
ВЫЧИСЛИТЕЛЬНЫЕ ЭКСПЕРИМЕНТЫ
Качество классификатора, как известно [1], определяется тем, какие объемы текстов используются для нахождения частот переходов при обучении и распознавании. В работе [1] минимально необходимым был признан объем в 100 кбайт. Качество оценивалось числом правильных ответов классификатора.
Проведем сравнение эффективности различных мер по тому же критерию. Рассмотрим пять вышеназванных мер: меру Хмелева (1), информационную меру Кульбака (2), статистику хи-квадрат (3), модульную меру Хмелева и модульную меру Кульбака. В качестве материала для классификации воспользуемся двумя массивами текстов - художественными произведениями различных писателей (153 текста, 36 писателей, 55 Мбайт) и статьями из томских газет за 2003 - 2004 годы (4440 статей, 45 журналистов, 22 Мбайта). Беллетристику и статьи будем рассматривать отдельно.
Сравнение проведем по следующей схеме. Перед началом работы объединим все тексты каждого из авторов в один текст (итого 36 текстов для беллетристики, 45 текстов для статей). Выберем число итераций для обучения (Ь) и для тестирования (Т). Зададим размеры фрагментов, которые необходимо исследовать (возьмем от 20 до 200 с шагом 20 кбайт, всего £ = 10 размеров). Выберем произвольные фрагменты первого размера (20 кбайт) из текста каждого из авторов (всего N фрагментов по числу авторов). Получим матрицы-эталоны. Аналогично получим по одной тестовой матрице для каждого из авторов. Найдем для каждой тестовой матрицы наиболее похожую матрицу-эталон. Если авторы, соответствующие тестовой матрице и найденной матрице-эталоне, отличаются, то зафиксируем ошибку. Повторим выбор фрагментов для тестовых матриц Т раз. Затем выберем новые фрагменты для матриц-эталонов. Повторим весь процесс Ь раз. Будем менять размер фрагмента и повторять процедуру обучения и тестирования, пока не
кончится список размеров. Получим £ • Ь • Т • N проверок. Результатом сравнения методов будет общее число ошибок (табл. 1) и число ошибок для каждого размера (рис. 1 и 2).
Эксперименты проводились при Ь = 10, Т = 20 (большее число итераций практически не меняет результатов). Как видно из графиков, с ростом объемов выборок качество классификации заметно улучшается. Так как меры (1) и (2) похожи по виду, а меры (2) и (3) обычно близки по величине и редко принимают заметно различающиеся значения [7], кривые на графиках мало отличаются. Тем не менее, проверка гипотезы о равенстве частот ошибок по критерию хи-квадрат показала статистически значимое отличие вероятностей ошибок по мерам Хмелева и Кульбака от ошибок аналогичных модульных мер и меры хи-квадрат для беллетристики (р < 0,01). Для газетных статей значимо отличается от остальных только мера хи-квадрат (в лучшую сторону, р < 0,001). Наиболее стабильные и точные результаты, полученные по мере хи-квадрат, делают эту меру предпочтительнее других рассмотренных мер.
Примечательно, что авторство газетных статей определяется значительно точнее, чем авторство художественных произведений. Видимо, это связано с богатством языка писателей и, следовательно, более размытыми границами их авторских стилей по сравнению со стилями журналистов. Кроме того, писатель (в отличие от журналиста) работает, как правило, с меньшим дефицитом времени и имеет возможность разнообразить свой стиль.
Общий % (и число) ошибок для разных мер
Вид СМИ Хмелев Кульбак Хи-квадрат Хмелев (модуль) Кульбак (модуль)
Беллетристика 37,1% (26708) 36,8% (26486) 35,5% (25548) 35,4% (25454) 34,7% (24967)
Газетные статьи 18% (16177) 17,9% (16070) 17% (15300) 17,9% (16082) 17,6% (15872)
Рис. 1. Зависимости числа ошибок от размера фрагментов для разных мер (беллетристика)
Рис. 2. Зависимости числа ошибок от размера фрагментов для разных мер (газетные статьи)
1. Хмелёв Д.В. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник МГУ. Сер. 9: Филология. 2000. № 2. С. 115 -126.
2. Кукушкина О.В., Поликарпов А.А., Хмелёв Д.В. Определение авторства текста с использованием буквенной и грамматической информации // Проблемы передачи информации. 2001. Т. 37. Вып. 2. С. 96 - 109.
3. КомениДж., СнеллДж. Конечные цепи Маркова. М.: Наука, 1982.
4. Кульбак С. Теория информации и статистика. М.: Наука, 1967.
5. Закс Л. Статистическое оценивание. М.: Статистика, 1976. 600 с.
6. Крамер Г. Математические методы статистики. М.: Мир, 1976. 648 с.
7. Аптон Г. Анализ таблиц сопряженности. М.: Финансы и статистика, 1982. 144 с.
Статья представлена кафедрой прикладной информатики факультета информатики Томского государственного университета, поступила в научную редакцию «Кибернетика» 20 мая 2005 г.