Сер. 10. 2009. Вып. 3
ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА
УДК 519.765
Т. Г. Суровцова, С. П. Чистяков
О ПОСТРОЕНИИ СТАТИСТИЧЕСКИХ КРИТЕРИЕВ
ДЛЯ АТРИБУЦИИ АВТОРСТВА ЛИТЕРАТУРНЫХ ТЕКСТОВ
Введение. Задача автоматической классификации текстов имеет большое практическое значение. Процедуры данной классификации применяются при обработке информационных потоков, таких как электронная почта и новости, рекламные объявления, создания каталогов в Интернете, при автоматическом реферировании и аннотировании. Близкой к ней (но имеющей и принципиальные отличия) является задача атрибуции литературных текстов, а именно, отнесение произведения к конкретным жанру, стилю, времени написания и, вероятно наиболее значимой среди них, определению авторства произведения. Отметим, что автоматическое установление авторства письменных текстов, помимо литературоведения, имеет важное значение в сфере безопасности и при защите авторских прав, уголовном и гражданском делопроизводстве, криминалистике.
Для решения задачи атрибуции авторства анонимных или псевдонимных литературных текстов широко применяются методы, основанные на статистическом анализе количественных характеристик текстов - лингвостатистических параметров (см., например, [1-6]). Многие методики атрибуции авторства применяют аппарат статистической проверки гипотез. Наиболее часто для этой цели использовались критерии Стьюдента и Колмогорова [2, 4, 6]. Однако они дают возможность проверить гипотезу об авторстве только по одному параметру. Для того чтобы сравнить анализируемые тексты по нескольким параметрам, необходимо применить эти критерии к каждому лингвостатистическому параметру и затем синтезировать результаты этих проверок. На последнем этапе информация о статистической значимости результатов отдельных проверок, как правило, теряется. Поэтому желательно иметь статистический критерий, статистика которого зависела бы от всех имеющихся лингвостатистических параметров.
В статье предложен подход, применимый как к классификации, так и к атрибуции текстов, основанный на индуктивном построении классификаторов предложений. В задачах классификации текст относится к тому классу, к которому отнесено большинство из составляющих его предложений. На основе полученного классификатора разработана (и апробирована на ряде литературных текстов) процедура построения статистического критерия проверки нулевой гипотезы о том, что данный текст принадлежит
Суровцова Татьяна Геннадьевна — кандидат технических наук, преподаватель кафедры теории вероятностей и анализа данных математического факультета Петрозаводского государственного университета. Количество опубликованных работ: 10. Научное направление: автоматическая обработка текстов. E-mail: [email protected].
Чистяков Сергей Павлович — кандидат технических наук, младший научный сотрудник Института прикладных математических исследований Карельского научного центра РАН. Количество опубликованных работ: 43. Научные направления: прикладная статистика, распознавание образов. E-mail: [email protected].
© Т. Г. Суровцова, С. П. Чистяков, 2009
некоторому конкретному автору. Статистикой критерия является количество предложений анализируемого текста, отнесенных классификатором не к этому автору.
Построение статистического критерия. Представим способ построения статистического критерия на основе некоторого классификатора.
Пусть X = (Х\, Х2,..., Хп) - некоторый вектор признаков и X = Вош(Х) - множество его возможных значений. Обозначим через У классовый признак с множеством возможных значений Б = {0, !,...,к — 1}, к ^ 2. Предположим, что определен некоторый классификатор / : X ^ Б. Будем считать также, что существует неизвестное совместное распределение Р(х,у) признаков Х1,Х2,...,Хп,У. Обозначим Pi (х) = Р(х|У = г) условное распределение вектора признаков X при данном У = г. Пусть До = {х1, х2,..., х^} - случайная выборка из одного из распределений Pi(x), г = 0,1,...,к — 1. Через Но обозначим нулевую гипотезу: выборка До является выборкой из распределения Ро(х). Альтернативная гипотеза Н1 : До есть выборка из одного из распределений Pi(х), г = 0. Предположим, что X - случайный вектор признаков из распределения Ро(х). Через ро обозначим вероятность ошибочной классификации X, т. е. ро = Р{/(X) = 0|Но}, и пусть Nf - количество элементов х выборки До таких, что /(х) = 0. Предположим, нулевая гипотеза Но верна; тогда случайная величина Nf распределена по биномиальному закону с параметрами N и ро, т. е.
Р(^ = к) = С%рок(1 — pо)N-к, к = 0,1,...^ .
Естественно отвергнуть Но, если Nf «намного» больше, чем можно было бы ожидать в случае истинности нулевой гипотезы Но.
Определим теперь статистический критерий проверки нулевой гипотезы Но против альтернативы Н1. Пусть а - некоторое число такое, что 0 < а < 1. Через ^ обозначим минимальное число такое, что
N
]ТС^к(1 — РоГ-к < а. (1)
к=Щ
Тогда критерий для проверки нулевой гипотезы Но определяется критической областью {х : Nf ^ N0}, т. е. если Nf ^ Щ, гипотеза Но отвергается. Из (1) следует, что уровень значимости данного критерия не больше а. Так как статистика критерия Nf дискретна, не всегда можно построить критерий с уровнем значимости, в точности равным а. Тем не менее можно (как обычно) использовать р-значения статистики критерия Nf.
Рассмотрим реализацию описанного выше подхода в задаче атрибуции авторства. Пусть V = {(х1 ,У1), (х2,у2),..., (хг,уг)} - обучающая выборка, где Xi, г = 1, 2,...,1, является вектором лингвостатистических параметров (признаков), описывающих некоторое предложение, и у.1 € Б представляет собой метку, указывающую на автора предложения. Построим классификатор / посредством индукции по обучающей выборке
V и оценим значение ро по тестовой выборке (или методом кросс-проверки). Пусть До = {х1, X2,...,XN} - множество векторов признаков, описывающее анализируемый литературный текст (состоящий из N предложений), имеющий спорное авторство. По выборке До вычисляются статистика критерия N$ и соответствующее р-значение (в качестве ро используется его оценка). Проверка нулевой гипотезы Но: «текст, описываемый До, был написан автором с меткой 0» осуществляется сравнением полученного р-значения с выбранным уровнем значимости. Для реализации на практике описанного выше подхода необходимо определить некоторое множество лингвостатистических
параметров Х1,Х2,...,Хп и построить классификатор / по обучающей выборке Д. Эти моменты рассматриваются ниже. Необходимо также заметить, что построенный классификатор может быть использован для автоматической классификации текстов (например, с помощью метода голосования), но рассмотрение данного вопроса не входит в задачу настоящей статьи.
Лингвостатистические признаки. Реализация описанного выше подхода требует выбора некоторого набора лингвостатистических признаков, каждый из которых представляет собой некоторую характеристику предложения. Набор квантитативных признаков, которые могут быть установлены для любого литературного произведения, достаточно разнообразен. Нам необходимо было получить достаточно полное и в то же время не содержащее излишней информации описание каждого предложения текста. На основе предыдущих исследований и собственного опыта было выбрано 20 признаков, составляющих четыре группы: описывающие расположение частей речи на различных позициях предложения [2]; легко рассчитываемые квантитативные признаки [1, 2]; описывающие синтаксическую структуру предложения [4]; описывающие части речи, которые входят в предложение [1, 2].
Полный список использованных нами признаков следующий: 1) часть речи в первой позиции предложения; 2) часть речи во второй позиции предложения; 3) часть речи в третьей позиции предложения; 4) часть речи в третьей с конца позиции предложения; 5) часть речи в предпоследней позиции предложения; 6) часть речи в последней позиции предложения; 7) средняя длина слова в буквах в предложении; 8) количество слов в предложении; 9) тип предложения; 10) цель высказывания для простых и сложных предложений; 11) модальность предложения для простых и сложных предложений; 12) наличие главных членов для простого предложения; 13) способ соединения частей сложного предложения; 14) относительное количество глаголов в предложении; 15) относительное количество прилагательных в предложении; 16) относительное количество существительных в предложении; 17) относительное количество предлогов в предложении; 18) относительное количество союзов в предложении; 19) наличие причастий в предложении; 20) относительное количество частиц в предложении.
Описания морфологических и синтаксических признаков текстов в соответствии с грамматикой русского языка были получены с помощью экспертной системы, входящей в информационно-поисковый программный комплекс «СМАЛТ» [7]. Так как выбранный нами тип классификатора (описанный ниже) предполагает, что все признаки обучающей выборки измерены в номинальной шкале, а среди выбранных лингвостатистических признаков присутствуют признаки, измеренные в интервальной шкале (например, средняя длина слова в буквах), эти признаки предварительно были подвергнуты дискретизации. В результате область возможных значений непрерывного признака разбивалась на совокупность дизъюнктных интервалов таким образом, чтобы различие распределений классового признака для любой пары смежных интервалов было статистически значимо (использовался критерий однородности х2 при уровне значимости 0.01). Затем каждый интервал интерпретировался как одно значение нового номинального признака.
Системы правил и классификаторы. Кратко опишем системы правил, использованные нами для построения классификаторов. Отметим, что хотя эти системы в распознавании образов занимают скромное место, в ряде областей, где важно понимание причин, на основе которых принимается решение (и к которым, безусловно, относится проблема атрибуции литературных работ), их применение вполне оправдано.
Введем такие обозначения. Пусть X = (Х1 ,Х2,...,Хп) - некоторый вектор
номинальных признаков и X = Хі х Х2 х ... х Хп, где X* = {хіі,хі2,...,хіГі}, і = 1, 2,...,п, - множество возможных значений признака Хі, а также У - классовый признак с множеством возможных значений Б = {0,1,...,к — 1}, к ^ 2;
V = {(х1, у і), (х2, у2),..., (х; ,у)} - обучающая выборка. Рассмотрим множества правил вида
“ЕСЛИ (предпосылка) ТО (следствие) (с весом т)” . (2)
В (2) предпосылка С имеет вид
С {Хаі хаіві } ^ {Ха2 ха.2^2 } ^ ... ^ {Хаг хагвг }
и следствие
С* = {У = і}, і є Б.
Вес т є (0,1) является мерой влияния предпосылки правила на следствие. Правила такого вида обозначим С ^ С* (т). Пусть С1 ^ С* (т1) и С2 ^ С* (т2) - некоторые правила с одним и тем же следствием С*. Синтез весов этих правил основан на такой функции комбинации весов [8]:
ті т2
го і ® и)2
^1^2 + (1 — ^1)(1 — ^2) ’
Пусть Ж - некоторое множество правил. Тогда для любой предпосылки С и заключения С* = {У = г}, г € Б можно вычислить следующий композиционный вес:
Ш(С*| С, Ж) = ® ыа,
а
здесь функция комбинации весов ф применяется к весам юа всех правил С' ^ С* (,ша), содержащихся в Ж таких, что предпосылка С' следует из предпосылки С, т. е. С' С С. Заметим, что композиционный вес Ш(С* | С, Ж) фактически представляет собой оценку условной вероятности Р(С* | С). Тогда множество правил Ж индуцирует некоторый классификатор /п : X ^ Б такой, что для х = (х1, х2,..., хп) € X
/п(х) = а^ тахШ(СЦ С(х), Ж),
i
где С(х) = {Х1 = х1 }П {Х2 = х2}П ... П {Хп = хп}. Пусть теперь К - некоторый
статистический критерий проверки нулевой гипотезы Но : Р(С*| С) = во против двусторонней альтернативы Н1 : Р(С* | С) = во, Д = {Р(С*| С), г € Б} - некоторое семейство допустимых условных вероятностей, а система правил Ж такова, что для любой допустимой условной вероятности Р(С* | С) статистический критерий К не отвергает нулевую гипотезу
Но : Р(С* | С) = Ш(С*| С, Ж)
против соответствующей двусторонней альтернативы. Такие системы правил, фактически представляющие собой вероятностно-статистическую модель семейства допустимых условных вероятностей Д, были использованы для построения классификаторов. Для их индуктивного построения применялась система «Конструктор правил» [9].
Результаты экспериментов. С целью проверки работоспособности описанного выше подхода для определения авторства литературных текстов был проведен ряд
экспериментов. В качестве исходного материала для формирования обучающих и тестовых выборок (необходимых для индуктивного построения классификаторов и оценки величины ро) были использованы публицистические статьи Ф. М. Достоевского, опубликованные в журналах «Время» и «Эпоха» в период с 1861 по 1865 г. Количество статей составило 11, объем каждой из них - от 6 до 668 предложений и общий объем - 1819 предложений. В качестве альтернативных выступали авторы, сотрудничающие в это время в указанных журналах (М. М. Достоевский, А. А. Григорьев и др.). Количество их статей составило 11, общий объем - 1121 предложение.
Методика проведения каждого эксперимента заключалась в следующем:
1) в качестве контрольной выбиралась некоторая статья из совокупности статей Ф. М. Достоевского и альтернативных авторов;
2) оставшаяся совокупность статей делилась на обучающую и тестовую выборки, причем тестовая состояла только из предложений, принадлежащих Ф. М. Достоевскому;
3) по обучающей выборке осуществлялось индуктивное построение системы правил Ж (и соответствующего классификатора /п) рассмотренного выше вида;
4) по тестовой выборке с использованием построенного классификатора производилась оценка величины ро;
5) для контрольной статьи вычислялись статистика критерия NfR, соответствующее р-значение и осуществлялась проверка нулевой гипотезы, что автором контрольной статьи является Ф. М. Достоевский.
Поскольку общее число статей было 22 и в каждом эксперименте одна статья являлась контрольной, то общее количество экспериментов, проведенных по вышеуказанной методике, также составило 22. Результаты экспериментов следующие. Из 11 статей Ф. М. Достоевского гипотеза о его авторстве была отвергнута для двух статей на 5%-ном уровне значимости и для одной на 1%-ном уровне. Для контрольных статей альтернативных авторов гипотеза об авторстве Ф. М. Достоевского была отвергнута для всех 11 статей на 1%-ном уровне значимости. Таким образом, в 22 экспериментах было принято два неверных решения при уровне значимости 5% и одно при уровне значимости 1%. Учитывая небольшие (со статистической точки зрения) объемы обучающих, тестовых и контрольных выборок результат, по нашему мнению, можно считать хорошим. Заметим, что оценки ро, представляющие собой оценки вероятностей неправильной классификации предложений Ф. М. Достоевского (с использованием классификатора /п) варьировались в различных экспериментах от 0.38 до 0.41.
Описанный подход был использован для проверки гипотез об авторстве некоторых литературных работ с неустановленным авторством. Были рассмотрены 22 публицистические статьи и заметки, опубликованные в журналах «Время» и «Эпоха» с 1861 по 1865 г., объемом от 7 до 311 предложений. Для каждой статьи проверялась гипотеза, что она была написана Ф. М. Достоевским. Результаты исследования были переданы специалистам по литературному творчеству Ф. М. Достоевского.
Заключение. По нашему мнению, представленный подход имеет некоторые преимущества по сравнению с традиционными методами. Основным его преимуществом является синтез всех доступных лингвостатистических параметров в одном критерии. Проведенные эксперименты показали, что данный подход работоспособен даже в случае коротких литературных текстов, когда применение других методик малооправдано.
Литература
1. Фукс В. По всем правилам искусства // Искусство и ЭВМ / пер. с нем.; под ред. Ф. Я. Фридмана. М.: Мир, 1975. 557 с.
2. Хетсо Г. Принадлежность Достоевскому: К вопросу об атрибуции Ф. М. Достоевскому анонимных статей в журналах Время и Эпоха. Oslo: Solum Forlag A. S., 1986. 82 c.
3. Бородкин Л. И., Милов Л. ВМорозова Л. Е. К вопросу о формальном анализе авторских особенностей стиля в произведениях Древней Руси // Математические методы в историко-экономических и историко-культурных исследованиях: сб. статей / под ред. Н. Д. Ковальченко. М.: Наука, 1977. C. 298-326.
4. Синилева А. В. Атрибуция «Романа с кокаином»: лингвостатистическое исследование. Нижний Новгород: Изд-во Нижегородск. гос. ун-та им. Н. И. Лобачевского, 2000. 92 с.
5. Хмелев Д. В. Распознавание автора текста с использованием цепей А. А. Маркова // Вестн. Моск. ун-та. Сер. 9: Филология. 2000. № 2. C. 115-126.
6. Марусенко М. А., Бессонов Б. Л., Богданова Л. М. и др. В поисках потерянного автора: Этюды атрибуции / под ред. М. А. Марусенко. СПб.: Филологич. ф-т С.-Петерб. ун-та, 2001. 216 с.
7. Рогов А. А., Сидоров Ю. В., Солопова А. И., Суровцова Т. Г. Информационно-аналитическая система «СМАЛТ» // Компьютерная лингвистика и интеллектуальные технологии: Труды междунар. конференции «Диалог-2007». М., 2007. С. 470-474.
8. Hajek P. Combining Functions for Certainty Factors in Consulting Systems // Intern. J. Man-Machine Studies. 1985. Vol. 22. P. 59-76.
9. Чистяков С. П. Применение метода структурной минимизации эмпирического риска при индуктивном построении баз знаний // Труды Ин-та прикл. мат. исследований Карельск. науч. центра РАН. 2002. Вып. 3. С. 213-225.
Статья рекомендована к печати проф. Л. А. Петросяном.
Статья принята к печати 5 марта 2009 г.