М. А. Марусенко, Е. С. Родионова, Е. Е. Мельникова
ОБ АВТОРСТВЕ АНОНИМНЫХ И ПСЕВДОНИМНЫХ СТАТЕЙ, ПРИПИСЫВАЕМЫХ Ф. М. ДОСТОЕВСКОМУ (ЖУРНАЛЫ «ВРЕМЯ» И «ЭПОХА» 1861-1865). Часть II
Работа распознающего автомата по атрибуции анонимных и псевдонимных статей
В соответствии с используемым в нашей работе математическим аппаратом атрибуции анонимных и псевдонимных произведений, мы применили двухступенчатый алгоритм распознавания, включающий в себя детерминированную и вероятностную атрибуцию.
Детерминированный алгоритм распознавания определяет принадлежность атрибутируемых объектов к тому или иному классу текстов. В качестве классифицирующей функции детерминированного алгоритма распознавания использовался ¿-критерий Стьюдента (формула 1). Критическое значение ¿-критерия при уровне значимости а = 0,05 равно 1,96, таким образом, если для /-го параметра наблюдаемое значение ¿-критерия больше 1,96, то с доверительной вероятностью 0,95 можно говорить об отсутствии статистически существенных различий между объектами (принадлежность одному классу), а при значении ¿-критерия больше 1,96 можно утверждать о принадлежности двух объектов разным классам. Положительное решение об отнесении объекта (статьи) к тому или иному классу (совокупности текстов данного автора) принималось только в том случае, если наблюдаемые значения 1-критерия меньше критического во всех 5 измерениях пространства классификации. Мы действовали по следующему решающему правилу детерминированного алгоритма: «если данный объект по всем информативным параметрам оказался отнесенным к классу ОА и ни по одному информативному параметру не оказался отнесенным к ОВ, то он относится к классу ОА (аналогично и в отношении принадлежности к классу ОВ). Если же по всем информативным параметрам для данного объекта получен «отказ» или если нашлись хотя бы два параметра, по одному из которых объект относится к классу ОА, а по другому — к классу ОВ, то итоговым ответом системы будет отказ от распознавания»1. Таким образом, для отнесения объекта к классу в общем случае необходимо два условия:
Хг е О., 1А,Х' . < ¿а, 1 = 1, п.
А набл.,. а’о/ ’
<
. Х/ е ^ ^ ¿а>. = 1, п.
В описываемом эксперименте остановка детерминированного алгоритма произошла уже на 1-й итерации. Итоги работы детерминированного алгоритма распознавания приведены в табл. 8, в которой знаком «+» обозначены ситуации, когда определенная статья относится к соответствующему классу, а знак «—» показывает, что получен отказ от распознавания.
© М. А. Марусенко, Е. С. Родионова, Е. Е. Мельникова, 2008
Итоги работы детерминированного алгоритма распознавания
Объекты Классы
О1 О3 О, О5 «6 О7 «8 П9 О10 «11
Р1 - - - - - - - - - - -
А2 - - - + + - - - - + -
А3 - - - - - + - - - - -
А4 - - - - - - - - - - -
А5 - - - - - - - - - - -
А6 + + + + + - - - - + +
А7 - - - - - - - - - - +
А8 - - - - - + + + - - -
А9 - - - - - - - - - - -
А10 - + - - - - - - - - -
А11 + - - - - - - - + + -
А12 - - - - - - - - + - -
Из табл. 8 видно, что статьи А3, А7, А10, А12 оказались однозначно отнесенными к классам О6, О11, О2, соответственно. Таким образом, в результате работы детерминированного алгоритма распознавания была определена авторская принадлежность четырех статей.
Изменившиеся составы классов и координаты эталонов классов, полученных после работы детерминированного алгоритма, показаны в таблицах 9.1 и 9.2.
Таблица 9.1
Состав классов О6, Пш О2, на 1-й итерации
Класс Мощность Объем Состав класса
О1 (Головачев А. А.) 2 706 О0 (Головачев А. А.), 10А
О1 (Кусков П. А.) 2 180 О0 (Кусков П. А.), ЗА
О1 (Порецкий А. У) 2 1590 О0 (Порецкий А. У), 12А
О1 (Страхов Н. Н.) 2 866 О0 (Страхов Н. Н.), 7А
Таблица 9.2
Координаты эталонов классов О6, Пш О2, О9 на 1-й итерации
Класс Параметр -/ ст,- п
1 2 3 4 5
Х01 3,12 6,36
Х11 1,22 1,13
О1 (Головачев А. А.) Х22 1,35 1,41 706
ХЗЗ 1,39 1,38
Х34 3,52 5,92
1 2 3 4 5
Х01 2,64 4,43
Х11 1,85 1,41
О1 (Кусков П. А.) Х22 1,02 1,27 180
Х33 1,11 1,82
Х34 3,01 5,66
Х01 4,04 7,50
О1 (Порецкий А. У) Х11 Х22 1,32 1,53 1,19 1,53 1590
Х33 1,11 1,77
Х34 3,53 6,26
Х01 3,80 6,03
Х11 1,34 1,25
О1 (Страхов Н. Н.) Х22 0,83 1,09 866
Х33 1,06 1,62
Х34 2,97 5,11
После остановки детерминированного алгоритма остались не отнесенными ни к одному классу восемь атрибутируемых объектов. Реализация вероятностного алгоритма распознавания предусматривает преобразование исходной матрицы данных (табл. 10), которая включает координаты неатрибутированных объектов и априорных классов, в матрицу взвешенных евклидовых расстояний между объектами, подлежащими распознаванию, и эталонами априорных классов.
На данном этапе необходимо произвести стандартизацию исходной матрицы (табл. 11) по следующей формуле:
2 = х1 - - , (8)
ст
где — — среднее значение для всех априорных классов и атрибутируемых объектов, ст — стандартное отклонение для всех априорных классов и атрибутируемых объектов.
На основе стандартизованной матрицы формируем матрицу взвешенных евклидовых расстояний между априорными классами и неатрибутированными объектами (табл. 12) по формуле:
й(а, Ь) =
(9)
где п — размерность евклидова пространства, а и Ь — две точки в пространстве Еп с координатами а(ха1, ха2,... , хп), Ь(хЬ1, хЬ2, ... , хп), wj — весовой коэффициент_)-той переменной.
По полученной матрице произведем вычисление вероятности принадлежности каждого объекта ко всем априорным классам (табл. 13). Вероятность принадлежности _І-го объекта к і-тому классу вычисляется следующим образом:
р*=Ї (• ?Й' (|0)
где — расстояние между,-тым объектом и /-тым классом, а - расстояние между,-тым объектом и всеми классами классификации.
Исходная матрица данных
Параметр Статья Класс X С7
А1 Р2 Р4 Р5 Р6 Р8 Р9 Р11 П! п2 П3 П4 п5 п6 п7 П8 П9 П10 Пц
х, х, X, х, X, х, х, X, х, X, х, х, X, X, X, х, X, X, X,
х1 3,48 4,03 3,13 4,14 5,66 2,96 3,52 4,17 4,00 3,04 5,97 4,92 5,22 2,21 1,90 2,83 4,05 3,15 3,83 3,80 1,08
х11 1,55 1,24 1,11 1,15 0,93 2 1,44 1,25 1,27 1,21 1,06 1,18 1,32 2 2,31 1,95 1,34 1,13 1,30 1,41 0,37
х22 0,76 0,74 0,89 0,78 0,8 1,48 1,91 1,48 1,35 1,36 1,14 0,72 1,00 1,20 1,70 1,41 1,51 1,31 0,82 1,18 0,36
хЗЗ 1,03 1,48 1,11 0,78 1,6 1,76 1,73 1,28 1,60 0,97 2,18 1,12 1,47 1,15 1,95 1,91 1,13 1,23 1,00 1,39 0,38
х34 2,82 3,94 2,93 2,50 5,73 5,92 5,72 3,99 4,15 3,83 6,82 3,06 3,69 3,13 5,65 5,40 3,66 3,81 2,79 4,19 1,28
Таблица 11
Стандартизованная матрица данных для эталонов классов
Параметр Статья Класс
А1 Р2 Р4 Р5 Р6 Р8 Р9 Р11 П! П2 П3 П4 П5 П6 П7 П8 П9 Пю Пц
2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
х1 -0,29 0,21 -0,61 0,31 1,71 -0,77 -0,26 0,33 0,18 -0,69 1,99 1,02 1,30 -1,46 -1,74 -0,89 0,23 -0,59 0,02
х11 0,38 -0,44 -0,78 -0,69 -1,26 1,54 0,09 -0,40 -0,37 -0,51 -0,91 -0,59 -0,22 1,54 2,37 1,43 -0,17 -0,72 -0,27
х22 —1,15 -1,20 -0,79 -1,09 -1,04 0,82 2,02 0,83 0,49 0,49 -0,09 -1,26 -0,48 0,06 1,45 0,63 0,91 0,38 -0,98
хЗЗ -0,94 0,22 -0,74 -1,58 0,52 0,93 0,87 -0,28 0,52 -1,10 2,02 -0,70 0,19 -0,61 1,44 1,32 -0,68 -0,40 -1,00
х34 -1,05 -0,19 -0,97 -1,31 1,19 1,34 1,19 -0,15 -0,03 -0,27 2,04 -0,87 -0,38 -0,82 1,14 0,94 -0,41 -0,29 -1,08
Матрица взвешенных евклидовых расстояний между классами и неатрибутированными объектами
Объекты ¿(X, о )
О1 О2 О3 О4 О5 «6 «7 «8 О9 «10 П„
Р1 2,59 2,07 5,14 1,67 2,26 2,08 4,83 3,71 2,31 2,13 0,75
А2 1,73 2,34 3,59 1,42 1,34 3,08 4,70 3,26 2,33 1,91 1,55
А4 2,22 1,53 4,91 1,72 2,30 2,63 5,05 3,87 2,08 1,40 0,88
А5 2,95 2,21 5,31 1,22 2,36 3,26 5,94 4,74 2,44 2,33 0,80
А6 2,64 3,68 2,02 2,60 2,04 4,96 5,68 4,19 3,35 3,27 3,37
А8 2,60 3,33 4,04 4,45 3,56 2,85 1,52 0,61 3,11 3,14 4,11
А9 2,09 2,99 3,55 4,44 3,42 3,70 2,83 2,08 2,55 2,71 4,24
А11 0,90 1,37 3,75 2,37 1,72 2,86 4,14 2,95 0,54 1,10 2,19
Таблица 13
Матрица вероятностей принадлежности объектов априорным классам Р(Х1 е «)
Объекты Р(Х е О)
О1 О2 «3 О4 «5 О6 О7 О8 О9 О10 О11
Р1 0,07 0,09 0,04 0,12 0,08 0,09 0,04 0,05 0,08 0,09 0,25
А2 0,11 0,08 0,05 0,14 0,14 0,06 0,04 0,06 0,08 0,10 0,12
А4 0,08 0,12 0,04 0,11 0,08 0,07 0,04 0,05 0,09 0,13 0,21
А5 0,07 0,09 0,04 0,16 0,08 0,06 0,03 0,04 0,08 0,10 0,25
А6 0,11 0,08 0,14 0,11 0,14 0,06 0,05 0,07 0,08 0,08 0,08
А8 0,08 0,06 0,05 0,04 0,06 0,07 0,13 0,33 0,06 0,06 0,05
А9 0,13 0,09 0,08 0,06 0,08 0,07 0,10 0,13 0,11 0,10 0,06
А11 0,15 0,10 0,04 0,06 0,08 0,05 0,03 0,05 0,25 0,13 0,06
Следующим этапом процедуры вероятностного распознавания является формирование решающего правила вероятностного алгоритма. При наличии одиннадцати априорных классов сформулируем решающее правило следующим образом:
X е «„ Р(Х е П.) > Ё Р(Х е п„), (11)
п = 2
откуда получаем:
X е О„, Р(Х е Оп) > £ Р(Х е Оп), (12)
п = 2
Таким образом,
X е О,, Р(Х е О) > 0,5. (13)
То есть при данном решающем правиле пороговое значение вероятности принадлежности объекта к одному из априорных классов должно равняться или превышать 0,5.
Анализ результатов работы вероятностного алгоритма атрибуции (табл. 13) показывает, что при использовании сформулированного «строгого» решающего правила ни один из объектов не может быть отнесен ни к одному из классов. Значения вероятностей принадлежности объектов к одному из априорных классов находятся в промежутке [0,033-0,328] и не достигают порогового значения. Это может свидетельствовать о том, что объекты
равноудалены от априорных классов. Можно предположить, что в написании статей принимали участие и другие авторы, пока не вошедшие в сферу нашего рассмотрения.
По результатам работы распознающего автомата можно с большой долей уверенности сделать и другой важный вывод о том, что Ф. М. Достоевский не является автором спорных статей. По вероятностному алгоритму ему приписываются лишь две статьи, статьи № 2 и № 6, но вероятность его авторства очень мала: 0,144 и 0,138 соответственно.
Гипотеза о существовании апостериорных классов
Тот факт, что при использовании решающего правила вероятностного алгоритма ни один объект не был отнесен к какому-либо классу, может свидетельствовать о наличии других авторов, которые принимала участие в написании статей, но не были включены в список априорных классов. Поэтому наше исследование было продолжено с целью определить, сколько возможных неизвестных нам авторов принимали участие в написании неатрибутированных статей.
Пусть наше множество объектов разбито на к классов Б1, Б2, ... , Бк. В качестве меры близости между объектами одного класса мы возьмем квадрат евклидова расстояния:
п
ё(а, ЪУ =Ё (х - хЬу)2 (14)
I = 1
Введем два понятия, кластер и сгущение, которые традиционно используются при оценке качества классификации. Эти две качественные градации позволяют определить, насколько тесно расположены объекты внутри класса по сравнению с расположением объектов внутри всей исходной совокупности.
Если в исходном пространстве объектов выполняется неравенство ё2. = И. /п — 5 / п, то есть средний квадрат внутригруппового расстояния до центра группы меньше среднего квадрата расстояния до общего центра в исходной совокупности, такая группа образует кластер. Понятие сгущения реализуется при условии, что максимальный квадрат расстояния объектов до центра группы меньше среднего квадрата расстояния между объектами ё2 = 5 / п, т. е. ё2, тах = тах ё2( —. х) — ё2.
С помощью формулы 13 мы преобразовали стандартизованную матрицу координат неатрибутируемых объектов в матрицу квадратов евклидовых расстояний между объектами й(Х„ X)2, которая приведена в табл. 14. По таблице вычислим средний общий разброс 5/ п=9,950.
Таблица 14
Матрица квадратов евклидовых расстояний между объектами
Объекты ё(Х, X.)2
Р1 А2 А4 А5 А6 А8 А9 А11
Р1 0 3,06 1,63 1,99 13,99 14,80 18,53 6,22
А2 3,06 0 2,50 4,59 4,97 11,97 13,28 4,44
А4 1,63 2,50 0 1,78 12,02 16,26 16,14 4,58
А5 1,99 4,59 1,78 0 13,02 23,30 23,01 6,84
А6 13,99 4,97 12,02 13,02 0 17,82 15,29 8,65
А8 14,80 11,97 16,26 23,30 17,82 0 3,82 8,79
А9 18,53 13,28 16,14 23,01 15,29 3,82 0 5,18
А11 6,22 4,44 4,58 6,84 8,65 8,79 5,18 0
Затем по полученному в табл. 14 множеству мы выделили подмножество однотипных объектов по методу наименьшего корреляционного пути. В соответствии с этим методом процедура выделения класса проходит по следующему алгоритму:
• в матрице выбирается минимальный элемент;
• в строке или столбце отмечается элемент, ближайший к минимальному;
• полученная группа из двух объектов проверяется на соответствие условиям кластера и сгущения;
• если группа не удовлетворяет вышеупомянутым условиям, то процедура на этом прерывается, если удовлетворяет, то данная группа образует класс. Далее в строке или столбце отмечается следующий ближайший элемент;
• полученная группа уже из трех объектов проверяется на соответствие условиям кластера и сгущения и т. д.
По данному алгоритму мы выделили следующие группы объектов:
1. P1, A4 Wj / n = 0,819 max d2( x,x) = 1,638
2. P1, A4, A5 Wj / n = 1,806 max d2( xf x) = 1,999
3. P1, A4, A5, A2 Wj / n = 3,893 max d2( x) = 4,596
4. P1, A4, A5, A2, A11 Wj / n = 7,535 max d2( x, x) = 6,846
Поскольку все объекты последней четвертой группы попарно и в разных сочетаниях однотипны, то есть удовлетворяют условиям кластера и сгущения, их можно объединить в один класс Q(P1, A4, A5, A2, A11). На подмножестве элементов, не входящих в класс Q(P1, A4, A5, A2, A11), можно сформировать только еще один класс Q(A8, A9), объекты которого образуют кластер и сгущение: Wj / n = 3,828, max d2( xf x) = 3,828.
Таким образом, после обработки исходная совокупность из восьми объектов разделилась на два класса, Q(P1, A4, A5, A2, A11) и Q(A8, A9), и один объект, статью A6, которая не принадлежащих ни к одному классу. На основе полученной информации можно выдвинуть гипотезу о том, что у нетрибутированных статей имеются два автора, не включенных в список априорных классов. Одному из неизвестных нам авторов принадлежат статьи, обозначенные как P1, A4, A5, A2, A11, другому — статьи A8 и A9. Тот факт, что статья A6 оказалась не отнесенной ни к одному из классов, может объясняться как существованием третьего автора, не включенного в априорный алфавит классов, так и ее малым объемом (N = 15).
В результате исследования была опровергнута гипотеза о том, что Ф. М. Достоевский является автором спорных статей. Что касается принадлежности статей другим возможным авторам, то по детерминированному алгоритму были определены авторы четырех публикаций. Статья A3 «Противоречия и увлечения “Времени”» атрибутирована П. А. Кускову, статья A7 «Рассказы Н. В. Успенского» атрибутирована Н. Н. Страхову, статья A10 «Политическое обозрение» атрибутирована А. А. Головачеву и, наконец, автором статьи A12 «Политическое обозрение. Общий обзор главнейших политических событий прошедшего года» оказался А. У. Порецкий Авторская принадлежность остальных восьми статей осталась не определена.
1 Марусенко М. А. Атрибуция анонимных и псевдонимных литературных произведений методами
распознавания образов. Л., 1990. C. 99.