М. А. Марусенко, Е. С. Родионова, Е. Е. Мельникова
ОБ АВТОРСТВЕ АНОНИМНЫХ И ПСЕВДОНИМНЫХ СТАТЕЙ, ПРИПИСЫВАЕМЫХ Ф. М. ДОСТОЕВСКОМУ (ЖУРНАЛЫ «ВРЕМЯ» И «ЭПОХА», 1861-1865). Ч. I
История вопроса
Журналы «Время» (1861-1863) и «Эпоха» (1864-1865), которые Федор Михайлович возглавлял и редактировал вместе со своим братом Михаилом Михайловичем Достоевским (1820-1864), оказывали значительное влияние на русскую общественную мысль. В разные годы в журналах были опубликованы работы по меньшей мере ста человек, но именно кипучая творческая деятельность Ф. М. Достоевского, писавшего большое количество статей, фельетонов, заметок и примечаний, уже в самом начале обеспечила журналу популярность. Многие из этих работ писателя печатались без подписи, и при жизни Ф. М. Достоевский не предпринял попыток собрать и переиздать свои статьи и фельетоны.
Над списком произведений Ф. М. Достоевского работали его вдова А. Г. Достоевская и Н. Н. Страхов. В список было включено свыше двадцати статей и заметок, однако имеется свидетельство самого Достоевского, что за первые два года сотрудничества в журнале «Время» он написал около ста печатных листов. Даже если предположить, что эта цифра несколько завышена, все равно очевидно, что в списке отсутствует ряд статей и заметок, несомненно принадлежащих Ф. М. Достоевскому, в том числе и одна из самых важных его публицистических работ, программная статья «Два лагеря теоретиков». Поэтому исследователи давно стремились расширить круг приписываемых писателю публицистических работ. Систематическое исследование анонимных статей журналов «Время» и «Эпоха» начинается в период с 1910-х по 1930-е гг. Л. П. Гроссманом1, Б. В. Томашевским2, О. фон Шульцем3 и др. При этом все названные исследователи обратили внимание на идейно-тематическую близость и сходство манеры изложения ряда анонимных статей с произведениями из списка Н. Н. Страхова и вдовы Достоевского.
В 1950-1970-е гг. исследования на основе идейно-тематических и языковых методов продолжили В. В. Виноградов4, В. С. Нечаева5 и редакция «Литературного наследства» в лице Г. М. Фридлендера6.
В 1979 г. норвежский исследователь Гейр Хетсо по просьбе дирекции Института русской литературы АН СССР и главной дирекции Полного собрания сочинений Достоевского провел анализ 12 спорных статей с применением методов количественного анализа. Список статей представлен в табл. 1 с указанием кода и объема авторской речи (И), измеренного в предложениях.
В результате своего исследования, базирующегося на языковом и стилистическом анализе с применением некоторой статистики, Г. Хетсо сделал вывод, что только
6 из 12 данных статей могли с большой долей вероятности принадлежать Ф. М. Достоевскому (статьи Р1, А2, А3, А5, А7, А9 из табл. 1). Определить авторство статей А6 и А8 оказалось невозможно из-за их малого объема.
© М. А. Марусенко, Е. С. Родионова, Е. Е. Мельникова, 2008
Спорные статьи, требующие решения вопроса атрибуции
Код Наименование, выходные данные, автор N
Р1 Письмо Постороннего критика в редакцию нашего журнала по поводу книг г-на Панаева и «Нового поэта» // Время. 1861. № 1. Отд. II. С. 46-64. Посторонний критик. 333
А2 Гаваньские чиновники в домашнем быту, или Галерная гавань во всякое время дня и года. (Пейзаж и жанр) Ивана Генслера. Библиотека для чтения. Ноябрь и декабрь 1860 // Время. 1861. № 2. Отд. II. С. 139-150. Без подписи. 202
А3 Противоречия и увлечения «Времени» // Время. 1861. № 8. Отд. IV. С. 135-142. Без подписи. 111
А4 Выставка в Академии художеств за 1860-1861 // Время. 1861. № 10. Отд. II. С. 147-168. Без подписи. 378
А5 Ряд статей о русской литературе. Вопрос об университетах // Время. 1861. № 11. Отд. II. С. 76-104. Без подписи. 312
А6 Николай Александрович Добролюбов. Некролог // Время. 1861. № 11. Отд. IV. С. 31-32. Без подписи. 15
А7 Рассказы Н. В. Успенского // Время. 1861. № 12. Отд. II. С. 174-183. Без подписи. 153
А8 Полемический случай с «Основой» и «Сионом» // Время. 1861. № 12. Отд. IV. С. 114-116. Без подписи. 25
А9 Дворянин, желающий быть крестьянином // Время. 1861. № 12. Отд. IV. С. 117-123. Без подписи. 69
А10 Политическое обозрение // Эпоха. 1864. № 9. С. 1-26. Без подписи. 356
А11 Наши домашние дела // Эпоха. 1864. № 12. С. 1-28. Без подписи. 267
А12 Политическое обозрение. Общий обзор главнейших политических событий прошедшего года // Эпоха. 1864. № 12. С. 1-32. Без подписи. 344
Результаты исследования Г. Хетсо оказались неожиданными и противоречили представлениям русских исследователей, в том числе Г. М. Фридлендера; при этом вопрос об авторстве статей, не принадлежащих перу Ф. М. Достоевского, оставался открытым.
Целью данного исследования стала атрибуция двенадцати спорных статей из списка, предоставленного Г. Хетсо. Процедура атрибуции анонимных статей основывается на теории распознавания образов, основой для проведения исследования является методика, предложенная М. А. Марусенко7. Кроме того, в ходе работы использовались методы математической статистики, филологический и синтаксический анализы.
Формирование атрибуционной гипотезы
В ходе исследования была детально изучена история определения автора каждой спорной статьи и составлен список предполагаемых авторов спорных статей, в который вошли 11 публицистов: П. А. Бибиков, А. А. Головачев, А. А. Григорьев, М. М. Достоевский, Ф. М. Достоевский, П. А. Кусков, А. Ф. Писемский, Я. П. Полонский, А. У. Порецкий, А. Е. Разин, Н. Н. Страхов. Таким образом, атрибуционная гипотеза может быть сформулирована следующим образом:
• нулевая Н0: тексты статей полностью принадлежат Ф. М. Достоевскому и не принадлежат никому из возможных авторов, входящих в априорный алфавит классов;
• альтернативные:
На: одна часть статей принадлежит Ф. М. Достоевскому, а другая — еще одному или нескольким авторам, входящим в априорный алфавит классов;
На: все статьи принадлежат не Ф. М. Достоевскому, а одному или нескольким возможным авторам, входящим в априорный алфавит классов.
При этом вопрос об атрибуции той или иной статьи должен в каждом случае решаться отдельно.
Формирование априорного алфавита классов
Для проверки сформулированной атрибуционной гипотезы необходимо сформировать алфавит классов, относительно которых будет производиться атрибуция текстов спорных статей. Исходя из требования соблюдения синхронии и жанрово-стилевой однородности текстов в априорные классы вошли статьи, опубликованные в 1860-1865 гг., по возможности в журналах «Время» и «Эпоха»8.
В табл. 2 для каждого класса указаны мощность (число текстов) и объем (Ип ), измеряемый в предложениях, кроме этого, каждому классу текстов присвоен код, который будет использоваться в дальнейшем.
Определение рабочего словаря параметров
В соответствии с реализуемой нами процедурой атрибуции, необходимо выделить из априорного словаря параметров те параметры, которые способны разделять классы из данного алфавита классов. «Априорный словарь параметров представляет собой в значительной степени стандартизованный набор, полученный путем унификации и стандартизации известных средств квантитативного описания стилей, предложенных разными авторами»9. В нашем случае в него входит 51 параметр, релевантный для русского языка10.
Для классов малого объема, например классов «Ф. М. Достоевский», «Кусков», «Писемский» и «Полонский», производилось сплошное статистическое обследование. В остальных случаях были произведены пробные случайные выборки объемом в 200 предложений. В результате определения значений 51 параметра для априорных классов были сформированы 11 объектно-признаковых матриц данных и были вычислены статистические характеристики для каждого класса: среднее арифметическое (х,) и стандартное отклонение (ст,).
Формирование набора информативных параметров проходило в два этапа по схеме Бонгарда.
На первом этапе произведено разделение априорного набора информативных параметров на подмножества параметров, релевантных и не релевантных для различения
Таблица 2
Объем априорных классов
Код Класс Мощ- ность Ип
О1 О (П. А. Бибиков) 9 2569
о2 О (А. А. Головачев) 1 430
о3 О (А. А. Григорьев) 26 6495
О4 О (Ф. М. Достоевский) 3 172
о5 О (М. М. Достоевский) 1 450
О6 О (П. А. Кусков) 1 69
о7 О (А. Ф. Писемский) 1 140
о8 О (Я. П. Полонский) 2 182
о9 О (А. У Порецкий) 22 4895
О10 О (А. Г. Разин) 37 13844
О11 О (Н. Н. Страхов) 9 3067
априорных классов. Сравнивая попарно все классы, мы получили 55 пар классов авторов, релевантность которых для различения классов определялась по ¿-критерию Стьюдента:
~ ' (1)
і = ■
ст
ст :
В табл. 3 представленої параметры, релевантные для различения пар авторов, т. е. параметры, для которых значение і-критерия больше 1,96 при уровне значимости а = 0,05.
Исходя из полученных данных, мы разделили априорный класс параметров на две группы. В первую группу — группу информативных параметров, релевантных для различения априорных классов, — мы включили параметры, для которых значения і-критерия Стьюдента оказались значимыми для 27 и более пар классов. Таких параметров оказалось 32. Оставшиеся 18 параметров, для которых значения і-критерия Стьюдента оказались значимыми для 25 и менее пар классов, составили группу неинформативных параметров.
Второй этап формирования информативного набора параметров реализуется путем обработки корреляционной матрицы связей параметров.
Из 11 имеющихся у нас объектнопризнаковых матриц соответствующих априорных классов была составлена связная объектно-признаковая матрица, вектор-строки которой соответствуют пераметрам, а вектор-столбцы — предложениям. Полученная матрица данных имеет размерность Ыхп, где N = 1963, а п = 50.
На основе объектно-признаковой матрицы была сформирована корреляционная матрица связей параметров, элементами которой являются выборочные коэффициенты корреляции
Я = (Р,}
, где п = 50
(2)
Выборочные коэффициенты корреляции представляют собой косинус угла а^к в Л-мерном пространстве между векторами х■> и хк:
Таблица 3
Параметры, релевантные для различения пар авторов
Число пар авторов Число параметров Параметры
44 1 Х50
41 1 Х49
40 Х18, Х48
39 1 Х19
38 Х43, Х45
37 1 Х17
36 1 Х46
35 Х15, Х44, Х51
34 1 Х32
33 1 Х47
32 2 Х16, Х41
31 1 Х03
30 4 Х22, Х24, Х27, Х31
29 3 Х02, Х26, Х33
28 4 Х06, Х07, Х21, Х34
27 4 Х01, Х11, Х25, Х04
25 1 Х05
24 1 Х36
22 2 Х13, Х14
21 2 Х29
20 1 Х29
19 2 Х23, Х28
18 3 Х08, Х20, Х30
16 1 Х12
15 1 Х37
12 1 Х42
11 1 Х39
2 1 Х09
0 1 Х10
+
п
п
2
Pjk = cos aJk (3)
Коэффициенты корреляции принимают значения, которые лежат в интервале [-1; 1]. Размерность матрицы: 50x50, она обладает следующими свойствами:
1 Pjk = P. J', k = М;
2. Pj = 1, J = k
По этой матрице были определены средняя внутригрупповая (формула 4) и средняя внегрупповая (формула 5) корреляции каждого параметра:
' m \
Y.V, - Hi
r m = --------— , (4)
m — 1
где m = 32, л. — коэффициент корреляции в матрице
IK — ч) - llr, — ч
І = 1 У V І = 1
(5)
п — т — 1
где п = 50, т = 32, г^ — коэффициент корреляции в матрице.
Затем были вычислены критерии эффективности каждого параметра:
гп — т
Е = (6)
' і
Результаты приведенні в табл. 4.
Таблица 4
Критерий эффективности
гп — п
Параметр Г -n-m Г -m E Параметр r -n-m Г -m E
X1 0,105 0,165 0,633 X26 0,273 0,468 0,583
X2 0,298 0,539 0,553 X27 0,237 0,412 0,575
X3 0,265 0,445 0,596 X31 0,214 0,461 0,463
X4 0,148 0,307 0,484 X32 0,137 0,278 0,494
X6 0,284 0,477 0,595 X33 0,251 0,378 0,664
X7 0,223 0,422 0,529 X34 0,235 0,364 0,646
X11 0,249 0,408 0,611 X41 0,254 0,483 0,526
X15 0,350 0,613 0,571 X43 0,176 0,389 0,453
X16 0,325 0,593 0,548 X44 0,166 0,376 0,442
X17 0,265 0,507 0,523 X45 0,158 0,296 0,536
X18 0,249 0,494 0,505 X46 0,132 0,254 0,517
X19 0,204 0,370 0,552 X47 0,226 0,385 0,588
X21 0,243 0,472 0,515 X48 0,284 0,534 0,532
X22 0,29 0,361 0,804 X49 0,268 0,529 0,507
X24 0,268 0,492 0,544 X50 0,273 0,531 0,513
X25 0,313 0,549 0,57 X51 0,138 0,301 0,457
Как видно из таблицы, нет ни одного параметра, для которого значение критерия эффективности было бы больше единицы. В этом случае в информативный набор параметров мы включили те параметры, значения эффективности которых попадают в интервал
0,6 < E¡ < 0,8.
Таким образом, рабочий словарь системы включает набор из пяти диагностирующих параметров (табл. 5).
Таблица 5
Информативные параметры
Параметр Наименование параметра
Х01 Число слов в простом самостоятельном предложении
Х11 Число элементарных предложений без номинативного подлежащего
Х22 Число именных форм глагола
Х33 Число групп однородных членов
Х34 Число членов однородных групп
Определение координат распознаваемых объектов и эталонов априорных классов
Этап перехода от реального объекта к его математической модели заключается в описании этого объекта (или его составляющих) на языке параметров рабочего словаря системы распознавания. Для этого атрибутируемые статьи и априорные классы были описаны на языке пяти диагностирующих параметров.
Статистические характеристики распределений параметров для всех атрибутируемых объектов приведены в табл. 6.
Таблица 6
Координаты распознаваемых объектов
Объект Параметр хі Объем Объект Параметр X Объем
1 2 3 4 5 1 2 3 4 5
Х01 3,48 5,52 Х01 3,13 5,92
Х11 1,55 1,33 Х11 1,11 1,10
Р1 Х22 0,76 1,05 333 А4 Х22 0,89 1,06 378
Х33 1,03 1,48 Х33 1,11 1,63
Х34 2,82 4,56 Х34 2,93 4,84
Х01 4,03 5,74 Х01 4,14 6,28
Х11 1,24 1,34 Х11 1,15 0,98
А2 Х22 0,74 1,16 202 А5 Х22 0,78 1,08 312
Х33 1,48 2,43 Х33 0,78 1,38
Х34 3,94 6,45 Х34 2,50 4,94
Х01 2,90 4,76 Х01 5,66 7,87
Х11 1,76 1,29 Х11 0,93 0,79
А3 Х22 0,90 1,23 111 А6 Х22 0,86 1,35 15
Х33 1,08 1,87 Х33 1,46 2,35
Х34 3,94 6,10 Х34 4,73 8,57
1 2 3 4 5 1 2 3 4 5
Х01 3,67 6,18 Х01 3,19 6,25
Х11 1,50 1,45 Х11 1,23 1,15
А7 Х22 0,89 1,28 153 А10 Х22 1,42 1,46 356
Х33 1,33 2,02 Х33 0,82 1,38
Х34 3,80 6,76 Х34 3,21 5,83
Х01 2,96 7,05 Х01 4,17 8,26
Х11 2 1,52 Х11 1,25 1,29
А8 Х22 1,48 1,71 25 А11 Х22 1,48 1,62 267
Х33 1,76 2,33 Х33 1,28 2,06
Х34 5,92 7,44 Х34 3,99 6,74
Х01 3,52 7,97 Х01 4,00 7,72
Х11 1,44 1,62 Х11 1,23 1,16
А9 Х22 1,91 2,07 69 А12 Х22 1,60 1,42 344
Х33 1,73 2,33 Х33 1,03 1,62
Х34 5,72 8,54 Х34 3,08 5,69
При определении координат распознаваемых объектов использовался метод сплошного статистического исследования, т. к. все 12 объектов, подлежащих распознаванию, имели небольшой объем авторского текста. При определении координат эталонов классов применялось как сплошное, так и выборочное статистические обследования. Мы провели сплошное обследование текстов тех априорных классов, чьи объемы составляли менее двухсот предложений. Это были классы О (Ф. М. Достоевский), О (П. А. Кусков),
О (Я. П. Полонский), О (А. Ф. Писемский). При определении координат эталонов остальных априорных классов оказалось целесообразным воспользоваться выборочным методом. Применение выборочного метода позволило исследовать значительно меньшее количество единиц, чем потребовалось бы при сплошном изучении, тем самым были снижены объемы подготовительной работы и затраты труда. Кроме того, при выборочном методе рассчитывается степень точности, с которой данные нашего выборочного исследования отражают свойства обследуемых совокупностей. Объем выборки п определяется на основе сделанных ранее прикидочных выборках по следующей формуле:
N 5 V ,-------
-- -у, где Г - - , Ч — V1 - п(1),
1+' чУ х
где V — относительная стандартная ошибка, при V — 0,05 стандартная ошибка составляет
5 % величины оцениваемого параметра.
В каждом классе для различных параметров необходимый объем выборки варьируется в широких пределах. Например, в классе О (А. А. Григорьев) для параметра Х11 необходим минимальный объем выборки (п — 355), а для определения значения параметра Х01
с ¥_ = 0,05 необходима выборка объемом 816 предложений. Таким образом, произведя случайную выборку в 816 предложений, мы с достаточной точностью определим значение параметра Х01, а значения остальных параметров будут измерены с заведомо избыточной точностью. Аналогичным образом производилось определение координат эталонов и для других классов. Результаты приведены в табл. 7.
Таблица 7
Координаты эталонов классов на 0-й итерации
Класс Пара- метр хі п Класс Пара- метр хі п
А0 (П. А. Бибиков) Х01 Х11 Х22 Х33 Х34 4,01 1,27 1,36 1,60 4,15 7,39 1,26 1,54 3,61 6,05 988 А0 (А. Ф. Писемский) Х01 Х11 Х22 Х33 Х34 1,90 2,31 1,70 1,95 5,65 4,40 2,07 1,94 3,10 9,71 140
А0 (А. А. Головачев) Х01 Х11 Х22 Х33 Х34 3,04 1,21 1,36 0,97 3,83 6,46 1,11 1,35 1,37 6,00 350 А0(Я. П. Полонский) Х01 Х11 Х22 Х33 Х34 2,83 1,95 1,41 1,91 5,40 5,61 1,78 1,75 2,22 6,53 182
А0 (А. А. Григорьев) Х01 Х11 Х22 Х33 Х34 5,97 1,06 1,14 2,18 6,82 10,14 1,00 1,39 2,35 8,04 816 А0 (А. У Порецкий) Х01 Х11 Х22 Х33 Х34 4,05 1,34 1,51 1,13 3,66 7,44 1,20 1,56 1,80 6,40 1246
А0 (Ф. М. Достоевский) Х01 Х11 Х22 Х33 Х34 5,22 1,32 1,00 1,47 3,69 7,59 1,20 1,49 1,95 5,91 172 А0 (А. Г. Разин) Х01 Х11 Х22 Х33 Х34 3,15 1,13 1,31 1,23 3,81 6,35 1,18 1,41 1,78 5,91 1393
А0 (М. М. Достоевский) Х01 Х11 Х22 Х33 Х34 4,92 1,18 0,72 1,12 3,06 6,75 1,08 1,02 1,63 4,96 330 А0 (Н. Н. Страхов) Х01 Х11 Х22 Х33 Х34 3,83 1,30 0,82 1,00 2,79 6,00 1,20 1,04 1,52 4,66 713
А0 (П. А. Кусков) Х01 Х11 Х22 Х33 Х34 2,21 2 1,20 1,15 3,13 3,83 1,58 1,33 1,73 4,91 69
1 Достоевский Ф. М. Собр. соч.: В 23 т. / Под ред. Л. П. Гроссмана. Пг., 1914-1918.
2Достоевский Ф. М. Полное собрание художественных произведений: В 13 т. / Под ред. Б. В. Тома-шевского, К. А. Халабаева. М.; Л., 1926-1930.
3 Schoultz O. von. Ein Dostoewskij — Fund. Helsingfos, 1924.
4Виноградов В. В. Проблема авторства и теория стилей. М., 1961.
5Нечаева В. С. Журнал М. М. и Ф. М. Достоевских «Время». 1861-1863. М., 1972; Она же. Журнал М. М. и Ф. М. Достоевских «Эпоха. 1864-1865. М., 1975.
6 Достоевский Ф. М. Полн. собр. соч.: В 30 т. М., 1972-1990.
7 Марусенко М. А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л., 1990.
8 Таблица состава априорных классов представлена в дипломном сочинении студентки 5 курса отделения теоретической и прикладной лингвистики Е. С. Погаревой «Атрибуция анонимных и псевдонимных статей, опубликованных в журналах “Время” и “Эпоха”», 2004.
9 В поисках потерянного автора: Этюды атрибуции / М. А. Марусенко, Б. А. Бессонов и др. СПб., 2001. С. 9.
10 X1 — число слов в простом самостоятельном предложении; X2 — число элементарных предложений; X3 — число главных предложений; X4 — число сочиненных предложений; X5 — число сочиненных предложений без спрягаемой формы глагола; X6 — число подчиненных предложений; X7 — число подчиненных предложений 1-й степени; X8 — число подчиненных предложений 2-й степени ; X9 — число подчиненных предложений 3-й степени; X10 — число подчиненных предложений 4-й и высших степеней; X11 — число элементарных предложений без номинативного подлежащего; X12 — число подчиненных предложений без спрягаемой формы глагола; X13 — число вставных предложений; X14 — число охватывающих предложений; X15 — число слов 1-й группы (знаменательных); X16 — число слов 2-й группы (служебных); X17 — число имен существительных; X18 — число имен прилагательных; X19 — число местоимений; X20 — число имен числительных; X21 — число спрягаемых форм глагола; X22—число именных форм глагола; X23 — число наречий; X24 — число предлогов; X25 — число союзов; X26 — число подчинительных союзов; X27 — число сочинительных союзов; X28 — число предикативов; X29 — число слов в аккузативе; X30 — число слов в дативе; X31 — число подлежащих; X32 — число местоимений-подлежащих; X33 — число групп однородных членов; X34 — число членов однородных групп; X35 — число однородных сказуемых; X36 — число однородных групп дополнений; X37 — число причастных оборотов; X38 — число членов причастных оборотов; X39 — число распространенных причастных определений; X40 — число членов распространенных причастных определений; X41 — число согласованных определений; X42 — число причастий — согласованных определений; X43 — число несогласованных определений; X44 — число существительных — несогласованных определений; X45 — число обособленных членов; X46 — число членов в группах обособленных членов; X47 — число существительных без группы; X48 — число групп имен существительных; X49 — число членов групп имен существительных; X50 — число знаменательных слов в группах имен существительных; X51 — число служебных слов в группах имен существительных.