Научная статья на тему 'Параметризация стилей: отбор информативных параметров при атрибуции пьес Мольера'

Параметризация стилей: отбор информативных параметров при атрибуции пьес Мольера Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
214
46
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Родионова Е. С.

В статье дается краткий обзор методов параметризации стилей, применявшихся с начала XX в. вплоть до настоя­щего времени, и рассматривается проблема атрибуции пьес Мольера. В ходе исследования сформирован набор из пяти информативных параметров, на языке которых описаны априорные классы и атрибутируемые объекты. Исследование опирается на математические методы атрибуции анонимных произведений.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Stiles parametrisation: informative parameters selection for attribution of plays by moliere

The article contains brief review of methods of stiles parametrisation which have been used from the early XX century and deals with a problem of attribution of plays by Moliere. In the research the set of five informative parametres is formed, and a priori classes and attributed objects are described in terms of these parametres. The research is based on mathematical methods of attribution of anonymous and pseudonymous works.

Текст научной работы на тему «Параметризация стилей: отбор информативных параметров при атрибуции пьес Мольера»

Е. С. Родионова

ПАРАМЕТРИЗАЦИЯ СТИЛЕЙ:

ОТБОР ИНФОРМАТИВНЫХ ПАРАМЕТРОВ ПРИ АТРИБУЦИИ ПЬЕС МОЛЬЕРА

Одной из задач стилеметрии - прикладной филологической дисциплины, занимающейся измерением стилевых характеристик, - является атрибуция анонимных и псев-донимных текстов. При решении вопроса об атрибуции какому-либо автору спорного произведения необходимо, чтобы аргументы характеризовали его с трех сторон: биографической, идеологической и стилистической1. Фиксация стиля атрибутируемого произведения и сопоставление его со стилем предполагаемых авторов является неотъемлемой частью задачи атрибуции, которая невозможна без выявления специфических языковых признаков текста.

До 1970-х гг. XX в. в практике атрибуции доминировали историко-документальные и филологические методы исследования. Для выявления авторских особенностей применялась субъективная методика атрибуции, в соответствии с которой субъективно отбирались внешние детали авторского стиля, такие как любимые слова, термины, фразеологические обороты и выражения. При стилистическом анализе исследователи уделяли внимание лишь лексическому составу текста, который очень тесно связан с темой и содержанием, и, следовательно, его оценка не может являться достаточным критерием при атрибуции текста.

Первым отечественным ученым, использовавшим математический аппарат для решения задачи атрибуции, считается Н.А. Морозов, опубликовавший в 1915 г. статью «Лингвистические спектры»2, в которой впервые обосновал идею о том, что при описании стиля необходимо использование не одного аспекта, а нескольких. Кроме того, в отличие от предшествующих исследователей, филологов-классиков, опиравшихся при атрибуции на частоту употребления знаменательных слов, Н.А. Морозов полагал, что для индивидуального стиля писателя показательными являются именно служебные слова, которые не связаны с темой и содержанием книги. Таким образом, в этой работе впервые была обозначена необходимость анализа и других уровней языка, помимо лексического. Для определения стиля Н.А. Морозовым были использованы такие количественные характеристики, как комбинации употреблений предлогов вина и. частицы не.

Первый отклик с критикой на статью Н.А. Морозова был получен от академика

А.А. Маркова, который в работе «Об одном применении статистического метода»3 отметил недостаточную проверку Н.А. Морозовым устойчивости предлагаемых количественных характеристик и предостерег последующих исследователей от использования таких характеристик, которые при увеличении объема текста сходятся к средним характеристикам русского языка.

Наиболее четко необходимость отказа от субъективных методов атрибуции стала ощущаться в 50-60-е гг. XX в. В этот период наметилась тенденция угасания традиционной методики. Общее положение дел в теории атрибуции было охарактеризовано академиком

© Е.С. Родионова, 2007

В.В. Виноградовым как кризисное. Он отмечал, что субъективные методы атрибуции уже отжили свой век и «решение проблемы авторства по отношению к литературе нового времени требует от исследователей глубоких объективных знаний системы индивидуального стиля конкретного автора»4. Самым трудным моментом при определении авторства с использованием математических методов, по его мнению, является «выделение непререкаемых, бесспорных качеств индивидуального стиля в их структурном единстве»5. Таким образом, В.В. Виноградов обозначил важнейшую задачу, возникающую при атрибуции анонимного произведения, - фиксацию стиля автора и формирование рабочего словаря параметров распознающей системы.

С 60-70-х гг. XX в. при описании индивидуального стиля лингвоматематические методы стали применяться все шире, благодаря чему накапливались данные о свойствах единиц языка, и формировался специальный научный аппарат атрибуции текстов. В работах А.Л. Гришунина6, П. Вашака7, Т.А. Якубайтиса8 и других, разрабатывались методы статистики применительно к лексике, а также к грамматике.

С 80-х гг. XX в. появляются все новые методы атрибуции, основанные на анализе синтаксических структур, которые интенсивно развиваются и в настоящее время. В 1981 г. И.П. Севбо опубликовала работу9, посвященную графическому представлению синтаксических структур в виде деревьев зависимостей. В 1983 г. Г.Я. Мартыненко10 провел изучение синтаксических структур в рамках типичных фраз и предложений. Отношения зависимости и однородности были представлены в этой работе в виде стрелочно-скобочной записи. В работе М. А. Марусенко11 проблема атрибуции была впервые решена методами распознавания образов на основе индивидуальных характеристик авторского стиля.

С этого времени можно отметить все возрастающий интерес исследователей к применению компьютерной обработки данных при анализе текстов как в синтаксическом, так и в грамматическом, морфемном, лексическом аспектах. Автоматическая обработка данных применялась в исследованиях Г. Хетсо12'13, Л.И. Бородкина и Л.В. Милова14и др. За последние несколько лет в сети Интернет появились программы, предназначенные для распознавания автора присылаемого пользователем текста или выдачи списка наиболее близких к нему по стилистике авторов из числа входящих в некоторый заранее заданный перечень «эталонных» авторов. Такими программами являются «ЛингвоАнализатор» Д.В. Хмелева15 и разработанный на его основе «Атрибутор»16. В качестве стилевых признаков в них используются бинарные буквосочетания.

Итак, в истории развития научной мысли в области параметризации авторского стиля можно выделить следующие основные тенденции: постепенный переход от анализа лексического уровня к анализу синтаксическому, переход от одномерных классификаций к описанию объектов в многомерном признаковом пространстве и все более широкое использование компьютерной обработки данных.

Одним из последних исследований, основанном на автоматической обработке текста на лексическом уровне, является работа французского специалиста по анализу речи Д. Лаббе. В 2001 г. он представил новый математический метод атрибуции, основанный на анализе лексического со става текстов и вычислении их меры близости или удаленности друг от друга17. Д. Лаббе применил новый метод при атрибуции театра Мольера18.

Вопрос об авторстве комедий Мольера был поднят в начале XX в. французским поэтом Пьером Луи19, и с течением времени все больше исследователей уделяют пристальное внимание этой проблеме. На сегодняшний день существует несколько гипотез об истинном авторе пьес, приписываемых Мольеру.

Согласно первой выдвинутой гипотезе лучшие пьесы Мольера в стихах была написаны известным французским драматургом Пьером Корнелем20. По другой версии, в поддержку которой приводятся различные литературные, биографические и языковые доказательства, Корнель является автором всех произведений Мольера21-22. Помимо Пьера Корнеля в числе возможных авторов пьес Мольера упоминаются также драматург Филипп Кино и поэт Шапель23. Наконец, существует общепринятая, официальная точка зрения, согласно которой именно Мольер и есть автор своих произведений24.

В ходе проверки гипотезы, согласно которой пьесы Мольера написал Пьер Корнель, Д. Лаббе сделал вывод о принадлежности Корнелю лучших пьес Мольера в стихах, составляющих примерно половину театра Мольера.

Метод, предложенный Д. Лаббе, имеет ряд существенных недостатков, связанных как с полной автоматизацией лексического разбора текста, так и с отсутствием вероятностного подхода. Анализ одного лишь лексического уровня также не может служить достаточно достоверным критерием атрибуции текстов, поскольку при подделке или имитации текста лексического сходства добиться легче всего. Проблема атрибуции пьес, подписанных Мольером, на сегодняшний день является очень актуальной, и в нашем исследовании проверка всех существующих гипотез будет осуществлена по методу, предусматривающему применение многомерного статистического анализа при фиксации стиля предполагаемых авторов и атрибутируемых текстов26.

Д. Лаббе, как и большинство исследователей творчества Мольера, при решении вопроса об атрибуции его произведений рассматривал все работы драматурга, которые представляют собой крайне неоднородную совокупность пьес, написанных как в стихах, так и в прозе. Ввиду того, что предметом самых ожесточенных споров стало авторство именно стихотворных шедевров Мольера, и, исходя из требования соблюдения жанровостилевой однородности текстов, нам представляется разумным анализировать только комедии, написанные в стихах, Таким образом, класс атрибутируемых объектов в нашей работе составляют 13 комедий в стихах, приписываемых Мольеру.

При формулировании атрибуционной гипотезы необходимо учитывать все мнения, высказанные различными исследователями и в число возможных авторов включить Мольера, Пьера Корнеля, Филиппа Кино и Шапеля. Однако, исходя из соображений жанровой однородности исследуемого материала, мы исключили из этого списка поэта Шапеля, поскольку, будучи автором небольших стихотворений, он не написал ни одной пьесы.

Существующие противоречивые гипотезы могут быть представлены в виде следующей литературно-критической атрибуционной гипотезы:

Нулевая гипотезва (Н0): тексты пьес Мольера полностью принадлежат Мольеру и не принадлежат никому из возможных авторов (Корнелю, Кино).

В случае опровержения нулевой гипотезы необходимо будет осуществить проверку сложной альтернативной гипотезы:

(Н\): тексты пьес Мольера полностью принадлежат Корнелю.

(Нг )'■ тексты пьес Мольера являются совместным произведением Мольера, Корнеля, Кино с определенной долей участия каждого из них.

(Н2): в создании пьес Мольера помимо вышеуказанных принимали участие один-или несколько неизвестных авторов. В этом случвае необходимо будет попытаться определить число авторов и возможную долю участия каждого из них.

В соответствии с положенной в основу данной работы методикой атрибуции анонимных и псевдонимных произведений, проверка атрибуционной гипотезы выполняется средствами теории распознавания образов и предусматривает реализацию двух независимых этапов: отбор информативных параметров и процедуру распознавания. В настоящей статье описывается выполнение первого этапа: отбор информативных параметров из априорного словаря параметров.

Значение термина «параметр» существенно меняется в зависимости от контекста, в котором он употребляется. В общем же случае параметром называют «величину, значения которой служат для различения элементов некоторого множества между собой»27. В нашем исследовании информативные параметры должны разделять два априорных класса: Корнеля - Q (Pierre Corneille) и Кино - Q (Philippe Quinault). Поскольку все произведения Мольера считаются спорными, априорного класса работ Мольера не существует. Можно будет предположить, что пьесы Мольера действительно написал Мольер в том случае, если они не будут атрибутированы ни Корнелю, ни Кино, и статистический анализ покажет, что класс атрибутируемых объектов является достаточно однородным по своему составу. Итак, был сформирован алфавит классов, мощность (число текстов) и объем (число предложений) которого представлены в табл. 1.

Таблица 1

Объем априорных классов

Класс Мощность Объем

Q (Pierre Corneille) 11 11103

Г2 (Philippe Quinault) 3 3125

В нашем исследовании априорный словарь параметров, который «представляет собой в значительной степени стандартизованный набор, полученный путем унификации и стандартизации известных средств квантитативного описания стилей, предложенных разными авторами», состоит из 51 параметра28, релевантных для описания французского языка.

На языке параметров из априорного словаря параметров были описаны априорные классы, для чего были сделаны прикидочные случайные выборки объемом по 200 предложений. В результате определения значений 51 параметра для априорных классов были сформированы две объектно-признаковые матрицы данных, и были вычислены статистические характеристики: среднее арифметическое (Xі ) и стандартное отклонение (£,), для каждого класса.

При формировании набора информативных параметров мы применили схему Бонгарда29, предусматривающую двухступенчатое свертывание параметрического пространства.

На первом этапе было произведено разбиение априорного набора информативных параметров на подмножества параметров, релевантных и не релевантных для различения априорных классов. Релевантность параметров для различения двух априорных классов определялась по ^критерию Стьюдента:

По формуле 2 было выделено 5 параметров (Х2, Х4, Х21, Х31, Х32), для которых значение /-критерия оказалось больше 1,96 при уровне значимости а=0.05. Это небольшое число параметров вполне может сформировать информативный набор, однако было решено попытаться еще больше свернуть параметрическое пространство и воспользоваться вторым этапом схемы Бонгарда, предусматривающим обработку корреляционной матрицы связей параметров.

Из двух имеющихся у нас объектно-признаковых матриц соответствующих априорных классов была составлена единая объектно-признаковая матрица, вектор-строки которой соответствуют параметрам, а вектор-столбцы - предложениям. Полученная матрица данных имеет размерность N х п, где N=400, а «=51.

На основе объектно-признаковой матрицы была сформирована корреляционная матрица связей параметров, элементами которой являются выборочные коэффициенты корреляции

(2)

где п - 51.

По этой матрице были определены средняя внутригрупповая корреляция (формула 3) и средняя внегрупповая корреляция (формула 4) каждого параметра:

т

\

Г=^---------(3)

т-1

где т=5, г.. - коэффициент корреляции в матрице;

(4)

п-т-1

где «=51, т-5, г - коэффициент корреляции в матрице.

Затем были вычислены критерии эффективности каждого параметра:

—п-т

Г.

(5>

}

Результаты приведены в табл. 2,

Таблица 2

Критерий эффективности

Параметр —п-т Г —т Г Е,

Х2 0,372 0,824 0,452

Х4 0,220 0,657 0,335

Х21 0,378 0,804 0,470

Х31 0,351 0,806 0,436

Х32 0,256 0,672 0,382

Как видно из таблицы, нет ни одного параметра, для которого значение критерия эффективности было бы больше единицы, более того, 0,33<£.<0,47, это свидетельствует о тесной связи между всеми пятью параметрами. Поскольку нет поводов для того, чтобы убрать из полученного набора какой-либо параметр, в информативный набор параметров были включены все полученные на первом этапе параметры. Итак, рабочий словарь системы включает пять диагностирующих параметров, представленных в табл. 3.

Таблица 3

Информативные параметры

Параметр Наименование параметра

Х01 Число слов в простом самостоятельном предложении

XII Число элементарных предложений без номинативного подлежащего

X22 Число именных форм глагола

ХЗЗ Число групп однородных членов

Х34 Число членов однородных групп

В настоящей работе стиль текстов, представляющих априорные классы и атрибутируемые объекты, описан в многомерном признаковом пространстве пятью информативными параметрами, характеризующими тексты в синтаксическом аспекте. Таким образом, завершен первый этап работы по проверке атрибуционной гипотезы. Следующий этап, заключающийся в процедуре распознавания, будет осуществлен в ходе дальнейшего исследования.

1 Берков П.Н. Об установлении авторства анонимных и псевдонимных произведений XVIII века // Русская литература. 1958. № 2. С. 43-61.

2 Морозов Н.А. Лингвистические спектры: Средство для отличения плагиатов от истинных произведений того или другого известного автора: Стилеметрический этюд // Изв. Отд. русского языка и словесности Имп. Акад. Наук. Т. XX. Кн. 4.1915.

3 Марков А.А. Об одном применении статистического метода // Известия Имп.Акад.наук. Серия VI. Т. X. № 4. 1916. С. 239.

4Виноградов В.В. Проблема авторства и теория стилей. М., 1961. С. 85.

3Там же. С. 73.

* Гришунин. А. Л. Опыт обследования употребительности языковых дублетов в целях атрибуции // Вопросы текстологии. Вып. 2 / Под ред. B.C. Нечаевой. М., 1960.

1Вашак П. Длина слова и длина предложения в текстах одного автора // Вопросы статистической стилистики / Под. ред. Б.Н. Головина. Киев, 1974.

%Якубайтис Т.А., Скляревич А.Н. Корреляционная характеристика частей речи в связных текстах. Рига, 1980.

9 Севбо ИЛ. Графическое представление синтаксических структур и стилистическая диагностика. Киев, 1981.

10 Мартыненко Г.Я. Многомерный синтаксический анализ художественной прозы // Структурная и прикладная лингвистика. Вып. 2. Л., 1983. С. 58-72.

11 Марусенко М.А. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л., 1990.

пХетсо Г Проблема авторства в романе «Тихий Дон» // Scando-slavica. Т. 24. 1978.

пХетсо Л Принадлежность Достоевскому: К вопросу об атрибуции Ф.М. Достоевскому анонимных статей в журналах «Время» и «Эпоха». М., 1986.

14 Милов Л.В. и др. От Нестора до Фонвизина. Новые методы определения авторства. М., 1994.

15См.: htip://www.msf.rWcgi-bin/fi\cgi.

16 См.: http://www.textology.ru.

17 Labbe С, Labbe D. Inter-textual distance and authorship attribution Corneille and Moliere I I Journal of Quantitative Lingustics. 2001. Vol. 8. № 3. P. 213-231.

18LabM D. Corneille dans Г ombre de Moliere. Histoire d’une recherche. Paris; Bruxelles, 2003. P. 71-102.

19 Louys P V auteur d’ Amphitryon I I Le Temps. 1919. 16 octobre.

2QLouys P Moli&re est un chef-d’oeuvre de Corneille 11 Comedia. 1919.7 novembre.

2lPoulaille H. Corneille sous le masque de Moliere. Paris, 1957.

22 VergnaudF. Appendice П11 Wouters H. Christine de Ville de Goyet. МоНёге ou Г auteur imaginaire? Edition Compile, 1990.

23 Wouters H. Christine de Ville de Goyet. МоНёге ou Г auteur imaginaire? Edition Сотр1ёхе, 1990.

24Forestier G. Le dossier «Comeille-Moliere» (cm.: http://www.crht.org/? Dossiers/Le+dossier+Comeille-Moli%E8re).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

25 Labbi D. Corneille et Moliere // Seminaire du Groupe Langues Information Representations (13 janvier 2004). P. 2.

26 Марусенко МЛ. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л., 1990.

27Болыная советская энциклопедия. 1969-1978. Т. 16. С. 154.

28 XI - число слов в простом самостоятельном предложении; Х2 - число элементарных предложений; ХЗ - число главных предложений; Х4 - число сочиненных предложений; Х5 - число сочиненных предложений без спрягаемой формы глагола; Х6 - число подчиненных предложений; Х7 - число подчиненных предложений 1-й степени; Х8 - число подчиненных предложений 2-й степени; Х9 - число подчиненных предложений 3-й степени; XI0 - число подчиненных предложений 4-й и высших степеней; XII - число элементарных предложений без номинативного подлежащего; Х12 - число подчиненных предложений без спрягаемой формы глагола; XI3 - число вставных предложений; XI4- число охватывающих предложений; XI5- число слов 1-й группы (знаменательных); XI6- число слов 2-й группы (служебных); Х17 - число имен существительных; XI8 - число имен прилагательных; XI9 - число местоимений; Х20 - число имен числительных; Х21 - число спрягаемых форм глагола; Х22 - число именных форм глагола; Х23 - число наречий; Х24 - число предлогов; Х25 - число союзов; Х26 - число подчинительных союзов; Х27 - число сочинительных союзов; Х28 - число предикативов; Х29 - число прямых дополнений; Х30 - число косвенных дополнений; Х31 - число подлежащих; Х32 - число местоимений-подлежащих; ХЗЗ - число групп однородных членов; Х34 - число членов однородных групп; Х35 - число однородных сказуемых; Х36 - число однородных групп дополнений; Х37 - число причастных оборотов; Х38 - число членов причастных оборотов; Х39 - число распространенных причастных определений; Х40 - число членов распространенных причастных определений; Х41 - число согласованных определений; Х42 - число причастий - согласованных определений; Х43 - число несогласованных определений; Х44 - число существительных - несогласованных определений; Х45 - число обособленных членов; Х46 - число членов в группах обособленных членов; Х47 - число существительных без группы; Х48 - число групп имен существительных; Х49 - число членов групп имен существительных; Х50 - число знаменательных слов в группах имен существительных; Х51 - число служебных слов в группах имен существительных

29 Бонгард ММ. Проблемы узнавания. М., 1967.

Статья принята к печати 8 ноября 2006 г

i Надоели баннеры? Вы всегда можете отключить рекламу.