Научная статья на тему 'К вопросу о лингво-теоретических основах методик авторизации текста'

К вопросу о лингво-теоретических основах методик авторизации текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
478
93
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КВАНТИТАТИВНЫЕ МЕТОДЫ / АВТОРИЗАЦИЯ ТЕКСТА / АТРИБУЦИЯ ТЕКСТА / ДОЛЯ СЛУЖЕБНЫХ СЛОВ / СРЕДНЕЕ ЗНАЧЕНИЕ / КОЭФФИЦИЕНТ СИНТАКСИЧЕСКОГО РАЗНООБРАЗИЯ / КОЭФФИЦИЕНТ ЛЕКСИЧЕСКОГО РАЗНООБРАЗИЯ РЕЧИ / QUANTITATIVE METHODS / AUTHORSHIP ATTRIBUTION / PERCENT OF FUNCTION WORDS / AVERAGE VALUE / SYNTACTICAL DIVERSITY COEFFICIENT / LEXICAL DIVERSITY COEFFICIENT

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Верхозин Степан Сергеевич

В статье рассматриваются некоторые основные аспекты, касающиеся методов авторизации текста, приводятся результаты исследования, предметом которого было установление количественных характеристик текстов, произведений двух авторов, а также подводятся итоги эмпирической проверки некоторых методик атрибуции.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON THE ISSUE OF LINGUO-THEORETICAL BASICS OF AUTHORSHIP ATTRIBUTION METHODS

This article describes some basic aspects of authorship attribution and the findings of research of the texts of two authors. The objective of the research was in identifying quantitative features of their works and the empirical test of some authorship attribution methods.

Текст научной работы на тему «К вопросу о лингво-теоретических основах методик авторизации текста»

8. Le Cocq, J.-M. Les mots d’origine bretonne dans l’argot français [Text] / J.-M. Lecocq // La bretagne linguistique. - Brest, 1993. - Vol. 7. - P. 227-238.

9. Le Dû, J. Du café vous aurez? : Petits mots du français de Basse-Bretagne [Text] / J. Le Dû. - Rennes : Arme-line, 2002. - 236 p.

10. Lossec, H. Les bretonnismes [Text] / H. Lossec. -Rennes : Skol Vreizh, 2010. - 100 p.

11. Mellouet, P. Blaz an douar, le goût de la terre [Text] / P. Mellouet. - Leon : Pennec, 2004. - 192 p.

12. Péron, P. T’as pas su? Chroniques du parler brestois [Text] / P. Péron. - Brest : Le télégramme Editions, 2001. - 79 p.

13. Pichavant, R. Le Douarneniste comme on cause, étude des mots et des expressions populaires [Text] / R. Pichavant. - Quimper : Bargain, 1996. - 232 p.

УДК 81’33 ББК 81.1

С.С. Верхозин

К ВОПРОСУ О ЛИНГВО-ТЕОРЕТИЧЕСКИХ ОСНОВАХ МЕТОДИК АВТОРИЗАЦИИ ТЕКСТА

В статье рассматриваются некоторые основные аспекты, касающиеся методов авторизации текста, приводятся результаты исследования, предметом которого было установление количественных характеристик текстов, произведений двух авторов, а также подводятся итоги эмпирической проверки некоторых методик атрибуции.

Ключевые слова: квантитативные методы; авторизация текста; атрибуция текста; доля служебных слов; среднее значение; коэффициент синтаксического разнообразия; коэффициент лексического разнообразия речи

S.S. Verkhozin

ON THE ISSUE OF LINGUO-THEORETICAL BASICS OF AUTHORSHIP ATTRIBUTION METHODS

This article describes some basic aspects of authorship attribution and the findings of research of the texts of two authors. The objective of the research was in identifying quantitative features of their works and the empirical test of some authorship attribution methods.

Key words: quantitative methods; authorship attribution; percent of function words; average value; syntactical diversity coefficient; lexical diversity coefficient

Количественные методы в последнее время прочно закрепились в качестве весьма полезного и информативного инструмента лингвистических исследований. Они могут применяться как отдельно для решения определенной языковедческой проблемы, так и в комплексе с другими, качественными подходами.

Существует множество областей применения квантитативных методов с лингвистической точки зрения: к ним можно отнести как самостоятельные дисциплины, например, математическую или статистическую лингвистику, так и некоторые другие направления, где количественные методики выступают в качестве средств разрешения тех или иных вопросов, связанных с функционированием языка. К последним можно отнести психолингвистику, компьютерную лингвистику, судебную лингвистику и т. д.

Среди этих областей для нас наибольший интерес представляет судебная лингвистика в общем, и определение авторства текста, в частности. Установление авторства текста - это классическая задача филологического исследования [Баранов, 2001]. Истоки авторизации текста относятся еще к XVIII в. и прослеживаются в трудах европейских исследователей (работы по исследованию произведения У Шекспира Эдмондом Мэлоуном) [Paragraph Stats. Режим доступа : http: // www.sciencebuddies.org / science-fair-projects / project_ideas / CompSci_p003.shtml] и к началу XX в. в отечественной науке (статья Н.А. Морозова «Лингвистические спектры. Средство для отличия плагиатов от истинных произведений того или другого известного автора. Стилеметрический этюд») (Цит. по: [Karlsson, 2011]). Однако как самостоятельное направ-

ление авторизация текста сложилась лишь во второй половине прошлого столетия.

С тех пор было выработано и предложено множество различных методов авторизации текста, но ни один из них не является общепризнанным. С точки зрения разных подходов, в качестве достоверных количественных критериев определения авторства текста признавались: доля служебных слов как авторский инвариант, средняя длина слова, средняя длина предложения, индекс разнообразия лексики и многие другие. У каждого из подходов есть свои преимущества и свои недостатки, свои сторонники и свои противники. Некоторые ученые стараются совмещать качественные методики и количественные, дополняя, таким образом, результаты анализа по каждой из них. Однако уместным будет сказать, что квантитативные или формальные методы определения авторства видятся более объективными, поскольку позволяют установить некоторые языковые явления, которые очень трудно, если вообще возможно подделать, как-то процент использования автором служебных слов.

Задачей данного исследования является попытка проведения количественного анализа нескольких произведений двух разных авторов, в результате чего должен быть сделан вывод о дифференциации количественно описанных стилей этих авторов. Кроме того, перед исследованием стоит цель показать, что выбранные критерии «работают» на практике и могут использоваться для проведения лингвоквантитативной экспертизы, например, в рамках судебной лингвистики или стилеме-трии.

При анализе было решено отказаться от использования одного количественного метода установления авторства, но подойти к этой проблеме комплексно, т. е. проверить произведения сразу несколькими способами, что исключит возможные неточности, недостоверности и ошибки в результатах и выводах.

К выбранным количественным критериям авторизации текста относятся: процент служебных слов, средняя длина слова в буквах, средняя длина предложений в словах, степень синтаксической сложности и индекс лексического разнообразия речи.

Материалом для исследования послужили три произведения автора под ником [Ян Ярослав Витальевич, 2011]: «Я помню тебя», «Чарующее однообразие» и «Момент», а также три произведения автора под ником [Karlsson, 2011] («Final Destination», «Мешок для страхов», «Любовь по проводам»), размещенные на сайте любительской литературы «Самиздат».

Исследование выполнялось в полуавтоматическом режиме с использованием различных лингвистических программных средств: для создания частотных словарей применялась программа «Wordstat», для расчета таких показателей, как средняя длина слова, средняя длина предложения, а также для подсчета количества словоформ применялась программа «Textanz». Для создания выборок длины слов и предложений использовалось программное обеспечение «Simple Word Length Counter», доступное на сайте http://www. sciencebuddies.org/ [Karlsson, 2011], программа «MyWordCount». Для статистических расчетов и проверке гипотез применялись пакеты «STATISTICA» и «SPSS Statistics».

Показатель «доля (процент) служебных слов» в произведении признается многими учеными как один из наиболее объективных, поскольку служебные слова напрямую не связаны с темой и содержанием текста:

П=В / К,

где В - сумма встречаемости служебных слов, К - количество слов в корпусе.

Итоговое значение и будет характеризовать стиль автора с точки зрения доли слов, относящихся к служебным частям речи, в его произведениях (табл. 1).

Таблица 1

Часть речи Ярослав Витальевич Ян N.N. Karlsson

Служебные слова «Мо- мент» «Чарующее однообразие» «Я помню тебя» Общие данные «Final destination» «Любовь по проводам» «Мешок для страхов» Общие данные

24,909% 23,948% 20,333% 22,823% 21,888% 25,352% 26,415% 24,613%

Как видно из табл.1, разница долей служебных слов между авторами составляет примерно 2 %, что вполне может свидетельствовать об индивидуальном стилеметрическом различии между ними.

Для определения средней длины слова в буквах рассчитывается средняя статистическая величина для данного параметра. Средняя величина - это обобщающий показатель, в котором находят выражение действие общих условий, закономерность изучаемого явления [Grieve, 2005].

Среднее значение вычисляем по формуле

х = Лхт),

п

где х - значение, т - частота встречаемости, п - общее количество элементов.

Таким образом, в каждом произведении данного автора подсчитывается длина каждого слова в буквах. Затем общая сумма всех полученных значений делится на общее количество слов. Конечное значение и будет являться средней арифметической величиной длины слов в буквах для конкретного произведения (табл. 2).

Таблица 2

Длина слова Ярослав Витальевич Ян N.N. Karlsson

Сред- няя «Мо- мент» «Чарующее однообразие» «Я помню тебя» Общие данные «Final destination» «Любовь по проводам» «Мешок для страхов» Общие данные

5,69 6,22 5,25 5,62 4,72 4,89 4,59 4,86

Средние значения для двух авторов были проверены с помощью гипотезы о равенстве средних значений для двух выборок. В результате проверки оказалось, что значение средней длины слова статистически различны, т. е. можно сделать предположение о том, что данное значение характеризует стиль автора и позволяет отличать его произведения от произведений других авторов.

Критерий «средняя длина предложения в словах» аналогичен предыдущему за тем лишь исключением, что в этом случае рассматриваются предложения. В каждом произведении автора подсчитывается длина каждого отдельного предложения. Затем полученные значения складываются, и их сумма делится на общее количество предложений. Конечное значение и будет являться средней арифметической величиной длины предложений в словах для конкретного корпуса (табл. 3).

Таблица 3

Длина предло- жения Ярослав Витальевич Ян N.N. Karlsson

Сред- няя «Мо- мент» «Чарующее однообразие» «Я помню тебя» Общие данные «Final destination» «Любовь по проводам» «Мешок для страхов» Общие данные

18,38 8,65 8,62 8,89 17,36 24,92 12,88 16,75

Средние значения для двух авторов были также проверены с помощью гипотезы о равенстве средних значений для двух выборок. В результате проверки оказалось, что значение средней длины предложения статистически различны, т. е. можно сделать аналогичное с предыдущим критерием предположение.

Коэффициент лексического разнообразия речи формируется из отношения числа лек-

сем к общему числу слов текста, т. е. [Варфоломеев, 2000]:

К = Л / С,

лекс

где Л - число лексем в данном тексте, С - общее число слов (единицы между пробелами) текста.

Значения коэффициента располагаются в промежутке от 0 до 1. Чем больше получаемая десятичная дробь, тем выше лексическое разнообразие (табл. 4).

Таблица 4

Лексическое разнообразие речи Ярослав Витальевич Ян N.N. Karlsson

Коэффи- циент «Мо- мент» «Чарующее однообра- зие» «Я помню тебя» Общие данные «Final destination» «Любовь по проводам» «Мешок для страхов» Общие данные

0,5753 0,6537 0,5524 0,4942 0,4286 0,446 0,3992 0,3465

Коэффициент синтаксического разнообразия (коэффициент сложности (Ксинт)) вытекает из отношения числа предложений к числу слов данного текста [Варфоломеев, 2000]:

К =1-(П / С),

синт ' у ’

здесь П - число предложений, С - число слов во всем тексте.

Пограничными значениями будут 0 и 1, и чем больше дробь, тем многословнее в целом предложения данного текста, а, следовательно - выше возможность разнообразия синтаксических отношений между словами в составе отдельного предложения (табл. 5).

Таблица 5

Лексическое разнообразие речи Ярослав Витальевич Ян N.N. Karlsson

Коэффи- циент «Мо- мент» «Чарующее однообра- зие» «Я помню тебя» Общие данные «Final destination» «Любовь по проводам» «Мешок для страхов» Общие данные

0,8965 0,8899 0,8902 0,8933 0,9443 0,9608 0,9256 0,9423

К сожалению, не представляется возможным статистически или математически проверить, является ли разница между результатами подсчетов по критериям «коэффициент лексического разнообразия речи» и «коэффициент синтаксического разнообразия» значимой или нет. Однако на основании данных, полученных в результате проведенного исследования, можно сказать, что результаты данной части эксперимента подтверждают стилистическую разницу между авторами. Обращая внимание на произведения автора под ником «Ярослав Витальевич Ян», можно заметить, что коэффициент лексического разнообразия речи для отдельных произведений колеблется от 0,55 до 0,65. В то же время показатели данного критерия для произведений автора под ником Каг^оп» значитель-

но меньше и располагаются в промежутке от 0,39 до 0,44.

Аналогичная ситуация и со вторым критерием - коэффициентом синтаксического разнообразия. Если для всех трех произведений «Ярослава Витальевича Яна» показате-

ли практически равны и находятся на уровне 0,89, то для «^^ Каг^оп» они значительно больше - от 0,92 до 0,96.

Подводя итоги и анализируя полученные результаты, можно сказать, что цель исследования была достигнута. Количественный анализ произведений двух авторов: «Ярослава Витальевича Яна» и «^^ Каг^оп» по заявленным критериям (процент служебных слов, средняя длина слова в буквах, средняя длина предложений в словах, степень синтаксической сложности и индекс лексического разнообразия речи) свидетельствует о том, что каждый из них, по сравнению с другим, обладает собственными индивидуальными стилеметрическими показателями. Несмотря на то, что статистически (например, с применением гипотезы о равенстве средних) доказать говорящую об этом разницу по некоторым критериям невозможно, наблюдается ощутимая разница между результатами расчетов индекса лексического разнообразия речи, степени синтаксической сложности и доли служебных слов. Это дает основания говорить о том, что

полученные в результате исследования цифры позволяют дифференцировать авторов друг от друга.

Сравнительно небольшая выборка текстов влияет на полученные результаты, но исследование показало, что произведения одного автора в целом обладают схожими и отличными от произведений другого автора количественными показателями. Исходя из этого, следует утверждать, что с увеличением количества анализируемых произведений автора, точность полученных показателей по соответствующим критериями, а, следовательно, и достоверность результатов будет увеличиваться.

Библиографический список

1. Хмелев, Д. Как определить писателя? [Электронный ресурс] / Д. Хмелев. - 2000. - Режим доступа : http://www.computerra.ru/offline/2000/338/3010/ (дата обращения : 08.10.2011).

2. Баранов, А.Н. Введение в прикладную лингви-

УДК 81.00 ББК 81.00

Е.Ю. Горчакова

ИНТЕРАКЦИЯ КАК ЕДИНИЦА БРЕНД-КОММУНИКАЦИИ

В статье исследуется модель бренд-коммуникации, приводятся общие характеристики ее элементов, рассматривается активная роль бренда как участника коммуникации в рамках действия концептуальной метафоры «БРЕНД ЭТО ЧЕЛОВЕК», выделяется интеракция как единица бренд-коммуникации.

Ключевые слова: бренд; бренд-коммуникация; дискурс; интеракция; концептуальная метафора

E.Y. Gorchakova

стику [Текст] : учеб. пособие / А.Н. Баранов. - М. : Эди-ториал УРСС, 2001. - 341 с.

3. Варфоломеев, А.П. Психосемантика слова и лингвостатистика текста [Текст] : метод. рекомендации к спецкурсу / А.П. Варфоломеев. - Калининград : Ка-линингр. ун-т, 2000. - 37 с.

4. Пиотровский, Р.Г. Математическая лингвистика [Текст] : учеб. пособие / Р.Г. Пиотровский. - М. : Высш. шк., 1977. - 383 с.

5. Ян Ярослав Витальевич [Electronic resource] / Ян Ярослав Витальевич // Самиздат. - 2011. - URL : http:// samlib.ru/j/janj_w/ (дата обращения : 12.12.2011).

6. Grieve, J.W. Quantitative Authorship Attribution : A history and an evaluation of techniques [Electronic rescorce] / J.W. Grieve. - 2005. - URL : http://summit.sfu. ca/item/8840 (дата обращения : 15.10.2011).

7. Karlsson, N.N. Журнал «Самиздат». [Electronic resource] / N.N. Karlsson. - 2011. - URL : http://samlib. ru/k/karlsson_n_n/ (дата обращения : 12.12.2011).

8. Paragraph Stats : Writing a JavaScript Program to «Measure» Text [Electronic resource]. - URL : http://www. sciencebuddies.org/science-fair-projects/project_ideas/ CompSci_ p003.shtml (дата обращения : 20.10.2012).

INTERACTION AS A UNIT OF BRAND-COMMUNICATION

This article is focused on brand-communication model and its elements. I consider the active role of brand regarding the influence of the conceptual metaphor ‘BRAND IS PERSON’ and argue for its worth as a unit of brand-communication.

Key words: brand; brand-communication; discourse; interaction; conceptual metaphor

Процесс коммуникации, где одним из участников выступает бренд, получил название «бренд-коммуникации». Данный феномен представляет интерес для исследования, в том числе в рамках лингвистики. При этом, прежде всего, необходимо выделить единицу такой коммуникации, что и станет задачей данной статьи.

Ю.Ю. Бровкина рассматривает бренд-коммуникацию как «особый вид социальной коммуникации» [Бровкина, 2009, с. 7], «процесс взаимодействия, в результате которого предполагаются изменения в мотивации, установках, поведении, деятельности людей и формируется конвенциональный образ бренда как социального объекта» [Бровкина, 2009, с. 40].

i Надоели баннеры? Вы всегда можете отключить рекламу.