УДК 81'322; 004.934; 004.912
Аспекты языковой вариативности как предмет корпусных исследований
© Мордовин Алексей Юрьевич
кандидат филологических наук, президент Иркутской региональной ассоциации переводчиков
Россия, 664025, г. Иркутск, ул. Чкалова, 36
E-mail: [email protected]
В статье рассматривается статус исследований различных форм языковой вариативности (временной, жанровой и социолингвистической) в рамках корпусного подхода, тех однородных методов, которые базируются на общем принципе количественного и сравнительного аналитического исследования на основе корпусного материала. В частности, описана роль синхронных и мониторных корпусов в диахронических и синхронических исследованиях. Выбор текстоцентрического или антропоцентрического подхода к единице вариативности в языке предложен в качестве манифестации статистической или органической корпусной идеологии, принятой в таком исследовании.
Ключевые слова: корпус текстов, корпусная лингвистика, языковая вариативность, синхронный корпус текстов, мони-торный корпус текстов.
Language variation aspects as object of corpus research
Alexey Yu. Mordovin
PhD, Président of Irkutsk Région Association of Translators
36 Tchkalova Str., Irkutsk 664025, Russia
The article reviews the status of researches of different forms of language variation (temporal, genre-based or sociolinguistic variation) within the corpus approach, and of those homogenous methods which are based on the common principle of quantitative and comparative analytical study based on existing corpus material. In particular, the role of synchronous and monitor corpus in diachronic and synchronic research is explained. The choice of text-centered or human-centered approach to unit of variation is proposed to be viewed as a manifestation of statistic or organic corpus ideology adopted by such a research.
Keywords: text corpus; corpus linguistics; language variation, synchronous text corpus, monitor text corpus.
На поверхностном, интуитивно-понятном уровне восприятия взаимосвязь корпусов текстов с понятиями синхронии и диахронии в языке представляется вполне очевидной. Все создаваемые корпусы текстов можно разбить на две группы, которые могут иметь разные названия, но одинаковый принцип деления, а именно: на динамические и статические, иначе говоря, мо-ниторные и синхронные. Исторически синхронные корпусы текстов предшествовали монитор-ным (так, например, Брауновский корпус относится к синхронным). Мониторный или статический корпус текстов представляет собой «образование, отражающее определенное временное состояние языковой системы» [1, с. 24], т. е. более или менее мгновенный снимок состояния языка. В отличие от синхронного, мониторный корпус наполняется непрерывно; новые тексты смешиваются с существующими и используются в анализе корпусного материала на равных условиях.
Деление корпусов текстов на мониторные и статические широко распространено, однако есть основания полагать, что понятие монитор-
ного корпуса текстов недостаточно обосновано и синтетично. В действительности, все корпусы текстов в той или иной мере статические. Временной критерий разделения корпусов на две указанные категории не опирается на значимые категории, которые позволили бы четко разделить корпусы на две группы по продолжительности промежутка времени, охваченного корпусом. При этом вполне очевидно, что некоторые корпусы охватывают более короткий промежуток времени, чем другие. Именно такие корпусы и принято называть синхронными и противопоставлять вторым на недостаточно четких основаниях.
Можно возразить, что статический (синхронный) корпус — это корпус, который не продолжает наполняться текстами после создания, тогда как мониторный — продолжает, и в этом их различие. Это значительный теоретический довод, однако он приведет к тому, что статус синхронного корпуса будет присвоен всем корпусам текстов, состоящим из языкового материала прошлого, не соприкасающегося с современным периодом, что, конечно, недопустимо.
Корпус с охватом в один год будет синхронным относительно мониторного корпуса с охватом в сто лет. Однако корпус древнеанглийского языка, например, будет синхронным относительно мониторного корпуса, охватывающего древний, средний и современный этапы развития языка. Корпус с охватом 100-150 лет из числа средних веков скорее назовут синхронным, в то время как такой же корпус за XIX-XX вв. однозначно окажется мониторным. Итак, первый вывод заключается в том, что категоризация корпусов текстов в оппозиции «синхронный — мониторный» является относительной. Неискоренимая причина этой относительности лежит в отсутствии экзистенциального рефе-ренс-объекта с абсолютными и фиксированными темпоральными характеристиками.
В терминологии наших собственных исследований такой объект в полной мере существует лишь для теоретически возможного органического корпуса текстов — корпуса текстов отдельно взятого человека. Органический корпус текстов представляет собой техническую абстракцию, которая позволяет установить линейную систему координат относительно степени соотнесенности корпуса текстов с конкретным языковым сообществом. Если идеальный органический корпус текстов — это корпус текстов, порожденных всеми носителями языка (за период жизни каждого из них и за некоторый общий период), то его противоположность — идеальный статистический корпус текстов — это полностью репрезентативная выборка из идеального органического корпуса текстов, имеющая разумный размер с точки зрения эргономики человеческого тела и разума. Идеальный статистический корпус текстов также является технической абстракцией, а все реально существующие корпусы текстов, в зависимости от идеологии корпуса, выбранной составителями, тяготеют к одному или другому полюсу.
Названия синхронного и мониторного корпусов могут казаться «говорящими», но они малоинформативны в отношении пригодности одного типа корпусов текстов для синхронических, а другого — для диахронических исследований языка. Это ведет к распространенному заблуждению, что мониторные корпусы текстов предназначены для диахронических исследований, т. е. для анализа появления, развития или исчезновения тех или иных языковых явлений на основании данных об их частотности в различные отметки времени.
Мониторный корпус текстов действительно имеет определенные преимущества в плане диа-
хронических исследований перед синхронным (не абсолютные, а относительные преимущества, применимо ко второму корпусу в данной оппозиции), однако они заключаются совсем в другом. В силу отсутствия ограничений на размер и относительно бессистемного, в сравнении с синхронным корпусом, характера включения текстов в мониторный корпус, при достижении некоторого значительного размера, мониторный корпус способен обеспечить более высокую степень свободы от проекции языковой картины мира составителей, а значит — более высокую репрезентативность, универсальность и более очевидную соотнесенность с реальными дискурсивными сообществами носителей языка.
Однако в качестве материала для диахронических исследований, мониторный корпус — это не более, чем плохой синхронный корпус. Временное окно такого корпуса не определяется четко, рамка выборки отсутствует, социолингвистические метаданные не обязательно учитываются. Воспроизводимость результатов при сравнении с более свежими данными низкая по причине постоянного обновления корпуса, но главное - мониторный корпус не предполагает возможности убедительного статистического обоснования полученных выводов, так как в нем невозможно сравнение результатов, полученных при анализе идентичных наборов текстов, собранных идентичным образом в два разных момента времени.
Итак, второй вывод заключается в том, что подлинное различие между мониторным и статическим корпусом текстов заключается не во временных рамках, а в наличии или отсутствии воспроизводимой в будущем программы (модели, рамки, процедуры) отбора текстов. Может возникнуть закономерный вопрос: чем, в таком случае, вообще мотивировано существование мониторных корпусов текстов?
Во-первых, мониторный корпус выступает непосредственной проекцией классической бумажной библиотеки в сферу корпусной лингвистики. Наличие такого референс-объекта в реальном мире обосновывает и существование его преобразованной и структурированной электронной версии. Во-вторых, как уже было отмечено, мониторный корпус по определению в большей степени удовлетворяет критерию объективной соотнесенности корпуса, т. е. репрезентативности корпуса для популяции (выбранного сегмента популяции) или типа текстов (регистра, жанра). Однако, объективная соотнесенность корпуса с релевантными дискурсивными сообществами (сообществом) находится в диалектическом
противоречии с критерием наличия четко воспроизводимой модели выборки текстов в корпус.
Эта модель представляет собой одно из методологически уязвимых мест синхронного корпуса и подвергается критике, так как характеризуется набором недостатков, повышающих субъективный ad hoc статус корпуса:
1) применяется несвободная от личностно-обусловленных искажений на всех уровнях иерархическая категоризация языка, т. е. первичная дискретизация цельного дискурса на набор жанров (регистров, модусов) в соответствии с герменевтическими установками составителя; а также категоризация текстов на соответствие жанрам и, наконец, необходимость адаптации первичного набора жанров при повторном применении рамки выборки во время создания идентичного синхронного корпуса по состоянию на другой момент времени;
2) рамка выборки является инструментом, характерным для статистической идеологии корпусов текстов, иначе говоря, представляет собой тексто-ориентированный, а не личностно-ориентированный инструмент для обеспечения репрезентативности корпуса текстов. Поскольку при этом из процесса отбора текстов исключаются объективные социолингвистические критерии, уступающие место дискурсно-контекстным критериям, то на включенные в рамку выборки (и, соответственно, в корпус) тексты частично проецируются языковые картины мира составителей. Это урезает богатство употребления языка, обусловленное социальной стратификацией дискурса, и, следовательно, снижает объективную репрезентативность корпуса.
Для синхронных исследований языка различение мониторных и статических корпусов текстов нецелесообразно, так как нивелируется телеологически: пригодность корпуса для целей исследования определяется исключительно тем, насколько временной охват корпуса соответствует целям исследования. Для диахронических исследований языка, строго говоря, пригодна только система из двух и более синхронных корпусов с идентичной рамкой выборки. При этом так называемые мониторные корпусы текстов также могут быть пригодны для диахронических исследований (что и служит причиной возникающей время от времени путаницы), но лишь в рамках иллюстративной, герменевтической, т. е. не статистически обоснованной методологии, которая является периферийной для корпусной лингвистики в целом.
В этом случае взамен недоступной для мони-торных корпусов статистической обоснованно-
сти, характерной для синхронных корпусов, диахронический анализ появления, развития, сосуществования или угасания грамматических или лексических явлений в языке на основании одного или нескольких мониторных корпусов (несравнимых между собой ввиду отсутствия рамки выборки) дает обильный иллюстративный материал: физический размер условно монитор-ных корпусов, как правило, значительно выше, чем у синхронных. Это связано с более свободными критериями для включения текстов в корпус, а, следовательно, с большим исходным полем для поиска текстов и с более широкими возможностями автоматизации процесса набора корпуса.
Следовательно, вопрос выбора между мони-торными и синхронными корпусами (точнее парами синхронных корпусов) в целях диахронического анализа языковых явлений не содержит оценочной составляющей. В зависимости от целей исследования его автор выбирает некоторое приемлемое промежуточное значение между двумя взаимоисключающими принципами — объективности и достаточности. Тогда как исследования на основе синхронных корпусов привлекают статистической обоснованностью, они же осложняются ограниченностью выбора языков, нехваткой корпусов для исследования, скромным объемом полученной выборки и присутствием интенциональности составителей. Напротив, применение мониторных корпусов дает гораздо более широкий выбор языков, корпусов, больший объем иллюстративного материала для интерпретации, более высокую объективность корпусных данных, однако не обеспечивает столь же высокий уровень статистической обоснованности полученных выводов, как в случае с парами синхронных корпусов, а также вовлекает в исследование интенциональность самого исследователя как интепретатора. Приведенные соображения позволяют обосновать, почему существующее разграничение монитор-ных и синхронных корпусов по хронотопу текстового материала не приводит к существованию двух противопоставленных объемов диахронических исследований.
Существуют и внутренние причины, по которым не только деление корпусов на синхронные и мониторные, но также и исследований на синхронические и диахронические, не слишком продуктивно применимо к корпусному методу. Дело в том, что корпусная методика направлена на идентификацию и количественное определение языковой вариативности путем сравнения частотности языковых явлений. С точки зрения применения корпусных методов не возникает
существенных различий, кроме технических, в том, исследуется ли диахроническое изменение в языке или текущая вариативность в употреблении языка. Кроме того, если исходить из хорошо известного факта, что диахронические изменения наступают постепенно, всегда существует условное временное окно, в котором существует некоторая пропорция наступающих изменений и старой традиции. Априорное деление корпусов на мониторные и синхронные не будет иметь ценности для результатов исследования, где корпус выступает лишь в качестве аналитического инструмента, позволяющего идентифицировать языковые факты и количественно оценить их взаимоотношения. Вывод о синхроничности или диахроничности наблюдаемого явления остается за исследователем, причем этот вывод не может быть сделан без оглядки на представленный в корпусе текстовый материал и имеющиеся сведения относительно общей истории развития общества и развития языка за соответственный период времени.
В качестве иллюстрации диахронических исследований на материале старых текстов можно привести соответствующие работы [7, 5, 4]. Использованные в них корпусы текстов являются скорее мониторными. Среди исследований диахронической вариативности современного языка следует особо упомянуть о моноязыковых/межвариантных исследованиях на двух парах синхронных корпусов (Brown/Frown и LOB/FLOB), так называемая «Брауновская семья корпусов» [6, с. 9], а также межязыковые проекции этих исследований путем создания синхронных корпусов на других языках по Брауновской модели [10]. Наиболее популярными предметами исследования в таких работах являются вариативность частеречного состава языка, проникновение элементов устной речи в письменную, эволюция модальных глаголов и конструкций, грамматикализация лексических конструкций.
Среди синхронных исследований внутриязыковой вариативности особо следует отметить предложенный Д. Бибером [3] метод многомерного подхода. Д. Бибер выступил с предположением, что противоречащие выводы, полученные в ходе корпусных исследований устной и письменной речи, а также в ходе сравнения разных регистров речи, связаны с недостаточным количеством языковых категорий, учитываемых в анализе, а также отсутствием четкого обоснования для выбора именно указанных категорий в качестве диагностически ценных для описания закономерностей вариативности в употреблении
языка. Ученым предложен более глубокий и всеохватывающий подход, при котором на корпусном материале анализируется очень широкий круг языковых явлений в различных регистрах. Далее, с помощью статистических методов, выполняется кластеризация (факторный анализ) результатов, обнаруженных по 67 категориям, в статистически значимые наборы (матрицы) значений параметров. Каждый из таких наборов представлял собой «измерение». Было выявлено значительное количество устойчивых измерений, поэтому и подход назывался многомерным, а характерная (статистически достоверная) совокупность значений по каждому из измерений, собственно, и выступала определением объективно существующего в корпусе (т. е. языке) класса текстов. В результате проделанной работы, Д. Бибер выделил шесть измерений, позволяющих достоверно и обоснованно определять регистры на корпусном материале. Для обеспечения сравнимости результатов с контрольными корпусами, такими как LOB, исследования с использованием многомерного подхода проводились на корпуса сходного размера и гетерогенности.
Все перечисленные избранные направления исследования синхронической и диахронической вариативности языка на основе корпусов текстов основываются на том, что единицей вариативности между языками, их вариантами, регистрами или в пределах одного регистра выступает отдельный текст. Такие походы тяготеют к статистической идеологии корпусов текстов. Примером доминирования органической идеологии в корпусных исследованиях можно считать социолингвистические исследования языковой вариативности, выполненные в традициях В. Лабов [8], где в качестве существенных факторов языковой вариативности исследуются различные социолингвистические параметры: гендер, национальность, социальный класс. Тек-стоцентрические (статистические) и антропоцентрические (органические) корпусные исследования вариативности отличаются, в первую очередь, постановкой цели исследования. В первом случае ставится задача охарактеризовать язык определенного регистра или жанра, но не индивидуально-обусловленное варьирование в рамках такого объекта. Во втором варианте исследования, корпус текстов с внешними метаданными, позволяющими идентифицировать автора по социолингвистическим категориям, используется для того, чтобы охарактеризовать язык некоторого среза общества, необязательно в пределах определенного регистра или жанра. Стоит отметить, что для успешной реализации
исследования второго типа необходимо не только наличие метаданных, но и гарантии того, что содержащийся в корпусе текст является оригинальным и принадлежит только автору без какой-либо редактуры. Количество таких текстов и корпусов априори меньше, чем корпусов с неустановленным авторством текстов или количеством авторов/редакторов, поэтому применение тек-стоцентрического подхода во многих случаях является единственно возможным и вынужденным.
Таким образом, различие между исследованиями вариативности, мотивированными органической и статистической идеологиями корпуса текстов, несомненно, существует, однако не представляет собой оппозицию. В обоих случаях используется одинаковый подход и набор методов, позволяющий сделать статистически обоснованные выводы о закономерностях употребления языка в определенных регистрах или оп-
ределенными дискурсивными сообществами. Для целей нашего исследования ценность имеет понимание того, что обнаруженный в корпусном исследовании подход к единице вариативности является диагностическим критерием в отношении принятой корпусной идеологии.
Проведенный анализ позволяет заключить, что классификация корпусов текстов на синхронные и мониторные носит относительный и телеологический характер и не является проекцией на соответственную пригодность корпуса текста к синхроническим или диахроническим исследованиям. Любые корпусные исследования, по существу, являются количественными и сравнительными и направлены на выявление вариативности в употреблении языка по ряду критериев: времени, регистру (жанру) или внешним параметрам ситуации или автора.
Литература
1. Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник для студентов гуманитарных вузов. — Иркутск: ИГЛУ, 2011. — 161 с.
2. Зубов А. В., Зубова И. И. Информационные технологии в лингвистике: учеб. пособие. — М.: Академия, 2004. — 208 с.
3. Biber D. Spoken and written textual dimensions in English: resolving the contradictory findings // Language. — 1988. — № 64 (4). — P. 707-736.
4. Culperer J., Kyto M. Early Modern English Dialogues: Spoken Interaction as Writing. — Cambridge University Press, 2010.
— 504 p.
5. Hardie A., McEnery T. Corpus linguistics and historical contexts: text reuse and the expression of bias in early modern English journalism // Corpora and Discourse — and Stuff: Papers in Honour of Karin Aijmer, 2009. Goteborg: Acta Universitatis Gothoburgensis. P. 59-92.
6. Hofland K., Johansson S. Word Frequencies in British and American English. — Bergen: Norwegian Computing Center for Humanities, 1982. 384 p.
7. Hundt M. The passival and the progressive passive: a case study of layering in the English aspect and voice systems // Corpus Approaches to Grammaticalisation in English. Amsterdam and Philadelphia: John Benjamins, 2004. P. 79-120.
8. Labov W. Contraction, deletion and inherent variability of the English copula // Language. — 1969. — No 45 (4). — P. 715762.
9. Leech G., Fallon R. Computer corpora: what do they tell us about culture? // ICAME Journal. — 1992. — № 16. — P. 29-50.
10. McEnery T., Xiao R. Z. The Lancaster corpus of Mandarin Chinese: a corpus for monolingual and contrastive language study // Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC). Lisbon, 2004. P. 1175-1178.
References
1. Zacharov V. P., Bogdanova S. Yu. Korpusnaya lingvistika: uchebnik dlya studentov gumanitarnykh vuzov [Corpus linguistics: textbook for humanitarian universities]. Irkutsk: Irkutsk State Linguistic University, 2001. 161 p.
2. Zubov A. V., Zubova I. I. Informatsionnye tehnologii v lingvistike: uchebnoeposobie [Information technology in linguistics: a tutorial], Moscow, 2004. 208 p.
3. Biber D. Spoken and written textual dimensions in English: resolving the contradictory findings // Language. 1988. No. 64 (4). Pp. 707-736.
4. Culperer J., Kyto M. Early Modern English Dialogues: Spoken Interaction as Writing. Cambridge University Press, 2010. 504 p.
5. Hardie A., McEnery T. Corpus linguistics and historical contexts: text reuse and the expression of bias in early modern English journalism. Corpora and Discourse — and Stuff: Papers in Honour of Karin Aijmer, 2009. Goteborg: Acta Universitatis Gothoburgensis. Pp. 59-92.
6. Hofland K., Johansson S. Word Frequencies in British and American English. Bergen: Norwegian Computing Center for Humanities, 1982. 384 p.
7. Hundt M. The passival and the progressive passive: a case study of layering in the English aspect and voice systems. Corpus Approaches to Grammaticalisation in English. Amsterdam and Philadelphia: John Benjamins, 2004. Pp. 79-120.
8. Labov W. Contraction, deletion and inherent variability of the English copula // Language. 1969. No. 45 (4). Pp. 715-762.
9. Leech G., Fallon R. Computer corpora: what do they tell us about culture? // ICAME Journal, 1992. No.16. P. 29-50.
10. McEnery T., Xiao R. Z. The Lancaster corpus of Mandarin Chinese: a corpus for monolingual and contrastive language study. Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC). Lisbon, 2004. Pp. 1175-1178.