УДК 8 009 81' 42
О. Г. Горина O. G. Gorina
Применение методов корпусной лингвистики для определения контекстно-специфических слов и коллокаций
Implementation of corpus linguistic techniques to identify a text or genre-specific key words and collocations
В статье обсуждаются вопросы составления малых корпусов, репрезентирующих определенные типы дискурса, приводится обзор использования корпусного программного обеспечения для выявления жанро- и тексто-специфических лексических единиц, рассматриваются корпусные методы выявления и измерения сочетаемости на больших национальных корпусах.
The article elaborates on composing and designing own corpora that would represent certain types of discourse, it also reviews implementation of available corpus software to identify a text or a genre specific key words, looks at corpus tools to identify and measure collocation strength using large national corpora.
Ключевые слова: корпусов, конкорданс, коллокация, ключевые слова, устойчивость сочетаемости, показатель взаимной информации, корпусная лингвистика.
Key words: corpora composition, corpora tools, keywords, keyness, measuring collocation strength, corpus linguistics, concordancing, mutual information score.
Развитие компьютерных технологий за последние 40 лет позволили создать большое количество компьютеризированных корпусов, различных по размеру и организации, а также отвечающих разным целям исследования. Исследователь может самостоятельно составить небольшой прагматически-ориентированный корпус с использованием таких программных продуктов, как Wordsmith Tools Monoconc Pro (2000), которые могут быть использованы на обычном персональном компьютере. Байбер, Конрад и Реппен [2, с. 256-265] указывают на то, что под корпусом следует понимать собрание текстов, отобранных по определенным принципам. Эти тексты могут подвергаться количественному и качественному анализу. Такое определение заключает в себе ряд существенных пунктов, которые следует принимать во внимание и при самостоятельном составлении корпуса.
Во-первых, не всякое собрание текстов является корпусом. Например, простая коллекция текстов не будет корпусом, поскольку корпус должен быть репрезентативной выборкой какого-либо явления и судить о достоинствах корпуса следует как раз по тому,
27
насколько хорошо он это явление представляет [3]. Составитель корпуса, репрезентирующего политическую коммуникацию должен рассматривать все ее аспекты как письменный, так и устный, представить все жанры политической речи (лозунг, листовка, программа, газетная статья, выступление на митинге, парламентская полемика и др.), институциональные жанры, аппаратную коммуникацию, в рамках которой создаются тексты, предназначенные для сотрудников государственного аппарата. При широком подходе к отбору источников для исследования политической коммуникации будут использованы не только тексты, созданные политиками, но и другие тексты, посвященные политическим проблемам, массмедийный политический дискурс. Таким образом, на начальной стадии огромное количество усилий составителей корпуса тратится на то, чтобы обеспечить его репрезентативность, а вместе с тем и надежность исследований выполняемых на материалах такого корпуса. Такие авторы как С. Крауди (S. Crowdy, 1993), Д. Байбер (D. Biber,1993), Т. Макенери и А. Вильсон (T. McEnery and A. Wilson, 1996), Д. Байбер, С. Конрад и Р. Реппен (D. Biber, S. Conrad and R. Reppen ,1998), Д. Кеннеди (g. Kennedy,1998),4. Мейер(С.Е. Meyer, 2002), Р. Томпсон (R. Thompson, 2005), М. Вайн (M. Wynne, 2005) входят в обязательный список литературы по вопросам составления собственных корпусов.
Языковой корпус может состоять из письменных и устных текстов или из тех и других одновременно. На сегодня также существуют возможности добавления мультимедийных компонентов, таких как видео клипы, к корпусам устной речи. Для письменного корпуса тексты могут быть отсканированы, напечатаны, загружены из Интернета. Кроме того, каждый текст сопровождается полной классификационной, контекстной и библиографической информацией, которая включена в информационный-заголовок каждого файла (information 'header') [11: 98-99]. Для дальнейшей работы с корпусом с помощью корпусных программных продуктов тексты в электронном виде должны быть сохранены в простом текстовом формате. Большие корпуса содержат разметку по частям речи (тэгирование), которая может осуществляться автоматически, и другую разноуровневую разметку текста (заголовки, параграфы, списки) для осуществления дальнейших исследований на материалах корпуса.
Корпус устной речи представляет собой еще более трудоемкую задачу. Например, чтобы реализовать корпус устной речи политика во время заседаний или переговоров необходимо сначала записать речь, а затем затранскрибировать записи. Один час записи примерно равняется 12-15 тысячам слов, транскрибирование которых от-
нимает примерно два рабочих дня, в зависимости от уровня кодирования транскрипции. В своей книге О'Киффе и Фарр [7] рассматривают все достоинства и недостатки приобретения готового корпуса и составления собственного. Например, корпус устной речи может кодироваться на уровне отражения реплик отдельных говоря-щих(different speaker turns), вокализации (vocalization), хезитации (hesitation), случаев перебивания (interruptions), наложений реплик разных говорящих(speaker overlaps), сокращений (truncated utterances), включения экстралингвистической информации (смех, посторонние звуки). Более детальная транскрипция может содержать просодическую информацию. Составитель корпуса принимает решение о том, насколько детализированной должна быть запись устной речи в зависимости от целей корпуса.
В записи применяются ключи кодирования транскрипции (transcription coding key):
<S1>, <S2> и т.д. - обозначение отдельных говорящих; + - случаи перебивания ("latched turns"); = - сокращения (truncated utterances); <?> - неразборчивое высказывание (unintelligible, utterance); <SE> laugh <\SE> - экстралингвистическая информация смех, кашель и т.д.
Транскрибированные файлы должны быть организованы таким образом, чтобы была доступна информация об источнике. Кроме того, может оказаться полезной информация о возрасте, количестве говорящих, их половой принадлежности, месте рождения, роде деятельности, образовании, месте записи и т.д. Такую информацию, как правило, хранят в начале каждого файла, в качестве информационного заголовка (information header), либо в отдельной базе данных, связанной с именами файлов [8].
Трудоемкость составления корпуса устной речи приводит к тому, что создается значительно больше письменных корпусов, чем устных. Так, например, подавляющую часть Британского Национального Корпуса составляет письменная часть - 90%.
Базовые методы работы с корпусами включают составление конкорданса (concordancing), подсчет абсолютной частотности (word frequency counts, wordlists), анализ ключевых словцу words analysis), анализ кластеров (cluster analysis). Под кластерами понимается систематическая тенденция языка образовывать сочетания из нескольких слов, которые субъективно воспринимаются как единое целое, такие как I mean, this that and the other, a couple of, the end of, there was a, do you think, it would be и т.д. Использование базовых корпусных методов позволяет создавать лексико-
грамматический профиль (lexico-grammatical profiles) слов, включающих:
-типичный контекст употребления с точки зрения коллокантов-слов, встречающиеся со статистически значимой частотой в окружении изучаемого слова;
-тенденцию слов к формированию речевых оборотов/идиом (idiom-prone), биноминальных конструкций (binominals), таких как rough and ready, willing and able;
-возможные синтаксические ограничения: синтаксические модели / конструкции (syntactic patterns), фразовые глаголы, типичную позицию в придаточных предложениях (начальная, конечная), ограничения временные/аспектные;
-семантические ограничения (слово применимо только по отношению к людям, никогда не сочетается с усилителями (intensifier);
-просодические особенности: тенденция слова появляться в определенных контекстах. Например, Стаббс [10, с. 56-245] отмечает, что в более чем 90% случаев слово cause встречается в негативных контекстах, с негативно коннотированными словами cancer, commotion, crisis, delay. Напротив, слово provide приводится как типичное для положительных контекстов, в наиболее типичных сочетаниях с care, food, help, jobs, relief, support. До компьютеризированного языкового анализа, этот феномен не был систематизирован с подтверждением на аутентичных материалах.
Лексико-грамматический профиль вырисовывается при изучении строк конкорданса, данных о частотности, и наличия данного слова в списке ключевых.
В отношении качественного и количественного анализа О'Киффе, Маккартни и Картер [8, с. 2-3] указывают на то, что языковую информацию, получаемую на корпусных данных можно рассматривать с разных точек зрения. Например, исследуя корпус газетных статей, мы можем сравнить частотность слова blaze и fire, т.е. получить количественные результаты - частотность. Эти результаты можно сравнить с частотностью этих слов в других корпусах, например, с корпусом устной разговорной речи или письменного общего английского. Результатом сравнения может стать вывод о том, что слово blaze гораздо чаще встречается в газетных статьях, чем в разговорной речи в тех случаях, когда речь идет о разрушительных очагах огня. К этому результату мы приходим на основании количественных данных. Обратив же внимание на строки конкорданса, и рассматривая сочетаемость слова, мы получаем качественную информацию об изучаемой единице и можем составить лексико-грамматический профиль слова.
Вопрос о том, какой корпус необходим и какого размера решается в зависимости от тех целей и задач, которые будут решаться на материале корпуса. Не существует корпуса, который бы удовлетворял всем целям одновременно. Следует начинать с вопроса, для чего нужен корпус? Корпус может использоваться как справочник для выяснения лексико-грамматических особенностей слов. Очевидно, что с этой целью может использоваться и словарь. Преимущество корпуса состоит в том, что он обеспечивает большое количество примеров и контекст. Однако корпус не приводит значения слов или перевода. Как отмечалось ранее, составление небольших корпусов производится с целью проведения разного рода исследований.
Одним из видов таких исследований является определение ключевых слов. Эта функция позволяет выделить ключевые слова в одном или более контекстах. По определению М. Скотта ключевые это такие слова, которые обладают необычно или неожиданно высокой частотностью в сравнении с некой нормой. Следует подчеркнуть, что ключевые слова не есть самые частотные слова в тексте -они скорее самые «неожиданно частотные». С помощью программного обеспечения сравниваются два заранее подготовленных списка слов, один из которых является большим и используется как своего рода нормативный или справочный. Второй список слов является изучаемым и составляется на основе рассматриваемого текста. О'Киффе, Маккартни и Картер [8, с. 11-12] отмечают, что в обычном большом корпусе таком как, например, LIBEL Corpus of Spoken Academic English (LIBEL CASE, Лимерик - Белфаст корпус устного академического английского языка), определенный артикль является одним из самых частотных слов, что является вполне ожидаемым результатом. Если составить список слов по одной лекции по экономике из этого же корпуса, то мы опять увидим определенный артикль в числе самых частотных. Однако если мы сравним список слов по лекции и список слов большого корпуса с использованием функции keyword, одного из упомянутых программных продуктов, мы получим те слова, которые являются неожиданно частотными в изучаемом тексте. К этим словам применяется термин «keyness» - свойство быть ключевым - т. е. такие слова рассматриваются как специфические для данного текста, контекста.
О'Киффе, Маккартни и Картер [8, с. 12-13] также приводят список ключевых слов, полученный в результате сравнения лекции по экономике и общего корпуса академического английского языка. В число необычно частотных попали такие слова как: tax, income, system, average, basic, rate, supply, poor, thousand, impact, equity, under, both, figures, higher, percent, rates, ordinary, sixty, marginal, scheme,
labour, terms, cost, characterized, workers, systems, negative. Этот список адекватно отражает специфику изучаемого текста. Эта процедура позволяет определить ключевой вокабуляр на отдельно взятом тексте или на корпусе специализированных текстов.
До начала широкого распространения компьютеров основным методом оценки возможности или невозможности использования определенного выражения в английском языке была так называемая, введенная еще Хомским, интуиция носителя языка ('native-speaker intuition), которая считалась достаточной для оценки приемлемости употребления выражения, без необходимости дальнейших доказательств.
Хастон и Лавиоза [6, с. 112] указывают на то, что интуитивная оценка правильности английского выражения является неотъемлемой частью повседневной жизни многих людей, в особенности преподавателей иностранного языка, которым часто приходится принимать решение, являются ли естественными грамматически возможные выражения.
Учитывая огромное количество слов и возможных комбинаций в английском языке, было бы разумно предположить, что одна интуиция даже носителя языка будет часто недостаточно надежным основанием. Таким образом, корпусные исследования могут определить не то, что является возможным, а что используется в речи. Интуиция носителя языка может подсказывать ему, что выражение возможно, в то время как корпусные данные доказывают, что такое употребления достаточно редкое. Хастон и Лавиоза [6, с. 112] видят выход в комбинировании интуиции и корпусных данных. Следует также подчеркнуть, что ряд авторов считает, что корпусные исследования и материалы положили конец монополии интуиции носителей языка и дают возможность преподавателям - неносителям языка принимать решения «говорят ли так», основываясь на корпусных данных.
Корпусные технологии позволяют дать количественную оценку сочетаемости слов. Термин коллокация (collocation) по-разному трактуется разными авторами и используется в различных контекстах. Таким образом, среди лингвистов есть согласие в том, что единого определения не существует, и понимание того, что существует множество конкурирующих определений. Каждый автор в целях своей научной деятельности принимает рабочее определение в рамках выработанного подхода для решения поставленных научных задач. Первым термин коллокация (в техническом смысле) был использован Британским лингвистом Дж. Р. Фирсом, который считал, что значение слова, по крайней мере, частично определяется его контекстуальным окружением, и выделил значение слова в колло-
кации [4, с. 194]. В таком походе ставится под вопрос необходимость рассматривать классы отдельных слов и вместо этого язык мыслится как набор (clin) из закрытых классов грамматических слов на одном конце и открытый класс лексики на другом [5].
В отличие от формального подхода к языку как к внутренней, основанной на правилах системе, здесь язык рассматривается как ресурс с большим набором вариантов выражения смыслов, а коло-кация в этой системе находится в лексическом поле клина. Понятие коллокации также связано с тем, что это образование ограничено не только синтаксисом, а существуют парадигмальные и тектуальные влияния в выборе лексики, что объясняет тот факт, что, например, сочетания «strong tea» и «powerful car» являются приемлемыми вариантами, а «powerful tea» и «strong car» нет [5]. Такое понимание побудило Синклера [9] предложить похожий лексический клин, отталкиваясь от принципа идиоматичности согласно которому, пользователь языка имеет в распоряжении большое количество наполовину готовых фраз, которые извлекаются целиком, как единое целое, и отдельные слова которые извлекаются по принципу свободного отбора.
Коллокации являются ключевыми концепциями корпусных исследований. М. Кулсард трактует коллокации как 'marriage contract between words' - «брачный контракт между словами» и указывает на то, что этот союз может быть более крепким между определенными словами.
Началом изучения коллокаций может служить изучение строк конкорданса - один из основных инструментов работы с корпусными данными. Конкорданс - строки текстов корпуса заданной длинны, предъявляющих изучаемое слово в употреблении, в контексте. Изучаемое слово принято называть "the node" - понимаемое как точка пересечения строк конкорданса в одном слове. Строки конкорданса являются источником информации о закономерностях употребления изучаемого слова и взаимоотношений между словами. Ключевой также является функция расширенного контекста, поскольку, коллокации иногда разделены другими словами.
Списки слов или вордлисты (wordlists) - второй метод который может использоваться для определения коллокаций и имеется в распоряжении больших корпусов, таких как Британский Национальный Корпус. Один из вариантов использования - это перечень коллокаций, который дает количество всех случаев (tokens) сочетающихся слов (types) в заданном окружении искомого слова (the node). Еще один вариант использования функции Wordlists - так называемая «функция картинки» (the 'picture' function). Это представление колонок коллокаций по обе стороны от искомого слова -
каждому слову слева и справа соответствует до 6 колонок. Хастон и Лавиоза [6] считают, что использование таким образом представленной информации является хорошей стартовой позицией для дальнейшего выявления коллокаций (часто встречающихся вместе слов). Авторы также предупреждают, что результаты следует оценивать с осторожностью, поскольку они являются начальным предположением, а не окончательным доказательством коллокации.
Так называемые вордлисты (wordlists) или списки слов, в BOE (The Bank of English Corpus) можно отсортировать по частотности, по так называемому t-показателю (t-score) или по показателю взаимной информации (mutual information score). Каждый из этих показателей устойчивости или силы коллокации имеет свои особенности. Так, Байбер, Конрад и Реппен [2] отмечают, что самый простой путь определения коллокационной пары опирается на относительную частотность, которая дает самые распространенные кол-локационные ассоциации. Недостатком является то, что самые частотные коллокации искомого слова будут слова с высокой частотностью вообще, которые в силу своей высокой частотности, скорее всего, часто сочетаются и с другими словами тоже, таким образом, не являясь особенностью именно данного искомого слова, а простой случайностью. Поэтому одним из вариантов сортировки может быть показатель ВИ (показатель взаимной информации, Mutual Information score). Этот показатель отражает так называемое притяжение между двумя словами, или вероятность того, что если одно слово появляется в строке, слово, составляющее с ним колло-кацию, появится в ближайшей окрестности искомого слова.
Корпус Банк Английского Языка и Британский Национальный Корпус располагает инструментами подсчета показателя взаимной информации (MI), который может быть как положительным, так и отрицательным. Чем выше показатель, тем сильнее взаимное притяжение слов. Этот метод, однако, тоже имеет свой недостаток, поскольку отдает приоритет необычным словам [6], что приводит к тому, что необычные комбинации получают высокий показатель, притом, что такие комбинации могут быть специфичны только для данного корпуса.
Еще одной функцией выявления коллокаций является t-показатель, который измеряет вероятность появления слова как парного в сочетании с каким-либо другим словом. В отличие от показателя взаимной информации (MI), t-показатель измеряет притяжение сочетающегося с изучаемым слова, но не наоборот. Таким образом, список таких слов будет содержать большое количество грамматических слов, которые важны для существования изучаемого слова. С другой стороны изучаемое слово никак не влияет на су-
ществование грамматических слов. Ни один из вышеперечисленных способов и показателей нельзя выделить как самый лучший в определении коллокаций. Как указывает Барнбрук [1] лучшим является комбинация способов, которая позволит лучшим образом оценить все перспективы в выявлении и оценки значительности коллокации.
Большие национальные корпуса, такие как постоянно пополняющийся Банк Английского Языка или Британский Национальный Корпус составляются по возможности максимально большими с целью отражения состояния языка. Это согласуется с мнением Синклера [9], что сколько-нибудь значащие статистические данные и результаты можно получать только на достаточно большом объеме материала. В особенности это утверждение справедливо в отношении выявления коллокаций. Таким образом, выделение, например, ключевых слов, профессионально - ориентированной лексики, жан-ро специфической лексики можно осуществлять на небольших составленных самостоятельно корпусах. Дальнейшее же исследование ключевых слов и их сочетаемости, наиболее релевантных лексико-грамматических характеристик надежнее осуществлять на больших представительных корпусах, с учетом их разбивки на жанры.
Нами был исследован фрагмент статьи-обзора новой доктрины России в области международных отношений на следующее десятилетие (Russia's New Foreign Policy Doctrine), содержащей комментарии аналитиков, специалистов в области международных отношений. Статья была опубликована на англоязычном информационном сайте Russia Profile в рубрике Experts Panel (http://www.russiaprofile.org). Список слов, составленный на основе фрагмента статьи, сравнивался с небольшим, справочным списком слов общего английского языка для выявления контекстно-специфических единиц с использованием функции keywords программы WordSmith Tools. Грамматические и служебные слова отбрасывались. Для дальнейшего исследования были отобраны следующие единицы: (a leaked Foreign Ministry) document, development, (economic) objectives, (Russia's) relations, modernize, priority, (key technology) transfers, pursue, (foreign) policy, domestic, efforts, doctrine, (attract foreign) investment, (access to) modern technologies, improve, government, (closer) integration , key to (success), (external) conditions, (national) interests, (political and economic) risks, (independent) pole, (political) leadership, short-term (profits, objectives). С помощью Британского Национального Корпуса исследовались наиболее частотные коллокации слова efforts. Далее приведены слова, которые имеют показатель взаимной информации выше 4,5 (MI score): DESPITE - 4,95; STRENUOUS - 8.95; CONCENTRATE - 5.15; IN
SPITE OF - 5.12; PERSUADE - 4.98; CO-ORDINATE - 6.66; REDOUBLE - 10.76; RENEWED - 4.92; DIPLOMATIC - 4.54; MEDIATION - 6.85; REVIVE - 6.07; HEROIC - 5.80; RESISTED - 4.87; THANKS TO - 6.08; PRAISED - 5.01; CONCERTED - 6.28; HAMPERED - 6.02; UNDERMINE - 4.81; VIGOROUS - 4.65; UNSUCCESSFUL -4.64; TIRELESS - 7.07; CURB - 5.14; DIRECTING - 5.03; NOTWITHSTANDING - 4.76; UNTIRING - 9.20; INTENSIFY - 6.12; FUNDRAISING - 5.94; WOO - 5.73; CONSERVE - 5.60; FUTILE - 5.45; FEEBLE - 5.17; LOBBYING - 5.05.
Таким образом, с помощью корпусных инструментов были выделены контекстно-специфические единицы, изучены методы исследования коллокаций. Основное затруднение в дальнейшей работе с коллокациями заключается в их большом количестве (для слова efforts более 30 только с показателем выше 4.5). Разбивка корпуса по жанрам и расширенный контекст (extended context) позволяют сузить область исследований и сосредоточиться не только на самых частотных коллокациях, но и отбирать примеры их использования в определенных видах дискурса, например, политическом, для дальнейшей лексикографической работы.
Список литературы
1. Barnbrook G. Language and Computers/Edinburgh: Edinburgh University Press. 1996. 209 p.
2. Biber D., Conrad S., Reppen R. Corpus Linguistics: Investigating language structure and use/ Cambridge: Cambridge University Press. 1998. 300 p. ISBN 0521499577.
3. Crowdy S."Spoken Corpus Design"// Literary and Linguistic Computing 8: P.259-265.
4. Firth J., Papers in Linguistics.1934-1951/Oxford: Oxford University Press. 1957. 646 p.
5. Halliday M., An introduction to Functional Grammar (3rd / Revised by Matthiessen, C.M.I.M / ed.) / London: Hodder Arnold.2004. - Р. 700.
6. Hunston S., and Laviosa S., Corpus Linguistics. Birmingham: Centre for English Language Studies. The University of Birmingham. 2000. - P. 112.
7. O'Keeffe A. and Farr F. 'Using language corpora in language teacher education: pedagogic, linguistic and cultural insights '// TESOL Quarterly 37 (3). P. 389418.
8. O' Keeffe A., McCarthy M., Carter R. From Corpus to Classroom. Language use and language teaching. Cambridge University Press. 2007. - 315 p.
9. Sinclair J. Corpus. Concordance and Collocation / Oxford: Oxford University Press, 1991. - 137 p.
10. Stubbs M. 'Corpus evidence for norms of lexical collocation' in Cook G. and Seidlhofer B. (eds.) Principle and Practice of applied Linguistics: Studies in Honour of H.G. Widdowson / Oxford: Oxford University Press, 1995, 245-56.
11. Reppen R.and Simpson R. "Corpus linquistics" in N.Schmitt, (ed.) An Introduction to Applied Linguistics / London: Arnold. 2002. P. 92-111.