Научная статья на тему 'Обзор ряда корпусных возможностей в сфере лингвистических исследований (на примере анализа средств градуирования в португальском языке)'

Обзор ряда корпусных возможностей в сфере лингвистических исследований (на примере анализа средств градуирования в португальском языке) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
866
137
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОРПУС / КОРПУСЫ / КОРПУСНАЯ ЛИНГВИСТИКА / КОРПУСНЫЙ МЕНЕДЖЕР / КОНКОРДАНС / КОЛЛОКАЦИИ / ГРАДУИРОВАНИЕ / ГРАДУИРУЮЩИЕ СРЕДСТВА / МЕТОДОЛОГИЯ / CORPUS / CORPORA / CORPUS LINGUISTICS / CORPUS MANAGER / CONCORDANCE / COLLOCATIONS / GRADUATION / GRADATING MEANS / METHODOLOGY

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Долгих З. Б.

В статье дается краткий обзор как основных вариантов использования корпусов текстов, так и наиболее современных корпусных возможностей и технологий. Во введении автор говорит о важной роли корпусной лингвистики, предоставляющей с каждым разом всё больше возможностей специалистам в сфере лингвистических исследований, а также для решения прикладных задач. В первом разделе основной части определяются ключевые понятия и термины, связанные с корпусной лингвистикой; выделяются основные черты современного корпуса текстов машиночитаемый формат, репрезентативность как результат особой процедуры отбора, наличие металингвистической информации, наличие четкого запроса. Второй раздел основной части статьи описывает динамику развития корпусов текстов на примере рассмотрения корпуса португальского языка corpusdoportugues.org и сравнения его версий 2006 и 2016 гг. Современные корпусы текстов регулярно обновляются, пополняются и эволюционируют с пользовательской точки зрения, с каждым разом представляя всё более доступную форму использования. От корпусов текстов и базовых возможностей их использования автор переходит к рассмотрению современных систем управления текстовыми и лингвистическими данными, называемых корпусными менеджерами или менеджерами корпусов (англ. Corpus manager). Корпусный менеджер является наиболее современным инструментом многоязычного корпусного анализа и управления данными, который позволяет вести быстрый и эффективный поиск необходимых словоформ и сочетаний в различных корпусах текстов, с одной стороны, с другой корпусный менеджер является наиболее удобным пользовательским интерфейсом. Менеджером корпусов также называется программное обеспечение, установленное на персональном компьютере или предоставленное в качестве веб-службы (веб-сервиса). Главное преимущество корпусных менеджеров, в сравнении с отдельными корпусами текстов, состоит в том, что для работы с ними не нужно осваивать специфичный для того или иного корпуса язык символов, достаточно освоить стандартизированные упрощенные команды и обозначения и, благодаря интерфейсу менеджеров производить необходимый анализ быстрее и легче. Это мощный инструмент для создания своего собственного корпуса текстов (подкорпуса) или же для загрузки и использования уже существующих массивов данных. В третьем разделе основной части автор статьи демонстрирует основные преимущества работы с таким корпусным менеджером, как Sketch Engine (sketchengine.co.uk/) на примере анализа градуирующих средств португальского языка. Программа предоставляет целый список корпусов на разных языках, при этом корпус португальского языка состоит из почти 4 млрд слов. Помимо стандартного поиска с выдачей конкорданса корпусный менеджер Sketch Engine, уникальный в своем роде, выдает списки коллокаций по отдельным синтаксическим моделям. Данный корпусный менеджер дает возможность формирования частотного словаря и группирует лексические единицы в лексико-семантические поля с внутренней кластеризацией и указанием силы связи между лексемами. В статье говорится о том, что спрос на корпусные данные и на специалистов, умеющих эффективно работать с ними, на сегодняшний день совпал с появлением и развитием соответствующих технических возможностей. Однако в заключении отмечается, что, несмотря на предоставление специалистам богатого репрезентативного эмпирического материала, экстралингвистической информации, корпусы не могут обеспечить глубинных интроспективных суждений и выводов в отрыве от самонаблюдения ученых, не могут полностью заменить его. Таким образом, по мнению автора, корпусная лингвистика является скорее методологией, нежели отдельной парадигмой лингвистики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AN OVERVIEW OF SOME BASIC POSSIBILITIES OF CORPUS IN THE FIELD OF LINGUISTIC RESEARCH (ON THE EXAMPLE OF THE ANALYSIS OF GRADUATION MEANS IN THE PORTUGUESE LANGUAGE)

In this article, consisting of introduction, main part and conclusion, a brief review is made of both the basic options for using texts' corpora and the most modern corpora possibilities and technologies. In the introduction the author highlights the importance of corpus linguistics, which each time provides more opportunities for specialists in the field of linguistic research, as well as for solving applied problems. In the first section of the main part the key concepts and terms related to corpus linguistics are defined. The main features of the modern corpus of texts are distinguished, such as machine-readable format, representativeness as a result of a special selection procedure, the availability of metalinguistic information and a clear request as well. The second section of the main part of the article describes the dynamics of the development of the corpus of texts using the example of the corpusdoportugues.org (the Portuguese Language Corpus) and the comparison of its 2006 and 2016 versions. Modern corpora of texts are regularly updated, replenished and evolved from the user's point of view, each time introducing an increasingly accessible form of use. From the corpora of texts and their basic possibilities of use, the author proceeds to the consideration of modern text and linguistic data management systems, called corpus managers or managers of corpora. Corpus manager happen to be the most modern tool for multilingual analysis and data management, which allows to search quickly and efficiently for the necessary word forms and combinations in different texts, on the one hand. On the other hand, such a manager in fact is the most convenient user interface. It is also a software installed on a personal computer or provided as a web service. The main advantage of the managers of this kind in comparison with separate text corpora is that there is no need to dominate a specific language of symbols to be able to work with them. Mastering some standardized simplified commands and notations is enough to make necessary analysis faster and easier due to the managers' interface. This is also a powerful tool for creating your own corpus of texts (subcorpus) or for downloading and using already existing data sets. In the third section of the main part the author of the article demonstrates the main advantages of working with a corpus manager such as Sketch Engine (sketchengine.co.uk/) using the example of the Portuguese gradating means analysis. The program provides a wide list of different corpora in different languages, with the Portuguese Language Corpus consisting of almost four billion words. In addition to the standard concordance search the Sketch Engine manager (unique in its kind) issues collocation lists for individual syntax models. This corpus manager enables the formation of a frequency dictionary and groups lexical units into lexical-semantic fields with internal clustering and indicating the strength of the connection between lexemes. The article maintains that at the moment the demand for corpora data and for the experts able to work effectively with them coincide with the emergence and development of appropriate technologies. In conclusion it is noted that despite the provision of rich and representative empirical material, as well as extralinguistic information for specialists, corpora cannot provide deep introspective judgements and conclusions in isolation from the scientists' introspection, nor can completely replace it. So, according to the author corpus linguistics is rather a methodology than a separate paradigm of linguistics.

Текст научной работы на тему «Обзор ряда корпусных возможностей в сфере лингвистических исследований (на примере анализа средств градуирования в португальском языке)»

УДК 159.946.3

З. Б. Долгих

ст. преподаватель кафедры португальского языка переводческого факультета МГЛУ, соискатель кафедры португальского языка переводческого факультета e-maiL: [email protected]

ОБЗОР РЯДА КОРПУСНЫХ ВОЗМОЖНОСТЕЙ В СФЕРЕ ЛИНГВИСТИЧЕСКИХ ИССЛЕДОВАНИЙ (на примере анализа средств градуирования в португальском языке)

В статье дается краткий обзор как основных вариантов использования корпусов текстов, так и наиболее современных корпусных возможностей и технологий.

Во введении автор говорит о важной роли корпусной лингвистики, предоставляющей с каждым разом всё больше возможностей специалистам в сфере лингвистических исследований, а также для решения прикладных задач.

В первом разделе основной части определяются ключевые понятия и термины, связанные с корпусной лингвистикой; выделяются основные черты современного корпуса текстов - машиночитаемый формат, репрезентативность как результат особой процедуры отбора, наличие металингвистической информации, наличие четкого запроса.

Второй раздел основной части статьи описывает динамику развития корпусов текстов на примере рассмотрения корпуса португальского языка corpusdoportugues. org и сравнения его версий 2006 и 2016 гг. Современные корпусы текстов регулярно обновляются, пополняются и эволюционируют с пользовательской точки зрения, с каждым разом представляя всё более доступную форму использования. От корпусов текстов и базовых возможностей их использования автор переходит к рассмотрению современных систем управления текстовыми и лингвистическими данными, называемых корпусными менеджерами или менеджерами корпусов (англ. Corpus manager). Корпусный менеджер является наиболее современным инструментом многоязычного корпусного анализа и управления данными, который позволяет вести быстрый и эффективный поиск необходимых словоформ и сочетаний в различных корпусах текстов, с одной стороны, с другой - корпусный менеджер является наиболее удобным пользовательским интерфейсом. Менеджером корпусов также называется программное обеспечение, установленное на персональном компьютере или предоставленное в качестве веб-службы (веб-сервиса).

Главное преимущество корпусных менеджеров, в сравнении с отдельными корпусами текстов, состоит в том, что для работы с ними не нужно осваивать специфичный для того или иного корпуса язык символов, достаточно освоить стандартизированные упрощенные команды и обозначения и, благодаря интерфейсу менеджеров производить необходимый анализ быстрее и легче. Это мощный инструмент для создания своего собственного корпуса текстов (подкорпуса) или же для загрузки и использования уже существующих массивов данных.

В третьем разделе основной части автор статьи демонстрирует основные преимущества работы с таким корпусным менеджером, как Sketch Engine (sketchengine.

co.uk/) на примере анализа градуирующих средств португальского языка. Программа предоставляет целый список корпусов на разных языках, при этом корпус португальского языка состоит из почти 4 млрд слов. Помимо стандартного поиска с выдачей конкорданса корпусный менеджер Sketch Engine, уникальный в своем роде, выдает списки коллокаций по отдельным синтаксическим моделям. Данный корпусный менеджер дает возможность формирования частотного словаря и группирует лексические единицы в лексико-семантические поля с внутренней кластеризацией и указанием силы связи между лексемами.

В статье говорится о том, что спрос на корпусные данные и на специалистов, умеющих эффективно работать с ними, на сегодняшний день совпал с появлением и развитием соответствующих технических возможностей.

Однако в заключении отмечается, что, несмотря на предоставление специалистам богатого репрезентативного эмпирического материала, экстралингвистической информации, корпусы не могут обеспечить глубинных интроспективных суждений и выводов в отрыве от самонаблюдения ученых, не могут полностью заменить его. Таким образом, по мнению автора, корпусная лингвистика является скорее методологией, нежели отдельной парадигмой лингвистики.

Ключевые слова: корпус; корпусы; корпусная лингвистика; корпусный менеджер; конкорданс; коллокации; градуирование; градуирующие средства; методология.

Z. B. Dolguikh

Senior Lecturer, Portuguese Language Department, Faculty of Translation and Interpretation, MSLU; e-maiL: [email protected]

AN OVERVIEW OF SOME BASIC POSSIBILITIES OF CORPUS IN THE FIELD OF LINGUISTIC RESEARCH (on the example of the analysis of graduation means in the Portuguese language)

In this article, consisting of introduction, main part and conclusion, a brief review is made of both the basic options for using texts' corpora and the most modern corpora possibilities and technologies.

In the introduction the author highlights the importance of corpus linguistics, which each time provides more opportunities for specialists in the field of linguistic research, as weU as for solving applied problems.

In the first section of the main part the key concepts and terms related to corpus linguistics are defined. The main features of the modern corpus of texts are distinguished, such as machine-readable format, representativeness as a result of a special selection procedure, the availability of metalinguistic information and a dear request as weU.

The second section of the main part of the article describes the dynamics of the development of the corpus of texts using the example of the corpusdoportugues.org (the Portuguese Language Corpus) and the comparison of its 2006 and 2016 versions. Modern corpora of texts are regularly updated, replenished and evolved from the

user's point of view, each time introducing an increasingly accessibLe form of use. From the corpora of texts and their basic possibilities of use, the author proceeds to the consideration of modern text and Linguistic data management systems, caLLed corpus managers or managers of corpora.

Corpus manager happen to be the most modern tooL for muLtiLinguaL anaLysis and data management, which aLLows to search quickLy and efficientLy for the necessary word forms and combinations in different texts, on the one hand. On the other hand, such a manager in fact is the most convenient user interface. It is aLso a software instaLLed on a personaL computer or provided as a web service.

The main advantage of the managers of this kind in comparison with separate text corpora is that there is no need to dominate a specific Language of symboLs to be abLe to work with them. Mastering some standardized simpLified commands and notations is enough to make necessary anaLysis faster and easier due to the managers' interface. This is aLso a powerfuL tooL for creating your own corpus of texts (subcorpus) or for downLoading and using aLready existing data sets.

In the third section of the main part the author of the articLe demonstrates the main advantages of working with a corpus manager such as Sketch Engine (sketchengine.co.uk/) using the exampLe of the Portuguese gradating means anaLysis. The program provides a wide List of different corpora in different Languages, with the Portuguese Language Corpus consisting of aLmost four biLLion words. In addition to the standard concordance search the Sketch Engine manager (unique in its kind) issues coLLocation Lists for individuaL syntax modeLs. This corpus manager enabLes the formation of a frequency dictionary and groups LexicaL units into LexicaL-semantic fieLds with internaL cLustering and indicating the strength of the connection between Lexemes.

The articLe maintains that at the moment the demand for corpora data and for the experts abLe to work effectiveLy with them coincide with the emergence and deveLopment of appropriate technoLogies.

In concLusion it is noted that despite the provision of rich and representative empiricaL materiaL, as weLL as extraLinguistic information for speciaLists, corpora cannot provide deep introspective judgements and concLusions in isoLation from the scientists' introspection, nor can compLeteLy repLace it. So, according to the author corpus Linguistics is rather a methodoLogy than a separate paradigm of Linguistics.

Key words: corpus; corpora; corpus Linguistics; corpus manager; concordance; coLLocations; graduation; gradating means; methodoLogy.

Введение

На сегодняшний день многие исследования и результаты возможны только на основе анализа больших объемов информации, доступной в электронном виде и, соответственно, с применением современной компьютерной техники. Современная корпусная лингвистика (раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения, разметки и использования

огромных массивов текстов, лингвистических корпусов, на основе самых разнообразных компьютерных технологий [Захаров, Богданова 2013]) активно использует и развивает все возможные в этой области методы.

Ключевые понятия и термины корпусной лингвистики

Ключевым понятием в корпусной лингвистике является понятие корпуса, до сих пор по-разному определяемого исследователями и пользователями. Например, согласно определению, приведенному в учебнике Э. Финегана, корпус - это репрезентативное собрание текстов, обычно в машиночитаемом формате, включающее информацию о ситуации, в которой текст был произведен, такую как информация о говорящем, авторе, адресате или аудитории [Finegan 2004].

Многие электронные источники и ресурсы определяет корпусы как большие и структурированные наборы или коллекции текстов, которые используются для статистического анализа и проверки гипотез, проверки случаев встречаемости или обоснования языковых правил по определенным областям. Т. МакЭнери и Э. Вилсон дают следующее определение: корпус - это собрание языковых фрагментов, отобранных в соответствии с четкими языковыми критериями для использования в качестве модели языка [McEnery URL; McWhinney 2000].

Так или иначе, какими бы разнообразными ни были дефиниции корпуса, на основе приводимых исследователями определений, можно говорить о следующих основных чертах современного корпуса текстов - машиночитаемый формат, репрезентативность как результат особой процедуры отбора, наличие металингвистической информации, наличие четкого запроса (определенной цели) [Рыков 1996]. Под самим же лингвистическим, или языковым, корпусом текстов понимается большой, представленный в машиночитаемом формате, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических или прикладных задач [Захаров, Богданова 2013].

Разнообразие типов корпусов, существующих на сегодняшний день, определяется широким спектром исследовательских и прикладных задач, для решения которых они создаются, и, ввиду этого, различными основаниями для их классификации. Существуют,

например, многоцелевые, специализированные, письменные, устные (речевые), смешанные, литературные, диалектные, разговорные, терминологические, параллельные корпусы, а также подкорпусы и т. п.

Эволюция корпусных возможностей

Поиск в корпусе и умение работать с ним позволяет по любому слову построить конкорданс - список всех употреблений данного слова в контексте по запросу с ссылками на источник [Столяров 2017]. Корпусы могут использоваться для получения разнообразных справок и сбора статистических данных о языковых и речевых единицах. В частности, на основе корпусов можно получить понимание о частоте использования словоформ, лексем, грамматических категорий, проследить изменение частот и контекстов в различные периоды времени, получить данные о сочетаемостных свойствах и особенностях лексических единиц. Анализ языковых данных за определенный период, в свою очередь, позволяет изучать динамику процессов изменения лексического состава языка, лексико-грамматические характеристики текстов различных авторов и разнообразных жанров [Захаров 2005].

На данный момент можно говорить о том, что спрос на корпусные данные и на специалистов, умеющих эффективно работать с ними, совпал с появлением и развитием соответствующих технических возможностей.

Лингвисты-теоретики используют корпусы в качестве доказательной базы для проверки гипотез и обоснования теорий. Прикладные лингвисты (преподаватели, переводчики и т. д.) используют компьютерные корпусы при обучении языкам, для создания учебников и пособий и выполнения ряда других профессиональных задач. Компьютерные лингвисты пытаются выявить и использовать статистические и лингвистические закономерности текстов для построения компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы) также обращаются к корпусу для получения ответов на интересующие их вопросы. Специалисты по общественным наукам (историки, социологи) могут изучать свои объекты через язык, на основании таких параметров текстов, как период, автор или жанр. Литературоведы используют корпусы для стилеметрических исследований [Захаров, Богданова 2013]. Наконец, даже в областях, не относящихся напрямую к исследованию языка, но имеющих потребность

в системной обработке двуязычных или многоязычных текстов для последующего использования полученных данных в коммерческих и деловых целях, возрос спрос на специалистов по корпусным данным. Они используют корпусы для разработки и настройки различных автоматизированных систем, как например распознавание речи, информационный поиск или подбор шаблонных соответствий. Таким образом, терминологи, постредакторы (при этом, не обязательно лингвисты или переводчики), способные работать с языковыми корпусами как с точки зрения разработки последних, так и точки зрения их эффективного применения, с каждым разом становятся более востребованными.

Развитие технологий и систем текстовой обработки находится на данный момент времени на таком уровне, что сами корпусы (к примеру, параллельные: двуязычные или многоязычные) собираются и размечаются уже не на основе разрабатываемых лингвистами и затем программируемых правил, как это было ранее. На сегодняшний день сбор и обработка данных для корпусов происходит на основе статистического принципа, т. е. на базе сравнения и анализа текстовых фрагментов Интернета специальными поисковыми программами и подбора наилучших соответствий [Суркова 2017]. Тем не менее необходимо отметить, что для развития современных интеллектуальных программных систем, обрабатывающих тексты естественного языка (без или с меньшим участием и вовлеченностью в процесс лингвистов и переводчиков), по сей день требуется большая экспериментальная лингвистическая база [Плунгян]. Иными словами, хотя вероятность того, что в будущем ситуация изменится, достаточно высока, на данный момент корпусная лингвистика продолжает питать и подкреплять лингвистику теоретическую и наоборот.

Вне всяких сомнений, корпусная лингвистика - это область, которая развивается и идет вперед более, чем динамично. К примеру, изначально корпусами текстов назывались исключительно массивы текстов, для работы с которыми исследователям и специалистам приходилось так или иначе самостоятельно знакомиться с принципами и схемами аннотирования (морфологической, синтаксической, анафорической, просодической, дискурсной, экстралингвистической и другими типами разметки). На данном этапе для работы с корпусными данным лингвистам скорее приходится понимать и осваивать некие общепринятые стандарты кодирования, определенный объем

управляющих знаков и символов для введения и реализации запросов, как «словесных выражений определенной информационной потребности» [Захаров, Богданова 2013, с. 52]. Современные корпусы текстов регулярно обновляются, пополняются и эволюционируют с пользовательской точки зрения, с каждым разом представляя всё более доступную форму использования.

Возьмем, к примеру, корпус португальского языка corpus-doportugues.org, который содержит около миллиарда португальских слов, взятых из одного миллиона веб-страниц четырех португа-логоворящих стран (Бразилия, Португалия, Ангола и Мозамбик) и является обновленной версией Корпуса португальского языка 2006 г. Если сравнить версии окна запросов corpusdoportugues.org 2006 г. и 2016 г., можно увидеть, что обновленный интерфейс стал гораздо более доступным для пользователей. Что касается языка регулярных запросов, - в новом корпусе он стал более «скрытым» от пользователя в программном коде, что реализуется в виде удобного интерфейса программы с меньшим количеством специальных символов (*,?, !,=,@,", ., ( ), [ ]).

Несмотря на тенденцию к упрощению интерфейса и языка запросов в корпусе, есть минимальный набор понятий и обозначений, который необходим для работы с данным корпусом текстов. Ими являются: LIST (список), CHART (таблица), COLLOCATES (коллокации / словосочетания), FREQ (частотность), HITS (количество попаданий), KWIC (ключевое слово в контексте), LEMMAS (леммы), POS (часть речи) и др. [McEnery; Brezina].

С недавнего времени в понятие «корпус текстов» входит также система управления текстовыми и лингвистическими данными, которую всё чаще называют корпусным менеджером (или корпус-менеджером, или менеджером корпусов) (от английского Corpus manager). Википедия определяет корпусный менеджер как наиболее современный инструмент многоязычного корпусного анализа и управления данными, который позволяет вести быстрый и эффективный поиск необходимых словоформ и сочетаний в различных корпусах текстов, с одной стороны. С другой стороны, корпусный менеджер, собственно, является наиболее удобным пользовательским интерфейсом. Менеджером корпусов также называется программное обеспечение, установленное на персональном компьютере или предоставленное в качестве веб-службы (веб-сервиса) (en.wikipedia.

org/wiki/Corpus_manager). Иными словами, это специализированная поисковая система, включающая программные средства для поиска данных в корпусе или корпусах, получения статистической информации и предоставления пользователю результатов в удобной форме [Захаров, Богданова 2013].

Задачи и возможности корпусного менеджера заключаются в том, чтобы:

- строить как обычный конкорданс отдельных слов (так называемый KWIC, Key Word in Context), так и полные конкордансные списки, включающие в себя не только отдельные слова, но и другие элементы корпуса);

- искать контексты не только по отдельным словам, но и по словосочетаниям;

- осуществлять поиск по шаблонам (сложные запросы);

- сортировать полученные списки по нескольким критериям, выбираемым и назначаемым пользователем;

- давать возможность отображать найденные словоформы в широком контексте;

- давать статистическую информацию по отдельным элементам корпуса;

- отображать леммы, морфологические характеристики словоформ и метаданные (библиографические, типологические), что зависит от степени размеченности корпуса;

- предоставлять коэффициент взаимной зависимости частей кол-локаций (MI);

- быть установленным на компьютере в виде работающего приложения / программы; сохранять и распечатывать результаты;

- работать как с корпусами (неограниченными по размеру), так и с подкорпусами;

- поддерживать различные форматы текстовых данных (txt, doc, rtf, html, xml и др.);

- быть понятным и легким в использовании как для опытного, так и для начинающего пользователя (иметь максимально удобный интерфейс).

Удобство корпусных менеджеров неоспоримо. Главное преимущество корпусных менеджеров в сравнении с отдельными корпусами текстов состоит в том, что для работы с ними не нужно осваивать специфичный для того или иного корпуса язык символов, достаточно

освоить стандартизированные упрощенные команды и обозначения и, благодаря интерфейсу менеджеров, производить необходимый анализ быстрее и легче. Это мощный инструмент для создания своего собственного корпуса текстов (подкорпуса) или же для загрузки и использования уже существующих массивов данных.

Использование корпусного менеджера Sketch Engine

для анализа градуирующих средств португальского языка

На примере анализа градуирующих средств португальского языка мы хотели бы продемонстрировать основные преимущества работы с таким корпусным менеджером, как Sketch Engine (sketchengine. co.uk/), разработанным английскими исследователями совместно с чешскими разработчиками из Университета им. Масарика.

Программа предоставляет целый список корпусов на разных языках, при этом корпус португальского языка состоит из почти четырех миллиардов слов.

Помимо стандартного поиска с выдачей конкорданса корпусный менеджер Sketch Engine, уникальный в своем роде, выдает списки коллокаций по отдельным синтаксическим моделям, к примеру:

O que eu sei é que gostei mesmo muito de ver a resposta da equipa às críticas que sofreram após a derrota em Israel, e a forma como eles festejaram os golos;

E por acaso näo concordo com parte do que disse, apenas por um motivo simples: o Benfica NECESSITA mesmo muito de vender e fazer encaixes financeiros na ordem dos 70/100 milhöes de euros;

Em resumo, é necessário definir o que fazer e como o fazer. De uma maneira geral, a Administraçâo Local sabe bastante bem o que gostaria de fazer em termos de modernizaçâo e simplificaçâo administrativas;

Enfim, é muito fácil conhecer esse mundo, e é mais fácil ainda entrar nesse mundo; ele é mesmo muito acessível, a qualquer camada da populaçâo, a qualquer hora do dia, em qualquer mocó (casa abandonada que passa a servir de morada para a populaçâo de rua).

Данный корпусный менеджер дает возможность формирования частотного словаря и группирует лексические единицы в лексико-семантические поля с внутренней кластеризацией и указанием силы связи между лексемами. Данные поля визуализируются в виде удобной модели, в которой различные по цвету и размеру слова (цвет

и размер соотносится с семантическим значением рассматриваемых единиц) сгруппированы и изображены вместе.

Работа с корпусным менеджером Sketch Engine помогла нам работать с уже существующей картотекой единиц, а также предпринять попытку набора нового «банка примеров», осуществить эмпирическую поддержку некоторых гипотез, принципов и правил, которые анализировались.

К примеру, корпусный менеджер помог статистически подтвердить факт неиспользования градуатора muito со статическими глаголами в португальском языке, так как не было выявлено ни одного примера подобной сочетаемости. При помощи Sketch Engine удалось установить гораздо более высокую частотность употребления градуирующей единицы mesmo (действительно, прямо) с глаголами acordar, deitar, desculpar, nascer (просыпаться, ложиться, извинять, рождаться), в сравнении с градуатором realmente (действительно) в сочетаниях с теми же глаголами.

Однако, к примеру, в отношении прилагательных, обозначающих абсолютные признаки, вопреки данным, приводимым некоторыми исследователями средств и способов интенсификации значений в португальском языке [Григоренко 1987], корпусный менеджер, наоборот, позволил зарегистрировать достаточное число примеров, опровергающих утверждение о невозможности сочетаний подобных прилагательных с наречием степени muito.

E eu a pensar que a Lique estava zangada... obrigado ter teres aparecido e agora aparece mais vezes porque és bem vinda. E o Pai Natal anda muito surdo , deve ser da velhice...

Trata-se de uma questäo de intervençâo do Governo e do Parlamento, bem como da ERSE, que parece andar também muito muda e calada...

Seria preciso ser ideologicamente muito cego pensar que num cenário de impostos näo-progressivos as empresas iam cortar os salários dos seus gestores e aumentar os salários dos seus operários, como o JMF implicitamente diz.

Нужно сказать, что примеры по градуирующим средствам португальского языка, конечно, могли бы быть придуманы или найдены случайно, но всё же подход корпусной лингвистики обеспечивает репрезентативность и сбалансированность языкового материала, а также эффективный и быстрый поисковый инструмент, предоставляющий возможность хорошей выборки согласно поставленным задачам [Плунгян].

Заключение

Однако необходимо отметить, что, несмотря на предоставление специалистам богатого репрезентативного эмпирического материала, экстралингвистической информации (или метаинформации) касаемо возраста или пола говорящего / пишущего, жанра текста, временных или пространственных данных о происхождении текста, корпусы не могут обеспечить глубинных интроспективных суждений и выводов в отрыве от самонаблюдения ученых, не могут полностью заменить его [Борискина 2015; Шилихина 2014].

По мнению многих исследователей, и мы согласны с этим утверждением, корпусная лингвистика - не отдельная парадигма лингвистики, а, скорее, ее методология [Заботкина 2015]. Считая корпусную лингвистику в первую очередь методологией проведения языковых наблюдений, необходимо подчеркнуть, что прогресс в области компьютерных технологий влечет за собой прогресс в создании и совершенствовании программ автоматической обработки текста, что, в свою очередь, порождает новые парадигмы лингвистических исследований [Захаров, Богданова 2013]. Российская когнитивистика ищет пути интеграции с корпусной лингвистикой для разработки интегрированной методологии в двух современных парадигмах, когнитивной и корпусной, где анализ семантики языковых единиц проводится с опорой на корпусные данные или с привлечением корпусных данных [Заботкина 2015].

Стоит также отметить, что исследователям и специалистам, пользующимся данными корпусов, корпусными менеджерами и разрабатывающими собственные корпусы слов (подкорпусы), необходимо отдавать себе отчет в том, что часть сведений, приводимых ими, со временем устареет, что на смену тем или иным конкретным программам придут более совершенные и многофункциональные, появятся новые корпусы, изменятся их адреса в Интернете.

В этой связи, правильной задачей для исследователей корпусов и корпусных возможностей нам представляется, с одной стороны, собственно, описание корпусного направления в лингвистике как такового, с другой - диагностирование состояния его развития на конкретный, ограниченный во времени, период.

СПИСОК ЛИТЕРАТУРЫ

Борискина О. О. Корпусное исследование языка: мода или необходимость? // Вестник Воронежского государственного университета. 2015. № 3. С. 25-28. (Лингвистика и межкультурная коммуникация.) Григоренко Т.Н. Способы интенсификации в португальском языке: дис...

канд. филол. наук. М., 1987. 204 с. ЗаботкинаВ. И. Методы когнитивного анализа семантики слова : компьтерно-корпусный подход / под общ. ред. В. И. Заботкиной. М. : Языки славянской культуры, 2015. 344 с. Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник для студентов направления «Лингвистика». 2-е изд., перераб. и доп., СПб. : СпбГУ РИО. Филологический факультет, 2013. 148 с. Захаров В. П. Корпусная лингвистика: учебно-метод. пособие. СПб., 2005. 48 с.

Плунгян В. А. Почему современная лингвистика должна быть лингвистикой корпусов. Лекция, прочитанная в рамках проекта «Публичные лекции». URL: polit.ru/article/2009/10/23/corpus/ Рыков В. В. Корпусная лингвистика (научно-аналитический обзор) // Социальные и гуманитарные науки: Зарубежная литература. М. : ИНИОН, 1996. № 4. С. 43-51. Столяров А. И. Словарь-конкорданс и его применение в рамках корпусной лингвистики // Гуманитарные научные исследования. 2017. № 2. URL: human.snauka.ru/2017/02/21074 Суркова А. С. Концептуальный анализ, принципы моделирования и оптимизация алгоритмов синтеза текстовых структур : автореф. дис. ... д-ра техн. наук. Нижний Новгород, 2017. 39 с. Шилихина К. М. Использование корпусов в исследованиях дискурса // Вестник Воронеж. гос. ун-та. 2014. № 3. С. 21-26. (Сер. Лингвистика и межкультурная коммуникация) Brezina Vaclav. Corpus Linguistics: Method, Analysis, Interpretation. Lancaster

University. URL: www.futurelearn.com/courses/corpus-linguistics Finegan E. LANGUAGE: its structure and use. N. Y. : Harcourt Brace College

Publishers, 2004. 613 p. McEnery Tony. Corpus Linguistics: Method, Analysis, Interpretation. - Lancaster

University. URL: www.futurelearn.com/courses/corpus-linguistics McWhinney B. The CHILDES Project: Tools for Analyzing Talk. Mahwah, NJ :

Lawrence Erlbaum Associates, Inc. 3rd ed., 2000. Vol. 1. P. 366. Wikipedia: URL: en.wikipedia.org/wiki/Corpus_manager

i Надоели баннеры? Вы всегда можете отключить рекламу.