Научная статья на тему 'Грамматика и корпус 2012: очередная международная конференция по корпусной лингвистике в Праге'

Грамматика и корпус 2012: очередная международная конференция по корпусной лингвистике в Праге Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
57
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Грамматика и корпус 2012: очередная международная конференция по корпусной лингвистике в Праге»

ВЕСТНИК МОСКОВСКОГО УНИВЕРСИТЕТА. СЕР. 9. ФИЛОЛОГИЯ. 2013. № 2

ГРАММАТИКА И КОРПУС 2012:

ОЧЕРЕДНАЯ МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ

ПО КОРПУСНОЙ ЛИНГВИСТИКЕ В ПРАГЕ

Чешскую лингвистическую мысль всегда отличал позитивизм, более чем серьезное отношение к фактическому материалу, когда новые и даже революционные идеи рождались не на кончике пера, а в результате скрупулезнейшего анализа огромного количества источников. Своего рода предшественником современных электронных корпусов стала многомиллионная картотека эксцерпций основанной в 1911 г. «Канцелярии словаря чешского языка», на базе которой впоследствии был создан Институт чешского языка национальной академии наук, см. [Изотов, 2011].

В связи с этим неудивительно, что «Национальный корпус чешского языка» (Севку пагоёш когрш) относится к наиболее авторитетным и динамично развивающимся корпусам в мире.

В настоящее время через Интернет (см. http://ucnk.ff.cuni.cz/) доступны следующие входящие в состав СКК подкорпусы:

• SYN2000 — около 100 млн словоформ, образован текстами, представляющими основные функциональные стили современного чешского языка. Отбор текстов для SYN2000 осуществлялся на основании социологических данных о чтении книг и периодики гражданами Чешской Республики в последнее десятилетие XX в.: наличие и степень представленности в корпусе конкретных изданий и авторов зависит от их читаемости среднестатистическим чехом, поэтому большую часть материала SYN2000 образуют публицистические тексты (60 %), на втором месте находятся специальные тексты — справочники, энциклопедии и т. д. (25 %), на третьем — беллетристика (15 %). Составители SYN2000 исходят из предположения, что письменный текст не только отражает (прямо или опосредованно) современную автору языковую ситуацию, но и формирует индивидуальную языковую компетенцию читателя, поэтому включают в его состав не только оригинальные, но и некоторые переводные тексты, а также тексты, написанные и изданные до 1990 г., если они пользуются популярностью среди читателей;

• SYN2005 — более поздний 100-миллионный аналог SYN2000 с измененным соотношением художественных, публицистических и специальных текстов (соответственно 40 % — 33 % — 27 %);

• SYN2010 — еще более поздний 100-миллионный аналог SYN2000 с таким же, как в SYN2005, соотношением художественных, публицистических и специальных текстов (соответственно 40% — 33% — 27%);

• SYN2006PUB — синхронный нерепрезентативный корпус публицистических текстов (300 млн слов);

• SYN2009PUB — синхронный нерепрезентативный корпус публицистических текстов (700 млн слов).

При этом предусмотрена возможность одновременного поиска по всем пяти названным подкорпусам, а поскольку входящие в их состав тексты не пересекаются, можно говорить о сформированном ими 1,3-миллиардном корпусе современных письменных текстов SYN.

Кроме того, в состав Национального корпуса чешского языка в настоящее время входят:

• fsc2000 — корпус образован теми же текстами, что и SYN2000, однако прошедшими редактирование;

• pmk — 675-тысячный пражский корпус разговорной речи;

• bmk — 490-тысячный брненский корпус разговорной речи;

• orwell и orwell-mte — корпуса, основанные на чешском переводе романа Оруэлла «1984»;

• ksk-dopisy — 800-тысячный корпус личной корреспонденции (около 2 000 писем);

• oral2006 — миллионный корпус разговорной речи;

• oral2008 — миллионный корпус разговорной речи;

• diakorp — диахронный корпус (около 500 тыс. слов; планируется пополнение), образован чешскими текстами от XIII в. до современности;

• schola2010 — 790-тысячный корпус записей уроков, проведенных в школах разных регионов Чешской Республики;

• szesl-plain — 2,5-миллионный корпус, образованный письменными работами на чешском языке чешских детей из социально неблагополучных семей, а также тех, для которых чешский язык не является родным;

• link — 1,9-миллионный корпус лингвистических текстов, опубликованных в 1985-2010 гг.

Обслуживающая Чешский национальный корпус программа Bonito предоставляет возможность вести поиск по словоформе, лексеме, грамматической матрице, а также по любой возможной их комбинации.

В то время как первые электронные корпусы предназначались прежде всего для анализа лексики, в Праге сложилась традиция использовать корпусный материал также и для изучения грамматического строя языка. Не случайно поэтому именно здесь на базе Института чешского языка в ноябре 2005 г. прошла конференция Grammar & Corpora, в которой приняли участие более 100 исследователей из 14 стран. В сентябре 2007 г. здесь же была проведена вторая международная конференция с тем же названием и с не менее солидным числом участников, а 28-30 ноября 2012 г. — четвертая (третья конференция Grammar & Corpora проходила 22-24 сентября 2009 г. в Маннгейме).

Конференция Grammar & Corpora 2012 г. была посвящена к 100-летию со дня рождения выдающегося чешского лингвиста МилошаДокулила, и доклад открывшего конференцию заведующего отделом грамматики Института чешского языка Фр. Штихи, прозвучавший после коротких приветственных слов директора Института К. Оливы, был посвящен разработанной М. До-кулилом теории продуктивности.

На четырех пленарных заседаниях выступили: А.А. Поликарпов - о закономерностях словообразования в свете теории эволюции языковой системы;

П. Штихауер—о перспективах новой классификации чешских сложных слов; М. Конопка и У. Васснер — о проблемах квантитативного аспекта описания литературного немецкого языка; А. Розен — об оптимальном соотношении эмпиризма и теории при использовании зависимостных корпусов.

Остальные доклады были прочитаны на секционных заседаниях.

Г. Нещименко поделилась с присутствующими своими воспоминаниями о Милоше Докулиле — об Учителе, о друге и о примере для подражания, Фр. Штиха - соображениями о том, как теория продуктивности М. Докулила может быть применена в эпоху электронных корпусов.

Значительная часть секционных выступлений была посвящена исследованиям на материале Чешского национального корпуса, а также ряда других чешских корпусов.

П. Карлик и М. Зикова рассмотрели функционирование чешских личных местоимений, П. Печены — сравнительных конструкций, К. Милотова — инфинитивных придаточных предложений, М. Дочекал и Г. Страхонёва — явление негации, В. Веселы — аппозиции.

Три доклада затрагивали проблематику образования и функционирования уменьшительно-ласкательных наименований — доклады Я. Билковой, М. Зиковой и Т. Кани. Ф. Мартинек проанализировал словообразовательные типы чешских девербативных и деадъективных образований, И. Боздехо-ва — тип сложения. Феномену деадъективных дериватов был посвящен также и доклад М. Шевчиковой.

П. Штурц и К. Мрштикова поделились опытом морфологического аннотирования корпусного материала, Г. Палатова и М. Грац — сегментирования текста на предложения, З. Гладка—использования корпусов личной корреспонденции, а Л. Саицова Ржималова—опытом корпусного исследования детского синтаксиса, К. Осолсобе — опытом использования корпусов и Интернета для анализа периферийного словообразовательного типа Нгйга > Нгйгоиа.

П. Косек рассмотрел динамику развития особенностей функционирования претерита в др.-чешском языке, а А. Черна — образования и употребления множественного числа слова «человек» в др.-чешском языке в сравнении с современным состоянием, Я. Томшу — парадигматические и синтагматические аспекты современной чешской военной терминологии, М. Хиршова и С. Шнейдерова — чешские маркеры эвиденциальной модальности в публицистических текстах.

В. Цврчек и П. Вонржичка представили готовящуюся компьютерную программу для словообразовательного анализа корпусного материала, а Я. Помикалек и В. Сухомел — подготовленную в университете Масарика в Брно и доступную на http://sketchengine.co.uk программу построения новых корпусов, М. Бенеш — готовящийся корпус наименований, пишущихся с заглавной буквы.

Доклад Л. Копачковой был посвящен особенностям образования притяжательных прилагательных, доклад И. Коларжовой — особенностям образования глаголов типа ЪтгсСЫ, гаЪопг и типа 2а1взп1г, росСзЫерЫ, доклад А. Изотова — новым возможностям корпусного исследования перформа-

тивных глаголов, доклад Я. Клашки — корпусному анализу конструкций с так называемыми bridge verbs, доклад К. Веселовской - морфологической категоризации чешских эвалуативных выражений.

Об особенностях функционирования вида в чешском языке говорили Т. Бергер, проанализировавший представленные в текстах Национального корпуса чешского языка видовые пары, и Ф. Эсван, рассмотревший особенности чередования чешских глаголов совершенного и несовершенного вида в нарративном дискурсе.

Вопросам автоматического анализа лингвистического материала были посвящены доклады В. Петкевича, Т. Елинека, М. Гнатковой, проблемам возрастания доли «неправильного» словообразования — концептуальный доклад Й. Шимандла.

Я. Гоффманнова и И. Коларжова проанализировали случаи «ямбических» реплик типа Se vam to nelibi? в разговорном чешском языке и при художественной стилизации, Л. Йилкова — варианты произношения слова manager.

Г. Прокшова — говорила о конкуренции предложных и беспредложных конструкций в современном чешском языке, В. Коларжова — о номинали-зованных структурах с двумя родительными падежами.

К. Смейкалова рассмотрела взаимодействие типов склонения zena и mze, Д. Главачкова и К. Пала — функциональную нагруженность в современных текстах суффиксов -ak, -ec, -ik -nik, Р. Новотна — потенциал некоторых явлений языковой периферии.

Особенностям использования корпусного материала в преподавании чешского языка иностранцам было посвящены выступления А. Гудоусковой и П. Валишовой.

Сопоставительной словацко-чешской проблематике были посвящены доклад А. Карчовой о постпозитивном определении и доклад К. Мусиловой о богемизмах в современном словацком языке, а также доклады М. Шимковой, К. Гайдошовой и М. Набелковой, сопоставительной немецко-чешской проблематике — доклад Г. Пелоушковой о конструкциях с формальным объектом.

На материале параллельных чешско-русских корпусов строился доклад М. Гигера о функционировании атрибутивных партиципиальных форм прошедшего времени действительного залога и доклад Д. Полякова о чешских прилагательных типаpraci, holiciи их русских соответствиях. Особенностям употребления конструкций глагол byt + партиципиальная форма на -ici/-ouci был посвящен и доклад О. Рихтеровой.

П. Наденичек с привлечением материала различных славянских языков проанализировал частные категориальные значения вида.

Совместный доклад Й. Паневовой и П. Поньяна был посвящен возможностям автоматического порождения лексем современных славянских языков на основе данных сравнительно-исторической грамматики славянских языков.

М. Мартинкова рассмотрела возможные чешские эквиваленты английским конструкциям типа I have friends come/coming over, Б. Голчако-ва — валентностные особенности некоторых лексико-семантических групп глаголов в чешском, русском и немецком языках, М. Микулова, Я. Штепанек

и З. Урешова — возможные несовпадения валентносных свойств глаголов в чешских письменных и разговорных текстах.

Доклад С. Рёрвик был посвящен особенностям порядка слов изучающих английский язык норвежских студентов, доклад Т. Эгана и Г. Равоенс — родовой характеристике заимствованных в норвежский из английского слов, А. Пешковой — прономинальному субъекту в испанском языке, Д. Майхрако-вой — словацким адъективно-субстантивным коллокациям типа vplnom roz-sahu, К. Бранкачкец — видовым формантам др.-верхнелужицкого языка.

С. Убервассер предложила проект корпусно-ориентированной мультирегиональной грамматики немецкого языка, Л. Шиманьски — опыт корпусного анализа польской интернет-коммуникации, С. Горохова — корпусный анализ речевых ошибок в русских спонтанных текстах, И. Иткин, С. Пере-верзева, М. Тюренкова—корпусное исследование русских ударных предлогов, Ю. Пакерис, Э. Римкуте и А. Утка — корпусный анализ деноминальных глаголов в современном литовском языке. На литовском же материале строился и доклад Э. Сейтловой о суффиксации девербативных глаголов.

М. Соколова и М. Иванова проанализировали соотношение морфемной и словообразовательной структур лексики «Словаря корневых морфем словацкого языка» и ее представления в Словацком национальном корпусе, А.-Р. Гредлер — гендерное оформление заимствованных слов в английском языке.

Суммируя изложенное, следует отметить, что Прага по-прежнему остается одним из крупнейших европейских и мировых центров корпусных исследований.

Конференция не только явилась неким итогом развития корпусной лингвистики за последние годы, но и наметила пути дальнейших исследований. По итогам конференции планируется издание электронного научного сборника. Часть выступлений планируется опубликовать в академическом журнале Korpus, Gramatika, Axiologie, см. http://www.ujc.cas.cz/casopisy/ korpus-gramatika-axiologie/.

Список литературы

Изотов А.И. Грамматика и корпус: Международная конференция в Праге // Вестн.

Моск. ун-та. Сер. 9. Филология. 2006. № 3. Изотов А.И. Грамматика и корпус: Очередная международная конференция по корпусной лингвистике в Чехии // Вестн.Моск. ун-та. Сер. 9. Филология. 2008. № 3. Изотов А.И. Чешский язык в синхронии и диахронии: столетние корни Института

чешского языка // Вестн.Моск. ун-та. Сер. 9. Филология. 2011. № 5. Gramatika a korpus / Grammar&Corpora 2005: Sbornik pffspévkù ze stejnojmenné konference, 23.-25.11.2005, sidlo AV CS v Praze / Sticha F., Simandl J. (Eds.). Praha: ÙJC AV CR, 2007.

Grammar & Corpora: Selected contributions from the conference Grammar and Corpora, Sept. 25-27. 9. 2007, Liblice / Sticha F., Fried M. (Eds.). Praha: Academia, 2008.

А.И. Изотов

Сведения об авторе: Изотов Андрей Иванович, докт. филол. наук, профессор кафедры славянской филологии филол. ф-та МГУ имени М.В. Ломоносова. E-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.