ВЕСТНИК МОСКОВСКОГО УНИВЕРСИТЕТА. СЕР. 9. ФИЛОЛОГИЯ. 2013. № 2
ГРАММАТИКА И КОРПУС 2012:
ОЧЕРЕДНАЯ МЕЖДУНАРОДНАЯ КОНФЕРЕНЦИЯ
ПО КОРПУСНОЙ ЛИНГВИСТИКЕ В ПРАГЕ
Чешскую лингвистическую мысль всегда отличал позитивизм, более чем серьезное отношение к фактическому материалу, когда новые и даже революционные идеи рождались не на кончике пера, а в результате скрупулезнейшего анализа огромного количества источников. Своего рода предшественником современных электронных корпусов стала многомиллионная картотека эксцерпций основанной в 1911 г. «Канцелярии словаря чешского языка», на базе которой впоследствии был создан Институт чешского языка национальной академии наук, см. [Изотов, 2011].
В связи с этим неудивительно, что «Национальный корпус чешского языка» (Севку пагоёш когрш) относится к наиболее авторитетным и динамично развивающимся корпусам в мире.
В настоящее время через Интернет (см. http://ucnk.ff.cuni.cz/) доступны следующие входящие в состав СКК подкорпусы:
• SYN2000 — около 100 млн словоформ, образован текстами, представляющими основные функциональные стили современного чешского языка. Отбор текстов для SYN2000 осуществлялся на основании социологических данных о чтении книг и периодики гражданами Чешской Республики в последнее десятилетие XX в.: наличие и степень представленности в корпусе конкретных изданий и авторов зависит от их читаемости среднестатистическим чехом, поэтому большую часть материала SYN2000 образуют публицистические тексты (60 %), на втором месте находятся специальные тексты — справочники, энциклопедии и т. д. (25 %), на третьем — беллетристика (15 %). Составители SYN2000 исходят из предположения, что письменный текст не только отражает (прямо или опосредованно) современную автору языковую ситуацию, но и формирует индивидуальную языковую компетенцию читателя, поэтому включают в его состав не только оригинальные, но и некоторые переводные тексты, а также тексты, написанные и изданные до 1990 г., если они пользуются популярностью среди читателей;
• SYN2005 — более поздний 100-миллионный аналог SYN2000 с измененным соотношением художественных, публицистических и специальных текстов (соответственно 40 % — 33 % — 27 %);
• SYN2010 — еще более поздний 100-миллионный аналог SYN2000 с таким же, как в SYN2005, соотношением художественных, публицистических и специальных текстов (соответственно 40% — 33% — 27%);
• SYN2006PUB — синхронный нерепрезентативный корпус публицистических текстов (300 млн слов);
• SYN2009PUB — синхронный нерепрезентативный корпус публицистических текстов (700 млн слов).
При этом предусмотрена возможность одновременного поиска по всем пяти названным подкорпусам, а поскольку входящие в их состав тексты не пересекаются, можно говорить о сформированном ими 1,3-миллиардном корпусе современных письменных текстов SYN.
Кроме того, в состав Национального корпуса чешского языка в настоящее время входят:
• fsc2000 — корпус образован теми же текстами, что и SYN2000, однако прошедшими редактирование;
• pmk — 675-тысячный пражский корпус разговорной речи;
• bmk — 490-тысячный брненский корпус разговорной речи;
• orwell и orwell-mte — корпуса, основанные на чешском переводе романа Оруэлла «1984»;
• ksk-dopisy — 800-тысячный корпус личной корреспонденции (около 2 000 писем);
• oral2006 — миллионный корпус разговорной речи;
• oral2008 — миллионный корпус разговорной речи;
• diakorp — диахронный корпус (около 500 тыс. слов; планируется пополнение), образован чешскими текстами от XIII в. до современности;
• schola2010 — 790-тысячный корпус записей уроков, проведенных в школах разных регионов Чешской Республики;
• szesl-plain — 2,5-миллионный корпус, образованный письменными работами на чешском языке чешских детей из социально неблагополучных семей, а также тех, для которых чешский язык не является родным;
• link — 1,9-миллионный корпус лингвистических текстов, опубликованных в 1985-2010 гг.
Обслуживающая Чешский национальный корпус программа Bonito предоставляет возможность вести поиск по словоформе, лексеме, грамматической матрице, а также по любой возможной их комбинации.
В то время как первые электронные корпусы предназначались прежде всего для анализа лексики, в Праге сложилась традиция использовать корпусный материал также и для изучения грамматического строя языка. Не случайно поэтому именно здесь на базе Института чешского языка в ноябре 2005 г. прошла конференция Grammar & Corpora, в которой приняли участие более 100 исследователей из 14 стран. В сентябре 2007 г. здесь же была проведена вторая международная конференция с тем же названием и с не менее солидным числом участников, а 28-30 ноября 2012 г. — четвертая (третья конференция Grammar & Corpora проходила 22-24 сентября 2009 г. в Маннгейме).
Конференция Grammar & Corpora 2012 г. была посвящена к 100-летию со дня рождения выдающегося чешского лингвиста МилошаДокулила, и доклад открывшего конференцию заведующего отделом грамматики Института чешского языка Фр. Штихи, прозвучавший после коротких приветственных слов директора Института К. Оливы, был посвящен разработанной М. До-кулилом теории продуктивности.
На четырех пленарных заседаниях выступили: А.А. Поликарпов - о закономерностях словообразования в свете теории эволюции языковой системы;
П. Штихауер—о перспективах новой классификации чешских сложных слов; М. Конопка и У. Васснер — о проблемах квантитативного аспекта описания литературного немецкого языка; А. Розен — об оптимальном соотношении эмпиризма и теории при использовании зависимостных корпусов.
Остальные доклады были прочитаны на секционных заседаниях.
Г. Нещименко поделилась с присутствующими своими воспоминаниями о Милоше Докулиле — об Учителе, о друге и о примере для подражания, Фр. Штиха - соображениями о том, как теория продуктивности М. Докулила может быть применена в эпоху электронных корпусов.
Значительная часть секционных выступлений была посвящена исследованиям на материале Чешского национального корпуса, а также ряда других чешских корпусов.
П. Карлик и М. Зикова рассмотрели функционирование чешских личных местоимений, П. Печены — сравнительных конструкций, К. Милотова — инфинитивных придаточных предложений, М. Дочекал и Г. Страхонёва — явление негации, В. Веселы — аппозиции.
Три доклада затрагивали проблематику образования и функционирования уменьшительно-ласкательных наименований — доклады Я. Билковой, М. Зиковой и Т. Кани. Ф. Мартинек проанализировал словообразовательные типы чешских девербативных и деадъективных образований, И. Боздехо-ва — тип сложения. Феномену деадъективных дериватов был посвящен также и доклад М. Шевчиковой.
П. Штурц и К. Мрштикова поделились опытом морфологического аннотирования корпусного материала, Г. Палатова и М. Грац — сегментирования текста на предложения, З. Гладка—использования корпусов личной корреспонденции, а Л. Саицова Ржималова—опытом корпусного исследования детского синтаксиса, К. Осолсобе — опытом использования корпусов и Интернета для анализа периферийного словообразовательного типа Нгйга > Нгйгоиа.
П. Косек рассмотрел динамику развития особенностей функционирования претерита в др.-чешском языке, а А. Черна — образования и употребления множественного числа слова «человек» в др.-чешском языке в сравнении с современным состоянием, Я. Томшу — парадигматические и синтагматические аспекты современной чешской военной терминологии, М. Хиршова и С. Шнейдерова — чешские маркеры эвиденциальной модальности в публицистических текстах.
В. Цврчек и П. Вонржичка представили готовящуюся компьютерную программу для словообразовательного анализа корпусного материала, а Я. Помикалек и В. Сухомел — подготовленную в университете Масарика в Брно и доступную на http://sketchengine.co.uk программу построения новых корпусов, М. Бенеш — готовящийся корпус наименований, пишущихся с заглавной буквы.
Доклад Л. Копачковой был посвящен особенностям образования притяжательных прилагательных, доклад И. Коларжовой — особенностям образования глаголов типа ЪтгсСЫ, гаЪопг и типа 2а1взп1г, росСзЫерЫ, доклад А. Изотова — новым возможностям корпусного исследования перформа-
тивных глаголов, доклад Я. Клашки — корпусному анализу конструкций с так называемыми bridge verbs, доклад К. Веселовской - морфологической категоризации чешских эвалуативных выражений.
Об особенностях функционирования вида в чешском языке говорили Т. Бергер, проанализировавший представленные в текстах Национального корпуса чешского языка видовые пары, и Ф. Эсван, рассмотревший особенности чередования чешских глаголов совершенного и несовершенного вида в нарративном дискурсе.
Вопросам автоматического анализа лингвистического материала были посвящены доклады В. Петкевича, Т. Елинека, М. Гнатковой, проблемам возрастания доли «неправильного» словообразования — концептуальный доклад Й. Шимандла.
Я. Гоффманнова и И. Коларжова проанализировали случаи «ямбических» реплик типа Se vam to nelibi? в разговорном чешском языке и при художественной стилизации, Л. Йилкова — варианты произношения слова manager.
Г. Прокшова — говорила о конкуренции предложных и беспредложных конструкций в современном чешском языке, В. Коларжова — о номинали-зованных структурах с двумя родительными падежами.
К. Смейкалова рассмотрела взаимодействие типов склонения zena и mze, Д. Главачкова и К. Пала — функциональную нагруженность в современных текстах суффиксов -ak, -ec, -ik -nik, Р. Новотна — потенциал некоторых явлений языковой периферии.
Особенностям использования корпусного материала в преподавании чешского языка иностранцам было посвящены выступления А. Гудоусковой и П. Валишовой.
Сопоставительной словацко-чешской проблематике были посвящены доклад А. Карчовой о постпозитивном определении и доклад К. Мусиловой о богемизмах в современном словацком языке, а также доклады М. Шимковой, К. Гайдошовой и М. Набелковой, сопоставительной немецко-чешской проблематике — доклад Г. Пелоушковой о конструкциях с формальным объектом.
На материале параллельных чешско-русских корпусов строился доклад М. Гигера о функционировании атрибутивных партиципиальных форм прошедшего времени действительного залога и доклад Д. Полякова о чешских прилагательных типаpraci, holiciи их русских соответствиях. Особенностям употребления конструкций глагол byt + партиципиальная форма на -ici/-ouci был посвящен и доклад О. Рихтеровой.
П. Наденичек с привлечением материала различных славянских языков проанализировал частные категориальные значения вида.
Совместный доклад Й. Паневовой и П. Поньяна был посвящен возможностям автоматического порождения лексем современных славянских языков на основе данных сравнительно-исторической грамматики славянских языков.
М. Мартинкова рассмотрела возможные чешские эквиваленты английским конструкциям типа I have friends come/coming over, Б. Голчако-ва — валентностные особенности некоторых лексико-семантических групп глаголов в чешском, русском и немецком языках, М. Микулова, Я. Штепанек
и З. Урешова — возможные несовпадения валентносных свойств глаголов в чешских письменных и разговорных текстах.
Доклад С. Рёрвик был посвящен особенностям порядка слов изучающих английский язык норвежских студентов, доклад Т. Эгана и Г. Равоенс — родовой характеристике заимствованных в норвежский из английского слов, А. Пешковой — прономинальному субъекту в испанском языке, Д. Майхрако-вой — словацким адъективно-субстантивным коллокациям типа vplnom roz-sahu, К. Бранкачкец — видовым формантам др.-верхнелужицкого языка.
С. Убервассер предложила проект корпусно-ориентированной мультирегиональной грамматики немецкого языка, Л. Шиманьски — опыт корпусного анализа польской интернет-коммуникации, С. Горохова — корпусный анализ речевых ошибок в русских спонтанных текстах, И. Иткин, С. Пере-верзева, М. Тюренкова—корпусное исследование русских ударных предлогов, Ю. Пакерис, Э. Римкуте и А. Утка — корпусный анализ деноминальных глаголов в современном литовском языке. На литовском же материале строился и доклад Э. Сейтловой о суффиксации девербативных глаголов.
М. Соколова и М. Иванова проанализировали соотношение морфемной и словообразовательной структур лексики «Словаря корневых морфем словацкого языка» и ее представления в Словацком национальном корпусе, А.-Р. Гредлер — гендерное оформление заимствованных слов в английском языке.
Суммируя изложенное, следует отметить, что Прага по-прежнему остается одним из крупнейших европейских и мировых центров корпусных исследований.
Конференция не только явилась неким итогом развития корпусной лингвистики за последние годы, но и наметила пути дальнейших исследований. По итогам конференции планируется издание электронного научного сборника. Часть выступлений планируется опубликовать в академическом журнале Korpus, Gramatika, Axiologie, см. http://www.ujc.cas.cz/casopisy/ korpus-gramatika-axiologie/.
Список литературы
Изотов А.И. Грамматика и корпус: Международная конференция в Праге // Вестн.
Моск. ун-та. Сер. 9. Филология. 2006. № 3. Изотов А.И. Грамматика и корпус: Очередная международная конференция по корпусной лингвистике в Чехии // Вестн.Моск. ун-та. Сер. 9. Филология. 2008. № 3. Изотов А.И. Чешский язык в синхронии и диахронии: столетние корни Института
чешского языка // Вестн.Моск. ун-та. Сер. 9. Филология. 2011. № 5. Gramatika a korpus / Grammar&Corpora 2005: Sbornik pffspévkù ze stejnojmenné konference, 23.-25.11.2005, sidlo AV CS v Praze / Sticha F., Simandl J. (Eds.). Praha: ÙJC AV CR, 2007.
Grammar & Corpora: Selected contributions from the conference Grammar and Corpora, Sept. 25-27. 9. 2007, Liblice / Sticha F., Fried M. (Eds.). Praha: Academia, 2008.
А.И. Изотов
Сведения об авторе: Изотов Андрей Иванович, докт. филол. наук, профессор кафедры славянской филологии филол. ф-та МГУ имени М.В. Ломоносова. E-mail: [email protected]