Корпус церковнославянского языка: возможности, методы создания, перспективы

Добрушина Екатерина Роландовна; Поляков Алексей Евгеньевич

Вестник ПСТГУ 111: Филология

2013. Вып. 1 (31). С. 32-44

Корпус церковнославянского языка:

ВОЗМОЖНОСТИ, МЕТОДЫ СОЗДАНИЯ, ПЕРСПЕКТИВЫ1 Е. Р. Добрушина, А. Е. Поляков

В мае 2012 г. открылся Корпус церковнославянского языка в рамках Национального корпуса русского языка. В статье описываются процесс создания Корпуса и методы решения различных проблем, например орфографического оформления и грамматической и ме-татекстовой разметки.

1. Церковнославянский корпус в составе Национального корпуса

Корпусная лингвистика в начале XXI в. бурно развивается во всем мире, и за это время Национальный корпус русского языка (http://ruscorpora.ru; далее — НКРЯ) стал, быть может, лучшим из национальных корпусов. По точной формулировке В. А. Плунгяна, одного из основных создателей и вдохновителей русской корпусной лингвистики, роль языкового корпуса в современном языкознании не меньше роли словарей в языкознании XX в. Тот язык, чье существование и изучение поддержаны специализированным лингвистическим корпусом, несомненно, имеет огромные преимущества в сохранении своего культурного потенциала перед языками, лишенными такой опоры. Поэтому создание в рамках НКРЯ Корпуса церковнославянских текстов2 — значимый шаг для поддержки и

'Авторы выражают искреннюю признательность за помощь в создании церковнославянского корпуса РГНФ и Программе фундаментальных исследований Президиума РАН «Корпусная лингвистика» (проект «Развитие Корпуса церковнославянских текстов»). Настоящая статья выполнена в рамках проекта РГНФ № 12-04-12045 «Электронная справочноинформационная система “Грамматический частотный словарь церковнославянского языка”». Кроме того, авторы благодарят за существенную помощь компанию Яндекс, в компьютерном пространстве которой существует весь Национальный корпус русского языка. Наконец, авторы благодарят рецензентов этой статьи А. И. Грищенко, Л. И. Маршеву и Р. Н. Кривко, замечания которых были по возможности учтены в представленной версии.

2 Помимо авторов данной статьи в создании церковнославянского корпуса на разных этапах его разработки в качестве создателей концепции, разработчиков и исполнителей технических задач, а также консультантов и вдохновителей работы принимали участие В. А. Плунгян (ПРЯ РАН), А. Г. Кравецкий (ИРЯ РАН), А. И. Зобнин (Яндекс), Т. Ю. Иванова-Алленова (ПСТГУ), А. В. Жирова (ПСТГУ), А. А. Плетнева (ИРЯ РАН), Л. И. Маршева (ПСТГУ), свящ. Феодор Людоговский (ИСл РАН), Р. Н. Кривко (ИРЯ РАН), И. В. Сегалович (Яндекс), свящ. Константин Польсков (ПСТГУ), а также группа из десяти студентов Филологического факультета ПСТГУ, обучающихся по специальности «Прикладная филология».

изучения богослужебного языка Русской Православной Церкви (см. ниже примеры возможностей Корпуса, раздел 9)3.

Помимо различных способов отражения современного русского языка, в последние годы создатели НКРЯ разрабатывают несколько специализированных корпусов, объединенных заголовком «Исторические». В этой рубрике планируется в течение нескольких лет открыть следующие корпусы, связанные с историей русского языка: корпус языка XVIII в.; корпус языка «среднерусского» периода; корпус языка древнерусского периода; корпус берестяных грамот. В настоящий момент из всех исторических корпусов создан и работает в пробной, пока не очень близкой к совершенной версии лишь один — «Корпус церковнославянских текстов» (ШрУ/гшсофога.га/зеагсЬ-огШИЬ.ЬПп!). Он включает тексты, созданные в XVII—XX вв. Разработчики Корпуса уверены в том, что церковнославянский — это язык современный, активно используемый определенной группой носителей языка; что он отличается от современного русского языка, в первую очередь, не историчностью, а сферой применения. Церковнославянские тексты в настоящее время используются в богослужении, текстовая база церковнославянского языка активно пополняется за счет новосоставлен-ных служб и акафистов, поэтому церковнославянский язык может описываться и как современный, и как язык, который занимает промежуточное положение между историей и современностью. В связи с этим помещение Церковнославянского корпуса в раздел исторических может показаться неудачным. Тем не менее создатели приняли это решение, считая, что церковнославянский язык по своим лингвистическим свойствам ближе к языку XVII—XVIII вв., чем к современному, тем более что методы создания Корпуса церковнославянского языка гораздо ближе к методам создания исторических корпусов, чем к методам создания различных корпусов современного русского языка.

2. Что представляет собой Церковнославянский корпус?

Лингвистический корпус — это собрание текстов, снабженных специальной разметкой, имеющее средства поиска по лингвистическим и метатекетовым параметрам и организующее выдачу примеров в удобном для филолога виде.

Церковнославянский корпус объединяет 1250 текстов, включающих около 4,6 млн словоупотреблений и около 150 тыс. различных словоформ. Для того чтобы наглядно представить, каков объем Церковнославянского корпуса, сравним его с объемом достаточно толстого книжного тома: в 2012 г. он аналогичен приблизительно 25 подобным томам.

Корпус представляет собой набор текстов, размеченных с двух точек зрения. С одной стороны, каждому тексту приписана метатекстовая информация, например о названии, периоде создания, жанре и др. Это, во-первых, дает возможность пользователю, получив пример на изучаемое явление, сразу же увидеть, в

’Также о Церковнославянском Корпусе см.: ДобрушинаЕ. Р., Иванова-Алленова Т. Ю., Поляков А. Е. Корпус Церковнославянских текстов в составе НКРЯ, первая версия: проблемы и решения // Материалы конференции «ЕГМапштр1-12. Информационные технологии и письменное наследие». Петрозаводск, 2012.

тексте какого типа он найден, во-вторых, дает возможность создания пользовательского подкорпуса, в котором собраны тексты нужного типа, чтобы осуществлять поиск только по ним (см. раздел 6 о метаразметке).

С другой стороны, каждая словоформа в Корпусе снабжена лингвистической информацией, которая включает словарную форму (лемму), грамматические признают и, в перспективе, очень краткое толкование. Это дает возможность поиска по лингвистическим параметрам, интересующим пользователя (примеры запросов см. ниже, в разделе 3).

3. Что можно искать в Корпусе?

Приведем пример того, сколько употреблений слова можно найти в Корпусе. Так, слово Богъ во всех формах находится в корпусе 43 222 раза, из них примерно 17 ООО с титлом. В дальнейшем должна быть введена опция «искать определенное слово» только в вариантах с титлом или только без, но пока можно найти только либо все формы слова сразу (при помощи лексико-грамматического поиска4), либо одну конкретную, например боже с титлом («бже» — 8 623 результата) или без титла («ббже» — 54 результата). Другой пример: при запросе всех форм глагола быти Корпус выдает 119 135 употреблений.

Найденные примеры на экране выглядят приблизительно также, как в классическом печатном церковнославянском тексте, но с некоторыми упрощениями, а именно: отсутствуют знаки придыхания, буквенные титла заменяются на буквы с надстрочным знаком, «юс малый» и «а йотированное» заменяются на «я», «оу» и «ук» заменяются на простое «у» и др. Вот так, например, выглядят примеры, скопированные со страницы выдачи результатов по запросу Богк

Шее, бурныхъ ытйппе: шее бже, воздвйгни мя пйдшаго (Акафист Сладчайшему Господу нашему Иисусу Христу);

Т&мже дёнь и нбщь къ теб4 да утреннюю, дёнь и нбщь да тебё жйжду, ы бже мбй! (Алфавит Духовный. Стихословия третия, рачительнаго к Богу вопиения).

Решение о таком нетрадиционном виде текста было принято разработчиками в итоге длительных раздумий и дискуссий. Конечно, такой «непарадный» вид церковнославянского текста не радует глаз, но зато любой пользователь сможет перенести в свой текстовый файл какой угодно пример и работать с ним, даже не устанавливая для этого никаких шрифтов. При использовании старых версий шрифтов типа Times часть символов будет отображаться как пустые квадраты, но в целом текст останется читаемым, а для комфортного просмотра церковнославянского текста достаточно установить на компьютер любой достаточно полный юникодный шрифт, например Arial Unicode MS. В дальнейшем будет введена опция, дающая возможность копировать примеры в полноценном графическом оформлении тем, у кого нужные шрифты установлены.

4 Поиск в Церковнославянском корпусе устроен пока по тем же принципам, что и в основном, хотя в дальнейшем должны быть введены специальные опции. В декабре 2012 г. появилась новая инструкция к НКРЯ, доступная на портале «Студиорум», которую можно использовать, чтобы разобраться, как осуществлять поиск.

Работает поиск по словарной форме (лемме) и грамматическим характеристикам. Можно искать определенные части речи, например, в корпусе можно найти более 600 примеров с употреблениями междометий, а именно следующих трех: сосанна, а>ле, увы. Можно искать по грамматической форме: например, получить примеры на все имеющиеся в Корпусе формы императива (более 99 тыс. форм) или аориста (более 98 тыс. форм). Можно получить примеры для любого выбранного слова (или нескольких слов) в заданной форме: так, при запросе глагола быти в формах имперфекта Корпус выдает почти 1500 употреблений.

Точно так же, как и во всем Национальном корпусе, можно искать сочетания слов с учетом грамматических характеристик. Например, по запросу «наречие + быти» находится около 3 тыс. сочетаний типа присно сый, блйзъ сущш, гдгь есть, свыше есть и др.

Поскольку часть грамматической разметки создавалась автоматическими методами (см. раздел 8) и эта разметка еще не выверена до конца, нередко в грамматических трактовках встречаются ошибки, но они, несомненно, постепенно будут устранены. Грамматическая омонимия в Церковнославянском корпусе не снималась5.

4. Доступ к полным текстам

Лингвистический корпус далеко не всегда является одновременно электронной библиотекой текстов. В библиотеке доступен любой текст во всем его объеме, тогда как корпус может выдавать лишь набор коротких примеров на запрошенное языковое явление без возможности перехода к тексту, из которого этот пример извлечен. Именно так организован Национальный корпус: в нем — в частности, из соображений авторских прав — пользователю не предоставляется доступ к полным текстам (исключением является лишь поэтический подкор-пус, в котором всегда есть переход к стихотворению в целом). К сожалению, хотя проблема авторских прав здесь, по всей видимости, не актуальна, на данном этапе Церковнославянский корпус по техническим причинам также не дает доступа к полным текстам, что, несомненно, иногда создает неудобства для пользователя. Возможно, в дальнейшем опция перехода к полному тексту будет создана, пока же почти все тексты, помещенные в Корпус, можно найти в полном виде в электронной «Библиотеке святоотеческой литературы» (http://orthlib.ru).

5. Какие тексты включены в Корпус?

Корпус включает тексты, заимствованные из церковнославянских книг, изданных типографским способом. Тексты, существовавшие лишь в рукописной традиции, в него не включены, как и издания, в которых церковнославянские тексты были изданы как памятники языка или литературы. Основу Корпуса церковнославянских текстов составляют современные богослужебные тексты XIX—XX вв. — их доля в Корпусе примерно 60%. Кроме того, представлен и бо-

5 О понятии «снятая омонимия» см. раздел 2.4 «Инструкции для пользователя Национальным корпусом», опубликованной на Образовательном портале Национального корпуса.

лее ранний период — тексты XVII—XVIII вв., а также тексты небогослужебного назначения: Священное Писание, святоотеческие, правовые, научные. Пример труда по церковному праву на церковнославянском языке — «Книга Правил святых апостолов, святых соборов, вселенских и поместных, и святых отцов». Пример научного труда на церковнославянском языке — одно из первых русских философских сочинений «Ифика иерополитика, или Философия нравоучительная», написанное и впервые изданное в Киеве в 1712 г.

Основным источником текстов для корпуса стала «Библиотека святоотеческой литературы» (http://orthlib.ru). Данный ресурс является результатом титанической работы по оцифровке и переводу в текстовый формат основных церковнославянских книг", но тексты в том виде, как они представлены в библиотеке, были не вполне пригодны для Корпуса. Во-первых, они записаны в нестандартной кодировке Н1Р, которая удобна для набора на клавиатуре, но неудобна для чтения и обработки. Во-вторых, тексты не имеют грамматической разметки, что делает невозможным лексический поиск. Поэтому все тексты, взятые из библиотеки, были существенно переработаны и дополнены для нужд корпуса. В текстах Корпуса изредка встречаются разного типа ошибки и опечатки (например, ошибки сканирования, к счастью, редкие, и вкрапления русскоязычных комментариев к текстам), которые устраняются разработчиками по мере обнаружения. В дальнейшем планируется расширить Корпус за счет текстов из других источников.

6. Метаразметка текстов корпуса

Метатекстовая разметка, основная концепция которой разработана А. Г. Кра-вецким, в настоящее время проводится только на уровне целого текста. Тексты делятся по жанрам, с одной стороны, и по типу нормы с точки зрения временного периода — с другой. Типы текстов обозначены «корпусными ярлыками», т. е. короткими условными обозначениями рубрик классификации, по которым тексты можно сортировать при создании пользовательского подкорпуса.

К сожалению, нет поиска по конкретной дате создания или издания текста, а сами тексты не сопровождаются датами. Дело в том, что определение дат для многих текстов требует отдельной длительной и кропотливой исследовательской работы, а иногда и вовсе не представляется возможным, более того, для тех текстов, где даты ясны, невозможно определить, в какой момент — их создания или их издания — производилась последняя языковая правка.

6.1. Метаразметка по жанрам. Функционируют следующие ярлыки: (1) «Писание» (это Библия, Служебное Евангелие и подборки паремий в богослужебных книгах, если они выделены в отдельную рубрику); (2) «святоотеческий»;

(3) «служба» (это все богослужебные чины и службы, а также подборки богослужебных текстов (богородичны, кондаки и т. д.) в составе разных сборников);

6 Разработчики Церковнославянского корпуса рады возможности выразить признательность создателям Библиотеки священнику Владимиру Шину и М. Ю. Шин за их трудоемкую и бескорыстную работу.

(4) «типикон»; (5) «акафист»; (6) «право» (один текст: «Апостольские правила»); «научный» (один текст: «Ифика Иерополитика»).

Жанровая разметка могла бы стать наиболее эффективно работающим инструментом классификации текстов, но на нынешнем этапе возможности подобной разметки сильно ограничены. Это связано с тем, что большая часть текстов имеет синтетический характер и в специальной разметке нуждается не просто текст в целом, но каждый его элемент. Так, например, в минейном или триодном последовании содержатся гимнографические тексты разных жанров. Сюда входят тропари, подразделяющиеся на богородичны, троичны, крестобогородичны и т. д., стихиры, возгласы, чтения из Священного Писания, уставные замечания и др. Точно так же в Типиконе содержится значительное число вкраплений из текстов, звучащих за богослужением.

В будущем предполагается создать метаразметку на уровне отдельных фрагментов текста (например, «кондаки», «тропари»), которые входят в состав больших текстов.

6.2. Метаразметка по типу нормы. Доступен отбор текстов по типу языковой нормы, связанной с периодом создания. Ф у н к ц и о н и р у ю т следующие ярлыки: (1) «архаичный тип» (например, «Добротолюбие»); (2) «гибридный тип» (например, «Алфавит Духовный»); (3) «стандартный тип» (это все тексты основных богослужебных книг, за исключением текстов XX в.); (4) «XX век» (это, в первую очередь, акафисты, например «Всем святым, в земле Российской просиявшим»).

Вопрос о принадлежности текста к тому или иному временному периоду или к тому или иному типу языковой нормы очень запутан. Дело в том, что, хотя мы утверждаем, что Корпус объединяет тексты, созданные в последние пять веков, реально многие тексты или их сегменты создавались (чаще — переводились) в более раннее время — начиная с IX в. Но все тексты подвергались нормализа-торской правке уже в эпоху книгопечатания, и с точки зрения языковых особенностей существенным является не время создания, а время, когда текст был отредактирован и приобрел тот вид, в котором существует в печатной традиции.

А. Г. Кравецкий так поясняет выделение вышеперечисленных четырех типов текстов по типу языковой нормы: «Центром корпуса следует считать тексты, напечатанные в XVIII — начале XX века. В это время ф у н к ц и о н и р о в ал а достаточно отлаженная система контроля за грамматической правильностью текста. Определяющим здесь было то, что государственные законы запрещали издавать церковную богослужебную литературу светским издательствам. На практике это означало, что почти все книги церковной печати издавались в трех синодальных типографиях. Здесь имелся штат редакторов (справщиков), обязанностью которых было наблюдение за языковой правильностью выпускаемых текстов и постепенная унификация выпускаемых изданий. Во второй половине XX века эти тексты воспроизводились без существенных изменений. Таким образом, при разметке текстов принципиальным оказывается то, проходил ли текст через руки типографских справщиков или нет. Среди текстов, не выправленных синодальными справщиками, можно выделить, с одной стороны, те, которые

были изданы до возникновения синодальных типографий и не переиздававшиеся впоследствии, а с другой — тексты, вошедшие в богослужебную практику после 1917 г., когда механизмы контроля за церковнославянской нормой были уничтожены. В некотором противоречии с тремя названными выше группами оказывается рубрика “Гибридные тексты”. Сюда включены некоторые тексты, написанные на гибридном церковнославянском, которые впервые были изданы без участия синодальных типографий, а затем перепечатывались уже этими типографиями. Однако радикальной языковой стандартизации для них проведено не было. Сейчас в Корпус включены два таких текста — “Алфавит духовный” св. Димитрия Ростовского и славянское “Добротолюбие”»7.

7. Особенности поиска в Корпусе

Основной особенностью поиска в Корпусе является возможность задавать искомое слово в нескольких орфографических вариантах: точном, упрощенном и модернизированном. Это удобно потому, что пользователь сможет найти нужное ему слово, даже если не уверен в его орфографии или затрудняется в введении со своей клавиатуры сложной буквы типа «ф». Например, если пользователь не уверен, как пишется нужное ему слово — через «е» или через «%», то он может, не тратя время на выяснение этого, просто ввести слово в модернизированном варианте орфографии, при котором эти буквы не различаются. Результаты поиска всегда будут выданы в одном орфографическом варианте — классическом церковнославянском.

В точном варианте орфографии используются все буквы, а именно 45 (плюс «титло»), в упрощенном — 39 букв, т. к. некоторые буквы совмещены (|«Ь> и «!»], [«V» И «V»], [«у» и «оу»], [«Я» И «А»] и др.), но сохраняются основные лексически значимые оппозиции («е» и «%», «з» и «в» и др.). В модернизированном варианте используются только 32 буквы, существующие в современном русском алфавите, например совмещены в одной клавише [«е», «е», «%»] или [«и», «Ь>, «I», «у», «V»]. Различия в типах орфографии можно увидеть, просто вызвав виртуальные клавиатуры упрощенного и модернизированного типов запросов и изучив надписи на клавишах, совмещающих буквы. Впрочем, для успешного пользования корпусом нет необходимости в этом разбираться. Варианты орфографии нужны исключительно для упрощения составления запроса.

8. Методы создания грамматической разметки корпуса

Как упоминалось выше, самое важное свойство лингвистического корпуса состоит в том, что любая словоформа в тексте снабжена грамматической информацией, по которой можно осуществлять поиск. Главная особенность подхода к описанию грамматики в Корпусе состоит в том, что, в отличие от традиционных грамматик, парадигмы не задаются априорно, а выводятся эмпирически на основе анализа множества словоформ, имеющих однотипное соотношение

1 Добрушина Е. Р, Кравещий А. Г., Поляков А. Е. Инструкция к Корпусу церковнославянских текстов. М., 2013 (на правах рукописи). Инструкция будет опубликована на сайте НКРЯ в 2013-2014 гг.

между грамматическими формами. Таким образом, номенклатура парадигм получается значительно более детальной и, будучи законченной, должна в эксплицитной форме включить тонкости словоизменения, которые, как правило, не учитываются или описываются в примечаниях. Например, традиционное первое склонение (рабъ) на самом деле распадается на 14 подтипов в зависимости от конечного согласного (парный твердый / мягкий, велярный, шипящий, йот), наличия беглого гласного и других особенностей. Все вариантные словоформы должны или быть включены в парадигму, или трактоваться как ошибки.

Грамматический словарь и грамматическая модель Корпуса создаются итеративно — методом последовательных приближений. Сначала из базы текстов был сгенерирован полный список словоформ и проведена его первичная проверка и чистка (исправлены явные ошибки). Затем для наиболее частотных слов была сделана ручная лемматизация, определены типичные словоизменительные шаблоны и таким образом построена первичная модель словоизменения.

Вот фрагмент словника, созданного методом ручной обработки словоформ. В первом столбце лемма в упрощенной орфографии, во втором обозначение части речи, затем форма по алфавиту и ее признаки. Грамматические обозначения даются в соответствии с принятыми в Национальном корпусе (А — прилагательное, plen / brev / comp — полн. / кр. / сравн. форма, sg / du / pi — ед. / дв. / мн. число, m / n / f — муж. / ср. / жен. род, nom / асс / gen / dat / ins / loe / voc — им. / вин. / род. / дат. / твор. / предл. / зват. падежи).

благій А блйгъ brev,sg,m,nom/acc

благій А блйже brev,sg,m,voc

благій А блйзи brev,pl,m,nom

благій А блйзі brev,sg,f,dat/loc brev,sg,m/n,loc

благій А блйзій plen,sg,f,dat/loc

благій А блйзЬмъ plen,sg,m/n,loc

благій А благи brev,pl,ins brev,pl,m,acc brev,pl,f,nom/acc

благій А благй brev,sg,f,nom brev,sg,m/n,gen

благій А благйго plen,sg,m,acc

благій А благйги plen,sg,m/n,gen

благій А благйя plen,sg,f,nom

благій А благая plen,pl,n,nom/acc plen,du,m,nom/acc

благій А блгія plen,sg,f,gen

благій А блгія plen,pl,m,accplen,pl,f,nom/acc

благій А блжМшая comp,plen,sg,f,nom

благій А блжМшіи comp,plen,pl,m,nom comp,plen,du,n/f,nom/acc

благій А блже brev,sg,m,voc

благій А блзш plen,pl,m,nom

благій А блзі brev,sg,f,dat/loc brev,sg,m/n,loc

Далее специальная программа на основе шаблонов разобранных словоформ попыталась анализировать другие словоформы, затем автоматически полученные разборы были проверены и исправлены вручную, снова была уточне-

на грамматическая модель, и т. д., пока не будут проанализированы все слова и устранены все ошибки грамматического разбора. На последнем этапе должны быть разобраны вариантные и уникальные словоформы и принято решение о том, что с ними делать: исправить, включить в словарь, считать исключением, игнорировать.

Параллельно с работой над словарем разрабатывается грамматическая модель церковнославянского словоизменения: грамматические таблицы, номенклатура парадигм, состав грамматических признаков, правила порождения словоформы по лемме, список чередований и др. Приведем фрагмент грамматической таблицы для прилагательных:

Парадигма АН (мудр+ый) АЦ (син+ш) Alg (благ+ш)

sg,m,nom/acc мудр+ый СИН+1И благ+ш

sg,n,nom/acc мудр+ое син+ее благ+ое

sg,m/n,gen мудр+агы син+ягы благ+агы

sg,m,acc мудр+аго син+яго благ+аго

sg,m/n,dat мудр+ому син+ему благ+ому

sg,m/n,loc мудр+Ьмъ син+емъ блаз+Ьмъ

sg,m/n,ins мудр+ымъ син+имъ благ+имъ

sg,f,nom мудр+ая син+яя благ+ая

sg,f,acc мудр+ую син+юю благ+ую

sg,f,gen мудр+ыя син+1я благ+1я

sg,f,dat/loc мудр+Ьй/ой син+ей блаз+Ьй

sg,f,ins мудр+ою син+ею благ+ою

р1,т,пот мудр+ш СИН+1И блаз+ш

р1,т,асср1,£,пот/асс мудр+ыяЛ син+1я благ+1ял

р1,п,пот/асс мудр+аяЛ син+яя благ+аял

р1^еп/1ос мудр+ыхъ син+ихъ благ+ихъ

рЬсМ мудр+ымъЛ син+имъл благ+имъл

рЦш мудр+ыми син+ими благ+ими

с1и,т,пот/асс мудр+аял син+яял благ+аял

с1и,пД,пот/асс мудр+Ьи син+ш блаз+Ьи

с1и^еп/1ос мудр+уюл син+ююл благ+уюл

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

с1и,с1а1/т8 мудр+ыма син+има благ+има

В процессе разработки словарь и модель постоянно корректируются и согласуются между собой.

9. Возможность изучения вариативности

Корпус особенно привлекателен тем, что дает возможность изучения реальной графической, орфографической и грамматической вариативности церковнославянского языка и создания на базе такого изучения более точной, соответствующей реальному узусу модели языка. Приведем три простых примера подобных возможностей Корпуса.

9. 1. В грамматиках дается список слов и корней, которые обычно пишутся под титлом: аггелъ, апалъ, бгъ, /дь, млстъ, мти, стый, члвкъ и др8. Возникает вопрос: всегда ли эти корни пишутся именно так (под титлом), а если нет, то как еще они могут писаться? Ответ на этот вопрос может дать только Корпус. В результате анализа разных написаний в Корпусе оказывается, что, например, корень апостол- может писаться тремя способами: апостол- (полностью раскрыто), апал- (полностью сокращённо), апстол- (частично сокращённо); основа прилагательного ангелъскт пишется тремя способами: аггельск-, агглск-, агглъск-. Без Корпуса выявление всех реально встречающихся вариантов было бы просто невозможно.

9.2. В грамматиках написано, что слова с суффиксом -тель типа дтлателъ могут иметь особые формы им. мн. на -е. (дтлателе, как агаряне) и на че (дтлател1е, как цар/е)4. Крометого, они могут иметь стандартные формы на-и (как дшатели). Естественно, возникает вопрос о том, какие из этих форм реально встречаются и какие более частотны. Решить его можно только при помощи Корпуса, который дает следующую статистику: дшатели — 36 раз, дтлател1е. —18 раз, дтлателе — 13 раз. Таким образом, чаще всего употребляется стандартная форма, за ней идет форма на че., а затем на -е. Для получения достоверных выводов нужно проверить остальные слова с суффиксом -тель, а также другие слова с аналогичными особенностями (-арь и т. д.).

9.3. Церковнославянский язык является неоднородным по своему грамматическому строю. Некоторые грамматические формы совпадают с русскими, а несовпадающие, происходящие от старославянских, могут вытесняться эквивалентными русскими формами. Например, наряду со старославянской формой въ сердцы встречается русская форма въ сердцгь, предложный падеж множественного числа слов 1-го скл. имеет формы селшъ/селахъ, знамешихъ/знамешяхъ, но только мужахъ, моряхъю. Однако процесс вытеснения церковнославянских форм русскими изучен недостаточно, а для получения достоверных результатов нужен Корпус.

10. Частотный грамматический словарь церковнославянского языка

Ближайшей задачей, решение которой позволит упростить и систематизировать работу с Корпусом, является задача создания специального грамматического словаря. Этот словарь будет содержать список всех найденных в базе текстов словоформ, систематизированных по объединяющим их леммам и снабженных информацией о количестве употреблений в текстах Корпуса. Приведем пример информации для словарной статьи такого словаря. Числа соответствуют количеству употреблений; перевод на русский дается в упрощенном виде без учета многозначности11; грамматические обозначения: А — прилагательное, V — глагол, ¿р!-— несовершенного вида, ¡Шг — непереходный.

8См.: Алипий (Гаманович), иеромон. Грамматика церковно-славянскаго языка. 1огс1ашШе, N. У., 1964. С. 21. § 3.

9 Там же. С. 47. §37.

10См.: Алипий (Гаманович), иеромон. Указ. соч. С. 43—45. § 34—35.

11 Создание современного толкового словаря церковнославянского языка, содержащего

благш А (4840)

хороший; добрый

блйги (24), блйгшымъ (1), блйгъ (183), блйже (30), блйзи (13), блйз'Ь (32), блйзЪй (3), блйзЪмъ (1), благи (17), бл arä (22), бл aräro (12), бл arära (84), благйя (53), благая (240), благами (45), благймъ (56), благйхъ (301), благймъ (45), благбе (176), бл агбй (7), бл агбму (37), бл агбмъ (12), бл агбю (12), благую (38), блапе (3), благш (6), благш (83), благш (21), благш (18), блажййшая (2), блажййшее (1), блажййшш (1), блазш (14), блаз^мъ (1), блга (68), блгй (9), блгйго (52), блгйгы (56), блгйя (310), блгая (168), блги (10), блгйми (49), блгймъ (234), блгйхъ (394), блгймъ (21), блго (227), блгбе (188), блгбй (9), блгбму (48), блгбмъ (9), блгбю (10), блгу (16), блгую (46), блгъ (483), блгш (3), блгш (279), блгш (13), блгш (20), блжМшая (1), блжййшш (1), блже (517), блзш (1), блз% (4).

благоволйти V, ipf, intr (567)

доброжелательствовать, благодетельствовать, изъявить милость

благоволй (66), благоволй (2), благоволйвша (1), благоволйвшаго (9), благоволйвшаго) (2), благоволйвше (1), благоволйвшему (8), благоволйвшу (1), благоволйвшш (1), благоволйвъ (4), благоволйвый (15), благоволила (5), благоволйлъ (27), благоволймъ (4), благоволйте (1), благоволйти (1), благоволйтъ (17), благоволйхомъ (5), благоволйхъ (9), благоволйша (6), благоволйши (3), благоволи} (3), благоволяй (1), благоволятъ (5), благоволяща (2), блговолй (127), блговолй (8), блговолйвшаго (13), блговолйвшагы (2), блговолйвшая (1), блговолйвшему (5), блговолйвъ (3), блговолйвый (42), блговолйла(10),блговолйлъ(72),блговолйти(4),блговолйтъ(24),блговолйхъ(15), блговолйша (4), блговолйши (34), блговолкЗ (3), блговолятъ (1).

Помимо информации о перечне форм и их статистике, статья должна содержать отсылку к типу словоизменения, инвентарь которых в данный момент уточняется, и грамматическую характеристику каждой формы. Очень важным сервисом такого словаря (который будет доступен в интернете) является возможность одним щелчком мыши перейти от интересующей словоформы к полному перечню примеров употребления этой словоформы в Корпусе.

11. Планы усовершенствования

Конечно же, Корпус требует значительной доработки и развития. Хотелось бы в будущем сделать следующее:

— снабдить Корпус справочными материалами о его особенностях и составе текстов, облегчающими пользователям работу с корпусом;

— снабдить Корпус кратким словарем, поясняющим термины, использованные в разметке текстов;

подробную информацию о семантике и многозначности лексем, — это другая задача, для которой описываемый здесь словарь должен стать грамматической базой. Разработка толкового словаря ведется в настоящий момент в ИРЯ им. В. В. Виноградова группой исследователей, в которую входят А. Г. Кравецкий (ИРЯ РАН), А. А. Плетнева (ИРЯ РАН), свящ. Феодор Людо-говский (ИСл РАН) и др.

— выверить грамматические характеристики словоформ, приписанные автоматически, и устранить ошибки;

— приписать леммы и грамматические характеристики словоформам, оставшимся неразобранными в результате программного анализа;

— произвести путем анализа необработанных слов и их значений в текстах поиск ошибок, возникших при наборе текстов, и исправить их;

— проанализировать значение лемм, определенных разметчиками как имена нарицательные, и приписать тем из них, перевод которых на русский язык неясен без привлечения специальных знаний, краткое толкование, доступное пользователю вместе с грамматической характеристикой при нажатии на выбранное слово на странице результатов поиска;

— проанализировать значение лемм, определенных разметчиками как имена собственные, подтвердить или отвергнуть это решение и определить для каждого имени собственного лексико-семантический класс: имя, топоним и др. Такая работа позволит расширить представления о лексическом составе церковнославянского языка и употребляющихся в нем имен собственных, даст возможность ликвидировать ошибки массовой разметки, а также пользователям легче понимать содержание полученного текста;

— снабдить Корпус списком основных лемм и создать для пользователя возможность переходить к поиску интересующей его леммы непосредственно из алфавитного списка, что во многом решит проблемы, связанные с вариативностью орфографии и наличием в запросах букв, требующих специальных шрифтов или использования виртуальной клавиатуры12.

* * *

Описанная здесь версия Корпуса церковнославянских текстов, созданная за два года, весьма далека от совершенства, и впереди еще долгий путь. Но мы очень надеемся на то, что и в существующем сейчас виде Корпус может значительно помочь в любой работе, связанной с изучением и описанием церковнославянского языка или созданием текстов на нем.

Ключевые слова', церковнославянский язык, корпусная лингвистика, частотный словарь, грамматический словарь, морфология, словоизменение, язык богослужения, информационная система, база данных.

п Также для изучения церковнославянского языка был бы очень ценен параллельный церковнославянско-греческий корпус, но это требует настолько трудоемкой работы, как научной, так и технической, что на данный момент о реализации подобного проекта можно только мечтать.

Church Slavonic Corpus: Opportunities, Methods of Compiling, Prospects

E. Dobrushina, A. Polyakov

In May 2012 the Corpus of the Church Slavonic Language became available online within the framework of the Russian National Corpus. The paper describes the process of compiling the Corpus as well as methods of resolving various problems, such as orthographic representation, grammatical tagging and metatext markup.

Keywords'. Church Slavonic, Russian, corpus linguistics, frequency dictionary, grammatical dictionary, morphology, inflection, text analysis, liturgical language, information system, database.

Корпус церковнославянского языка: возможности, методы создания, перспективы Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Добрушина Екатерина Роландовна, Поляков Алексей Евгеньевич

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Добрушина Екатерина Роландовна, Поляков Алексей Евгеньевич

CHURCH SLAVONIC CORPUS: OPPORTUNITIES, METHODS OF COMPILING, PROSPECTS

Текст научной работы на тему «Корпус церковнославянского языка: возможности, методы создания, перспективы»