М. С. Морозова, Т. А. Архангельский, М. А. Даниэль, А. Ю. Русаков
ИЛИ РАН- СПбГУ, Санкт-Петербург, НИУВШЭ, Москва, ИЛИ РАН -СПбГУ, Санкт-Петербург
АЛБАНСКИЙ НАЦИОНАЛЬНЫЙ КОРПУС: ОСНОВНЫЕ НАПРАВЛЕНИЯ РАБОТЫ1
Одним из приоритетных направлений современной прикладной лингвистики является создание языковых корпусов, представительных по отношению к языку в разные периоды его истории и во всем многообразии его жанров, стилей, а также, в идеале, территориальных и социальных вариантов. Подобный корпус представляет собой, в первую очередь, эффективный и полезный инструмент как для осуществления синхронно-сопоставительных исследований в области лексики и грамматики, так и для изучения диахронических изменений в языке, которые можно проследить по текстам различных периодов. Другая задача корпуса — предоставление справочной информации широкому кругу пользователей, в который входят уже не только лингвисты, но и все носители языка, представленного в корпусе, а также те, кто изучает этот язык как иностранный.
Для албанского языка — индоевропейского языка, на котором говорят около восьми миллионов человек — корпуса ранее не существовало. Он начал создаваться в 2011 г. совместными усилиями специалистов из Москвы и Санкт-Петербурга2. Текущая версия Албанского национального корпуса (далее АНК) доступна
1 Работа выполнена при поддержке гранта РГНФ № 14-04-00581 «Корпусные
исследования балканских языков».
2
Московская группа ученых во главе с В. А. Плунгяном (одним из руководителей и активных участников проектов «Национальный корпус русского языка» (НКРЯ) и «Восточноармянский национальный корпус» (ВАНК)) обеспечивает программно-техническую поддержку и предоставляет консультативную помощь в решении различных вопросов, связанных с созданием и расширением АНК. Группа исследователей из Санкт-Петербурга, представляющих ИЛИ РАН и СПбГУ (руководителем которой является один из авторов настоящей статьи — А. Ю. Русаков), занимается отбором текстов и расширением текстовой базы, разработкой разметки, а также созданием грамматического словника.
онлайн: http://web-corpora.net/AlbanianCorpus/search/. Объем АНК составляет почти двадцать миллионов словоупотреблений (по состоянию на декабрь 2016 г.). Текстовая база включает литературные, публицистические, научные, официально-деловые, религиозные тексты. Проект запланирован как корпус «открытого» типа (в отличие, к примеру, от Британского национального корпуса), то есть подразумевает постоянное пополнение.
1. Состав АНК: пополнение и проблемы, связанные с включением в него текстов
Для наиболее полного отображения тех или иных языковых явлений необходим лингвистический корпус, который характеризуется большим объемом и представительностью ([Даниэль идр. 2009: 10; Захаров 2005; Плунгян 2005] и др.). Соответственно, одной из задач, стоящих перед создателями АНК, является не только постоянное расширение текстовой базы корпуса, но и обеспечение пропорционального представления в нем текстов различных жанров, стилей, авторов, периодов. Соотношение между текстами разных типов при этом должно быть лингвистически осмысленным или, по крайней мере, эксплицитно обоснованным. Необходимо следить, например, за тем, чтобы, помимо текстов на стандартном албанском языке, который традиционно является основным объектом исследования и используется, прежде всего, в художественной прозе, в АНК были представлены и тексты на иных вариантах языка.
1.1. Письменные тексты
Для того чтобы корпус был действительно представительным, в него должны попасть образцы по возможности всех существующих в языке типов письменного дискурса, созданные в разные исторические периоды. Вплоть до настоящего времени работа велась над составлением и расширением основного подкорпуса, который включает тексты на современном литературном албанском языке с начала 1950-х гг. по настоящее время. В дальнейшем планируется создание в рамках АНК нескольких подкорпусов, в которые войдут тексты на формах письменного языка, бытовавших до перехода к единому литературному стандарту, а также — частично — наряду с этим стандартом. Это тексты периода албанского Национального Возрождения;
тексты на южногегском и северногегском вариантах языковой нормы; созданные до начала 1950-х гг. тексты на формах письменного языка, основанных на тоскском диалекте; литературные тексты ар-берешей Италии. Задачей отдаленного будущего является формирование в рамках АНК подкорпуса «ранних» текстов, созданных в период до 1840-х гг. Сохранение аутентичной орфографии в этих текстах способно сделать АНК ценным инструментом для исследования албанской письменной традиции, но подразумевает весьма кропотливую работу (в том числе технического характера) и, вообще говоря, не предусмотрено в аналогичных проектах, ориентированных в первую очередь на лексико-морфологические исследования. Так, и в НКРЯ, и в ВАНК дореформенные тексты представлены в том унифицированном виде, в котором они публикуются в современных изданиях, а не в старой орфографии.
Надо сказать, что с проблемой формальной унификации текстов разработчикам АНК приходится сталкиваться уже сейчас, в ходе создания подкорпуса текстов на современном литературном албанском языке. Как правило, сканированные тексты из открытых источников, отбираемые для включения в данный подкорпус, изобилуют искажениями разного рода, имеют расхождения в отображении пунктуационных знаков и отдельных знаков албанской графики (например, ё) и содержат многочисленные недостатки распознавания. Поэтому уже на данном этапе большинству текстов перед добавлением в АНК требуется вычитка и ручная правка.
1.2. Подкорпус устной речи
Для полного и адекватного представления о процессах, которые происходят в современном албанском языке, необходимо дальнейшее расширение рамок АНК и включение в него, наряду с письменными текстами, также и образцов устной речи — различных по степени подготовленности или спонтанности, относящихся к разным сферам общения, произнесенных в разных условиях. Источником устных текстов могут быть, например, записи интервью, радио- и телевизионных передач, а также (в идеале) записи повседневных разговоров на улице, в учреждениях и в домашней обстановке. Создание данного подкорпуса является, впрочем, задачей достаточно отдаленного будущего и в настоящей статье подробно не обсуждается.
1.3. Электронная коммуникация
Еще один тип текстов, которые могут быть включены в АНК, это так называемая «электронная коммуникация» (e-mail переписка, чаты, блоги, форумы). В такого рода текстах фактически представлено «спонтанное письменное самовыражение, дающее очень своеобразный гибрид устной и письменной речи» [Плунгян 2005:10]. Некоторые языковые явления встречаются только или преимущественно в текстах этого типа. Именно тексты алба-ноязычной электронной коммуникации наиболее сложны для обработки и разметки — из-за обилия разговорных дублетов, которые обычно не используются на письме и отсутствуют в словарях, высокой орфографической вариативности и т. д.
1.4. Диалектный подкорпус
Включение в АНК диалектной речи представляет собой отдельную задачу, решение которой сопряжено с рядом проблем. Во-первых, это проблема унификации текстов, собранных и записанных в разное время и разными людьми, с использованием систем записи, которые иногда достаточно сильно отличаются друг от друга. Во-вторых, лексически и морфологически ориентированная стратегия разметки, которая характеризует АНК в целом, предполагает, что в диалектном подкорпусе будут учитываться только те отличия от литературного языка, которые имеют отношение к лексике и грамматике или отражаются на морфологических характеристиках лексем и словоформ (меняют тип словоизменения, приводят к возникновению новых типов грамматической омонимии). Фонетические и фонологические особенности, существенные для всякого диалектологического исследования, практически не находят отражения в АНК. Графическая система, используемая АНК в настоящее время (стандартная албанская графика), способна отразить лишь некоторые явления, которые, несомненно, относятся к числу фонологических диалектных различий (например, отсутствие ударного ё в гегских диалектах). Полноценное представление в АНК всего многообразия фонетико-фонологических особенностей албанских говоров потребует внедрения в графику дополнительных знаков — к примеру, для назальных гласных и долгих гласных, которые в гегских диалектах имеют фонологический статус. При этом нужно понимать, что использование подробной системы обозначений,
отражающей все диалектные варианты реализации фонем (см., например, в [ADGjSh 2007]), в АНК вряд ли возможно. Поэтому следует определить круг наиболее показательных и частотных фонетических явлений, которые традиционно считаются существенными для диалектного варьирования албанского языка, и разработать для них обозначения с опорой на существующие системы записи.
Одной из стратегий, на которую можно ориентироваться в этом случае, является система подачи информации в диалектном корпусе НКРЯ или Хельсинкском корпусе диалектов английского языка (Helsinki Corpus of British English Dialects). Диалектные тексты записываются стандартной орфографией, при этом запись отражает специфику устной речи (редукция, паузы хезитации и другие речевые сбои):
(1а) Образец записи диалектного текста в диалектном корпусе НКРЯ (http://www.ruscorpora.ru/search-dialect.html): Здесь вот у нас на... на... лично про саму себя скажу: у нас раньше всё у нас прозвищё было... э... вот мамин отец рубил избу... свою свою собственный дом рубил. И ему... ему это место, он дом этот срубил, а ему всё гът, как придут, кто задёт гът: «Ой! У Олександра Ласточкина как бе... в избе да как у птички в этом... в гнёздышке». Вот нас всё прозвали Ласточкины
[Люди и их прозвища (Архангельская область, 2001)]
(1б) Образец записи диалектного текста в одном из подкорпусов Хельсинкского корпуса диалектов английского языка (http://www.helsinki.fi/varieng/CoRD/corpora/Dialects/editing.html): [О: DID YOU DO ANY DITCHES?]
Ditches as well. They used to dug out, they uset' clean all around the ditches out, by hand = spade and shovel
Другой альтернативой, предположительно, является система отображения диалектных текстов, в которой предусмотрено два уровня записи: оригинальная диалектологическая транскрипция, в которой текст был записан и, возможно, издан (такая транскрипция может быть более или менее авторской) и полностью унифицированная запись, приближенная к албанской графике либо основанная на МФА/1РА.
Кроме того, нужно будет обратить внимание на ряд диалектных явлений, не учтенных в начальной версии грамматического
словника и связанных, в первую очередь, с высокой степенью вариативности диалектной речи. К подобным особенностям могут быть отнесены, к примеру, диалектные отклонения от стандартного словоизменительного типа, имеющие характер аналогических переносов.
(2) Парадигма глаголов на -5/-Ь в говоре Опара: в ед. ч. обобщена форма с конечным -Ь, а во мн.ч. парадигма образуется по образцу парадигмы «первого спряжения» на - (на примере глагола керш) 'обрываю':
говор Опара3 литературный албанский язык
180 кёриЬ кёрт
280 кёриЬ кёриЬ
380 кёриЬ кёриЬ
1РЬ кёрщтё кёриЬт
2РЬ кёрип кёризт
3РЬ кёрщпё кёрМт
[Десницкая 1968: 315]
Лексическая вариативность в диалектных текстах также проявляет себя в большей степени, чем вариативность лексических единиц современного албанского литературного языка. В большинстве албанских диалектов она выражается в сосуществовании нескольких лексем с одним и тем же значением, часть из которых имеет соответствия в общеалбанском, а часть является сугубо диалектной.
(3) Варианты местоимения 'что' в говоре Лешни (краина Скрапар): д ~ дё ~ д[ат ~ дат ~ д[атё ~ хИё (ср.: лит. алб. д', ([агё) 'что'
[Соболев, Юллы 2002: 24]
Отражение в АНК этих и иных отклонений от литературной нормы потребует расширения грамматического словника. Кроме того, возникает вопрос о необходимости аннотирования случаев, существенных с точки зрения анализа особенностей диалектных текстов, то есть отражения диалектной специфики в разметке с по-
4
мощью новых помет .
3 Здесь и далее в этой статье диалектные примеры приводятся в стандартной албанской орфографии в соответствии с источником.
4 Предложения о дополнительных пометах для диалектного подкорпуса НКРЯ см., например, в [Летучий 2005].
Дополнительную трудность для лексико-морфологического анализа создают случаи нестандартного употребления словоформ, характерные как для общеалбанской разговорной речи, так и для диалектных текстов. Например, нестандартное (с точки зрения нормы) употребление одной падежной формы вместо другой: формы генитива-датива личных местоимений 1 и 2л. мн.ч. в функции номинатива (см. пример (4а)), употребление формы номинатива-аккузатива личного местоимения 1л. мн.ч. в функции генитива-датива (5а). Подобные словоупотребления требуют специальной интерпретации и эксплицитно сформулированного описательного решения:
ДИАЛ.АЛБ. (4а) neve jeto-jm
1PL.GEN/DAT жить-PRS.tPL 'Мы живем в Лешне'
ЛИТ. АЛБ.
(4б) ne jeto-jmë
1PL.NOM/ACC жить-PRS. 1PL 'Мы живем в Лешне'
ДИАЛ.АЛБ.
(5а) po ne
EMPH 1PL.NOM/ACC
moll
яблоком G.ACC.INDF
'Дашь нам яблоко?' ЛИТ. АЛБ.
(5б) po neve
EMPH 1PL.GEN/DAT
то11ё
яблOKO.SG.ACC.INDF
'Дашь нам яблоко?'
Наконец, лемматизация, принятая в основном корпусе, не всегда приемлема для диалектного подкорпуса. В таких случаях необходимо постулировать существование специальной (диалектной) исходной формы и лемматизировать диалектные
пё Leshnje в ЛеШHЯ.SG.ACC.INDF
[Соболев, Юллы 2002: 80]
пё Leshnjë в ЛеШHЯ.SG.ACC.INDF
do=na=jap^sh njё
FUT = 1PL=ДаваTЬ-SBJV.PRS.2SG INDF
[Соболев, Юллы 2002: 81]
do=të=na=jap-ësh njё
FUT=SBJV=1PL=ДаваTЬ-SBJV.PRS.2SG INDF
словоформы именно по ней. Например, для большинства тоск-ских (стандартных) и гегских (диалектных) причастий исходной является форма 1 л. настоящего времени «стандартного» глагола, поскольку в этом случае нет оснований считать, что в диалекте существует нелитературная лексема; скорее нужно говорить об отличном от литературного грамматическом показателе: shko-j <идти-РК8.1 SG> 'иду' ^ лит. алб. (тоск.) shkua-r <идти-РТСР> 'шедший'; диал. алб. (гег.) shkue/shku <идти.РТСР> 'шедший'. Однако причастия от глаголов на -uaj/ -uej, по всей видимости, должны составлять исключение из этого «правила» и лемматизироваться в грамматическом словнике по литературной и диалектной леммам соответственно: лит.алб.(тоск.) shkrua-j <писать-PRS.lSG> 'пишу' ^ shkrua-r <писать-РТСР> 'написанный'; диал. алб. (гег.) shkrue-j <писать-PRS.lSG> 'пишу' ^ shkrue/shkru <писать.РТСР> 'написанный'.
Для представления в АНК вариативных форм существительных, например, uji (лит. алб., амбиген.) / ujte (диал. алб., устар., ср. р.) / ujti (диал. алб., м.р.) <вода^.шм.ОЕР> 'вода' [Buchholz, Fiedler 1987: 210; ADGjSh 2007: 209] также следует производить лемматизацию и по литературной, и по диалектной лексеме: uje (лит. алб., амбиген.; диал. алб.,устар., ср. р.) / ujte (диал. алб., м. р.) 'вода'.
Этот способ лемматизации, безусловно, имеет свои недостатки. Как правило, видя диалектную словоформу, можно только предполагать, как выглядит ее исходная форма и совпадает ли она с исходной формой в литературном языке. При этом вариативность в диалектах настолько высока, что словоформы, которые относятся к разным исходным формам (леммам) одной и той же лексемы, могут встретиться даже в пределах одного текста. Это характерно, к тому же, и для современной письменной речи, в особенности для языка газет и литературных произведений современных македонских и косовских албаноязычных авторов: наряду со стандартными, в тексте могут употребляться и диалектные словоформы, что в одних случаях является писательским приемом (диалектная речь персонажей) или, к примеру, способом цитирования респондентов газетного интервью, а в других, вероятно, отражает недостаточное владение литературной нормой. В такой ситуации, чтобы пользователь мог найти все интересующие его словоформы (например, все причастия, независимо от того, являются
ли они литературными или диалектными) посредством одного поискового запроса, при составлении грамматического словника АНК у диалектной лексемы дается «лексическая ссылка», равная стандартизованному варианту (например: диалектная лемма shkruej 'пишу' снабжается «лексической ссылкой» shкruaj). Тогда среди результатов поиска по литературной лемме будут также все диалектные словоформы, исходная форма которых снабжена «лексической ссылкой».
2. Разметка в АНК
Главной особенностью любого языкового корпуса, которая отличает его от электронных библиотек и других собраний текстов в электронной форме, является его научный аппарат — разметка или аннотация. Система аннотации больших корпусов обычно включает в себя как минимум лексико-морфологическую разметку, которая дает пользователю возможность искать любые слова или сочетания слов по определенным морфологическим параметрам (то есть в определенной грамматической форме), а также метатекстовую разметку, то есть классификатор текстов по ряду метапризнаков, с учетом которых пользователь может при необходимости выбрать нужное ему подмножество текстов — пользовательский подкорпус — и осуществлять в нем дальнейший поиск.
Многие современные корпуса содержат элементы семантической и синтаксической разметки, а также некоторые другие типы лингвистической и экстралингвистической разметки (см., например: НКРЯ, ХАНКО5, КГТ6), однако для АНК эта работа является пока отдаленной перспективой. АНК содержит два основных уровня разметки: метатекстовая и лексико-морфологическая7. Параметры метаразметки доступны пользователю в окне «Подкорпус». Инвентарь лексико-морфологических помет расшифровывается в виде
5 ХАНКО — Хельсинкский аннотированный корпус русского языка, работа над которым ведется на отделении славянских и балтийских языков и литератур Хельсинкского университета.
6 КГТ (Корпус газетных текстов) — «Компьютерный корпус газетных текстов русского языка конца XX века», создававшийся в 2000-2002 гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ.
Кроме того, тексты АНК снабжены вспомогательной разметкой (пунктуация, учет регистра), параметры которой доступны для выбора в диалоговом окне «Дополнительно» и могут быть учтены при формировании поискового запроса.
грамматических терминов в окне «Грамматика и части речи» и может быть использован для формирования поисковых запросов по грамматическим признакам. Поиск можно осуществлять по словоформе, лемме и переводу, а также по последовательности словоформ (или, точнее говоря, по одновременному вхождению в текст). В последнем случае необходимо ввести каждую из искомых словоформ в отдельной поисковой строке и задать расстояние между ними в словах. Контекст выдачи равен одному предложению, но может быть расширен до семи предложений (по три предложения слева и справа от того, в котором встретилась искомая словоформа) по запросу пользователя.
2.1. Метаразметка АНК
Метаописания документов в текущей версии АНК следуют образцу ВАНК и содержат информацию следующего характера:
1) автор;
2) название текста;
3) время создания текста (здесь можно задать год, либо временной период создания произведения — если оно создавалось в течение многих лет или если точный год его создания неизвестен);
4) сфера функционирования текста (художественная литература, нехудожественная литература, устная речь) с детализацией по жанру (для художественной литературы — рассказ, роман, пьеса; для нехудожественной — мемуары, эссе и т. п.).
На данном этапе система, существующая в АНК, на наш взгляд, достаточна для его использования, однако с расширением АНК и, соответственно, увеличением многообразия текстов разных жанров, периодов и тематик, вероятно, потребуется и дальнейшая детализация системы метаразметки. Некоторые изменения и дополнения могут быть внесены, к примеру, с опорой на ме-таразметку НКРЯ, которая, по-видимому, является одной из самых детальных в мировой практике (подробнее см.: [Савчук 2005]).
2.2. Морфологическая разметка АНК. Принципы обработки текстов
Разметка АНК включает в себя набор лексических и морфологических помет (тегов), приписываемых словоформам в результате обработки текстов АНК программой-лемматизатором (морфологическим парсером), а также английские переводные
эквиваленты. На странице с результатами поиска информация о каждой словоформе отображается во всплывающей подсказке8:
(6) Информация о словоформе djalin 'мальчика (ед.ч., аккузатив)' в АНК:
а) лемма (исходная форма слова): djalë;
б) словоклассифицирующие характеристики, то есть множество грамматических признаков данной лексемы: NOUN (часть речи — существительное), m (род существительного), anim (одушевленность); словоизменительные характеристики, то есть множество грамматических признаков словоформы (число, падеж, определенность существительного): sg, acc, def;
в) перевод: boy.
Так же, как и в ВАНК9, в основе метаязыка грамматических помет АНК находится система тегов, в целом соответствующих списку, предложенному в Лейпцигских правилах глоссирования10.
Единообразное представление информации в АНК обеспечивается морфологическим стандартом. Разработчики стандарта для АНК исходили из принципов, сформулированных в [Ляшевская и др. 2005]. Стандарт определяет инвентарь морфологических признаков, состав парадигмы лексемы, ее исходная форма, а также представления о грамматической норме и ее отображении в АНК. Например, стандартом для НКРЯ является «Грамматический словарь русского языка» А.А.Зализняка [1977]. Морфологический стандарт АНК основывается на «Грамматике албанского языка» Оды Бухольц и Вильфрида Фидлера [Buchholz, Fiedler 1987].
Для автоматической разметки текстов АНК используется морфологический анализатор UniParser [Архангельский 2012]. С помощью парсера всем словоформам в тексте приписывается
информация об исходной форме (лемме) и о совокупности
8
Для одновременного вывода информации обо всех словоформах в выдаваемом контексте на экран следует выбрать параметр «глоссированный формат выдачи» в диалоговом окне «Настройки выдачи».
9 Подробнее о разметке, грамматическом словаре и морфологической модели ВАНК см.: [Даниэль и др. 2009].
10 Leipzig Glossing Rules. Conventions for interlinear morpheme-by-morpheme glosses (http://www.eva.mpg.de/lingua/resources/glossing-rules.php). Правила, разработанные Бернардом Комри, Мартином Хаспельматом и Бальтазаром Бикелем, представляют собой набор сокращений для наиболее распространенных грамматических категорий и имеют статус международного типологического стандарта.
грамматических признаков — при условии, что программа обнаруживает вход, соответствующий словоформе, в грамматическом словнике АНК. Пословный принцип разметки подразумевает, что при определении набора грамматических характеристик словоформы парсер не использует синтаксический контекст.
Для того чтобы все словоупотребления АНК идентифицировались парсером как словоформы тех или иных лексем, каждому входу словника приписывается помета, указывающая на определенный словоизменительный тип (неизменяемым частям речи приписывается, соответственно, признак неизменяемости). Классификация словоизменительных типов для АНК опирается на существующие грамматики албанского языка, прежде всего, на [Buchholz, Fiedler 1987]. Создание «понятной» парсеру формальной модели албанской морфологии в конечном итоге позволяет постепенно минимизировать процент словоформ, которые не анализируются программой (parsing error rate). При этом в любой момент времени в корпусе остается некоторое количество неразобранных словоупотреблений. Насколько можно судить по опыту существующих языковых корпусов, сюда относятся в первую очередь: недавние заимствования, неологизмы, словоизменительные варианты, некоторые аббревиатуры, имена собственные и узкоспециальные термины, искаженные написания и написания с использованием иных стандартов графики. Кроме того, не анализируются (или анализируются неправильно) словоформы, которые содержат искажения, возникшие при распознавании отсканированного текста, либо ошибки и опечатки, допущенные в исходных изданиях и т. п. Фрагменты текста, которые не являются собственно албанскими словоформами (например, иноязычные вставки), считаются в АНК неанализируемыми цепочками символов.
Сокращение доли словоупотреблений, не получающих морфологического разбора, будет достигаться в ходе пополнения и доработки грамматического словника АНК, который создается на основе существующих словарей албанского языка. Впоследствии грамматический словник может быть дополнен аббревиатурами, именами собственными, продуктивными компонентами сложных слов, а также некоторыми лексемами, которые отсутствуют в указанных выше источниках, но часто встречаются корпусе — например, распространенными неологизмами.
В случае грамматической (морфологической) и лексической омонимии парсер отождествляет словоформу с несколькими грамматическими значениями (наборами грамматических признаков) и / или с несколькими леммами, приписывая ей все возможные разборы: dhe 'и' / dhe <земля^.шм.шог> 'земля' / dhe <земля^.АСС.шор> 'землю' / dhe <давать.PST.2SG> '[ты] дал(а)'. В корпусе с неснятой омонимией подобные разборы имеют статус гипотетических и не являются ошибочными. Работу по (полу)автоматическому разрешению грамматической омонимии в АНК предполагается начать в ближайшем будущем. В качестве исходных данных для работы модуля, снимающего омонимию, планируется использовать небольшой корпус текстов (объемом триста тысяч словоупотреблений), обработанный программой морфологического разбора и размеченный вручную с помощью программы-дизамбигуатора. Как представляется, в результате «обучения» модуля станет возможным автоматическое снятие омонимии с высокой точностью, что позволяет в ряде случаев устранить неверные варианты морфологического разбора, но, вероятно, полностью не исключает ручной постобработки.
При этом в контекстах, где однозначное определение набора грамматических характеристик словоформы затруднено, должны сохраняться два альтернативных разбора, поскольку точка зрения пользователя АНК может отличаться от мнения разработчиков.
3. Обзор лексико-грамматических помет в АНК
Устройство разметки АНК в целом соответствует традиции описания грамматики албанского языка, но не лишено некоторых отступлений от нее, допущенных разработчиками из соображений практического удобства (в том числе исходя из особенностей технического представления грамматической информации) и на основе ряда теоретических предпосылок. Есть вероятность, что некоторые из этих нововведений могут быть непонятны пользователю, привыкшему к определенной грамматической традиции. В связи с этим одной из задач, которые предстоит решить создателям, является составление эксплицированного описания разметки, облегчающего пользователю работу с корпусом, — как предписывает базовый постулат аннотирования, сформулированный одним из создателей Британского национального корпуса (British National Corpus) Джоффри Личем: «Схема анализа,
предусмотренная в системе аннотирования — »схема аннотации" — должна основываться на принципах и положениях, доступных для понимания конечному пользователю»11.
В текущей версии АНК лексико-грамматические признаки расшифрованы в виде общепринятых лингвистических терминов в диалоговом окне «Грамматика и части речи» и сгруппированы по категориям следующим образом:
1) часть речи: существительное, прилагательное, числительное, глагол, наречие, местоимение, местоименная клитика, предлог, союз, частица, глагольная формообразующая частица, препозитивный артикль, междометие;
2) род: мужской, женский, средний; амбигенное существительное;
3) одушевленность: одушевленное/неодушевленное существительное;
4) число: единственное, множественное;
5) падеж: номинатив, генитив/датив, аккузатив, аблатив, аблатив II, локатив, беспризнаковый падеж;
6) определенность: определенная/неопределенная форма;
7) контактность (для артикля): контактная/дистантная позиция;
8) залог: активный / неактивный12;
9) нефинитные формы глагола: причастие;
10) наклонение: индикатив, императив, конъюнктив, адмира-тив, оптатив;
11) время: аорист, имперфект, настоящее время;
12) лицо: первое, второе, третье.
3.1. Частеречные пометы в АНК
С одной стороны, при определении списка частеречных помет принимался во внимание пословный принцип разметки, который является основополагающим в АНК. К примеру, деление прилагательных на артиклевые и безартиклевые [Buchholz, Fiedler 1987: 316]
11 «The scheme of analysis presupposed by the annotations — the annotation scheme — should be based on principles or guidelines accessible to the end-user» (перевод М. С.Морозовой) [Leech 1993: 275].
12
Термин 'неактивный залог' (нем. Nichtaktiv) введен разработчиками АНК вслед за [Buchholz, Fiedler 1987].
было признано нецелесообразным для АНК, поскольку морфологический парсер при разборе не учитывает контекст словоупотребления. С другой стороны, в ряде случаев разработчики пошли по пути более детального представления отдельных категорий13. Так, трактовка местоимений подразумевает детализацию их представления в АНК с учетом наличия/отсутствия у них особой синтаксической функции (отдельной «частью речи» является местоименная клитика). Подобный подход ориентирован, прежде всего, на исследователей, интересующихся вопросами синтаксиса и морфологии, и обеспечивает возможность формулирования удобных поисковых запросов и получения подборки примеров с минимальным «шумом».
Теоретически разграничение по признаку «часть речи» должно проводиться лишь в наиболее очевидных, существенных и морфологических бесспорных случаях. В то же время существует большой класс неизменяемых слов, который трактуется словарями как лексически омонимичный (или, точнее, синтаксически полифункциональный): «частица/союз», «частица/наречие» и т. п. Например, 51 в албанском языке может выступать в функции наречия:
(7) Я ¡е-т те зИёпйеЬ
как 6ытЪ-РЕ8.2РЬ с здоровье.80.ЛСС.1№Р 'Как ваше здоровье?'
союза:
(8) ЬИ-Ье Ьё-тё г дтепйи-т быть.1РР-1РР.380 делать-РТСР как 0ЕР.М.80.Ы0М сходить.с.ума-РТСР ща gëzm-i
от радость-80.Ы0М.0ЕР 'Сделался словно сумасшедший от радости'
13
В соответствии с одним из принципов создания морфологического стандарта для языкового корпуса, «не важно, как назвать некоторое грамматическое явление, важно, чтобы оно могло быть сформулировано в виде запроса к Корпусу» [Ляшевская и др. 2005: 118]. Поэтому при разработке решений, касающихся спорных вопросов грамматики, выбор часто делается в пользу более дробного представления грамматической категории. При этом важно понимать, что детализация и того или иного грамматического значения в АНК может обладать значительной степенью субъективности. Следовательно, есть вероятность, что другой специалист может не согласиться с трактовкой грамматического значения словоформы, предлагаемой в АНК [Ляшевская идр. 2005: 112].
усилительной частицы: (9) Si, nuk dash-ka?
EMPH NEG хотеть-ADM.PRS.SSG '[Неужели он] не захотел?'
В этих случаях в АНК на данном этапе допускается сохранение альтернативных разборов; в большинстве случаев пользователь может восстановить правильный вариант разбора по контексту.
3.2. Падеж
Помимо падежей, выделяемых в соответствии с традицией описания албанской грамматики (номинатив, генитив, датив, аккузатив, аблатив, локатив), в систему аннотирования АНК включен «аблатив II» (неопределенная форма мн. ч. существительных с окончанием -sh), который, наряду с формальными, имеет ряд функциональных отличий от собственно аблатива мн. ч. на -ve. Так, в беспредложном употреблении в функции нереферентного посессора практически всегда выступает аблатив II (10а), а в функции обстоятельства — аблатив на -ve (10б) в то время как в конструкциях с предлогами могут употребляться формы обоих аблативов (примеры (10в-г)). На этом основании аблатив II не трактуется в АНК как вариантная форма аблатива на -ve, а выделяется в качестве самостоятельного падежа.
(10а) lesh dele-sh
шерстью G.NOM.INDF OBЦа-PL.ABL2.INDF 'овечья шерсть'
(10б) dol-i male-ve
BЫXOДИTЬ.PST-PST.3SG ГOра.PL-PL.ABL.INDF/DEF
'[он] вышел в горы'
(10в) prej fshatra-sh
из ДереBHЯ.PL-PL.ABL2.INDF
(10г) prej fshatra-ve
из ДереBHЯ.PL-PL.ABL.INDF/DEF
'из деревень'
Такое решение облегчает поиск информации пользователю, который занимается изучением конструкций с «особой формой» аблатива (аблативом II) и их распределением
в устной и письменной речи. Исследователь, интересующийся употреблением аблатива как такового, может произвести поиск по параметру «аблатив или аблатив II» и получить подборку примеров, содержащих все нужные ему формы.
Наряду с аблативом II, в морфологический стандарт АНК включен беспризнаковый падеж. В [Buchholz, Fiedler 1987] с помощью этого падежа, формально совпадающего с номинативом-аккузативом ед. и мн.ч. неопределенной формы, описываются случаи употребления существительного в качестве приложения (пример (11а)) и определения существительного со значением массы, количества и т. д. (11б):
(11а) lum-i Shkumbin
река-SG.NOM.DEF Шкумбин.80.им
'река Шкумбин' [Buchholz, Fiedler 1987: 226]
(11б) një kovë ujä
INDF ведром G.NOM.INDF вода^.им
'ведро воды' [Buchholz, Fiedler 1987: 226]
На наш взгляд, существует еще один случай, который можно было бы трактовать как употребление беспризнакового падежа — падеж существительного, когда оно является частью именной группы с препозицией атрибута:
(12) kërko-nte trup-in e të
Искать-IPF.3SG тело-SG.ACC.DEF SG.ACC.DEF M.SG.GEN/DAT.DEF
zi-ut djalä
несчастный-SG.GEN/DAT.DEF юноша^.им
'[Она] искала тело несчастного юноши'
[Buchholz, Fiedler 1987: 329]
Подобная трактовка представляется довольно удобной, поскольку все вышеперечисленные случаи, не имеющие однозначной характеристики в рамках традиционной грамматики, получают единообразную интерпретацию в рамках АНК. Однозначное разграничение беспризнакового падежа, номинатива и аккузатива неопределенной формы возможно только в корпусе со снятой омонимией.
Включение локатива в морфологическую модель АНК вызывает дополнительную грамматическую омонимию (не только внутрилексемную, но и межлексемную) и оказывается неадекватно
усложняющим языковую реальность из-за разнообразия типов образования этой падежной формы от разных основ. Представляется, что соответствующие формы следует размечать вручную в процессе снятия омонимии, принимая во внимание их низкую частотность и ограниченность сферы употребления локатива диалектными текстами.
3.3. Трактовка аналитических форм в АНК В соответствии с пословным принципом разметки составные элементы аналитических временных форм и конструкций, широко распространенных в глагольной системе современного албанского языка, а также составные части сложных союзов и элементы сравнительной и превосходной степени прилагательных и наречий анализируются парсером как морфосинтакси-чески автономные единицы. Предложения с аналитическими конструкциями не могут быть найдены простым грамматическим запросом. Тем не менее, косвенные способы найти такие контексты существуют. Например, запрос на поиск причастий, непосредственно следующих за глаголом kam 'иметь' в форме настоящего времени индикатива, даст высокий процент аналитических глагольных форм перфекта актива (kam punuar, kam shkruar и т. п.).
К основным недостаткам подобного решения относится расхождение с традицией грамматического описания албанского языка, на которую ориентировано большинство потенциальных пользователей14, и наличие «шума» при поиске. Например, если пользователь ищет формы 2 и 3л. ед.ч. полнозначного глагола dua 'хотеть' (пример (13а)), он не имеет возможности отсеять аналитические формы будущего времени (13б):
(13а) do njä mollä?
хотеть.ри8.280 indf яблоко^о.дсс.шор 'Хочешь яблоко?'
(13б) do=tä=shkrua-sh
fut=sbjv=пиcаtь-sbjv.prs.2sg 'напишешь'
14 В разметке текущей версии АНК в списке временных форм не представлены перфект, плюсквамперфект, будущее время; в список наклонений не включен кондиционал и т. д.
Кроме того, между компонентами аналитической формы (например, служебным элементом и глаголом в конъюнктиве) могут употребляться другие словоформы (см. пример (14а)). При формулировании сложных запросов на поиск таких форм (с указанием расстояния между компонентами аналитической формы в словах) всегда есть вероятность получить на выдаче «шум» в виде последовательностей единиц, омонимичных компонентам аналитической формы (14б).
(14а) ata dua-n
3PL.M.NOM Хотетъ-РЕ8.3РЬ
te=na=e=tho-ne
SBJV = 1PL.GEN/DAT=3SG.ACC = ГOBOрИTЬ-PRS.3PL
'Они хотят нам это сказать' (14б) te aférm-it më=tho-në që
PL.DEF близкий-PL.NOM.DEF 1SG.GEN/DAT=ГOBOрИTЬ-PRS.3PL что
um gërhas shumë
1SG.NOM ХрапеTЬ.PRS.1SG много
'Близкие мне говорят, что я сильно храплю'
Проблема заключается в том, что ручное выделение такого рода аналитических единиц на корпусе большого объема невозможно, а автоматическое столкнется примерно с теми же проблемами (и тем же «шумом»), с которыми сталкивается пользователь, использующий для поиска аналитической морфологии контекстные запросы. Стоит отметить, что аналитические глагольные формы не размечаются ни в ВАНК (корпусе языка с огромным преобладанием аналитических форм спряжения), ни в НКРЯ (русские формы аналитического будущего времени).
4. Заключение
Ближайшими задачами развития АНК является наращивание объема корпуса, обеспечение его жанрового разнообразия, пополнение грамматического словника, разрешение грамматической и лексической омонимии. Итоговый продукт — Национальный корпус, полезность которого неоспорима, — будет обращен ко всем, кто интересуется вопросами структуры, функционирования и истории албанского языка или изучает его в качестве иностранного.
Список условных сокращений
= — показатель клитики;--показатель вариативности; 1,2,3 — лицо у глаголов и местоимений; алб. — албанский; амбиген. — амбигенное существительное; гег. — гегский; диал. — диалектная форма/лексема; ед.ч. — единственное число; л. — лицо; лит. — литературная форма; м. р. — мужской род; мн. ч. — множественное число; нем. — немецкий; ср. р. — средний род; тоск. — тоскский; устар. — устаревшая форма; abl — аблатив; ABL2 — аблатив II; acc, acc — аккузатив; adm — адмиратив; anim — одушевленность; def, DEF — определенная форма/показатель определенности; emph — показатель эмфазы; fut — будущее время; gen/dat — генитив-датив; indf — неопределенная форма/показатель неопределенности; ipf — имперфект; m, M —мужской род; neg — отрицание; nom — номинатив; noun — имя существительное; PL — множественное число; prs — настоящее время; pst — прошедшее время; ptcp — причастие; о —вопрос в интервью; sbjv — конъюнктив; sg, sg — единственное число; um — беспризнаковый падеж.
Литература
Архангельский 2012 — Т.А.Архангельский. Принципы построения морфологического парсера для разноструктурных языков. Автореф. дисс.... канд. филол. наук. МГУ, М., 2012. Даниэль и др. 2009 — М.А.Даниэль, Д. В.Левонян, В. А. Плунгян, А.Е.Поляков, С.В.Рубаков, В.Г.Хуршудян. Восточноармянский национальный корпус // Армянский гуманитарный вестник 2/3, 2, 2009. С. 9-33.
Десницкая 1968 — А.В. Десницкая. Албанский язык и его диалекты. Л.: Наука, 1968.
Зализняк 1977 — А. А. Зализняк. Грамматический словарь русского языка.
Словоизменение. Около 100 000 слов. М.: Русский язык, 1977. Захаров 2005 — В. П. Захаров. Корпусная лингвистика. Учебно-
методическое пособие. СПб.: Изд-во СПбГУ, 2005. Летучий 2005 — А. Б. Летучий. Корпус диалектных текстов: задачи и проблемы//Национальный корпус русского языка 2003-2005: результаты и перспективы. М.: Индрик, 2005. С. 215-232. Ляшевская идр. 2005 — О.Н.Ляшевская, В.А.Плунгян, Д.В.Сичинава. О морфологическом стандарте Национального корпуса русского языка//Национальный корпус русского языка 2003-2005: результаты и перспективы. М.: Индрик, 2005. С. 111-135. Плунгян 2005 — В. А. Плунгян. Зачем нужен Национальный корпус русского языка? Неформальное введение // Национальный корпус русского
языка 2003-2005: результаты и перспективы. М.: Индрик, 2005. С. 620.
Савчук 2005 — С. О. Савчук. Метатекстовая разметка в Национальном корпусе русского языка: базовые принципы и основные функции//Национальный корпус русского языка 2003-2005: результаты и перспективы. М.: Индрик, 2005. С. 62-88.
Соболев, Юллы 2002 — А. Н. Соболев, Дж. Юллы. Албанский тоскский говор селаЛешня (краина Скрапар). Синтаксис. Лексика. Этнолингвистика. Тексты. Marburg an den Lahn: Biblion Verlag, 2002.
ADGjSh 2007 — J.Gjinari, B.Beci, Gj. Shkurtaj, Xh. Gosturani. Atlasi dialek-tologjik i gjuhäs shqipe. Vell. I. Napoli — Tiranä: Universita degli Studi di Napoli L'Orientale, Dipartimento di Studi dell'Europa Orientale — Akademia e Shkencave e Shqipärisä, Instituti i Gjuhäsisä dhe i Letärsisä, 2007.
Buchholz, Fiedler 1987 — O. Buchholz, W. Fiedler. Albanische Grammatik. Leipzig: Verlag Enzyklopädie, 1987.
Leech 1993 — G. Leech. Corpus annotation schemes // Literary and Linguistic Computing 8,4, 1993. P. 275-281.