УДК 811.512, 81-322
МОНГОЛОЯЗЫЧНЫЕ КОРПУСА: СОВРЕМЕННОЕ СОСТОЯНИЕ © Бадмаева Любовь Дашинимаевна
кандидат филологических наук, доцент, ведущий научный сотрудник отдела языкознания Института монголоведения, буддологии и тибетологии СО РАН Россия, 670047, Улан-Удэ, ул. Сахьяновой, 6 E-mail: [email protected]
Бурятский корпусный ресурс, получивший свой адрес в сети Интернет в 2012 г., в данный период времени полагается на оригинальные тексты, охватывающие период с середины ХХ в. по настоящее время, авторами которых являются как уже маститые мастера художественного слова, так и исследователи, журналисты, а также другие носители языка. Нынешняя версия Бурятского корпуса отражает все основные стили современного бурятского языка. Просмотр доступных корпусных сайтов, которые являются сложноинтегрированными информационными системами, позволяет перечислить основные направления или ответвления, по которым уже разработанные базовые корпуса получают свое дальнейшее развитие. Общность и сходства основополагающих принципов и целей организации лингвистических корпусов перевешивают их различия между собой. Подобное положение объясняется сходством предпосылок для их развития, которые обусловлены многими факторами, в первую очередь, такими, как исторические пути развития самих языков, языковая ситуация конкретного региона, в которых они функционируют. При работе над обсуждаемым проектом представляется целесообразным проведение масштабных работ по углубленному развитию Бурятского корпуса с последующим его переоформлением в Национальный корпус бурятского языка вместе с регулярным научным описанием самого процесса его составления и сугубо теоретических изысканий, включая прикладные, например, по лексикографии, лексикологии, ономастике, фоносемантике, синтаксису, экспериментальной фонетике, лингвофилософии (аксиологический аспект), социолингвистике и др.
Ключевые слова: корпусная лингвистика, корпус, репрезентативность, модуль, сохранность языка. CORPORA ON THE MONGOLIAN LANGUAGES: MODERN STATE Lyubov' D. Badmaeva
PhD, A/Professor, leading research fellow, linguistics department, Institute for Mongolian, Buddhist and Tibetan Studies of SB RAS 6 Sakhyanovoj Str., Ulan-Ude, 670047 Russia
Buryat corpus resource, which received its own web-address in 2012, is currently relying on the original texts, covering the period from the mid-twentieth century to the present time, with the authors as already experienced masters of artistic expression, researchers, journalists and other speakers. The current version of Buryat corpus represents all major styles of the modern Buryat language. View of available corpus sites allows us to list the main areas or branches which have already developed; the basic corpus gets its further development. The commonality and similarity of the fundamental principles and objectives of the organization of linguistic corpus outweigh their differences among themselves. This situation is due to the similarity of the preconditions for their development, which are caused by many factors, first of all, such as the historical path of development of languages themselves, then, the language situation of specific region (be it a country, state, county, etc.) in which they function. When working on the discussed project it seems appropriate to conduct large-scale work on the in-depth development of the Buryat corpus followed by its re-registration into the National corpus of the Buryat language along with regular scientific description of the process of its preparation and the purely theoretical research, including applications, for example, lexicography, lexicology, onomastics, phonosemantics, syntax, experimental phonetics, lingvophilosophy (axiological aspect), sociolinguistics, and others. Keywords: corpus linguistics, corpus, representativeness, module, language preservation.
По вопросам необходимости развития, разработки и актуальности языковых корпусных ресурсов в настоящее время, казалось бы, уже нет дополнительной надобности давать очередное обоснование. По данной теме уже многое и в неоспоримых положениях сказано на протяжении последнего десятилетия и в научных, и в популярных трудах в области российского языкознания, российской компьютерной лингвистики, которая является частью первой. Тем не менее, в своей работе мы хотели бы обратить внимание на наиболее перспективные направления усовершенствования на примере уже доступного в режиме онлайн корпусного ресурса по языку, который называют языком «среднего» мас-
штаба в пределах списка языков народов России [6], а именно бурятскому. В обсуждении / дискуссии и популяризации подобных общедоступных лингвистических систем, естественно, всегда заинтересованы сами их составители, так как для их комфортного использования полезна обратная связь в форме критических замечаний, рекомендаций от различных категорий конечных пользователей.
Бурятский корпусный ресурс [4], получивший свой адрес в сети Интернет в 2012 г. как результат проектов, поддержанных грантами различных научных фондов*, в данный период времени полагается на оригинальные тексты, охватывающие период с середины ХХ в. по настоящее время, авторами которых являются как уже маститые мастера художественного слова, так и исследователи, журналисты, а также другие носители языка. С учетом жанра отдельных текстов представляется возможным проведение базовой классификации текстов, включенных в названный корпус. Подобная классификация позволяет провести подразделение данных текстов на прозу, поэзию, драматургию и т. д. Внутри прозаических произведений можно провести подразделение по их жанрам (романы, повести, рассказы, стихи). В нынешнюю версию данного ресурса включены около десятка бурятских романов, авторами которых являются Ц. Дон, Ц.-Ж. Жимбиев, Б. Мунгонов, Б. Санжин, Б. Дандарон, Ж. Туму-нов, Ч. Цыдендамбаев, Б. Шойдоков, Д. Эрдынеев. Авторами включенных в Бурятский корпус (БК) повестей являются С. Ангабаев, А. Ангархаев, З. Гомбожабай, Г.-Д. Дамбаев, Ц. Дон, А. Жамбалдор-жиев, М. Осодоев, Ц.-Д. Хамаев, К. Цыденов, С. Цырендоржиев, Ц. Шагжин, Д.-Д. Дугаров, Д. Эрдынеев. Авторами бурятских рассказов в БК выступают З. Гомбожабай, Ц. Дон, Ц.-Д. Хамаев, Ц. Шагжин, А. Жамбалдоржиев, С. Цырендоржиев, С. Доржиев. В БК включены пьесы Г. Цыденжа-пова и поэтические произведения С. Ангабаева. В 2014 г. названная текстовая база данных БК получила очередное пополнение, достигнув объема выше 2 миллионов 200 тыс. словоформ. Для повышения репрезентативности текстовой базы данных посредством названного пополнения в БК впервые были включены тексты не только художественного, но и общественно-публицистического (газетные и журнальные статьи, очерки из бурятоязычных Интернет-СМИ, популярных журналов) и учебно-научного стилей (статьи научного сборника). Таким образом, можно сказать, что нынешняя версия БК стала отражать все основные стили современного бурятского языка, хотя их сбалансированность, соотношение между собой требует своего решения.
Вместе с тем будет интересно и полезно определить, какие предпосылки могут способствовать успешному продвижению тех направлений, которые формируются на базе того или иного языкового корпуса. Если отследить начальные этапы разработок почти любого из них, то можно увидеть, что изначально они создавались как базовые лингвистические ресурсы, представляя собой компактную, по объему достаточно ограниченную, включающую в среднем от нескольких сотен тысяч до одного -двух миллионов словоупотреблений справочно-информационную систему. Путем просмотра корпусных сайтов можно перечислить основные направления или ответвления [8], по которым уже разработанные базовые корпуса получают свое дальнейшее развитие. В данном случае под направлениями / ответвлениями мы имеем в виду подкорпусные ресурсы, поскольку языковой корпус, как правило, является сложноинтегрированной информационной системой. На примере лишь одного сайта Национального корпуса русского языка (НКРЯ) можно перечислить помимо самого базового ресурса основные подкорпусные части, которые стали называть еще модулями (в литературе по корпусной лингвистике «модуль» может обозначать также и сам лингвистический инструментарий, например, словарный / грамматический). Вероятно, стали называть вслед за С. И. Ожеговым: «...3. перен. Вообще отделяемая, относительно самостоятельная часть какой-н. системы, организации» [9]. Это могут быть параллельные модули, как, например, русско-английский и др., газетный, обучающий, диалектологический, поэтический, устный, акцентологический, мультимедийный, исторический. Далее к данным модулям как бы «пристегиваются» их собственные уже ответвления, например, в историческом подкорпусе НКРЯ успешно развиваются модули по текстам отдельно XVIII, XIX вв., начала XX в.
При сравнении доступных корпусных ресурсов по разным языкам мира можно видеть между ними как сходства, так и различия. При этом степень последних не представляется кардинально противоположной. Общность и сходства основополагающих принципов и целей организации лингвистических корпусов перевешивают их различия между собой. Думается, что подобное положение можно объяснить в некоторой степени сходством предпосылок для их развития, которые обусловлены многими факторами: это и исторические пути развития самих языков, и языковая ситуация конкретного
* _ _
American council of learned societies (ACLS, 2007); РФФИ No 08-06-00151, 2008 - 2010; Программа фундаментальных исследований Президиума РАН «Корпусная лингвистика» (проекты 3.14, 2011 и 3.4, 2012-2013); Фонд фундаментальных лингвистических исследований (проекты С-43, 2011 и С-16, 2013).
региона (будь это страна, республика, штат, округ и т. п.), в которых они функционируют. В исторических путях развития большинства языков отслеживаются, как правило, взаимные языковые контакты, которые всегда оказывали и оказывают существенное влияние на их становление, функционирование, формируя тем самым языковую ситуацию (мы понимаем, естественно, что это не единственное, что влияет на ее формирование). Перечисленные выше корпусные модули НКРЯ, которые можно встретить и на сайтах других корпусов или в самостоятельном / автономном формате условно можно назвать дублирующими друг друга с той разницей, что они представляют разные языки своих носителей и, соответственно, могут относиться к разным политическим организациям общества.
Среди подобных дублирующих модулей наблюдаются ресурсы по разговорному языку и спонтанной речи, обучающий, тематический корпуса, параллельный корпус переводов на множество языков одного единственного древнего источника, как, например, Банк данных разговорного немецкого языка, Фонетический корпус спонтанной эстонской речи, Научно-технический баскский корпус, Обучающий корпус японского языка, Параллельный корпус переводов «Слова о полку Игореве» и т. д. Интересно отметить, что только русскоязычных переводов такого древнего источника, как «Слово о полку Игореве», насчитывается более 50, более 40 - на славянских языках, с преобладанием украинских, около 60 - на других языках. Среди последних 60 переводов дублирующими языками выступают английский (7 переводов), немецкий (6), французский (8). По 2-3 перевода наблюдаются на испанском, итальянском, венгерском, монгольском, иврите, идише, казахском, румынском.
Вероятным представляется то, что сходство предпосылок для корпусных разработок, а также общность принципов их организации позволяют как бы «накладывать» те или иные программные менеджеры на лингвистические базы данных разноструктурных языков, например, «движок» Восточно-Армянского национального корпуса достаточно успешно используется для корпусов как флективных (албанский, новогреческий), так и агглютинативных (монгольские, тюркские) языков [5].
Несмотря на свою сложную внутреннюю организованность, языковые корпуса, благодаря своим программным менеджерам, которые перманентно совершенствуются, не требуют большого труда для выкладки от современного среднестатистического пользователя ПК, чтобы он мог извлекать необходимые ему языковые данные в различных целях: исследовательских, образовательных или каких-то иных.
Думается, что корпусные лингвисты согласятся с тем, что в деле составления языкового корпуса нет предела совершенству, в особенности при постоянном продвижении самих электронных технологий. Глубоко разработанные лингвистические базы данных корпуса позволяют проводить параллельно и абсолютно независимо друг от друга множество видов как аналитических, так и теоретических исследований языка, включая анализ квантитативных характеристик на больших по объему фактических материалах, исчисляющихся многомилионными вхождениями разного рода языковых единиц, способствуя определению закономерностей эволюции и развития тех или иных элементов языка практически во многих его аспектах и на многих уровнях как в синхронии, так и в диахронии. Также параллельно и независимо друг от друга могут совершаться различного рода процедуры извлечения из любого доступного в режиме онлайн корпуса требуемых языковых данных неограниченным множеством самих пользователей.
При работе над обсуждаемым проектом представляется целесообразным проведение масштабных работ по углубленному развитию БК [4] с последующим его переоформлением в Национальный корпус бурятского языка (НКБЯ) вместе с регулярным научным описанием самого процесса его составления и сугубо теоретических изысканий, включая прикладные: по лексикографии (составление толкового словаря), лексикологии (семантике), ономастике, фоносемантике, синтаксису, экспериментальной фонетике, лингвофилософии (аксиологический аспект), социолингвистике и другим направлениям. Новым в бурятском языкознании и в целом в монголистике является принцип данного проекта - сочетание сугубо корпусных задач с исследовательскими, т. е. формирование корпуса с параллельным его использованием исполнителями для получения теоретических знаний. Само соблюдение названного принципа по мере продвижения разработок НКБЯ будет способствовать формированию двух закономерных и перспективных блоков исследований в области бурятского языкознания - ис-следовательско-прикладного и сугубо исследовательского и, вместе с тем, укреплению интегрированной связи между ними.
Впервые для бурятского языкознания в деле составления НКБЯ предусмотрена разработка базовых принципов диахронического подкорпуса для репрезентативности исторического пути развития языка бурят как в плане выражения, так и в плане содержания. В данном направлении предусмотрена подготовка базы данных текстов периода использования латинизированного алфавита (начало ХХ в.),
а также образцов письменных памятников бурят в транслитерированном виде текстов на старомонгольской графике. Достижимость решения задач видится в корпусно-ориентированном подходе, который позволяет вести множество исследований на базе одного языкового ресурса. Его полноценная форма должна ускорить в перспективе темпы теоретических исследований, актуальных направлений бурятоведения, в определенной степени запаздывающих сегодня по сравнению с уровнем развития общей лингвистики. В данном случае диахроническое направление бурятоязычного корпусного ресурса диктуется самим ходом исторического развития бурятского языка, которое справедливо делится исследователями на несколько периодов. Периодизации, определенные разными исследователями отличаются между собой, мы будем опираться на классификацию С. А. Крылова и А. В. Дыбо [7, с. 227], согласно которой развитие бурятских языков и диалектов делится на 4 периода: длительность первого - более 160 лет, второго - более 70, третьего - 7 лет и последнего - с 1938 г. по настоящее время.
Ясно, что в основе языкового корпуса лежит текст, в котором зафиксирован тот или иной язык в своем естественном употреблении. При этом текстом для подобного корпуса может служить и служит любой текст, будь то письменный, звуковой или мультимедийный, наличие которых можно рассматривать в качестве предпосылок для разработки соответствующих корпусов (письменных, звуковых, мультимедийных). Как известно, бурятский язык в ходе своего исторического развития фиксировался несколькими графическими системами, которые в корне отличаются между собой - старомонгольская, латинская и кириллическая. Каждый из названных видов письменностей претерпевал видоизменения в своем совершенствовании. Кириллическая письменность для бурятского языка (БЯ) до своего официального принятия в 1939 г. уже имела попытки использования, что можно видеть, например, в библейских переводах (следует сказать - малочисленных) на один из западнобурятских диалектов [10], в учебной литературе для начального образования [2]. Письменности на старомонгольской графике, получившие названия бурятского извода старомонгольского языка и старописьменного бурятского языка [7, с. 227], в целом использовались для БЯ достаточно органично и не представляли особых трудностей в осваивании и использовании носителями восточно-бурятских диалектов.
Длительность периодов развития бурятского языка, о которых говорилось выше, может свидетельствовать о наличии достаточного объема письменных памятников, отражающих свои диахронические особенности по разным аспектам языка. Наличие письменных текстов на бурятском языке с использованием названных графических систем можно отнести к предпосылкам для начала разработок диахронического подкорпуса БЯ. Бурятские тексты с использованием разных графических систем должны формировать соответствующие базы данных для названного подкорпуса. Разработанные в Unicod кодировки старомонгольских графических символов позволяют в настоящее время разрабатывать компьютерные системы для их разметок, оптического распознавания и, в целом, их корпусной обработки.
Совершенно правомерным представляется то, что НКБЯ должен быть разработан с полноценными соответствующими модулями объемом до десятка миллионов словоформ, снабжен грамматической и библиографической разметкой, на базе начальной версии БК [4]. База данных по текстам должна отражать все основные стили БЯ: художественный, общественно-публицистический, учебно-научный. Морфологический анализатор будет включать словник лексем корпуса, грамматический словарь и другие виды сопутствующих баз данных - словники с переводами, списки формантов словоизменения, таблицы омонимов и другие. Наряду с основным корпусом БЯ должны быть разработаны звуковой, параллельный** подкорпуса, начальная версия диахронического подкорпуса, а также основа диалектологического подкорпуса. Думается, что на формирование диахронического модуля влияет специфика исторического пути развития того или иного языка. Современные российские монголоведы придерживаются того мнения, что бурятский является одним из монгольских языков [11, с. 99]. Существует в то же время точка зрения акад. Ш. Лувсанвандана, считающего, вслед за монголоведами XIX - начала XX в., что языки бурят, калмыков и монголов являются диалектами единого монгольского языка [11]. Не вдаваясь в подробности этой дискуссии, мы можем лишь отметить, что национальный язык бурят развивался и формировался в условиях контактирования с другими языка-
Разработка параллельного бурятско-русского подкорпуса к БК начата нами при финансовой поддержке регионального конкурса РФФИ и Министерства образования Республики Бурятия, проект № 15-46-04417 (2015 -2017).
ми, диалектами, говорами различных монгольских, тюркских, тунгусо-маньчжурских племенных сообществ.
Нами видится, что будущий языковой Национальный корпус будет представлять собой крупный технологический ресурс, масштабы которого позволят проводить теоретические изыскания с учетом современных лингвистических концепций и получать результаты, соответствующие мировому уровню исследований в области языкознания. Закономерным будет то, что предполагаемый ресурс будет востребован и в сфере образования - в преподавании национального языка на всех этапах его обучения от средней школы до вуза. Представляется, что ожидаемые результаты будут иметь социальную значимость и в плане сохранения национального языка и культуры небольшого народа, находящегося под неизбежным влиянием глобализационных процессов, затушевывающих этническое, культурное и языковое разнообразие. Тогда как корпусное представление языков отвечает проблемам долгосрочного сохранения электронной информации. В решении актуальных проблем бурятского языкознания свою роль сыграет и доведение нынешнего объема базового корпусного ресурса до десятка миллионов словоформ.
Относительно диалектологического корпусного ресурса можно собрать достаточную подборку изданий с текстами на бурятских диалектах. Например, в изданиях бурятских сказок сохранена специфика говоров, что является ценнейшим языковым материалом для диалектологического подкорпу-са [3]. А присоединенный к данным сказкам их русский перевод представляет материал для параллельного бурятско-русского подкорпуса. Издания с текстами Гэсэриады, записанными на западнобу-рятских диалектах, являются богатейшим материалом для формирования соответствующей базы данных для НКБЯ, если привести лишь неполный перечень изданий [1].
Перспективные пути разработки НКБЯ, которые перечислены нами, имеют под собой базу в виде уже имеющегося БК. Наше видение этих перспектив еще, думается, подвергнется редактированию и усовершенствованию, но оно необходимо, на наш взгляд, в целях уточнения будущей совместной работы специалистов, заинтересованных в создании НКБЯ.
Литература
1. Абай Гэсэр. Вариант П. М. Тушемилова / пер. подг. текста, предисл. и примеч. С. Ш. Чагдурова. - Улан-Удэ, 2000. - 256 с.; Абай Гэсэр: Буряад арадай y^^. Согсолон найруулагша Н. Балдано. Улан-Удэ, 1959. 526 н.; Абай-Гэсэр богдо хан. Вариант А. Васильева / подг. текста М. И. Тулохонова. - Улан-Удэ, 1995. - 525 с.; Абай-Гэсэр. Вариант П. Петрова / пер., вступ. статья А. И. Уланова. - Улан-Удэ, 1960. - 315 с.
2. Болдонов Н. С. Русско-бурятский букварь. - СПб., 1866. - 66 с.
3. Бурятские волшебные сказки. - Улан-Удэ, 1996. - 169 с.; Бурятские народные сказки. - Новосибирск, 2000. - 304 с.; Бурятские народные сказки. - Улан-Удэ, 1973. - 462 с.; 1976. - 445 с.; 1981. - 448 с.
4. Бурятский корпус [Электронный ресурс]. - URL: http://web-corpora.net/BuryatCorpus/search/7interface_ language=ru
5. Корпуса, созданные при поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика» [Электронный ресурс]. - URL: http://web-corpora.net
6. Корпусная лингвистика. Программа фундаментальных исследований Президиума РАН [Электронный ресурс]. - URL: http://www.corplingran.ru
7. Крылов С. А., Дыбо А В. О предмете «монгольское языкознание» // Алтайские языки и восточная филология. - М.: Восточная литература, 2005. - С. 219-229.
8. НКРЯ [Электронный ресурс]. - URL: http://www.ruscorpora.ru/corpora-structure.html
9. Ожегов С.И. [Электронный ресурс]. - URL: http://www.ozhegov.org/words/16118.shtml
10. От Матвея Святое благовъствован1е (Иркутск, 1909) // Буряад хэлэнэй нангин бэшэг. Восточный библейский институт. С. 1-106; От Марка Святое благовъствован1е (Иркутск, 1912) // Буряад хэлэнэй нангин бэшэг. Восточный библейский институт. С. 1-128.
11. Санжеев Г.Д., Тодаева Б.Х. Монгольские языки // Языки Азии и Африки. V. Алтайские языки. - М.: Восточная литература, 1993. - С. 98-186.
References
1. Abai Geser. Variant P. M. Tushemilova /per., podg. teksta, predisl. i primech. S. Sh. Chagdurova [Abai Geser, version by Tushemilov]. Ulan-Ude, 2000. 256 s.; Abai Geser: Buriaad aradaj Yl'ger. Sogsolon nairuulagsha N. Bal-dano. Ulan-Ude, 1959. 526 n. (Buryat.); Abai-Geser bogdo khan. Variant A. Vasil'eva / podg. teksta M.I. Tulokhonova [Abai Geser, version by Vasil'ev]. Ulan-Ude, 1995. 525 p.; Abai-Geser. Variant P. Petrova / per., vstup. st. A. I. Ula-nova [Abai Geser, version by Petrov]. Ulan-Ude, 1960. 315 p.
2. Boldonov N. S. Russko-buryatskij bukvar' [Russian-Buryat ABC book]. St Petersburg, 1866. 66 p.
3. Buriatskie volshebnye skazki [Buryat fairy tales]. Ulan-Ude, 1996. 169 p.; Buriatskie narodnye skazki [Buryat fairy tales]. Novosibirsk, 2000. 304 p.; Buriatskie narodnye skazki [Buryat fairy tales]. Ulan-Ude, 1973. 462 p.; 1976. 445 p.; 1981. 448 p.
4. Buriatskij korpus. [Buryat language corpus] Available at: http://web-corpora.net/BuryatCorpus/search/ ?inter-face_language=ru
5. Korpusa, sozdannye pri podderzhke Programmy fundamental'nykh issledovanij Prezidiuma RAN «Korpusnaya lingvistika» [Corpora made with the support of Fundamental research program of Russian Academy of Sciences]. Available at: http://web-corpora.net/
6. Korpusnaia lingvistika. Programma fundamental'nykh issledovanij Prezidiuma RAN [Corpus linguistics. Fundamental research program of Russian Academy of Sciences]. Available at: http://www.corplingran.ru/
7. Krylov S. A., Dybo A. V. O predmete «mongol'skoe yazykoznanie» [On Mongolian linguistics]. Altaiskie iazyki i vostochnaya filologiya - Altay language and oriental philology. Moscow: Vostochnaya literatura, 2005. Pp. 219-229.
8. NKRIa. Available at: http://www.ruscorpora.ru/corpora-structure.html
9. Ozhegov S. I. Available at: http://www.ozhegov.org/words/16118.shtml
10. От Матеея Святое благовъствован1е (Irkutsk, 1909). Буряад хэлэнэй нангин бэшэг. Vostochnyj bibleiskij
institut. Pp. 1-106; От Марка Святое благовъствоваше (Irkutsk, 1912). Буряад хэлэнэй нангин бэшэг. Vostochnyj bibleiskij institut. Pp. 1-128. (Buryat.)
11. Sanzheev G. D., Todaeva B. Kh. Mongol'skie iazyki [Mongolian languages]. Yazyki Azii i Afriki. V. Altajskie yazyki - Altay languages. Moskow: Vostochnaya literatura, 1993. Pp. 98-186.