Лексикостатистика новоиндоарийских языков: взгляд полевого лингвиста

Крылова Анастасия Сергеевна

А. С. Крылова

Институт востоковедения РАН, Институт языкознания РАН; [email protected]

Лексикостатистика новоиндоарийских языков: взгляд полевого лингвиста1

Данная публикация представляет собой некоторые соображения о статье А. И. Когана «Genealogical classification of New Indo-Aryan languages and lexicostatistics» в № 14 «Вопросов языкового родства». Автор высказывает ряд предложений по исправлению списков Сводеша, представленных А. И. Коганом, на основании данных исторической фонетики и семантики индоарийских языков в целом, а также анализирует списки языков хинди, бенгали, ория и куллуи, сопоставляя их со своими полевыми данными и сведениями из словарей и корпусов. После внесения предложенных исправлений автор сопоставляет деревья, построенные программой Starling на основании первоначальных и исправленных списков. Изменения не очень значительны, однако повышают достоверность результатов, а кроме того, показывают, что дальнейшее исправление списков может сделать дерево значительно более точным.

Ключевые слова: лексикостатистика, индоарийские языки, классификация языков, глоттохронология, полевая лингвистика, корпусная лингвистика, историческая фонетика

В 2016 году в № 14 «Вопросов языкового родства» вышла статья А. И. Когана «Genealogical classification of New Indo-Aryan languages and lexicostatistics». Автор строит генеалогическое древо индоарийских языков на основании лексикостатистики по сто-словным спискам Сводеша. Основные теоретические положения статьи были давно мне знакомы из докладов автора, однако замечательной особенностью данной публикации является весьма обширное приложение, содержащее сами стословные списки по 35 языкам, включая проставленные для каждого слова индексы этимологической когнации. Масштаб постановки задачи впечатляет — фактически речь идет о попытке окинуть индоарийские языки взглядом с высоты птичьего полёта, и, конечно, при реализации такой глобальной задачи неизбежны отдельные недочёты и неточности. Именно поэтому я считаю необходимым дополнить масштабную панораму А. И. Когана результатами, полученными на уровне полевой работы. Хочу выразить благодарность А. И. Когану за предоставление мне файла для программы Starling, в котором он составлял свои списки, Е. В. Коровиной за помощь в построении деревьев и работе с программой Starling, Ю. В. Мазуровой, Е. А. Ренковской и А. В. Дыбо за ценные редакторские замечания.

Задача, за которую взялся А. И. Коган, мне, как полевому лингвисту, представляется неохватной в рамках одной статьи. Поэтому данная статья задумана как начало серии статей о стословных списках индоарийских языков. Сразу отмечу, что мои представления о методике научного исследования не предполагают ни возможности получить «правильный» стословный список, пользуясь только словарём, ни возможности получить его от какого-то одного, пусть идеального, информанта. Любой список, полученный из единственного источника, требует дальнейшей обязательной обработки и проверки — на других носителях, на корпусе текстов, на других словарях и пр. Таким образом, тща-

1 Работа выполнена частично при поддержке РФФИ, проект 16-34-01040 «Грамматическое описание и словарь индоарийского языка куллуи», 2016-2018 гг.

Journal of Language Relationship • Вопросы языкового родства • 15/4 (2017) • Pp. 279-298 • © The authors, 2017

тельный анализ всех тридцати пяти списков А. И. Когана — задача на много лет, в данной же статье основное внимание будет направлено на следующие списки:

1) хинди — язык, изучавшийся мной в университете в течение шести лет, а ныне основной язык-посредник для полевых исследований нашей группы в Индии. Хотя у меня нет стословного списка, записанного непосредственно от информанта, я считаю возможным проверить список А. И. Когана на основании статистики корпуса Hindi Web 2013 (hiTenTen13), содержащего около 351 млн слов;

2) бенгали — язык, стословный список которого с учётом контекстов и стимулов на хинди и английском был записан мной от одного информанта в 2016 году. При проверке стословника бенгали был использован корпус Bengali Web (BengaliWaC), содержащий более 11 млн слов. Кроме того, понадобилась проверка по ряду толково-двуязычных словарей (http://www.english-bangla.com/, Лоскутов 1974, Ghosh 2011);

3) ория — язык, стословный список которого также был записан мной в 2016 году. Расхождения в списках проверены с помощью толково-двуязычных словарей (Tripathy 2015, Biswal 2015), по толково-четырёхязычному словарю (Praharaj 1931— 1940), а также по корпусу Goldhahn 2012 из 30 тысяч предложений; однако ряд слов из списка А. И. Когана в корпусе просто отсутствовал, и их изучение потребовало дополнительной проверки. Отсутствие общедоступного обширного корпуса ория компенсируется тем, что этот язык обладает уникальной письменностью; это дало мне возможность дополнительно использовать статистику Google2;

4) куллуи — стословные списки собраны Е. М. Шуванниковой в 2013 году в Кулу от пяти информантов. В дальнейшем большая часть лексики была проверена нами в ходе полевой работы 2014, 2016 и 2017 гг.

Помимо этих списков, в рамках статьи хотелось бы обсудить некоторые моменты, общие для индоарийских языков в целом — степень их исследованности, особенности семантики и исторической фонетики.

Общие спорные моменты

Основной вопрос, по которому я не согласна с автором статьи, — это степень иссле-дованности индоарийских языков в настоящий момент. Действительно, для «больших» статусных языков (хинди, бенгали, непали и т. п.) уже созданы обширные словари и

2 Разумеется, возможности для использования интернет-поисковиков очень ограничены, подробнее об этом см., например, Беликов 2016. Однако приводимые в настоящей статье примеры из Google связаны с попытками получить гораздо более точную информацию, чем отличие в употребительности двух синонимичных слов одного и того же языка на порядок или несколько порядков. Причина, по которой Google не загружает все результаты поиска, как и тот факт, что число результатов поиска является лишь приблизительной оценкой, неоднократно обсуждалась в различных публикациях в сети. Что касается эксперимента с Yandex, показывающего абсурдные результаты для запросов «в Украину», «на Украину» и «Украину», то при повторении эксперимента в Google результаты оказались непротиворечивыми. Первоначальная проверка стословных списков хинди, бенгали и ория проводилась нами на основании статистики Google, но его перепроверка на корпусах практически не изменила результат (наиболее значительные изменения претерпел результат проверки списка ория, что, вероятно, объясняется недостаточным объёмом корпуса). Это свидетельствует о том, что числа статистики Google всё же не полностью случайны, а отражают некоторую реальность. Поэтому, признавая аргументы В. И. Беликова о невозможности использовать поисковики в качестве тонкого инструментария, мы всё же считаем возможным в некоторых пределах опираться на них для получения данных о языках, имеющих характерную письменность, но не имеющих подготовленного лингвистами корпуса достаточного объёма.

грамматики, изучена историческая фонология. Однако автор распространяет это положение на все 35 языков, которые входят в его базу, что в корне неверно (Kogan 2016: 233). По большинству малых индоарийских языков в лучшем случае доступен небольшой очерк, и адекватность этого очерка часто сомнительна. Кроме того, даже качественное описание, если в задачу автора не входил сбор стословника, может невольно ввести в заблуждение тех исследователей, которые пользуются им как источником. Так, Б. П. Маха-патра в предисловии к очерку куллуи М. Р. Ранганатхи говорит о том, что информация получена от единственного носителя, чьё место жительства не указано (Ranganatha 1980: 16). При сопоставлении с полевыми данными нашей исследовательской группы в этом очерке (помимо множества ошибок и упрощений) очевидно сильное влияние лексики и грамматики хинди. Это может объясняться особенностями носителя или же специфической направленностью исследования, связанного с переписью населения, с языковой политикой Индии в целом и с задачей укрепления престижа хинди в частности (упомянутое предисловие в значительной степени посвящено возрастающему влиянию хинди как фактора объединения нации). Гораздо более подробна и точна грамматика М. Р. Тхакура, носителя куллуи и выдающегося лингвиста, написанная на хинди (Thakur 1975). Но, во-первых, она гораздо менее доступна, во-вторых, не содержит словаря, поэтому извлечение базовой лексики из неё потребовало бы полной росписи её текста. Однако и в этой книге можно найти множество неточностей. Так, в индологической традиции к говорам куллуи относят внешний и внутренний сираджи, и эта же информация упоминается в книге Тхакура (Тхакур 1975: 129). Наше поверхностное полевое знакомство с этими идиомами говорит о достаточно сильном их отличии от куллуи по существенным старым изоглоссам. Так, например, информанты сираджи давали личное и притяжательное местоимения первого лица единственного числа ham-, mhar- (а не as-, авэт-), 'поле' khech вм. chet, 'муха' makh- вм. mach-.3 В грамматике также обнаруживаются существенные расхождения, так что не совсем ясно, насколько правомерно считать их диалектами куллуи. По всей видимости, первоначальная таксономия давалась в значительной степени по административным границам, и к куллуи были отнесены все говоры княжества Куллу.

Та же проблема связана и с идиомом химачали, стословный список которого входит в базу А. И. Когана. Название «химачали» относится к различным индоарийским идиомам, распространённым в штате Химачал-Прадеш. Х. Хендриксен, книгой которого А. И. Коган пользовался для создания списков, характеризует химачали следующим образом: «Himachali embraces the following dialects counting from the south and the west: Sirmauri, Jaunsari, Baghati, Kyonthli, Kotgarhi, Koci, Mandeali and Kului» (Hendriksen 1986: 3). М. Р. Тхакур включает в этот список также чамбеали и бхадравахи (Тхакур 2012: 12-20). Всё это — достаточно сильно отличающиеся друг от друга идиомы. В статье А. И. Когана в качестве источника стословника химачали указываются носители языка (Kogan 2016: 239), однако не дано социолингвистических сведений об этих носителях — мы не знаем, в каких населённых пунктах они родились и выросли, насколько хорошо знают язык, на каких языках преимущественно общаются в последние годы и т. п. Таким образом, мы не можем быть уверены даже в том, о каком идиоме или идиомах идёт речь.

Поскольку описания малых новоиндийских языков оставляют желать лучшего, говорить о точности их исторической фонетики также не приходится. Например, в этимологическом словаре Тёрнера (Turner 1969-1985) содержится 8 (восемь!) примеров из куллуи. Главное, что хотелось бы сказать в разделе «Замечания общего характе-ра»:прежде чем подсчитывать лексикостатистику, надо понять, лексикостатистику чего

3 Подробнее о значении этих отличий см. Hendriksen 1986: 192.

мы подсчитываем, оценить достоверность источника. В случае малых индоарийских языков эта задача требует прежде всего полевых исследований и заполнения лакун в описательной лингвистике.

Замечания к семантике

В данном разделе собраны замечания, относящиеся к особенностям семантики индо-арийских языков. Лексикостатистика предполагает сопоставление слов с одинаковыми значениями, однако на практике в стословные списки зачастую попадают слова с разными значениями, сопоставлять которые неправомерно. На некоторые из таких «опасных мест», характерных для индоарийских языков, хотелось бы обратить внимание.

1. Sab, sare и их параллели в других языках возводятся к одному корню, этимология обозначена одним и тем же №1 (Kogan 2016: 239). В словаре Тёрнера это две разные этимологии sárva и sara, которые отличаются и на праиндоевропейском уровне. В языке хинди (и во многих других языках) в действительности представлены и широко употребляются оба эти корня, с сохранением семантического различия sab 'omnis' и sara 'totus'. Но в каждый из списков А. И. Когана попал лишь один из корней. Поправка: 4 добавляем в стословный список хинди слово sara, присваиваем №581 ему и его параллелям в других языках (PTH sare, HNK sare, GJR sara, LHD sara, KOT saro, HIM sare, PRY sare, BNJ sari). Вообще говоря, правильно было бы присвоить отдельным значениям 'omnis' и 'totus' разные номера; последнее, однако, фактически предполагает расширение 100-словного списка, что выходит за рамки задач настоящей статьи.

2. В индоарийских языках обычно представлено два переходных глагола, соответствующих английскому burn (например, куллуи dzail^a и phuki^a). Один из них обозначает действие, целью которого является выделение света или тепла, другой — уничтожение объекта. В некоторых языках в списках А. И. Когана представлены оба эти глагола, в других — только один (Kogan 2016: 241). Как и в предыдущем случае, имело бы смысл учитывать оба значения под разными номерами, но расширение списка — отдельная задача.

3. Этимоны 'heart' и 'liver' в индоарийских языках довольно неустойчивы. В Индии распространено вегетарианство, поэтому названия внутренних органов знакомы почти исключительно врачам и, как правило, являются санскритскими заимствованиями. При попытке исключить заимствования велика вероятность получить слово, означающее сердце не как анатомический орган, а как вместилище жизни или чувств.

4. 'All' vs 'full'. В большом количестве языков значение 'full' представлено двумя словами с этимологиями №31 и №32 (Kogan 2016: 244). Это связано с наличием двух не всегда хорошо различимых значений 'наполненный чем-либо (о сосуде, контейнере)' и 'целый, завершённый', второе из которых сближается скорее с all 'totus', и не должно присутствовать в списке в значении 'full'. Первое связано с корнем bhar-, второе — с корнем pur-. Поправка: для всех списков, в которых представлены оба корня, удаляем слово, восходящее к др.-инд. pura (PTH pura, HNK pura, GJR puro, DGR pura, RAJ pur, GUJ purü, ASS pur, AWD purhar, KUM purro, HND pura, DKH pura, PNJ pura, LHD pura, SND puro, MAR pura, BNG pura, KOT puro, HIM pura, MND pura, GRH puru).

4 Здесь и далее поправки относятся к стословным спискам, приводимым в статье А. И. Когана.

5. В индоарийских языках, как правило, различаются слова для обозначения шеи и горла. При этом нередко на слово neck (шея) информант может дать слово, обозначающее горло. То, что в списке Сводеша содержится только слово neck, — случайность, но поскольку формула подсчёта разрабатывалась именно для этого списка, следует его придерживаться. Между тем в списке хинди для значения 'neck' дано gala 'горло', а не gardan 'шея', в то время как для бенгали ситуация обратная (Kogan 2016: 249). О большинстве языков, сведения по которым не так легко проверить, мы не можем с уверенностью сказать, какое из двух значений попало в список.

В разделе «Замечания к семантике», таким образом, мы вносим в списки 29 изменений, влияющих на подсчёты.

Замечания к этимологиям

Данный раздел содержит замечания, связанные с нашими текущими знаниями и представлениями об истории индоарийских языков в целом.

1. 'Red' lal в хинди и его параллели в других языках в списках считается исконным словом и имеет этимологию №63 (Kogan 2016: 250). Подробнее об этой гипотезе происхождения lal из др.-инд. *lohila см. (Коган 2005: 156). Однако ни *lohila, ни его производные не зафиксированы в древнеиндийских и среднеиндийских текстах. В статье Тёрнера (Turner 1969-1985: № 11168 *lohila) перечисляются примеры только из дардских и нури-станских языков и одна (с вопросительным знаком) параллель из сингальского. При этом ни в одном из перечисленных языков корневого гласного a нет. Слово lal в индоа-рийских языках появляется только в средневековых новоиндийских текстах в тех же нескольких значениях, в которых оно употребляется в современном хинди: 'рубин', 'красный' и 'любимый, дитя' (Callewaert 2009: 1836). Следует отметить, что в средневековых новоиндийских диалектах уже распалась древнеиндийская падежная система, но в то же время ещё не была сформирована система послелогов, поэтому существительное в роли определения зачастую соединяется с определяемым существительным путём простого соположения. Ср., например, ранние рукописи Кабира:

rama rasaina rasana casu (1)

Рама амрита вкус пробовать-1SgPrae

'пробую вкус амриты Рамы'

ita mana madira rahau nita cosaí (2)

здесь разум храм жить-Impv всегда хороший-Adv 'здесь в храме разума живи всегда хорошо'

sata dala kavala nivasiya (3)

шесть лепесток лотос обитающий 'обитающий в лотосе с шестью лепестками'

asta kavala dala bhitara (4)

восемь лотос лепесток промежуток 'между восемью лотосовыми лепестками'

kadali kusama dala bhitara (5)

лотос цветок лепесток промежуток 'между лепестков цветка лотоса'

В этой ситуации затруднительно отличить существительное 'рубин' от прилагательного 'рубиновый, красный', и даже словосочетание от композита типа tatpurusha. По всей видимости, именно в этот период персизм lal (из перс. la'l 'рубин') и получил распространение в индоарийских языках. Так как гортанная смычка не является характерной для них фонемой, она была утрачена. Можно заметить, что основные исконные цвето-обозначения хинди, как и большинство исконных базовых прилагательных, являются изменяемыми и заканчиваются в исходной форме на û: ср. kala 'чёрный', pîla 'жёлтый', hara 'зелёный', nîla 'синий', bara 'большой', chota 'маленький', thanda 'холодный', sukha 'сухой', bhara 'полный', pura 'полный, целый', accha 'хороший', naya 'новый', khara 'стоящий', patla 'тонкий', но ср. safed 'белый' < перс., garam 'тёплый' < перс.5 Также существенным аргументом в пользу персидского происхождения lal и его параллелей в других языках является то, что ни в одном из языков, в которых прошёл переход -l > -l, не зафиксирована форма с -l, однако встречаются формы с -l: ср. куллуи lal 'красный', но phaf 'плод', gol 'круглый'; ория lala 'красный', но pha\a 'плод', gola 'мяч' (gol/gol 'круглый', будучи абстрактным геометрическим понятием, видимо, имеет дублет-санскритизм). Вероятно, переход -l > -l прошёл до распространения персизма lal в индоарийских языках. Форму loya в думаки, вероятно, следует считать исконной и связывать с др.-инд. lohita (Turner 19691985: № 11165 lohita). Поправка: присваиваем lal и его параллелям (HND lal, DKH lal, PNJ lal, DGR lal, SND lalu, GUJ lal, BNG lal, HIM lal, KUL lal, MND lal, ORY lal, AWD lal, KUM lal, ROM lolo, BRJ lal, GRH lal, PRY lal, MAI lal, MEW lal, WGD lal, HNK lal, GJR lal, LHD lal, RAJ lal, ASS lal, KOT lal) отрицательные номера.

2. 'Nail' GUJ nakh, MAR nakh, BNG nokh, ASS nokh, HIN nokh, ORY nakha, а возможно, и ряд их параллелей в менее изученных языках, которым присвоен № 14 (Kogan 2016: 241), следует признать санскритизмами, а не потомками др-инд. nakhá. Интервокальное kh вместе с рядом других взрывных согласных в среднеиндийский период ослабляется в h, затем вовсе исчезая в части языков, таких как бенгали и гуджарати (Masica 1991: 180-181, 204). Хотя такое развитие взрывных согласных характерно не для всех слов, для nakhá оно хорошо зафиксировано (см., например, его рефлексы в стословных списках пенджаби, дакхини, браджа, а также хинди форму nah 'ноготь'). Сохранение интервокального kh возможно в качестве результата геминации, но в этом случае новоиндийский рефлекс должен содержать либо геминату, либо её следы в виде заместительного удлинения гласного (Masica 1991: 181, 187): nakha > **nakkha > **nakha. Ср. также рефлексы múkha 'лицо, рот' (этимология № 54). Поправка: для всех параллелей с kh (GUJ nakh, MAR nakh, BNG nokh, ASS nokh, HIM nokh, ORY nakha, WGD nokh, BNJ nak) заменим № 14 на № -14.

3. 'Mouth' WGD mundo BNJ mundo (Kogan 2016: 249) присвоен № 54 (др-инд. múkha). О фонетике вагди и банджари мы знаем мало, однако более вероятной представляется связь этих слов с murdhán 'голова' (Turner 1969-1985: № 10247 murdhán)6. Ср. также кумаони mundo, пенджаби mund 'голова'. Поправка: присваиваем словам вагди и банджари № 554.

4. 'Mouth' BNG mukh, ASS mukh NEP mukh, KUM mukh (Kogan 2016: 249) следует признать санскритизмами по причине, изложенной в п. 2 для nakh. Поправка: для всех параллелей с kh заменим № 54 на № -54.

5 Возможными исключениями являются bhari 'тяжёлый' и gol 'круглый'. Однако фонетический облик обоих этих слов позволяет трактовать их как санскритские заимствования. Заметим, что второе из них неотличимо от существительного gol 'круг', от которого и произведено. Вероятно, таким же способом произведено lal 'красный' от lal 'рубин'.

6 Здесь и далее отсылки к Turner 1969-1985 даются по номерам словарных статей онлайн-версии, а не страниц книги).

5. Новоиндоарийские слова, восходящие к др.-инд. bija 'seed' (Turner 1969-1985: №9250 bija) утратили j в интервокальной позиции. Слова из списков А. И. Когана, сохранившие j (Kogan 2016: 252), следует признать санскритизмами. Поправка: присваиваем словам с сохранением j (HND bîj, DKH bbj, GJR bîj, LHD bîj, SND b'iju, RAJ bîj, BNG bij, ASS biz, KOT bîdz, HIM bîj, KUL bejja, ORY bîja, BRJ bîj, GRH bîj, MAI bîj, KCH bijj, BNJ bija) отрицательный номер.

6. Новоиндоарийские слова, восходящие к др.-инд. súrya/súriya утратили в первом случае r, во втором y (Turner 1969-1985: № 13574 súra, Masica 1991: 169). Следовательно, все слова, сохранившие и r и y (как правило, перешедшее в j), следует признать частично адаптированными санскритизмами (Kogan 2016: 253). Поправка: присваиваем HND suraj, DKH surîj, PNJ suraj, DGR suraj, RAJ suraj, GUJ suraj, HIM suraj, KUL surjd, MND suraj, AWD suruj, KUM suraj, BRJ suraj, MAI suruj, KCH suraj, MEW suraj, ASS xuruz, GRH suraj, BNJ surjya отрицательные номера.

Итого в данном разделе вносится 75 влияющих на подсчёты изменений в списки.

Поправки к списку хинди

Хинди — официальный язык Республики Индия в целом, а также многих штатов, входящих в её состав. Так называемая «зона хинди» в действительности представляет собой огромный континуум различных идиомов, каждый из которых следовало бы вносить в «идеальную лексикостатистическую базу» отдельно. Лишь немногие из них уже внесены в базу А. И. Когана благодаря их сравнительно высокому статусу и хорошей изученности. Прочие имеют статус местных диалектов хинди. Однако первоначальная диалектная база хинди — это околоделийские диалекты хариани и кхари боли. При этом как в двуязычные словари (Platts 1884, Бархударов 1972), так и в толковые или синонимические (Kumar 1997, ряд интернет-словарей) входит лексика самых разных диалектов, зачастую без поясняющих помет. Почти каждое слово стословника имеет 5-10 синонимов. В силу низкой нормированности хинди, такие слова могут легко встретиться в песнях и кинофильмах, художественной литературе и публицистике. В этой ситуации тактика А. И. Когана избегать включения в список заимствований при наличии любого синонима, не противоречащего исторической фонетике, может привести к включению в стословный список слов, принадлежащих другим идиомам, расположенным в зоне хинди, и употребляющимся только на ограниченной территории. Самым простым способом отсечь такие диалектизмы будет приблизительный подсчёт сравнительной употребительности синонимов в корпусе текстов. Запросы вводились письмом деванагари. Опытным путём установлено, что более частотны написания без диакритики «нукта» и с заменой диакритики «чандрабинду» на диакритику «анусвара», поэтому в этих пунктах мы отходим от словарной орфографии. В случае большого количества синонимов, как правило, можно выделить один или несколько наиболее употребительных, тогда как у остальных частотность ниже в 10-20 и более раз. Среди этих наиболее употребительных слов можно выбрать исконные, если они представлены. Таким образом нами были проверены несколько вызвавших у нас сомнение пунктов из списка А. И. Когана.

1. 'Blood' lahu (Kogan 2016: 240) даёт 3105 вхождений в Hindi Web 2013. Основное бытовое слово — персизм khun (31537 вхождений), основное медицинское — санскритизм rakt (16461 вхождение). Исконных слов сопоставимой частотности нет. Поправка: вычёркиваем lahu, добавляем два заимствования.

2. 'Earth', как правило, имеет много переводов и семантических тонкостей. Не совсем понятно, почему из списка хинди исключено слово mitti, параллели которого представлены в других языках (Kogan 2016: 243). Hindi Web 2013 для dharti и mitti даёт сопоставимое число вхождений (33698 и 24256 соответственно). При этом семантика этих корней существенно различается (не только в хинди, но и в других языках) Если обратиться к такому источнику языковой информации, как Википедия на языке хинди7, то мы видим, что запрос dharti переадресует нас на статью «планета Земля», а запрос mitti — на статью «почва» (обе статьи озаглавлены санскритскими заимствованиями, за которыми идут перечисления синонимов). Действительно, семантика этих слов несколько отличается, и адекватное решение этой проблемы требует расширения списка, что не входит в наши задачи (см. раздел «Замечания к семантике»). Поправка: включаем mitti в список хинди.

3. 'Man' в списке хинди (Kogan 2016: 248) представлено словом mard (8398 вхождений в Hindi Web 2013). Более последовательным было бы включение прежде всего эквивалента admi (125042 вхождения). Результатов подсчёта это не изменит, так как оба эти слова являются заимствованиями. Поправка: заменяем mard на admi.

4. 'Meat' представлено только словом gost (Kogan 2016: 248). Однако запрос mas даёт 8614 вхождений в Hindi Web 2013, gost — 1127. gost — несомненное заимствование; mas может быть как санскритским заимствованием, так и исконным словом. В других языках его параллели широко представлены и отмечены как исконные (№ 124). Поправка: заменяем gost на mas № 124 в списке хинди.

5. 'Rain' в списке хинди — meh (Kogan 2016: 250). Это слово малоизвестное, в словарях встречается, но, вероятно, попало туда из какого-то диалекта (например, раджастани). Hindi Web 2013 даёт для meh 73 вхождения, что для слова из стословника хинди удивительно мало. Самым распространённым словом для обозначения дождя можно считать персизм baris (30702 вхождения); конкурентов он, вероятно, не имеет. Статья в словаре-тезаурусе (Kumar 1997) озаглавлена санскритизмом varsa (14739 вхождений); среди перечисленных в статье синонимов из исконных слов самыми употребительными следует считать jal (63936 вхождений, основное значение 'вода'), pani (166879, основное значение 'вода') и barsat (11389, основное значение 'сезон дождей'), однако в этом случае отсечь другие значения слов мы не можем. Поправка: убираем meh, вписываем baris и varsa с отрицательными номерами.

6. 'White' в списке хинди ujla, citta (Kogan 2016: 256). Запрос в Hindi Web 2013 даёт на них 495 и 148 вхождений соответственно. Кроме того, ujla имеет основное значение 'ясный, сияющий, чистый'. Наиболее употребительным и семантически точным из слов, означающих 'белый', является персизм safed (15588 вхождений). Сопоставимых по употребительности с safed слов нет. Поправка: убираем ujla, citta, вписываем safed с отрицательным номером.

7. 'Woman' в списке хинди aurat (Kogan 2016: 256) — 27553 вхождения. Логично было бы добавить также санскритизмы mahila (106114 вхождений) и stri (56179 вхождений). Из нашего полевого опыта скорее следует, что aurat более частотно, чем stri, в устном употреблении, поэтому можно предположить, что stri несколько чаще встречается в Hindi Web 2013 за счёт возможного преобладания в корпусе официального стиля. Поправка: добавляем mahila, что не влияет на результаты подсчётов, так как все перечисленные слова являются заимствованиями.

Таким образом, в разделе «Поправки к списку хинди» мы постулируем 8 изменений, влияющих на подсчёты.

7 Разумеется, речь идёт не об источнике научной информации, а о Википедии на языке хинди как о ресурсе, который редактируется преимущественно носителями языка хинди.

Поправки к списку бенгали

Список бенгали был получен мной в 2016 году от одной информантки. Параллельно фиксировались слова разговорного бенгали и «шадху бхаша», санскритизированного литературного языка, что позволило отсеять часть синонимов. Расхождения нашего списка со списком А. И. Когана потребовали более тщательного изучения по словарям, корпусу Bengali Web и ряду источников в сети Интернет. Предлагаются следующие поправки к списку А. И. Когана.

1. 'All'. Помимо sob 'omnis' (Kogan 2016: 239) в нашем списке представлены два синонима для 'totus' — sara и puro. Первый, по словам информантки, употребляется в основном с временными периодами. Оба достаточно хорошо представлены в Bengali Web (3317 и 2680 вхождений соответственно). Поправка: включаем sara №581 и puro №32 в список.

2. 'Cloud' BNG barid №-2 (Kogan 2016: 241) при поиске в Bengali Web дал 0 вхождений8. В то же время megh, полученное от информантки, дало 372. Поправка: заменяем barid на megh (№-1). В подсчётах эта замена роли не играет, так как megh — санскритизм (см. п. 2, 4 раздела «Замечания к этимологиям»).

3. 'Fire' BNG agun №-4, в списке А. И. Когана обозначенное как заимствование (Kogan 2016: 244), вслед за Тёрнером считаем исконным словом (Turner 1969-1985: №14198 agní). Санскритизмы в бенгальском языке обычно сохраняют санскритскую орфографию, но произносятся по бенгальским правилам. Так, в качестве слова «шадху бхаша» наша информантка дала ogni. Форма agun не вполне ясна, но качество гласного говорит о его удлинении, что не позволяет считать слово санскритизмом. Поправка: присваиваем agun №27.

4. 'Full' BNG bhora №31 (Kogan 2016: 244) является словарной формой глагола 'наполнять', заменим его на полученное нами прилагательное bhorti, что, впрочем, не должно отразиться на подсчётах.

5. 'Hair' BNG kes №185 (Kogan 2016: 245) даёт 25 вхождений в Bengali Web. Моя информантка вместо этого слова выдала синоним chul (551 вхождение). Поправка: удаляем kes, заменяем на chul №308 (Turner 1969-1985: № 4883 cuda).

6. 'Liver' BNG jokrit (Kogan 2016: 247) информанткой было маркировано как «шадху бхаша», бытовое наименование — англицизм libhar (преимущественно в кулинарии). В Bengali Web jokrit и libhar дают 22 и 40 вхождений, в Google 53700 и 556000 соответственно. Поправка: добавляем libhar с отрицательным номером в список. На подсчёты это изменение не влияет, оба слова являются заимствованиями.

7. 'Many' BNG bohu №51 (Kogan 2016: 248). Наша информантка дала бытовое onek, «шадху бхаша» — procur. bohu даёт 3560 вхождений в Bengali Web, onek — 23201 вхождение. bohu присутствует в бенгальском языке в том числе как первая часть санскритских композитов-санскритизмов, однако различить санскритизм и исконное слово по фонетическому облику в этом случае не представляется возможным, поэтому bohu как самостоятельное слово следует считать исконным. Форма onek, напротив, — очевидный сан-скритизм. В связи с высокой встречаемостью мы всё же включим его в список с присвоением №-1, хотя на подсчёты это не влияет.

8. 'New' BNG nobo №57 (Kogan 2016: 249) было маркировано информанткой как «шадху бхаша», и это не случайно. Фонетический облик этого слова не даёт оснований считать его исконным. Форма nobo, несомненно, происходит из др.-инд. náva, однако по-

8 Хотя словари и подтверждают слово barid в этом значении, при поиске в Google соотношение между barid и megh составило 98 к 2130000.

томком др.-инд. náva, удовлетворяющим требованиям исторической фонетики, в действительности является бенгальское no 'младший, четвёртый (о ребёнке в семье)' (Turner 1969-1985: №6983 náva, Ghosh 2011, Лоскутов 1974). Ср. аналогичный пример: Turner 1969-1985: № 10431 yáva 'barley' = бенгальское ja (в современных словарях литературного бенгальского языка это слово представлено в форме joi 'овёс', см. Ghosh 2011, Лоскутов 1974). Исходя из этих соображений, следовало бы приписать nobo отрицательный номер; но в силу его низкой частотности (241 вхождение в Bengali Web) мы предлагаем просто не включать его в список. В качестве разговорного синонима nobo наша информантка дала notun (13913 вхождений в Bengali Web) — слово, по всей видимости, связанное с др.-инд. nutana9, прошедшее не вполне понятные фонетические изменения; вероятно, его следует считать частично адаптированным санскритизмом10. Поправка: приписываем nobo №-57, добавляем notun с №-1.

9. 'Rain' BNG badol №127 (Kogan 2016: 250). В нашем списке в качестве бытовых слов даны badol (101 вхождение в Bengali Web) и jol (893 вхождения). Основное значение jol — 'вода', поэтому проверить частоту его употребления в значении 'дождь' затруднительно, однако это значение присутствует в большинстве словарей. В связи с малой частотностью badol вероятно, следует добавить jol в список в качестве второго слова с №319.

10. Вместо 'road' BNG poth №-8 (Kogan 2016: 251) в нашем списке значится персизм rasta. Для poth обнаружено 8008 вхождений в Bengali Web, для rasta — 2390 вхождений. Разница незначительна, и мы можем добавить rasta в качестве второго слова с отрицательным номером, что, впрочем, не должно повлиять на подсчёты.

11. 'Root' BNG sikor №313 (Kogan 2016: 251) даёт 12 вхождений в Bengali Web. В нашем списке его место занимает mul (6143 вхождения). Поправка: заменяем sikor на mul № 259.

12. 'Tail' BNG langul № 317 (Kogan 2016: 254) даёт 0 вхождений в Bengali Web, а в Google — около 2000. В нашем списке значится lej (141 вхождение в Bengali Web, около 536000 в Google). Малая встречаемость langul позволяет его исключить, однако в онлайн-словаре мы находим форму lengur, которая также приводится в Turner 1969-1985: № 11009 langulá. Эта форма не встречается в Bengali Web, но в Google имеет около 50-80 тысяч вхождений. Форма lej возводится к Turner 1969-1985: № 10915 lañja. По всей видимости, lañja и langulá связаны на праиндоевропейском уровне с глаголом leng 'качаться', который приведён в статье Тёрнера. Поправка: заменяем langul на lengur № 317, добавляем синоним lej № 317.

13. 'White' BNG dhobol № 267 (Kogan 2016: 256) в нашем списке отсутствует. Следует отметить, что dhobol по своему фонетическому облику — санскритизм. Действительным фонетическим соответствием др.-инд. dhavala 'белый, чистый' является бенгальское dhola 'белой масти, светлокожий' (см. Turner 1969-1985: № 6767 dhavalá, а также пункт 8 данного раздела о 'new' BNG nobo). Учитывая это, dhobol справедливо было бы присвоить отрицательный номер. Однако то, что в Bengali Web это слово встречается 1 раз, в то время как sada из нашего списка (sada также является заголовком статьи в бенгальской Википедии о белом цвете) встречается 869 раз, позволяет его вовсе исключить, заменив на персизм sada с отрицательным номером.

14. 'Woman' BNG meye № 321 (Kogan 2016: 256): действительно, довольно распространённое слово (4302 вхождения в Bengali Web), но основное его значение - 'girl', что подтверждает, например, статья в бенгальской Википедии. Наша информантка в качестве основного бытового слова дала mohila (2248 вхождений в Bengali Web), статья в бенгаль-

9 См. Turner 1931: http://dsalsrv02.uchicago.edU/cgi-bin/philologic/getobject.pl7c.1:1:5036.turner.1329326.

10 Закономерный рефлекс др.-инд. nUtana должен был бы выглядеть как **пйап.

ской Википедии о человеке женского пола озаглавлена словом nari (8533 вхождения в Bengali Web), однако оба этих слова следует считать заимствованиями. Таким образом, исконного слова для понятия 'woman' в бенгали нет. Поправка: заменяем meye на mohila и nari с отрицательными номерами.

15. 'Yellow' BNG holode (Kogan 2016: 257): присутствует в нашем списке в форме holud, это слово является и заголовком статьи о жёлтом цвете в бенгальской Википедии. Количество вхождений holode в Bengali Web — 12, в Google — около 167 тысяч, holud в Bengali Web — 263, в Google — около 1 миллиона 830 тысяч. Однако holud обозначает также куркуму, распространённую индийскую пряность. Поэтому выяснить относительную употребительность этих двух форм затруднительно. Возможная поправка: заменяем holode на holud без замены номера.

Итого в разделе «Поправки к списку бенгали» насчитываем 9 изменений, влияющих на подсчёты.

Поправки к списку ория

Стословный список языка ория был получен мной в 2016 году от одного информанта. К сожалению, объём корпуса ория из Leipzig Corpora Collection, который мне удалось найти, составляет всего 30 тысяч предложений, и многие слова из списка А. И. Когана в нём не представлены, а слова из моего списка представлены слабо. Но благодаря тому, что язык ория обладает уникальной письменностью, результаты запросов в Google с очень высокой вероятностью будут относиться именно к языку ория (в отличие от хинди, в котором базовая лексика может графически совпадать с лексикой непали, маратхи или санскрита, а также бенгальского, базовая лексика которого может графически совпасть с ассамской). В силу этих обстоятельств мы приводим статистику и по Leipzig Corpora Collection, и по Google для тех пунктов списков, в которых имеются существенные расхождения. В списке А. И. Когана слова ория приводятся в системе транслитерации. Я даю слова в транскрипции, так же, как это сделано в его списке бенгали. Таким образом, то, что А. И. Коган передаёт как a и a, я передаю как o и a соответственно.

1. 'Ashes' ORY chara № 140 (Kogan 2016: 239): словарями не подтверждается, как и нашим списком (в отличие от pauñsa № 567). В корпусе слово не представлено. В Google слово представлено слабо (около 900 ссылок), вероятно, в основном, как вариант написания char 'ничтожный'. Приписывание ему значения 'пепел', по-видимому, связано с каким-то из сочетаний, обозначающих уничтожение, в том числе сожжение до состояния пепла. Поправка: убираем chara из списка.

2. 'Bark' ORY bakkala № 328 (Kogan 2016: 239): согласно словарям, следует транслитерировать как bakala.

3. 'Breast' ORY buku № 297 (Kogan 2016: 241): по словам нашего информанта, относится к классическому ория, в отличие от chati № 12, которое подтверждается нашим списком. В корпусе buku не представлено, тогда как полученное нами от информанта chati имеет 40 вхождений в корпус. В Google buku встречается около 600 раз, chati — около 19 тысяч раз. Поправка: убираем buku из списка.

4. 'Cold' ORY thanda № 458 (Kogan 2016: 242): в наш список не попало. Информант дал санскритизм Jito. По количеству вхождений в корпус они вполне сопоставимы (39 и 94), поправки в список А. И. Когана не требуются.

5. 'Come' ORY ail- № 181 (Kogan 2016: 242): перфектная основа, в которую входит стандартный перфектный суффикс -il-. Для выяснения вопроса о происхождении основ

as- и a- требуется отдельное исследование, выходящее за рамки целей данной статьи. Полной парадигмы от основы a- не образуется. В словаре Прахараджа лишь упоминается о возможности употребления форм типа aila или aila (и прочих) вместо asila (и прочих) в прошедшем времени (Praharaj 1931-1940: http ://dsalsrv02 .uchicago. edu/cgi-bin/philologic/getobject.pl?c.0:ll0.praharaj)11. Однако очевидно, что перфектный суффикс следует исключить. Поправка: заменяем ail- на a-. На подсчёт эта замена не влияет.

6) 'feather' ORY palak № 306 (Kogan 2016: 244): согласно словарю Biswal 2015: 870, значит 'nourishing, rearing up'. Указание на значение 'перо' находим в словаре Прахараджа, однако здесь говорится лишь о диалектном слове, распространённом в сообществах ория в Миднапуре в Западной Бенгалии, в окружении бенгалоязычного населения. В той же словарной статье Прахарадж толкует эту форму через слово poro (Praharaj 1931-1940: http://dsalsrv02.uchicago.edu/cgi-bin/philologic/getobject.pl?c.28:5l59.praharaj.3504923). Очевидно, речь о заимствовании бенгальского palok 'перо'. Слово из нашего списка, персизм poro, подтверждается словарями ория (Biswal 2015: 818, Tripathy 2015: 326). Распространённость его оценить затруднительно, так как оно имеет (вероятно, более распространённый) омоним — местоимение 'другой'. В словаре Прахараджа оно присутствует только в толкованиях, но не в заголовке словарной статьи, из чего можно предположить, что это слово является самым общеизвестным в данном значении. Поправка: заменяем palak на poro (в транслитерации А. И. Когана — para) № -1.

7. 'Foot' ORY pa № 30 (Kogan 2016: 244): подтверждается словарём Прахараджа, но не встречается в корпусе, а в Google находится только 121 вхождение. pado из нашего списка даёт 121 вхождение в корпус и 35 тысяч — в Google. pado — санскритское заимствование, но исконные слова сопоставимой частотности отсутствуют. Поправка: заменяем pa на pado № -1.

8. 'Full' ORY bhari № 31 (Kogan 2016: 244): согласно словарям ория (Biswal 2015: 1204, Tripathy 2015: 372, 437), имеет значение 'heavy', но не 'full'. Представленное в нашем списке pura подтверждается словарями и встречается в корпусе 18 раз. Поправка: убираем bhari из списка.

9. 'Hair' ORY culi № 308 (Kogan 2016: 245): согласно словарю (Biswal 2015: 448), обозначает исключительно вершину горы. На той же странице см статью о culo 'hair of the head', имеющее также значения 'crest of cock', 'top of a temple', 'hump of a bull'. В корпусе culo встречается 2 раза. В нашем списке представлены два слова: bal и cuti, при этом второе отмечено информантом как слово прибрежного (околостоличного) диалекта, а первое — как слово западное или племенное. Однако словарь (Biswal 2015: 445) переводит cuti как 'a tuft of hair' (пучок волос, причёска), а словарь (Tripathy 2015: 422) толкует hair в основном через слово bal, вовсе не упоминая cuti. В корпусе cuti также встречается 2 раза, по сравнению со 119 для bal. Поправка: заменяем culi на bal № 36.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

10. 'Heart' ORY hrudaya № -5 (Kogan 2016: 246): слово, согласно словарям и свидетельству информанта связанное скорее с духовным понятием. Сердце в анатомическом смысле — hrutpindo. Оба они являются санскритизмами. Поправка: заменяем hrudaya на hrutpindo без замены номера.

11. 'Meat' ORY maesa № 124 (Kogan 2016: 248): вероятно, опечатка. По словарям и свидетельству информанта — ma so. Поправка: заменяем maesa на ma so, на подсчёт замена не влияет.

12. 'Moon' ORY candrama № -8 (Kogan 2016: 248): малоупотребительный санскритизм (2 вхождения в корпусе). В нашем списке значится jonho, которое также является заго-

11 Здесь и далее отсылки к Praharaj 1931-1940 даются гиперссылками на онлайн-версию.

ловком статьи о Луне в Википедии на ория и даёт 14 вхождений в корпусе. Это слово отсутствует в статье (Turner 1969-1985: № 5301 jyotsna), но очевидно, что это этимологическая параллель к jyotsna. Поправка: заменяем candrama на jonho № 340.

13. 'Round' ORY gola № 66 (Kogan 2016: 251): вероятно, опечатка. Прилагательное 'круглый' в словаре (Biswal 2015: 370) приводится в двух вариантах написаний: gol/gol, то есть существует и в форме санскритизма, и в форме исконного слова. Поправка: заменяем gola на gol без замены номера.

14. 'Say' ORY bol- № 70 (Kogan 2016: 251): при поиске в словарной форме boliba даёт 1 вхождение в корпус и около 300 в Google, что несопоставимо с 30 вхождениями в корпус и 42 тысячами в Google для представленного в нашем списке koh- № 69 в той же форме. Поправка: убираем bol- из списка.

15. 'Seed' ORY bîja № 72 (Kogan 2016: 252): по его фонетическому облику следует считать санскритизмом (см. Masica 1991: 180-181, также пункт 5 из раздела данной статьи «Замечания к этимологиям»). В корпусе это слово даёт 7 вхождений. В нашем списке значится moñji (52 вхождения), заимствование из дравидийских языков (Burrow 1984: #4639 Ga. (Oll.) mäjik). Поправка: помимо замены номера bîja на отрицательный, добавляем moñji с отрицательным номером.

16. 'Sun' ORY surya № -11 (Kogan 2016: 253): вероятно, результат ошибочной транслитерации. В действительности варианты произношения, приведённые в словаре Праха-раджа — surja, suruj, suraj, surjya. В нашем списке также значится surjo. Поправка: заменяем surya на surjo без замены номера — всё это следует считать различным образом адаптированными санскритизмами (см. пункт 6 раздела «Замечания к этимологиям»).

17. 'Tail' ORY languja № 317 (Kogan 2016: 254): и в словарях, и в корпусе, и в Google находится только в форме langula (12 вхождений в корпус, около 100 вхождений в Google). В нашем списке значится lanjo (25 вхождений в корпус, около 1000 вхождений в Google). Поправка: заменяем langula на langula, добавляем lanjo № 317.

18. 'Walk (go)' ORY gal- № 93 (Kogan 2016: 255): отсутствует в словарях и, по-видимому, является результатом ошибочной транслитерации специфического редкого начертания слога ca (--) в письменности ория. Обычное его написание — öl, но в этом редком начертании он сходен со слогом ga (9). В действительности речь о глаголе cal-, зафиксированном и в нашем списке. Заметим, что этот глагольный корень представлен, например, и в хинди. Но употребление корней ja- и cal- в хинди (как и, судя по словарным толкованиям, ji- и cal- в ория) сильно различаются. Если первый скорее можно соотнести с английским go ('идти, уходить'), то второй — с английским walk ('ходить, передвигаться пешком'). Поэтому сопоставлять их между собой было бы неправомерно. Поскольку семантические соответствия cal- отсутствуют в списках А. И. Когана, не стоит включать этот глагол в список ория, а значение 'walk (go)' следует уточнить. Поправка: удаляем gal- из списка, меняем значение 'walk' на 'go' для всех языков.

Таким образом, в разделе «Поправки к списку ория» 9 изменений, влияющих на подсчёты.

Поправки к списку куллуи

Список языка куллуи составлен А. И. Коганом с помощью грамматического очерка М. Р. Ранганатхи, содержащего наиболее полный словник куллуи на момент написания статьи. Гораздо более подробная и достоверная грамматика М. Р. Тхакура содержит значительное количество лексики, но эта лексика не объединена в словарь, а разбросана по

разным разделам грамматики, часто без перевода на хинди. В настоящее время более полный, периодически обновляемый словарь куллуи можно найти на сайте www.pahari-languages.ru. Он включает данные из словаря Ранганатхи и постоянно пополняется лексикой из грамматики Тхакура и нашими полевыми данными. Согласно сложившейся в нашей научно-исследовательской группе традиции, транскрипция слов куллуи даётся не в индологической транскрипции, а в МФА. Стословный список языка куллуи был собран в 2013 году Е. Князевой (Шуванниковой) от пяти информантов из деревни Наггар; позже семантика многих из этих слов была уточнена нами в ходе работ по сбору словаря и корпуса устных текстов. Разберём те случаи, где встречаются расхождения со списком А. И. Когана.

1. 'Ashes' в списке А. И. Когана не представлено. В нашем списке значится bho:s. Поправка: добавляем bho:s № 489.

2. 'Bark' KUL khol № 552 (Kogan 2016: 239): в нашем списке отсутствует. Трое из пяти информантов назвали слово lepaba. Возможная его этимология связана с (Turner 19691985: 11114 lepya 'plaster'). Поправка: заменяем khol на lepdfa № 490.

3. 'Bite' KUL kat- № 8 (Kogan 2016: 240): представлено в наших списках от двух информантов. Также двое информантов представили корень kha-, один — fok- и один — tsefa-. Вносим корень kha- № 490, значение которого было позже подтверждено информантами в ходе дальнейшей работы.

4. Помимо 'black' KUL ka\a № 9 (Kogan 2016: 240), двое информантов также дали прилагательное tfitta. Поправка: добавляем tfitta № 450.

5. 'Dry' в списке куллуи А. И. Когана не представлено. В нашем списке значится Jukka. Поправка: добавляем Jukka № 20.

6. Кроме 'egg' KUL anda № 24 (Kogan 2016: 243), двое из наших информантов дали также эквивалент ^anna — слово с не вполне ясной этимологией; видимо, следует считать, что оно относится к тому же корню, но с метатезой. В этом случае его внесение в список не повлечёт за собой изменений при подсчётах, а при дальнейшей работе со списками, возможно, будет найдена более удовлетворительная этимология. Поправка: вносим rfanna № 24.

7. 'Eye' KUL hokH № 25 (Kogan 2016: 243): в нашем списке не представлено. Вместо него все информанты выдавали otjhi. Поправка: заменяем hokhi на otjhi без замены номера.

8. 'Fat' в списке куллуи А. И. Когана отсутствует. В нашем списке персизм tsarvi. Поправка: вносим tsarvi с отрицательным номером.

9. 'Fish' KUL machji № 28 (Kogan 2016: 244): в нашем списке не представлено. Все информанты дали motsi. Это же слово находим и у М. Р. Тхакура. Поправка: заменяем machfi на motsi без замены номера.

10. 'Foot' KUL per (Kogan 2016: 244): в нашем списке не представлено. Три информанта дали fcö:ng (Тёрнер 5082 jáñgha) и три — fä:y (Turner 1969-1985: № 5428 tañka). Поправка: заменяем per на faö:ng № 130 и fa:y № 131.

11. 'Good' KUL bhala № 184 и khara № 554 (Kogan 2016: 245): в нашем списке не представлены. Четыре информанта дали JobHa (вероятно, Turner 1969-1985: № 12532 subha) и два — ba:ka (допустимы несколько гипотез, Turner 1969-1985: 11345 varnya, 9145 bandhura и 11191 vañka). Однако в ходе полевой работы последующих лет стало ясно, что ba:ka можно скорее перевести как 'beautiful'. Поправка: заменяем bhala и khara на Jobhla № 588.

12. 'Head' KUL sir № 38 (Kogan 2016: 245): в наших списках не представлено. Следует заметить, что если бы такое слово действительно входило в стословник куллуи, его следовало бы считать заимствованием из хинди, так как правильным соответствием др.-инд.

s- в куллуи является/-. Следовательно, у слова sir (Turner 1969-1985: № 12452 síras) должен был бы быть отрицательный номер. Однако четверо информантов дали muntfi. Поправка: заменяем sir на muntfi № 338.

13. 'Heart' KUL dil № -4 (Kogan 2016: 246) в наших списках не представлено. Трое информантов дали kokfi (этимология неясна). Поправка: заменяем dil на kokfi № 666.

14. 'Horn' KUL singh № 40 (Kogan 2016: 246): в наших списках не представлено. Если бы оно входило в стословный список куллуи, ему следовало бы присвоить отрицательный номер (см. пункт 12 'head' KUL sir). Однако все наши информанты дали fi:ng. Поправка: заменяем singh на fi:ng без замены номера.

15. 'Kill' KUL mar- № 42 (Kogan 2016: 246) дал один из наших информантов. Четыре человека дали эквивалент mdka:- (по-видимому, Turner 1969-1985: № 10263 *mrkna 'damaged'). Поправка: добавляем mdka: № 444.

17. 'Leaf' KUL pottra № 45 (Kogan 2016: 247): в наших списках отсутствует. Все информанты выдали форму potfa. Поправка: заменяем pottra на pot/a без замены номера.

18. 'Meat' KUL mas № 124 (Kogan 2016: 248): дано одним из информантов. Четыре информанта дали форму fikha. По всей видимости, это персизм (из перс. /ekar 'охота, дичь'), но фонетические изменения не совсем понятны. Поэтому лучше внести его в список на случай дальнейшей работы с ним, если всё же будет найдена исконная этимология. Поправка: добавляем /ikha № -1.

19. 'Moon' KUL joth № 340 (Kogan 2016: 248): слово, полученное от двух информантов. Однако от двух других получено fa:nd (Turner 1969-1985: № 4661 candrá). Кроме того, согласно описанию М. Р. Тхакура и нашим полевым данным, в языке куллуи наблюдается противопоставление двух рядов аффрикат, и слово из списка А. И. Когана точнее было бы передавать как footh. Дальнейшее изучение вопроса о происхождении двух рядов аффрикат в куллуи, возможно, приведёт к тому, что слово fa:nd мы сочтём заимствованием из хинди, но на данный момент мы не можем с уверенностью это утверждать. Поправка: заменяем joth на footh, добавляем fa:nd № 52.

20. 'Mountain' KUL pahad № 53 (Kogan 2016: 248): в нашем списке отсутствует. От трёх информантов было получено слово dho:g (Turner 1969-1985: № 5603 *dhökka). Однако в качестве стимула выступало не mountain, а hill. По нашим данным, для понятия 'mountain' чаще используется слово foot (Turner 1969-1985: № 5362 jhata 'forest'). Поправка: заменяем pahad на foot № 632.

21. 'Neck' KUL kyadi № 228 (Kogan 2016: 249): не подтверждается нашими списками. Все информанты дали слово muthu, этимология которого неясна. gola неоднократно встречается в форме go/, значит в том числе и 'горло' (см. пункт 4 из раздела «Замечания к семантике»); но чтобы исключить значение 'шея', требуется более подробное исследование семантики. Поправка: заменяем kyadi на muthu № 777.

22. 'Sand' KUL ret № 67 (Kogan 2016: 251): действительно, было подтверждено несколькими информантами. Однако у двоих также встретилось ballu. Поправка: вносим ballu № 68.

23. 'Small' KUL chotta № 77 (Kogan 2016: 252): не подтверждается нашими списками. Все информанты дали otsha (Turner 1969-1985: № 2540 *öccha). Поправка: заменяем chotta на otsha № 888.

24. 'Tail' KUL phunjit № 84 (Kogan 2016: 254): не подтверждается нашими списками. Все информанты дали li:pgtfa или li:pgtfi (Turner 1969-1985: № 11009 langulá). Поправка: заменяем phunjit на li'.pgtfa № 317.

Итого в разделе «Поправки к списку куллуи» 19 изменений, влияющих на подсчёты.

Выводы

Данные, представленные в статье А. И. Когана, безусловно, являются важнейшей базой для построения новой классификации индоарийских языков. Недочеты, перечисленные нами, лишь указывают, в каком направлении её следует продолжать. Это, прежде всего, уточнение семантики и исторической фонетики (главным образом, с целью выявления санскритизмов), что актуально для всех языков. Для больших языков также необходима проверка лексики по корпусам и словарям, а для малых — сбор достоверных полевых данных. В следующей статье мы надеемся сопоставить списки А. И. Когана с полевыми списками кумаони, марвари и чхаттисгархи, собранными Е. А. Ренковской, а также проанализировать список непали. Легко заметить, что количество влияющих на подсчёты изменений, полученных методом анализа по корпусам хорошо изученных языков, не очень велико — в каждом списке около восьми. Однако для малоизученного куллуи эта цифра достигла 19; и наиболее массовыми оказались изменения, связанные с общим соответствием базисной лексики тому, что мы знаем об исторической фонетике индоарийских языков. Общее число значимых для подсчёта изменений — 149. Посмотрим, какой эффект они дали.

2,00

jMAi | |MAR I {КЖ]

■ш

I

та -га

■I'.', lL1' I

-ет

-[ЖГ| ■|МА1

{mi] ■ES

{ТИК] ^IXjR |

■EH

. JjjO

4ЖГ]

{my

-EH

{ПГЛ~ |МШ| . тжн | . ~п

{РлГ jA'.'.DI JKIM|

Рис. 1. Дерево, построенное по спискам А. И. Когана в Starling (бутстреп 200 раз)12.

12 WPH здесь и далее обозначает то же, что в статье А. И. Когана — KOT, отличие связано с более старой версией базы.

-1,00 -0,75 -0,50

_[ШГ| _|МА1 |

_|НЖ|

-в

_|.У1ЬУ. |

-ет

—|НШ|

_|РКН|

ЧЕЕ] -в

_[ШГ]

-ш

__|01Ш |

-га

—| РОК | _|КСН | —I\УРН| _|УУ0Р|

_| КОМ |

_|РЦМ| _[БЮ]

_[НШ"|

_|МШ| _|АУ,Т>| _| К.Ц.М I _| МАЯ1 _|КЖ|

Рис. 2. Дерево, построенное по спискам А.И. Когана при сведении узлов, разница между которыми составляет менее 200 лет (при настройках по умолчанию сводятся узлы, разница между которыми составляет менее 150 лет).

Л -1,00 -0,75 -0,50 -0Д5 0,00 0Д5 0,50 0,75 1,00

Рис. 3. Дерево, построенное по исправленным спискам (бутстреп 200 раз).

5 -1,00 -0.75 -0,50 0,00 0Д5 )j0 0.75 1 00 1,25 1,50 1,75 2JM

Рис. 4. Дерево, построенное по исправленным спискам при сведении узлов, разница между которыми составляет менее 200 лет.

Мы видим, что дерево стало более склонным к бинарному ветвлению; увеличилось расстояние между узлами, почти не осталось узлов с оценкой менее 1. В целом дерево стало больше соответствовать географическому разделению. Первый распад и в первоначальном, и в исправленном дереве делит языки на островную и континентальную ветви. В дереве А. И. Когана (Рис. 1) второй уровень — отделение южной группы маратхи и конкани, а затем следует распад на три ветви, из которых одна — восточная группа (ассамский, бенгальский, ория), а две других географически друг от друга неотделимы. При слиянии близко расположенных узлов (Рис. 2) этот последний узел, однако, сливается с более поздними, образуя нераздельный континуум из центральных и восточных языков. В обновлённом дереве (Рис. 3) на втором уровне разделяются южная, восточная и центральная группы. Раннее отделение вагди на том же уровне, видимо, связано с недостаточной изученностью этого идиома. На следующем уровне отделяются языки диаспор — цыганский и думаки, а затем уже следует недифференцированная географически центральная группа. Очевидно положительным изменением выглядит распад восточной ветви на ория и ассамско-бенгальскую. При слиянии близко расположенных узлов (Рис. 4) сохраняются не только восточная и южная ветви, но и ветвь «цыганский-думаки».

Следует понимать, что предложенное дерево ни в коем случае не может считаться окончательным результатом, так как проверка списков далека от завершения. Это лишь иллюстрация тех изменений, которые может повлечь за собой такая проверка.

Очень важно, что А. И. Коган впервые предложил лексикостатистическую основу для классификации индоарийских языков, внеся свежую струю в индологическую традицию. Вероятно, при дальнейшем уточнении списков, более точным будет становиться и дерево, и однажды, благодаря лексикостатистическому подходу, дополненному полевыми и корпусными исследованиями, а также уточнением исторической фонетики, в давнем споре о генеалогической классификации индоарийских языков будет наконец поставлена точка.

Сокращения

ASS — ассамский; AWD — авадхи; BNG — бенгали; BNJ — банджари; BRJ — брадж; DGR — догри; DKH — дакхини; DUM — думаки; GJR — годжри; GRH — гархвали; GUJ — гуджарати; HIM — химачали; HND — хинди/урду; HNK — хиндко; KCH - кутчи; KNK — конкани; KUL — куллуи; KUM — кумаони; LHD — лахнда (мультани); MAI — майтхили; MAL — мальдивский (дхивехи); MAR — маратхи; MEW — мевати; MND — мандеали; NEP — непали; ORY — ория; PNJ — пенджаби; PTH — потхохари; PRY — парья; RAJ — раджа-стави (марвари); ROM — романи; SND — синдхи; SNG — сингальский; WGD — вагди; WPH — котгархи; др.-инд. — древнеиндийский

Литература

Бархударов, А. С., В. М. Бескровный, Г. А. Зограф, В. П. Липеровский (под редакцией В. М. Бескровного). 1972.

Хинди-русский словарь в двух томах. Москва: Советская энциклопедия. Беликов, В. И. 2016. Что и как может получить лингвист из оцифрованных текстов. Сибирский Филологический Журнал 3: 17-34.

Лоскутов, В. Н., Р. В. Валуева, Б. Г. Полянский (под редакцией Е. М. Быковой и Н. Бхоумика). 1974. Словарь

бенгальского языка с русскими эквивалентами. Москва: Советская энциклопедия. Коган, А. И. 2005. Дардские языки. Генетическая характеристика. Москва: Восточная литература.

References

Barhudarov, A. S., V. M. Beskrovnyj, G. A. Zograf, V. P. Liperovskij. 1972. Hindi-russkij slovar' v dvuh tomah. Moscow: Sovetskaja enciklopedija.

Biswal, Krupasindhu. 2015. Saraswata odia bhasakosha (odia-odia-ingraji). Cuttak: Satyanarayan Book Store.

Belikov, Vladimir. 2016. Chto i kak mozhet poluchit' lingvist iz ocifrovannyh tekstov. Sibirskij Filologicheskij Zhur-nal 3: 17-34.

Burrow, Thomas, Murray Barnson Emeneau. 1984. A Dravidian etymological dictionary. 2nd ed. Oxford: Clarendon Press. Available online at: http://dsal.uchicago.edu/dictionaries/burrow/ [accessed 07.02.2017].

Callewaert, Winand M. 2009. Dictionary of Bhakti. North-Indian Bhakti texts into Khan Boll Hindi and English. 3 vols. New Delhi: D. K. Printworld (P) Ltd.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

English & Bengali Online Dictionary & Grammar. Available online at: http://www.english-bangla.com/ [accessed 07.02.2017].

Ghosh, Golokendu, Sibani Ray (revised by Dasgupta, Birendra Mohon). 2011. Samsad student's Bengali-English dictionary. Kolkata: Sahitya samsad.

Goldhahn, Dirk, Thomas Eckart, Uwe Quasthoff. 2012. Building large monolingual dictionaries at the Leipzig corpora collection: From 100 to 200 languages. In: Proceedings of the 8th international language resources and evaluation (LREC'12). Available online at: http://wortschatz.uni-leipzig.de/en/download/.

Hendriksen, Hans. 1986. Himachali studies. III. Grammar. Kobenhavn: Munksgaard.

Hindi Web 2013 (hiTenTen13), Bengali Web (BengaliWaC). In: Sketch Engine. Available online at: https://the.sketchengine.co.uk/ [accessed 07.02.2017].

Kogan, Anton. 2005. Dardskie jazyki. Geneticheskaja xarakteristika. Moscow: Vostochnaja literatura.

Kogan, Anton. 2016. Genealogical classification of New Indo-Aryan languages and lexicostatistics. In: Journal of Language Relationship 14(3-4): 227-258.

Kumar, Arvind, Kusum Kumar. 1997. Samantar kosh (Hindi thesaurus). 2 vols. New Delhi: National Book Store.

Loskutov, V. N., R. V. Valueva, B. G. Poljanskij. 1974. Slovar' bengal'skogo jazyka s russkimi ekvivalentami. Moscow: Sovetskaja enciklopedija.

Masica, Colin P. 1991. The Indo-Aryan languages. Cambridge: Cambridge University Press.

Platts, John Tompson. 1884. A dictionary of Urdu, classical Hindi, and English. London: W. H. Allen & Co.

Praharaj, Gopal Chandra. 1931-1940. Purnnacandra odia bhashakosha. Cuttack: Utkal Sahitya Press. Available online at: http://dsal.uchicago.edu/dictionaries/praharaj/.

A. C. KpbrnoBa

Ranganatha, M. R. 1980. Survey of Mandeali and Kului in Himachal Pradesh. Census of India. 1971. Language monograph

No. 7. New Delhi: Office of the Registrar General, India, Language Division. Starostin, Sergei (ed.). 1998-2005. The Tower of Babel. An etymological database project. Available online at:

http://starling.rinet.ru/ [accessed 07.02.2017]. Thakur, Maulu Ram. 1975. Pahari bhasha kului ke vishesh sandarbh men. Delhi: Sanmarg Prakashan. Thakur, Maulu Ram. 2012. Himachali. New Delhi: Sahitya Academy.

Tripathy, B. K., K. M. Patnaik. 2015. Oxford English-English-Odia dictionary. New Delhi: Oxford University Press. Turner, Ralph Lilley. 1931. A comparative and etymological dictionary of the Nepali language. London: K. Paul, Trench,

Trübner. Available online at: http://dsal.uchicago.edu/dictionaries/turner/ [accessed 07.02.2017]. Turner, Ralph Lilley. 1962-1985. A comparative dictionary of Indo-Aryan languages. London: Oxford University Press. Available online at: http://dsal.uchicago.edu/dictionaries/soas/ [accessed 07.02.2017].

Anastasiya Krylova. Lexicostatistics and the New Indo-Aryan languages: a field linguist's perspective

In this paper, I present certain comments, objections, and addenda to Anton Kogan's article «Genealogical classification of New Indo-Aryan languages and lexicostatistics», published last year in the Journal of Language Relationship (14/4: 227-258). In particular, I introduce several tentative corrections to the Swadesh lists that were compiled by Kogan, based on the data of historical phonetics and semantics of the Indo-Aryan languages in general. I also analyze in detail the lists for four languages (Hindi, Odia, Bengali, and Kullui), comparing them with my own fieldwork data as well as data from other dictionaries and text corpora. Upon correcting the lists, I compare the resulting genealogical trees (generated by StarLing software) based on original and corrected lexicostatistical matrices. Although the differences are not highly significant, they nevertheless improve upon the validity of the results and demonstrate that further correction of the lists can increase the resulting tree's degree of accuracy.

Keywords: lexicostatistics, Indo-Aryan languages, language classification, glottochronology, field linguistics, corpus linguistics, historical phonetics

Лексикостатистика новоиндоарийских языков: взгляд полевого лингвиста Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Крылова Анастасия Сергеевна

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Крылова Анастасия Сергеевна

Lexicostatistics and the New Indo-Aryan languages: a field linguist''s perspective

Текст научной работы на тему «Лексикостатистика новоиндоарийских языков: взгляд полевого лингвиста»