Вероятностная оценка индоевропейско-уральского родства: формализованное сравнение реконструированной базисной лексики

Касьян Алексей Сергеевич; Живлов Михаил Александрович; Старостин Георгий Сергеевич

ВЕРОЯТНОСТНАЯ ОЦЕНКА ИНДОЕВРОПЕЙСКО-УРАЛЬСКОГО РОДСТВА: формализованное сравнение реконструированной базисной лексики *

В статье предлагается автоматизированное сравнение между двумя наборами из 50 наиболее устойчивых сводешевских слов, как они могут быть реконструированы для праиндоевропейского и прауральского языков. Две формы признаются родственными, если у них совпадают первые два согласных элемента, затранскрибированные в нотации консонантных классов (грубый вариант измерения дистанций Левен-штейна). В отличие от предыдущих исследований (Ringe 1998, Oswalt 1998, Kessler & Lehtonen 2006, Kessler 2007), наш автоматизированный алгоритм оказывается максимально близок к традиционной компаративистской процедуре выделения когнатов. Сводешевские слоты для праязыков заполняются исходя из следующих принципов реконструкции. Это топологический принцип (зависящий от конфигурации генеалогического дерева), морфологическая (не)производность, типология семантических переходов, ареальное распространение слова. Строгое следование этим принципам вынуждает нас постулировать по несколько эквивалентных кандидатов на то или иное празначение — до

6 синонимичных пракорней в одном слоте.

Всего между исходными праиндоевропейским и прауральским 50-словниками наблюдается 7 пар с совпадением первых двух согласных (эти же и только эти пары рассматриваются как когнаты в традиционной ностратике). Для выяснения вероятности получить 7 пар использовался перестановочный тест. Большой объем синонимов резко повышает формальную вероятность того, что наблюдаемые 7 пар являются случайными созвучиями. Однако перестановочный тест дал положительный результат: вероятность получить 7 пар составляет 1.4% или

0.3% (в зависимости от принимаемых консонантных классов), что меньше стандартного порога статистической значимости 5% или даже 1%. Исходя из стандартной методологии, мы должны отбросить нулевую гипотезу, предполагающую случайность праиндоевропейско-праураль-ских фонетических схождений, и предложить содержательное объяснение наблюдаемым параллелям. Типология языковых контактов не позволяет объяснить праиндоевропейско-прауральские совпадения через древние лексические заимствования. Единственным приемлемым решением оказывается гипотеза индоевропейско-уральского языкового род-

* Исследование выполнено в рамках НИР «Традиционные основы современных культур и макрорегионов Востока» (Лаборатория востоковедения и компаративистики ШГИ РАНХиГС).

ства, в рамках которой 7 праиндоевропейско-прауральских пар рассматриваются как ретенции, оставшиеся от индо-уральского праязыка.

Ключевые слова: индоевропейские языки, уральские языки, индоуральская гипотеза, ностратическая теория, дальнее языковое родство, лексикостатистика, языковая реконструкция, перестановочный тест.

1. Предыдущие исследования

Идея генеалогического родства между языками индоевропейской семьи и языками уральской семьи была высказана еще в XIX в. (Thomsen 1869) и впоследствии поддержана различными компаративистами (напр., Collinder 1934). Полноценный научный вид эта гипотеза получила в «ностратических» работах

В. М. Иллич-Свитыча (Иллич-Свитыч 1967; 1971; 1976; 1984), найдя свое дальнейшее развитие в публикациях как московской лингвистической школы, так и лейденской школы (напр., Kort-landt 2010; Kloekhorst 2008). Вне зависимости от объема включаемого в сравнение материала и качества его этимологической проработки попытки обоснования индо-уральского родства обычно принимаются скептически, особенно широко недоверие к подобным исследованиям распространено у традиционалист-ски настроенных индоевропеистов и уралистов. Однако, поскольку определенное количество лингвистических схождений между двумя семьями невозможно отрицать, индо-уральская гипотеза стала относительно частым объектом различных статистико-вероятностных исследований в качестве примера того, можно ли формальными алгоритмами обосновать дальнее языковое родство. Основные публикации из этого ряда таковы:

1) Ringe 1998. Автор сравнивает 100-словные списки пра-индоевропейского и прафинно-угорского (не прауральского) языков. Довольно необычный алгоритм сравнения основан на повторяющихся фонетических соответствиях между двумя списками, а не на фонетическом сходстве (подробнее, кроме Ringe 1998, см. Ringe 1992 и особенно Baxter & Manaster Ramer 1996). Вывод Д. Ринджа: сравнение начальных согласных дает положительный результат, вероятность p = 0.05, хотя сравнение вторых согласных корня оказывается неудовлетворительным, p = 0.18 или 0.5 (Ringe 1998: 174, 177). В связи с исследованием Ринджа надо отметить два пункта. Во-первых, два списка были составлены так, чтобы обеспечить максимальную близость между ними (с одной стороны, не все синонимы были включены в соответствующие слоты, а с другой - в списки было

специально добавлено слово ‘ice’, Ringe 1998: 173). Во-вторых, эти вероятностные оценки базируются в основном на фонетических парах, которые вряд ли отражают реальные этимологические соответствия и фонетические переходы, напр., и.-е. *d - финно-угор. *р и т. п. (Ringe 1998: 167).

2) Oswalt 1998. Автор сравнивает 100-словные списки современного русского (представитель и.-е. семьи), финского, венгерского и ненецкого (представители основных ветвей уральской семьи) языков. Был проделан передвижной тест (shift test), т. е. вариант перестановочного теста с X-1 попытками для X-словных списков (в нашем случае 99 попыток). Две сравниваемые формы считались совпадающими, если два любых согласных первой формы схожи с двумя любыми согласными второй формы (учитывались разные степени схожести) вне зависимости от их позиции в слове (напр., начальный согласный первой формы мог сопоставляться с срединным согласным второй формы). Все три и.-е.-урал. языковые пары продемонстрировали положительные результаты; обычно более точные критерии фонетического сходства вели к понижению вероятности p случайных совпадений. Лучший результат для русско-финского и русско-венгерского сравнений - это р < 0.001. Лучший результат для русско-ненецкого сравнения — это 0.01 < р < 0.05. Предыдущие и.-е.-урал. исследования этого автора (Oswalt 1970; Oswalt 1991) также выявили положительный сигнал.

3) Kessler & Lehtonen 2006. Авторы предпринимают многостороннее сравнение (multilateral comparison) 100-словных списков одиннадцати индоевропейских и четырех уральских языков. Использовался перестановочный тест, при котором грубо замерялись дистанции Левенштейна (с учетом только места образования) между начальными согласными корня. Был получен отрицательный результат: р = 0.45, т. е. вероятность, что наблюдаемые схождения между и.-е. и урал. языками случайны, слишком велика (45%). Также авторы сообщают, что были предприняты и бинарные сравнения отдельных языков по той же методике, но ни одна из и.-е.-урал. пар не дала положительного результата, т.е. во всех случаях р > 0.05.

4) Kessler 2007. Та же процедура многостороннего сравнения применялась к тем же языковым данным, что и в Kessler & Lehtonen 2006, однако на этот раз поочередно использовались семь различных методов измерения расстояний между сравни-

ваемыми формами. Из этих семи тестов пять дали отрицательный результат (p > 0.05), а два теста дали положительный результат, указывая на то, что фонетические схождения между и.-е. и урал. формами неслучайны. Оба успешных теста основаны на методе консонантных классов Долгопольского (о чем см. ниже). Многостороннее и.-е.-урал. сравнение начальных согласных корня дает p = 0.04; многостороннее и.-е.-урал. сравнение, основанное на примитивном элайнменте консонантных костяков, дает p = 0.02.

Несмотря на то, что большинство вышеупомянутых тестов дало положительный результат, надо признать, что эти исследования имеют серьезные изъяны. Основная теоретическая проблема заключается в том, что предлагаемые тесты не моделируют работу компаративиста и не повторяют традиционную сравнительно-историческую процедуру1 (о дополнительных системных недостатках методов, изложенных в Oswalt 1998 и особенно в Ringe 1998, см. Baxter 1998). Практическая же проблема состоит в том, что входные лексические списки не отвечают строгим лексикографическим стандартам, принятым, например, в нашем проекте «Глобальная лексикостатистическая база данных I The Global Lexicostatistical Database» (подробнее см. ниже).

2. Метод

2.1. Принципы семантической реконструкции. Мы полагаем, что компаративист должен стараться реконструировать как можно более точные значения для восстанавливаемых морфем (в первую очередь корней), например, семантические реконструкции вроде ‘hand’, ‘red’, ‘to come’ выглядят заведомо предпочтительнее общих значений вроде ‘part of limb’, ‘kind of bright color’, ‘to move’. Можно предложить ряд (нестрогих) правил, позволяющих уточнить восстанавливаемое значение.

1 Напр., алгоритм в Ringe 1998 постулирует такие странные звуковые соответствия как и.-е. *d - финно-угор. *р или и.-е. *h2 (т.е. ноль) -финно-угор. *l. Или же, скажем, в Oswait 1998 две формы объявляются когнатами, если они обнаруживают между собой по два совпадающих согласных причем в любой позиции, напр., рус. koryiny (корень) расценивается как форма, родственная венгерск. 4oke:r (gyoker) ‘root’ (KR = KR), а рус. nogacy (ноготь) соответствует финск. kunsi (kynsi) ‘fingernail’ (NG = KN) и т. д.

1) Топологический принцип. Структура генеалогического дерева языковой группы важна для семантической реконструкции. В ситуации, когда рефлексы праформы имеют разные значения в дочерних языках, одним из самых сильных критериев для реконструкции исходного значения оказывается топология дерева. Представим себе генеалогическое дерево следующего вида, где L - это праязык, а A, B, C - его дочерние языки: рис. 1.

Рис. 1. Типовое дерево языковой группы.

AX BY CX

Некоторое слово в A значит ‘X’, его этимологический когнат в B имеет отличное значение ‘Y’, но их когнат в C опять значит ‘X’. В отсутствие дополнительных аргументов наиболее очевидное решение - реконструировать для этого слова в праязыке L значение ‘X’ (а не ‘Y’), т. к. в соответствии с общим научным методом мы выбираем наиболее экономичные сценарии (в нашем случае один семантический переход ‘X’ > ‘Y’ в B vs. два независимых перехода ‘Y’ > ‘X’ в A и C).

2) Принцип внешней этимологии. Если обнаруживаются два лексических кандидата на данное празначение, то преимущество имеет тот корень, который обладает лучшей внешней этимологией, особенно если внешние этимоны сохраняют это же празна-чение.

3) Принцип внутренней этимологии. Если обнаруживаются два лексических кандидата на данное празначение и один из них морфологически первичен, а другой представляет из себя прозрачное производное (напр., ‘moon’ ^ ‘to shine’, ‘green’ ^ ‘grass’ и т. д.), первое слово имеет преимущество. Если одно из конкурирующих слов обладает этимологическими когнатами (внутренними, т. е. внутри исследуемой языковой группы, или же внешними), а второе слово этимологически изолировано, то преимущество имеет первый кандидат, т. к. у второго кандидата больше шансов оказаться заимствованием.

4) Принцип семантической естественности. Если обнаруживаются два лексических кандидата на данное празначение и

оба имеют различные этимологические когнаты в родственных языках, должны быть исследованы и оценены предполагаемые семантические переходы. Хотя многие семантические переходы возможны в обе стороны, в некоторых случаях типологически естественным оказывается развитие только в одном определенном направлении. Напр., переход ‘green’ ^ ‘grass’ двунаправленный (имеется большое количество типологических примеров на развитие в обоих направлениях), а в паре ‘moon’ и ‘to shine’ фиксируется только развитие ‘to shine’ ^ ‘moon’ и, видимо, никогда - в противоположном направлении.

5) Принцип минимизации контактных эффектов. Если рассматриваемая лексическая единица имеет ареальное распространение, т. е. фиксируется в нескольких соседних языках, и мы знаем, что эти языки контактируют и влияют друг на друга, такое слово может представлять собой позднюю инновацию, распространившуюся в качестве междиалектного заимствования.

Эти, а также некоторые дополнительные, менее важные, принципы семантической реконструкции детально описываются с примерами из различных языковых семей в Г. Старостин 2013: 153-183; Kassian 2013b.

При реконструкции наших лексических списков для пра-индоевропейского и прауральского языков мы придерживаемся перечисленных принципов (всех, кроме принципа внешней этимологии, т. к. родство между и.-е. и урал. еще не обосновано) так строго, как это возможно. Такая формализация процедуры семантической реконструкции в большинстве случаев ведет к появлению в том или ином сводешевском слоте по несколько праформ-синонимов, обоснованный выбор между которыми невозможен даже при последовательном применении сформулированных принципов. «Чемпионом» оказывается прауральский слот #78 ‘smoke’, для которого мы были вынуждены постулировать шесть технических синонимов, т. е. шесть разных пра-уральских основ (это никак не значит, что мы допускаем существование шести синонимичных слов для ‘дыма’ в пра-уральском языке, а всего лишь говорит о недостаточности данных для обоснованного выбора одной из основ). Естественным образом подобная синонимия увеличивает формальную вероятность того, что наблюдаемые и.-е.-урал. лексические схождения случайны. Тем не менее, мы твердо уверены, что в формальных тестах, подобных нашему, необходимо прибегать к

наиболее строгим и независимым методам в качестве основы для вероятностного сравнения.

2.2. Принципы расстановки когнаций. Для автоматического выявления индоевропейско-уральских пар праформ, являющихся потенциальными этимологическими когнатами, нами используется полностью формализованный алгоритм, основанный на фонетическом сходстве. Два наиболее популярных подхода к выявлению потенциальных когнатов между фиксированными лексическими списками - это (a) расстояние Левенштейна и (b) консонантные классы. Метод консонантных классов на самом деле может рассматриваться как грубый вариант измерения расстояний Левенштейна. Так как нам неизвестны какие-либо публикации, где бы показывалось, что метод консонантных классов дает явно менее надежный результат, чем измерение расстояний Левенштейна, а сам метод консонантных классов оказывается значительно проще в плане практической реализации, мы в настоящей статье оперируем именно консонантными классами для обработки лексических данных и выявления потенциальных когнатов.

Метод консонантных классов был предложен А. Б. Долгопольским в 1964 г. (Долгопольский 1964; англ. версия: Dolgo-polsky 1986) и успешно проверен рядом авторов на лексических данных различных языков Евразии и Африки2. Метод предполагает следующее. Фонетический алфавит, используемый в исследовании, разбивается на несколько непересекающихся подмножеств (классов) таким образом, что фонетические мутации между звуками внутри одного класса типологически более нормальны, чем мутации между звуками, принадлежащими к разным классам (отдельные частные исключения могут игнорироваться при грубом применении этого метода). В настоящей статье мы исходим из классов, принятых в проекте «Глобальная лексикостатистическая база данных / The Global Lexicostatistical Database»3: табл. 1.

2 Напр., Baxter 1995; Baxter & Manaster Ramer 2000; Kessler 2007; G. Starostin 2008; Turchin et al. 2010; Г. Старостин 2013.

3 http:IIstarling.rinet.ruInew100Isound.pdf [послед. посещ. 20.04. 2014]. Наша система фонетической транскрипции, в которой мы записываем все языковые формы, совпадает с транскрипционной системой проекта «Глобальная лексикостатистическая база данных I The Global Lexico-statistical Database», которая в свою очередь основывается на фоне-

Табл. 1. Базовые консонантные классы проекта GLD

P-класс (губные): p b 6 р f v...

T- класс (зубные): t d rf 0 6.

S-класс (сибилянтные аффрикаты и фрикативные): с 3 с 3 s z s z...

Y- класс (палатальные глайды): y.

W-класс (губные глайды): w м.

M-класс (губные носовые): m щ...

N-класс (негубные носовые): n д.

Q-класс (латеральные аффрикаты): К ...

R-класс (плавные): r г l [ i \...

K-класс (велярные и увулярные): k g x у q % к.

Нулевой класс или H-класс: h ? н ? ? h fi ? и все гласные.

Такая упрощенная транскрипционная система (P T S Y WM N Q R K H) достаточна для кодирования любых словоформ или морфем любого естественного языка, вовлеченного в сравнение. Элементы нулевого класса и такие единицы как коартикуляция, просодия, фонация и под. в общем случае не отражаются при кодировании. Однако гласный или ларингальный анлаут и гласный ауслаут кодируются как H. Таким образом, обе гипотетические формы tasa и dhujo кодируются как TSH; alaq и ?arx = HRK; na и yo? = NH; pkhot и baq’aO = PKT; wahat и Mad = WT. Неначальные глайды Y и W (т. н. слабые глайды) рассматриваются как H, т. е. ka, kay, kawa = KH, но kat и kayat = KT. Как следует из вышесказанного, две формы из сравниваемых языков, совпадающие в упрощенной транскрипции, имеют больше шансов оказаться этимологическими когнатами, нежели формы, различающиеся в упрощенной транскрипции.

Все праиндоевропейские и прауральские формы, используемые в нашем сравнении, были автоматически затранскрибированы в таком упрощенном виде посредством функций СУБД StarLing. Также СУБД StarLing способна автоматически определять, совпадают ли две сравниваемые формы по своей структуре консонантных классов или же различаются. Две формы помечаются как когнаты, если в упрощенной транскрипции первые два согласных одной формы совпадают с первыми двумя согласными другой формы. Напр., слово ‘water’: и.-е. *wed-

тическом алфавите IPA (с некоторым количеством модификаций): http://starling.rinet.ru/new100/UTS.htm.

(WT) = урал. *weti (WT). Однако слово ‘heart’: и.-е. *kyerd- (KR) Ф урал. *syadya id. (ST).

Дополнительно мы произвели ту же процедуру сравнения, но с использованием более дробных консонантных классов, где (a) S-класс разделяется на собственно S-класс (сибилянтные фрикативные: s z s z...) и 3-class (сибилянтные аффрикаты: с 3 с 3...);

(b) R-класс разделяется на собственно R-класс (r г.) и L-класс (l [ i..)4. В полном виде набор более точных консонантных классов выглядит так (новые классы отмечены астериском *): табл. 2.

Табл. 2. Более дробные консонантные классы

P-класс (губные): p b 6 р f v.

T- класс (зубные): t d rf 0 6.

S-класс (сибилянтные фрикативные): s z s z...

*3-class (сибилянтные аффрикаты): c 3 с 3.

Y- класс (палатальные глайды): y.

W- класс (губные глайды): w м.

M-класс (губные носовые): m щ...

N-класс (негубные носовые): n д.

Q-класс (латеральные аффрикаты): К ...

R-класс: r г.

^-класс: l [ i 1...

K-класс (велярные и увулярные): k g x у q % к.

Нулевой класс или H-класс: Ь ? н ? ? h fi ? и все гласные.

2.3. Перестановочный тест. Мы применяем т. н. перестановочный тест в том виде, как он описан и апробирован в Baxter & Manaster Ramer 2000 и некоторых других публикациях5. Ниже и.-е. и урал. лексикостатистические схождения исследуются при

4 По крайней мере, в случае R и L разделение их на два класса выглядит логичным, т. к. переходы между звуками типа r и l не типичны для и.-е. и урал. языков (кроме индоиранской группы), равно как и для соседних лингвистических регионов.

5 Общая идея перестановочного теста восходит к Oswalt 1970, далее см. обзор в McMahon & McMahon 2005: 66-68. Примеры применения перестановочного теста к лексическим спискам конкретных языков см. в Justeson & Stephens 1980; Baxter 1995; Kessler & Lehtonen 2006; Kessler 2007; Dunn & Terrill 2012. Очень близкая процедура бутстрепа описана и успешно апробирована на различных языках Евразии в Turchin et al. (2010).

помощи алгоритма Baxter & Manaster Ramer 2000, который сейчас реализован в виде плагина в СУБД StarLing.

Принцип перестановочного теста прост и элегантен. Если у нас есть два взаимно однозначных и унифицировано затранскрибированных лексических списка с X лексическими совпадениями по фонетической структуре, мы можем начать случайным образом перемешивать один из списков, замеряя количество совпадений при каждой новой конфигурации. Если число случайных конфигураций достаточно велико, оказывается возможным, во-первых, установить статистически нормальное количество совпадений и, во-вторых, выяснить вероятность получить X совпадений, как в исходных списках.

Как уже указано выше, для нашего исследования праиндо-европейский и прауральский 50-словные списки были затранскрибированы в консонантных классах. Две формы образуют положительную пару, если первые два согласных (CC) праиндо-европейской формы совпадают с первыми двумя согласными прауральской формы. Когда слот занят несколькими синонимами (обычная ситуация в нашем случае), мы сравниваем все возможные и.-е.-урал. пары: если находится хотя бы одна положительная пара, весь слот рассматривается как положительный. Напр., слот #39 ‘to hear’ заполняется формой *kylew- в и.-е. части и двумя равноправными формами *kuwli- и *yUnti- в урал. части; пара *kylew— *kuwli- положительная (KL = KL), а пара *kylew— *yUnti- отрицательная (KL Ф YN), таким образом весь слот #39 ‘to hear’ объявляется положительным.

В каждом из нижеописанных случаев производилось по

1 000 000 псевдослучайных попыток.

3. Языковые данные

Родство между двумя языками в общем случае обосновывается этимологическими схождениями в корнях, образующих базисную лексику (Campbell & Poser 2008: 4; Бурлак & Старостин 2005: 7-24). Обширная практика показывает, что в качестве ядра базисной лексики можно рассматривать т. н. 100-словный список Сводеша. Сам по себе сводешевский список не однороден. Напротив, его элементы обладают разной степенью устойчивости, если исходить из типологической перспективы (см. С. Старостин 2007 о ранжировании сводешевских значений по устойчивости на основании данных языковых семей Старого Света, далее см. G. Starostin 2010). Чем древнее родство между

языками, тем меньше схождений среди «неустойчивых» своде-шевских элементов мы ожидаем увидеть. Из этого следует, что при исследовании дальнего родства имеет смысл сократить 100-словный сводешевский список до некоторого меньшего числа наиболее устойчивых понятий.

Для индоевропейско-уральского сравнения мы используем 50-словный список значений, представляющий собой подмножество сводешевского 100-словника (в настоящее время этот 50-словник широко применяется при тестировании гипотез языкового родства в московской школе компаративистики). Список совпадает с верхней частью сводешевского 110-словника, ранжированного по стабильности в С. Старостин 2007, но с заменой

9 единиц: по разным причинам из нашего 50-словника исключены элементы ‘this’, ‘that’, ‘liver’, ‘fish’, ‘neck’, ‘breast’, ‘full’, ‘to stand’, ‘to give’, вместо них введены элементы ‘to kill’, ‘foot’, ‘horn’, ‘to hear’, ‘meat’, ‘egg’, ‘black’, ‘head’, ‘night’, см. подробнее в G. Starostin 2010.

Что касается 50-словного списка в настоящей статье, он вынуждено отличается от модельного списка в G. Starostin 2010 одним слотом: видимо, у нас нет данных для реконструкции

и.-е. термина ‘louse’, т. к. «узко-индоевропейский» экспрессивный корень *lu:-(s)- (балт., герм., кельт.; далее возможно др.-инд. yu:ka- и слав. регулярно соответствует тох. Б luwo

‘animal’, что предполагает для корня *lu:- первоначальное значение ‘animal’ , в то время как анатолийские и тохарские слова со значением ‘louse’ пока не отмечены; др.-греч. (ф0е[р) ‘louse’ выглядит как субстратная догреческая форма7. По этой причине мы заменили понятие ‘louse’ на понятие ‘liver’, которое на самом деле обладает очень высоким индексом стабильности (25), будучи исключенным из 50-словника по экстралингвис-тическим причинам: слова для ‘liver’ нередко отсутствуют в тех или иных словниках и лексических списках, собираемых полевыми лингвистами.

6 К эвфемистическому переходу ‘animal’ > ‘louse’ ср., напр., ср.-ир-ландск. (mil) и совр. ирландск. (mol) ‘animal’, которые также употребляются и в узком значении ‘louse’.

7 Вероятно, (ф0Е(р) вторично контаминировало с др.-греч. глаголом (ф0Е(рю) ‘to ruin, destroy’, Beekes 2010: 1569 (сама по себе деривация ‘to destroy’ > ‘louse’ не правдоподобна с типологической точки зрения).

Таким образом, 50-словный список, используемый в настоящей статье, выглядит следующим образом (несквозная нумерация слотов отсылает к полному 100-словному списку; нижним индексом дается позиция в ранжировании по стабильности: ‘ше1’ - самое стабильное слово, ‘т§Ы;50’ - наименее стабильное слово): табл. 3.

Табл 3. 50-словный список семантический единиц

2. а8Ье838 25. еуе4 53. теаЦ6 82. 8ип35

6. Ьіпі33 28. Аге7 54. тооп18 84. іаіІ26

8. Ьіаск^ 31. іЬоЦз 56. тоиШ31 87. Шои5

9. Ь1ооіі20 36. Ьаіг27 57. пате10 88. tongue8

10. Ьопе34 37. Ьашіп 59. new23 89. ЬоШ22

13. іі^етаі119 38. Ьеаё49 60. night50 90. ігее37

17. іііе13 39. Ьеаг45 61. по8е29 91. two2

18. ^6 40. Ьеаг114 62. поі30 94. water28

19. (±іпк15 41. Ьогш44 63. опе21 95. we1

20. (±У24 42. І3 65. гаіп39 96. what12

21. еаг32 43. кііі42 78. 8токе36 98. who6

23. еа125 46. іеа^ 80. 8іаг40

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

24. е^^47 48. 1іУеГ25а 81. 8іопе9

О семантическом уточнении сводешевских значений и вообще о процедуре составления 100-словников для конкретных языков см. Ка88Іаи еі аі. 2010.

Выше в обсуждении принципов семантической реконструкции было указано, что правильная топология генеалогического дерева языковой группы является ключевым условием для реконструкции предкового состояния (в этом существеннейшее отличие исторической лингвистики от молекулярной биологии). Хотя некоторые узлы и индоевропейского, и уральского деревьев всё еще являются предметом спора, насчет основных ветвлений в научном сообществе наблюдается фактический консенсус.

Мы исходим из следующего дерева и.-е. семьи: рис. 2.

Рис. 2. Филогения индоевропейской семьи

праиндоевропейский

анатолийские тохарский

Раннее отделение анатолийского принимается подавляющим большинством индоевропеистов, см. обзор мнений в Blazek 2007. Последующее отделение тохарского также общепринято: кроме Blazek 2007, см. Gray & Atkinson 2003; Nakhleh et al. 2005; Bouckaert et al. 2012. Часто принимается, что следующая отделившаяся ветвь - это греческий (обычно объединяющийся в один кластер с армянским), такое ветвление следует из нашей черновой и еще не опубликованной лексикостатистической классификации, из некоторых деревьев в Nakhleh et al. 2005, а также из лексикостатистических деревьев в Gray & Atkinson 2003; Bouckaert et al. 2012.

Такая общая топология достаточна для реконструкции большинства сводешевских единиц, разбираемых в настоящей статье. В любом случае, следует подчеркнуть, что наш подход к реконструкции весьма «либерален»: если есть подозрение, что данный пракорень не может быть объяснен как локальная инновация, мы предпочитаем включить его в праиндоевропейский

о

список на правах синонима .

Мы принимаем следующее дерево уральской семьи: рис. 3.

8 Напр., для и.-е. слота ‘fire’ мы принимаем два синонима: *pex-wer-(анатолийский, тохарский, греческий, армянский, германский) и

*ng-n-i- (индийский, балтийский, славянский, италийский). Вторая из основ, конечно, выглядит слабее в плане общей дистрибуции, тем не менее формально она не может быть отброшена, поскольку у нас нет оснований считать, что индийский, балтийский, славянский и италийский образуют отдельный филогенетический кластер, который не включает в себя германский.

Рис. З. Филогения уральской семьи

прауральский

самодийский угорский пермский финно-волжский

Такая топология традиционно принимается уралистами, см., напр., Collinder 1960: 11; Sinor 1988; Напольских 1997: 256 сл. (хотя ср. и критику в Salminen 2002).

Мы используем унифицированную систему транскрипции для всех и.-е. и урал. форм, вовлеченных в сравнение9. Необходимо упомянуть следующие частности.

1) Так называемые ларингалы в и.-е. праформах нерелевантны для наших целей: напр., как последовательность op-, так и последовательность hop- транскрибируются как HP, э1- и hl-транскрибируются как HL, pa:s- и pahs- транскрибируются как PS. Однако, поскольку даже среди авторов настоящей статьи нет полного согласия касательно ларингальной теории, мы добавляем в скобках ларингалистские реконструкции.

2) Когда имеются релевантные анатолийские данные, мы вводим в реконструкцию и.-е. праформы велярный фрикативный *х (> клинописное <h, hh)). Напр., и.-е. ‘bone’ реконструируется как *xost- (т. е. KST в упрощенной транскрипции консонантных классов), а не *h2est- (HST)10 .

9 Как было сказано выше, мы применяем транскрипционную систему проекта «Глобальная лексикостатистическая база данных / The Global Lexicostatistical Database», которая основывается на фонетическом алфавите IPA: http://starling.rinet.ru/new100/UTS.htm [последнее посещение 20.04.2014].

10 Несмотря на индоевропеистический термин «ларингалы», хеттские и лувийские фонемы, обозначаемые через клинописные знаки для (h, hh), по всей видимости представляли собой велярный или увулярный фрикативный x ~ х. Основные аргументы в пользу такой трактовки сле-

3) Вероятно, следует восстанавливать дополнительный и.-е. фрикативный *6 для ряда соответствий хеттск. s / лувийск. t / узко-индоевропейск. G, что предлагается в Ivanov 2001: 133; Иванов 2009: 5 и (независимо) в Касьян & Якубович 2013: 22. В нашем списке такая новация касается двух и.-е. корней: #13 ‘fingernail’ & #25 ‘eye’. В обоих случаях мы дублируем реконструированные формы с и без фрикативного *6, напр., в слоте ‘eye’ мы восстанавливаем два синонима *6okw- ~ *okw-(т. е. TK ~ HK в упрощенной транскрипции).

4) Двойной астериск ** используется для тех праиндоевро-пейских и прауральских основ, которые технически реконструируются по данным изолированных форм, фиксируемых только в одной из групп соответствующей языковой семьи.

В результате нами были получены следующие праиндоевро-пейский и прауральский списки: табл. 4 (файл таблицы в формате MS Excel вместе с лингвистическими комментариями к каждой из реконструированных форм приводится в дополнительных материалах). Внутри одного семантического слота компьютерный алгоритм рассматривает две формы как синонимичные друг другу, если они разнесены по разным ячейкам или же разделены тильдой (~) внутри одной ячейки. Таким образом, например, в уральском слоте ‘tooth’ присутствуют три равноправных синонима: *piyi [PN] / **tima [TM] / **sima [SM] (об обработке синонимов при перестановочном тесте см. 2.3 выше). Формы в скобках (и.-е. ларингалистские реконструкции) алгоритмом не учитываются.

дующие: (а) хеттские клинописные знаки для (Ь, ЬЬ) были заимствованы из аккадского, где они обозначали звук, восходящий к прасемит-скому велярно-увулярному фрикативному *х ~ *х; (Ь) известные древнеегипетские и угаритские транскрипции хеттских слов передают клинописные (Ь, ЬЬ) как х ~ х, а не как ларингальные фонемы (Рай 2009);

(с) фонетический сдвиг ларингальный > велярный весьма редок типологически, ликийский же имеет звук типа к в качестве этимологического соответствия хетто-лувийским (Ь, ЬЬ), что также предполагает велярно-увулярную артикуляцию в праязыке.

Табл. 4. Праиндоевропейский и прауральский 50-словные списки

№ Слово Праиндоевропейский Прауральский

2 ashes38 *ха:8- (*Ь2е№-) *kaбУшa

6 ьм33 *а,т- ~ *wi- (*h2ewi- ~ *Ь2-№еь) **8Уагша **пУгшУ- **шVntV

8 Ь^^ *кг8-по- *ше1э-п- (*ше1Ь2-п-) *dhengw- **шшь **8Уар:а *гар§а **бУшй *pekIVtIV

9 blood20 *е8х-г (^еБ^-г) *weri **kiшi

10 bone34 *Х081- (*ь2ев1-)

13 claw(nail)19 *0шogh- ~ *0ngh- ~ *шogh-~ *nogh- ~ *ngh- (*hзnogh-~ *hзngh-) *kйnci **kuta

17 dielз *we1- *Ма-

18 dogl6 *kywon- *penа *аmpV

19 drink15 *e.ghw- (*h1eghw-) *yІYІ- ~ *^-

20 dry24 *saws- *kosУka

21 earз2 *ows- (*h2ews- ~ *h2ows-) **БШш- * * * *0 § у 2. : :

23 eat25 *ed- (*Ь^-) *sewi- *нш-

24 egg47 *0Iwy0- (*h2oIwyo-) *шuna

25 eye4 *0okw- ~ *okw- (*hзekw-) *8УПша

28 fire7 *pex-wr (*реЬ2--от) *ng-n-i- *tu1i

31 foot43 *pod- *ya1ka *ayi ~ *аН

36 hair27 **ted- **top- *deky- *we1-

37 Ьшн!,, *ghyes-r *kаti

№ Слово Праиндоевропейский Прауральский

**VtV

З8 head49 *kyer- *ghebh-Vl- **xors- *oywa

З9 hear45 *kylew- * * *k yti uw tn li i-I

40 heart14 *kyerd- *8УабУа

41 horn^ *kyre-w-r **amti

42 Iз *egy- (*h1egyH-) *mi-n

*me- ~ *sme- (*h1me-)

4З kill42 *ghwgn - *wI6I-

46 leaf41 * * b* hp lo -r t - *lVpV

48 liver25a *yekw-r **les- **pVn- *miksa

5З meat46 *mems- *siwVlV «jiV^yV **aya ~ **aбУa

54 moon18 *me;n- (*meh1ns-) ** or- *kugi

56 mouth31 *oy-es (*HoH-es-) *syuwi **aqi

57 name10 *nomn ~ *lomn ~ *snomn ~ *slomn (*h1nomn ~ *h1nmen-) * nimi

59 new23 *new- *wuбУi

60 night50 *ksep- *eyi **piyV ~ **piYV

61 nose29 *nas- **tid- **mVl- *nari **pya ~ **piбУa **pulV ~ **^u6V

62 notзo *no ~*ne *e-

6З one21 *syo- *tik;V *V-

65 rain39 *xeyu- *suws- (*suH-) *sУaбa-

78 smoke36 *dhuxw- (*dhuh2-) *sawi **kacV- ~ **kicV-

№ Слово Праиндоевропейский Прауральский

**siksV *ctigV *pusyV *ktinti

80 star40 *xsster- (*h2ster-) *kunsyV

81 stone9 **Vsu- *gwrV-w-on (*gwreH-won-~ *gWrH-WOn-) *aky-mo:n (*h2eky-mo:n) *kiwi **pVyi

82 sun35 *sa;w-el- (*seh2w-el-) *kaya **nVp;V *keca *paywa

84 ЧО n *3 *puk- **sis- ~ **ses- *panci

87 thou5 *ti ~ *tu;- *ti-n

88 tongue8 *dnghywa: ~ *ghyndwa: **lal- ~ **lol- *kali *^alma

89 tooth22 *sdont- ~ *dont- (*hidont-) *gyombh- **kVg- *pigi **tima ~ **sima

90 tree37 *doru * p О

91 two2 *dwo- *kit;a

94 water28 *wed- *weti

95 we1 *wey-s *ns- *me

96 what12 *kwi- *mi ~ *mi

98 who6 *kwi- *ku-

4. Результаты

По сравнению со всеми предшествующими статистико-вероятностными исследованиями индоевропейско-уральских связей (Ringe 1998; Oswalt 1998; Kessler & Lehtonen 2006; Kessler 2007, см. обзор выше) наш тест оказывается ближе всего к реальной работе сравнительно-исторического лингвиста. В первую очередь это касается критериев выявления этимологических когнатов между двумя языками. В самом деле:

1) компаративисты в принципе исходят из того, что типологически наиболее частотный вид корня - это CVC (где C может

быть нулем), причем такой корень должен обоими согласными соответствовать корню CVC из сравниваемого языка (компаративисты, например, не ограничиваются сравнением только начальных согласных у сопоставляемых корней, как поступают некоторые из вышеупомянутых авторов);

2) несмотря на часто встречающиеся и фактически неизбежные исключения, фонетические переходы, постулируемые при этимологическом сравнении, в основном должны быть типологически тривиальными, что предполагает фонетические мутации в рамках одного консонантного класса11;

3) поступенчатая реконструкция, когда праязык реконструируется на основании промежуточных праязыков, ранее реконструированных для предшествующего таксономического уровня, методологически правильнее, нежели прямое сравнение всех засвидетельствованных языков между собой12.

Нами были получены следующие результаты статистического теста. Внутри исследуемого 50-словника имеется 7 и.-е.-урал. пар, рассматриваемых как этимологические когнаты в традиционной ностратической теории в том виде, в котором она была сформулирована В. М. Иллич-Свитычем и В. А. Дыбо (Иллич-Свитыч 1967; 1971; 1976; 1984).

Речь идет о следующих схождениях (транскрипция в консонантных классах CC приводится в скобках):

1) и.-e. *kylew- [KL] — урал. *kuwli [KL] ‘to hear’;

2) и.-e. *me- [MH] — урал. *mi-n [MH] ‘I’;

3) и.-e. *nomn [NM] — урал. *nimi [NM] ‘name’;

4) и.-e. *ti [TH] — урал. *ti-n [TH] ‘thou’;

5) и.-e. *wed- [WT] — урал. *weti [WT] ‘water’;

6) и.-e. *kwi- [KH] — урал. *ku- [KH] ‘who’;

7) и.-e. *e;g*w- [HK] — урал. *iyi- [HK] ‘to drink’13.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

11 Допущение большого числа необычных фонетических переходов ведет к печальным результатам, см., напр., критический разбор некоей гипотезы индоевропейско-баскского родства в Kassian 2013a.

12 См., напр., в Г. Старостин 2013 критический разбор попыток обоснования тех или иных африканских макросемей, базирующихся на массовом сравнении форм современных языков.

13 Седьмая пара отсутствует в словаре Иллич-Свитыча, поскольку в традиционной реконструкции уральский корень ‘to drink’ выглядит как *yuye-, а урал. *y- не может соответствовать и.-e. нулю. Однако сейчас

Эти и только эти пары определяются как положительные нашим формальным алгоритмом вне зависимости от того, используем ли мы базовые (табл. 1) или более дробные консонантные классы (табл. 2). Иными словами, наш алгоритм достаточно точен, чтобы не захватить никаких паразитических пар.

При базовых консонантных классах (табл. 1) перестановочный тест дает следующие результаты: рис. 4.

Статистически наиболее частотные значения - это 1 совпадение, 2 совпадения, 3 совпадения и 4 совпадения. Их вероятность Р составляет 0.178037, 0.255224, 0.234443 и 0.153667 соответственно, т. е. ок. 17.8%, 25.6%, 23.4% и 15.4% соответственно.

Сумма попыток с 7 и более совпадениями составляет 10032 + 2724 + 627 + 114 + 17 + 3 + 1 = 13518. Таким образом, вероятность Р получить по меньшей мере семь совпадений (как наблюдается в случае исходного и.-е.-урал. списка) составляет 0.013518, т. е. ок. 1.4%.

Рис. 4. Индоевропейско-уральский перестановочный тест (базовые консонантные классы)

2724 627 114 17 3 1

153667

76087

58946

Обычно принимаемый порог статистической значимости составляет 5%, т. е. Р = 0.05 (это значит, что нулевая гипотеза -случайность наблюдаемого факта - должна быть отброшена, когда вероятность Р < 0.05). Другой распространенный порог статистической значимости, применяющийся при более точных исследованиях, составляет 1% (Р = 0.01). Вероятность случай-

прогресс в уралистике позволил изменить реконструированный вид этого корня на *угу1- или Чу1-.

ности и.-е.-урал. совпадений (1.4%) ниже порога в 5%, хотя и слегка выше порога в 1%.

При более дробных консонантных классах (табл. 2) перестановочный тест дает следующие результаты: рис. 5.

Рис. 5. Индоевропейско-уральский перестановочный тест (более дробные консонантные классы)

Сумма попыток с 7 и более совпадениями составляет 2761 + 499 + 84 + 13 + 2 = 3359. Таким образом, вероятность Р получить по меньшей мере семь совпадений (как наблюдается в случае исходного и.-е.-урал. списка) составляет 0.003359, т. е. ок. 0.3%. В данном случае вероятность случайности и.-е.-урал. совпадений (0.3%) оказывается ниже даже строгого порога в 1%.

Факт, что в обоих случаях полученные вероятностные значения (1.4% и 0.3%) ниже общепринятого порога статистической значимости (5% или даже 1%), сам по себе не значит, что индоевропейско-уральские схождения не могут быть случайными созвучиями 4. И наоборот: если бы нами были получены

198135

110864

Э8543

11163

84

13

14 См. Ка881ап 1та1Ьс. о таких уникальных парах неродственных языков, как современный английский — ари (8 совпадений в структуре СС, р = 0.044%) и абиджи - майду (7 совпадений в структуре СС, р = 3.61%). На практике, однако, при более детальном исследовании гипотезы языкового родства между английским и ари и между абиджи и майду такие статистические результаты теряют свою доказательную силу по двум причинам. Во-первых, несоответствие общему историческому контексту: предположение о древних миграциях между Европой и Африкой и между Африкой и Северной Америкой выглядит неправдоподобно. Во-вторых, несоответствие лингвистическому контексту: все эти языки имеют своих близких и бесспорных родственников внутри соответствующих языковых групп и семей (германской, омотской, ква, майдуанской), а серия дополнительных парных сравнений между

вероятностные значения, превышающие 5%, это не доказывало бы случайность индоевропейско-уральских схождений. Тем не менее, общая методология предполагает, что при получении таких низких вероятностных оценок исследователям следует искать какие-либо содержательные объяснения наблюдаемым фактам, а не списывать их на случайность. Типология языковых контактов делает невероятным объяснение индоевропейско-уральских схождений через заимствования15. В такой ситуации единственным удовлетворительным решением оказывается признание языкового родства между индоевропейской и уральской семьями в том виде, в котором оно предполагается ностра-тической гипотезой.

Дополнительные материалы к статье можно скачать по ссылкам:

• http://starling.rinet.ru/~kass/Kassian-Zhivlov-Starostin_IE-Ural_permutation_RUS_2014_supplement.zip

• https://app.box.eom/s/a7rix4ei94zsp5br6mut

другими языками этих групп доказывает очевидную случайность лексических схождений в парах английский - ари и абиджи - майду.

15 Хотя детальное обсуждение этой темы выходит за рамки настоящей статьи, мы считаем необходимым кратко изложить основные аргументы против объяснения через языковые контакты. Хорошо известно, что культурная лексика всегда заимствуется первой, а базовая лексика в общем случае более устойчива к вытеснению через заимствования (Thomason & Kaufman 1988: 74 ff.; Thomason 2001: 70 f.). Точнее говоря, это правило соблюдается всегда, когда нам известна социолингвистическая история данных языков и народов. Однако индоевропейско-уральские сопоставления, предлагаемые в исходной версии нострати-ческой теории (Иллич-Свитыч 1967; 1971; 1976; 1984), почти не включают в себя культурных слов. Напротив, большинство и.-е.-урал. этимологий относится к базовой части словаря (см. в частности Helimski 2000/2001, где и.-е.-урал. лексические сопоставления разбираются именно в рамках такого теоретического подхода). Распределение наших семи и.-е.-урал. этимологий внутри 50-словного списка также оказывается значимым. Четыре из них попадают в первую десятку самых стабильных слов (см. список в табл. 3): ‘I’3, ‘thou’5, ‘who’6, ‘name’10, и только три этимологии относятся к менее стабильному подмножеству: ‘to drink’15, ‘water’28, ‘to hear’45. Такое распределение внутри 50-словника может быть объяснено только в рамках гипотезы языкового родства, поскольку в случае лексических заимствований мы бы ожидали увидеть основную часть и.^.-урал. совпадений как раз среди менее стабильных сводешевских единиц.

Архив включает в себя:

• IE-Ural_permutation_RUS_supplement.pdf, этимологические комментарии к реконструированным формам;

• IE-Ural_permutation_RUS_supplement.xls, таблица индоевропейско-уральского сравнения в формате MS Excel.

Литература

Бурлак & Старостин 2005 - Бурлак С. А., Старостин С. А. Сравнительно-историческое языкознание. 2-е изд. М., 2005.

Долгопольский 1964 - Долгопольский А. Б. Гипотеза древнейшего родства языков Северной Евразии с вероятностной точки зрения // Вопросы языкознания. 1964. № 2. С. 53-63.

Иванов 2009 - Иванов Вяч. Вс. К исследованию отношений между языками // Journal of Language Relationship. 2009. № 1. P. 1-12.

Иллич-Свитыч 1967 - Иллич-Свитыч В. М. 1967. Материалы к сравнительному словарю ностратических языков // Этимология 1965. М., 1967 . С. 321-373.

Иллич-Свитыч 1971, 1976, 1984 - Иллич-Свитыч В. М. Опыт сравнения ностратических языков. Под ред. В. А. Дыбо. Т. 1: Введение, сравнительный словарь (b - к), М., 1971. Т. 2: Сравнительный словарь (l - 3), М., 1976. Т. 3: Сравнительный словарь (p - q), М., 1984.

Касьян & Якубович 2013 - Касьян А. С., Якубович И. С. Анатолийские языки // Языки мира: Реликтовые индоевропейские языки Передней и Центральной Азии / РАН. Институт языкознания. Ред. колл.: Ю. Б. Коряков, А. А. Кибрик. М.: Academia, 2013. С. 15-26.

Напольских 1997 - Напольских В. В. Введение в историческую ура-листику. Ижевск, 1997.

Г. Старостин 2013 - Старостин Г. С. Языки Африки. Опыт построения лексикостатистической классификации. Т. 1: Метод. Койсанские языки. М., 2013.

С. Старостин 2007 - Старостин С. А. Определение устойчивости базисной лексики // С. А. Старостин. Труды по языкознанию. M., 2007. С. 827-839.

Aikio 2002 - Aikio A. New and old Samoyed etymologies // Finnisch-Ugrische Forschungen. 2002, №57. P. 9-57.

Baxter 1995 - Baxter W. ‘A stronger affinity ... than could have been produced by accident’: A probabilistic comparison of Old Chinese and Tibeto-Burman // W. S-Y. Wang (ed.). The Ancestry of the Chinese Language. Berkeley, 1995. P. 1-39.

Baxter 1998 - Baxter W. Response to Oswalt and Ringe // J. C. Salmons &

B. D. Joseph (eds.). Nostratic: sifting the evidence. Amsterdam: Benjamins, 1998. P. 217-236.

Baxter & Manaster Ramer 1996 - Baxter W., Manaster Ramer A. Review of: D. A. Ringe. On Calculating the Factor of Chance in Language Comparison // Diachronica. 1996. Vol. 13. P. 371-384.

Baxter & Manaster Ramer 2000 - Baxter W., Manaster Ramer A. Beyond lumping and splitting: Probabilistic issues in historical linguistics //

C. Renfrew et al. (eds.). Time Depth in Historical Linguistics. McDonald Institute for Archaeological Research, Oxford Publishing Press, 2000. P. 167-188.

Beekes 2010 - Beekes R. Etymological Dictionary of Greek. Leiden / Boston: Brill, 2010.

Blazek 2007 - Blazek V. From August Schleicher to Sergei Starostin: On the development of tree-diagram models of the Indo-European languages // The Journal of Indo-European studies. 2007. Vol. 35. P. 82-109.

Bouckaert et al. 2012 - Bouckaert R., Lemey P., Dunn M., Greenhill S. J., Alekseyenko A. V., Drummond A. J., Gray R. D., Suchard M. A., Atkinson Q. D. Mapping the Origins and Expansion of the Indo-European Language Family // Science. 2012. Vol. 337, 24 August.

Campbell & Poser 2008 - Campbell L., Poser W. J. Language Classification: History and Method. Cambridge University Press, 2008.

Collinder, Bjorn. 1934. Indo-uralisches Sprachgut: die Urverwandtschaft zwischen der indoeuropaischen und der uralischen (finnischugrisch-samojedischen) Sprachfamilie. Uppsala, Lundequistska.

Collinder 1960 - Collinder B. Comparative Grammar of the Uralic Languages. Stockholm, 1960.

Dolgopolsky 1986 - Dolgopolsky A. B. A probabilistic hypothesis concerning the oldest relationships among the language families of northern Eurasia // V. V. Shevoroshkin & T. L. Markey (eds.). Typology, Relationship, and Time: A Collection of Papers on Language Change and Relationship by Soviet Linguists. Ann Arbor (MI): Karoma, 1986. P. 27-50.

Dunn & Terrill 2012 - Dunn M., Terrill A. Assessing the lexical evidence for a Central Solomons Papuan family using the Oswalt Monte Carlo Test // Diachronica. 2012. Vol. 29/1. P. 1-27.

Gray & Atkinson 2003 - Gray R. D., Atkinson Q. D. Language-tree divergence times support the Anatolian theory of Indo-European origin // Nature. 2003. Vol. 426, 27 November 2003.

Helimski 2000/2001 - Helimski E. A. Early Indo-Uralic linguistic relationships: real kinship and imagined contacts // Е. А. Хелимский. Компаративистика, уралистика: Лекции и статьи. М., 2000. P. 489-501 [републикация: Linguistic and Archaeological Considerations. Papers presented at an international symposium held at the Tvarminne Research Station of the University of Helsinki 8-10 January, 1999 (Memoires de la Societe Finno-Ougrienne 242). Helsinki, 2001. P. 187-205].

Helimski 2002 - Helimski E. A. Zu den iranischen Lehnwortern im Ungari-schen // Finno-Ugrians and Indo-Europeans: Linguistic and Literary Contacts. Proceedings of the Symposium at the University of Groningen, November 22-24, 2001 (Studia Fenno-Ugrica Groningana 2). Ed. by R. Blokland & C. Hasselblatt. Maastricht: Shaker, 2002. P. 105-111.

Ivanov 2001 - Ivanov Vyac. Vs. Southern Anatolian and Northern Anatolian as Separate Indo-European Dialects and Antolian as a Late Linguistic Zone // R. Drews (ed.). Greater Anatolian and the Indo-Hittite Family. Washington (D.C.): Institute for the Study of Man, 2001. P. 131-183. (= Journal of Indo-European Studies. Monograph Series. № 38).

Justeson & Stephens 1980 - Justeson J. S., Stephens L. D. Chance cognation: a probabilistic model and decision procedure for historical inference // E. C. Traugott, R. Labrum & S. C. Shepherd (eds.). Papers from the Fourth International Conference on Historical Linguistics, Stanford, March 26-30 1979. J. Benjamins, 1980. P. 37-45.

Kassian 2013a - Kassian A. On Forni’s Basque-Indo-European Hypothesis // Journal of Indo-European Studies. 2013. Vol. 41, 1-2. P. 181-201.

Kassian 2013b - Kassian A. The Lezgian linguistic group within the framework of the Global Lexicostatistical Database. Talk given at the conference “Comparative-Historical Linguistics of the 21st Century: Issues and Perspectives”. Moscow, March 20-22, 2013.

https://www.academia.edu/3040336/The_Lezgian_linguistic_group_wit hin_the_framework_of_the_Global_Lexicostatistical_Database.

Kassian forthc. - Kassian A. Lexical matches between Sumerian and Hurro-Urartian: possible historical scenarios. To appear in Cuneiform Digital Library Journal.

Kassian et al. 2010 - Kassian A., Starostin G., Dybo A., Chernov V. The Swadesh wordlist. An attempt at semantic specification // Journal of Language Relationship. 2010. Vol. 4. P. 46-89.

Kessler 2007 - Kessler B. Word similarity metrics and multilateral comparison // Proceedings of Ninth Meeting of the ACL Special Interest Group in Computational Morphology and Phonology. Prague, 2007. P. 6-14.

Kessler & Lehtonen 2006 - Kessler B., Lehtonen A. Multilateral comparison and significance testing of the Indo-Uralic question // P. Forster &

C. Renfrew (eds.). Phylogenetic methods and the prehistory of languages. Cambridge, UK: McDonald Institute for Archaeological Research, 2006. P. 33-42.

Kloekhorst 2008 - Kloekhorst A. Some Indo-Uralic Aspects of Hittite // Journal of Indo-European Studies. 2008. Vol. 36, 1-2. P. 88-95.

Kortlandt 2010 - Kortlandt F. Studies in Germanic, Indo-European and Indo-Uralic. Amsterdam; New York, 2010.

McMahon & McMahon 2005 - McMahon A., McMahon R. Language Classification by Numbers. Oxford University Press, 2005.

Nakhleh et al. 2005 - Nakhleh L., Warnow T., Ringe D., Evans S. N. A Comparison of Phylogenetic Reconstruction Methods on an IE Dataset // The Transactions of the Philological Society. 2005. Vol. 103. P. 171-192.

Oswalt 1970 - Oswalt R. The detection of remote linguistic relationships // Computer Studies in the Humanities and Verbal Behavior. 1970. Vol. 3. P. 117-129.

Oswalt 1991 - Oswalt R. A method for assessing distant linguistic relationships // Lamb, Sydney M. & E. Douglas Mitchell (eds.). Sprung from some common source: Investigations into the prehistory of languages. Stanford: Stanford University Press, 1991. P. 389-404.

Oswalt 1998 - Oswalt R. A probabilistic evaluation of North Eurasiatic Nostratic // J. C. Salmons & B. D. Joseph (eds.). Nostratic: sifting the evidence. Amsterdam: Benjamins, 1998. P. 199-216.

Patri 2009 - Patri S. La perception des consonnes hittites dans les langues etrangeres au XIIIe siecle. In: Zeitschrift fur Assyriologie. 2009. Vol. 99. P. 87-126.

Ringe 1992 - Ringe D. On Calculating the Factor of Chance in Language Comparison. Philadelphia, 1992 (= TAPS 82/1).

Ringe 1998 - Ringe D. A probabilistic evaluation of Indo-Uralic // J. C. Salmons & B. D. Joseph (eds.). Nostratic: sifting the evidence. Amsterdam: Benjamins, 1998. P. 153-197.

Salminen 2002 - Salminen T. Problems in the taxonomy of the Uralic languages in the light of modern comparative studies // Лингвистический беспредел: Сборник статей к 70-летию А. И. Кузнецовой. М.: Изд-во Московского университета, 2002. P. 44-55.

Schindler 1975 - Schindler J. Armenisch erkn, Griechisch o5wn, Irisch idu // Zeitschrift fur vergleichende Sprachwissenschaft. 1975. Vol. 89.

S. 53-65.

Sinor 1988 - Sinor D. Introduction // D. Sinor (ed.). The Uralic languages. Description, history and foreign influences. Leiden; New York; Koln: Brill, 1988. P. xiii-xx.

G. Starostin 2008 - Starostin G. Making a Comparative Linguist out of your Computer: Problems and Achievements. Presentation at the Santa Fe Institute, August 12, 2008. Available at:

http://starling.rinet.ru/Texts/computer.pdf G. Starostin 2010 - Starostin G. Preliminary lexicostatistics as a basis for language classification: A new approach // Journal of Language Relationship. 2010. Vol. 3. P. 79-116.

Thomason 2001 - Thomason S. G. Language contact. Edinburgh University Press, 2001.

Thomason & Kaufman 1988 - Thomason S. G., Kaufman T. Language contact, creolization, and genetic linguistics. University of California Press, 1988.

Thomsen 1869 - Thomsen V. Den gotiske sprogklasses indflydelse pa den finske. En sproghistorisk unders0gelse. K0benhavn, 1869.

Turchin et al. 2010 - Turchin P., Peiros I., Gell-Mann M. Analyzing genetic connections between languages by matching consonant classes // Journal of Language Relationship. 2010. No. 3. P. 117-126.

A. S. Kassian, M. A. Zhivlov, G. S. Starostin.

Towards a probabilistic evaluation of the Indo-Uralic connection: Applying automated comparison to reconstructed sets of basic lexicon

Abstract: In this paper we discuss the results of an automated comparison between two 50-item groups of the most generally stable elements on the so-called Swadesh wordlist as reconstructed for Proto-Indo-European and Proto-Uralic. Two forms are counted as potentially related if their first two consonantal units, transcribed in simplified consonantal class notation (a rough variant of the Levenshtein distance method), match up with each other. Next to all previous attempts at such a task (Ringe 1998, Oswalt 1998, Kessler & Lehtonen 2006, Kessler 2007), our automated algorithm comes much closer to emulating the traditional procedure of cognate search as employed in historical linguistics. “Swadesh slots” for protolanguages

are filled in strict accordance with such principles of internal reconstruction as topology (taking into consideration the structure of the genealogical tree), morphological transparency, typology of semantic shifts, and areal distribution of particular items.

Altogether we have counted 7 pairs where Proto-Indo-European and Proto-Uralic share the same biconsonantal skeleton (the exact same pairs have been traditionally regarded as cognates in most hypotheses of Indo-Uralic relationship) To verify the probability of arriving at such a result by chance we have applied the permutation test, which yielded a positive result: the probability of 7 matched pairs is equal to 1.4% or 0.3%, depending on the constituency of the consonantal classes, which is lower than the standard 5% threshold of statistic significance or even lower than the strong 1% level. Standard methodology suggests that we reject the null hypothesis (accidental resemblance) and offer a more plausible explanation to the observed similarities. Since the known typology of language contacts does not speak in favor of explaining the observed Indo-Uralic matches as old lexical borrowings, the optimal explanation is seen in the hypothesis of Indo-Uralic genetic relationship, with the 7 matching pairs in question representing archaic retentions, left over from the original Indo-Uralic protolanguage.

Keywords: Indo-European languages, Uralic languages, Indo-Uralic hypothesis, Nostratic theory, long-range comparison, lexicostatistics, linguistic reconstruction, permutation test.

Towards a probabilistic evaluation of the Indo-Uralic connection: Applying automated comparison to reconstructed sets of basic lexicon

Текст научной работы на тему «Вероятностная оценка индоевропейско-уральского родства: формализованное сравнение реконструированной базисной лексики»