Степень свободы русского синтаксиса несколько преувеличена
Клышинский Э.С., ИПМ им. М.В. Келдыша РАН [email protected]
Аннотация
В данной работе вводится новый метод численной оценки объема синтаксических связей, подверженных инверсии. Для 33 синтаксически размеченных корпусов из Universal Dependencies проведены расчеты подобной оценки, рассчитана корреляция между языками по проявляемой инверсии. Полученные результаты соответствуют существующим представлениям о классификации естественных языков.
1 Введение
На данный момент в квантитативной лингвистике происходит постепенная смена парадигмы. Если до последнего времени для оценки языковых явлений чаще всего использовались эмпирические исследования, основанные на анализе отдельных примеров в большом количестве языков, то сейчас всё чаще речь идет о разработке новых методов, позволяющих количественно оценить то или иное явление языка (см., например, [Gibson, 2012; Gibson, 2013]).
В связи с этим появляется всё больше количественных методов, позволяющих оценить количественные параметры в морфологии [Клышинский, 2014; Hajic, 1998], синтаксисе [Köhler, 2012], сравнительном языкознании [Hawkins, 1993].
Одной из областей, до сих пор не освещенной с данной точки зрения, является сравнение степени синтаксической инверсии, присущей различным языкам. Под синтаксической инверсией в данной работе понимается изменение порядка следования слов в предложении при сохранении типа синтаксической связи.
В данной работе предложен вариант оценки инверсии и приведены количественные показатели для 33 языков, взятых из синтаксически размеченного корпуса Universal Dependencies.
2 Метод количественного анализа синтаксической инверсии
Данная работа преследует несколько целей. Первой задачей являлась разработка нового метода, позволяющего количественно оценивать, насколько данному тексту или корпусу текстов присуща синтаксическая инверсия. Под синтаксической инверсией здесь понимается ситуация, когда слова, связанные одной и той же синтаксической связью, могут располагаться в предложении в разном порядке. Второй целью была проверка гипотезы о том, что языки, принадлежащие одной и той же языковой группе, будут показывать сходное поведение с точки зрения подобной инверсии. Наконец, в данной работе проводится сравнение степени инверсии синтаксических связей в разных языках в целом.
Для оценки степени инверсии синтаксических связей был предложен следующий метод. На вход поступает синтаксически размеченный корпус, из которого извлекаются все кортежи вида <родительская вершина, дочерняя вершина, тип связи, направление связи>. Для родительской и дочерней вершин берется лишь часть речи, без учета леммы или набора грамматических параметров. Под
направлением связи понимается порядок, в котором в предложении находятся родительское и дочернее слова: дочернее слово находится слева или справа от родительского. Для каждого кортежа подсчитывается частота его появления в корпусе.
Далее в полученном списке находятся пары кортежей, отличающиеся только
направлением связи. Если пары не найдено, ситуация считается асимметричной, то есть ветвление для данного вида связи в анализируемом языке возможно только в одну сторону. Если пара найдена, ситуация считается симметричной и нам необходимо определить степень ее симметричности. Критерий симметричности рассчитывается по формуле
где ^ и f2 - частоты встречаемости кортежей для правого и левого ветвления.
Таким образом, если ситуация полностью симметрична, то есть количество случаев правого ветвления для данной связи равно количеству случаев для левого ветвления, значение 5 будет равно 1. В случае полной асимметрии (представлено либо только правое, либо только левое ветвление), 5 примет значение 0.
Значение S позволяет оценить симметрию лишь одного вида связи между словами заданных частей речи. Используем его для оценки степени инверсии, присущей заданному языку в целом.
Можно считать, что синтаксис языка подвержен инверсии, если симметричные синтетические конструкции встречаются достаточно часто. Для этого в языке должно быть, например, несколько часто встречающихся существенно симметричных конструкций (в которых равновероятны оба варианта ветвления), или большинство конструкций проявляют инверсию, хотя бы и редко встречающуюся. Таким образом, на степень инверсии языка в целом влияет частота встречаемости симметричных конструкций. В связи с этим введем величину важности ветвления как произведение значения критерия симметричности 5 на частоту появления данного вида связи в корпусе q: i=5*q .
Важность ветвления показывает одно из двух явлений: нерегулярность языка, заключающееся в произволе выбора позиции для подчиненного слова (степени, в которой язык подвержен инверсии), либо повышение числа правил и исключений, регулирующих позицию подчиненного слова. Если рассчитать сумму важности ветвления для всех кортежей, полученных для корпуса, мы получим степень свободы синтаксических связей в данном языке в целом, выраженную как доля корпуса, проявляющая как правое, так и левое выявление для пары слов с заданными частями речи и известным типом связи. Заметим, что здесь мы не анализируем связь вида предложения с направлением ветвления для заданной связи.
Для проверки сходства поведения языков внутри языковых групп проведем следующую процедуру. Выберем для каждого языка 10 кортежей с максимальным значением
важности ветвления (так как информация о правом и левом ветвлении использовалась при вычислении значения важности ветвления, здесь и далее под кортежем мы понимаем тройку <часть речи родительской вершины, часть речи дочерней вершины, тип связи>). Объединим все полученные кортежи в одно множество, после чего рассчитаем значения важности ветвления для всех выделенных кортежей для каждого из языков. Затем рассчитаем корреляцию между векторами значений важности ветвления для всех языков. Языки из одной группы должны показывать высокое значение важности ветвления для наиболее важных кортежей, выделенных из этих языков. Наоборот, кортежи, важные для языков других групп и семей, могут оказаться в равной степени не важны для них.
3 Исходные данные и результаты работы
В качестве исходных данных использовался синтаксически размеченный корпус Universal Dependencies1 [Nivre, 2016]. Список языков и размеры подкорпусов приведены в Табл. 1.
Результаты были получены на версиях корпуса 1.4 и 2. Заметим, что полученные результаты заметно отличались между собой. Далее приведены цифры только для корпуса версии 2.
Для некоторых языков в Universal Dependencies представлено несколько корпусов. В этом случае корпуса сливались вместе в один. Среди прочего были слиты корпуса английского и американского диалектов, а также букмол и новонорвежский для норвежского. При этом португальский и бразильский диалекты не объединялись.
Для каждого языка была рассчитана сумма важности ветвления для всех кортежей, а также сумма только для первой десятки кортежей, обладающей максимальными значениями. Эти значения также приведены в Табл. 1.
Как видно из таблицы, наибольшим значением обладают такие языки как эстонский, словацкий, финский, польский и словенский. В десятку лидеров входят также латышский, литовский, чешский,
1 http ://universaldependencies.org/
Табл. 1. Размеры корпусов и рассчитанное значение важности ветвления
Язык Размер, Важнос Важност
тыс. ть ь, top10
слов
Чешский 1 838 0,317 0,159
Словацкий 93 0,376 0,214
Польский 72 0,355 0,210
Русский 988 0,215 0,141
Болгарский 140 0,233 0,117
Хорватский 183 0,255 0,120
Словенский 145 0,309 0,169
Английский 422 0,154 0,072
Немецкий 277 0,278 0,157
Голландский 290 0,278 0,166
Испанский 906 0,213 0,090
Каталанский 472 0,188 0,086
Французский 456 0,170 0,079
Португальский 201 0,278 0,123
Бразильский 268 0,273 0,117
Итальянский 234 0,246 0,131
Румынский 202 0,237 0,116
Финский 324 0,342 0,222
Эстонский 34 0,447 0,274
Венгерский 37 0,278 0,143
Норвежский 556 0,168 0,118
Шведский 140 0,190 0,132
Датский 94 0,193 0,124
Латышский 44 0,353 0,155
Литовский 40 0,337 0,128
Иврит 106 0,216 0,092
Арабский 846 0,151 0,080
Хинди 316 0,039 0,018
Урду 123 0,054 0,035
Японский 362 0,016 0,001
Индонезийский 110 0,207 0,108
Фарси 135 0,129 0,052
Турецкий 46 0,217 0,047
голландский и немецкий. Заметим, что русский язык входит лишь в середину списка.
Японский язык, сохраняющий строгий синтаксис, показывает самое низкое значение важности ветвления. В целом в десятку языков с самым строгим синтаксисом входят японский, хинди, урду, фарси, английский, арабский, французский, каталанский, турецкий и испанский.
Вопрос ранжирования языков представляет особую проблему. Опрос показал, что эксперты оценивают скорее наиболее частотные конструкции, чем общее количество случаев инверсии.
Для каждого языка были выделены по 10 кортежей, обладающих максимальным значением меры важности ветвления. Для каждого кортежа также было рассчитано
количество языков, для которых значение важности ветвления больше 0.001. Данный параметр показывает, насколько присуща инверсия в данном кортеже для разных языков.
Как видно из полученных результатов, для большинства языков характерна инверсия позиции глагола с субъектом и прямым дополнением, выраженных существительным (28 и 27 языков из 33). Аналогичная ситуация наблюдается для имен собственных и местоимений (по 24 языка). Этот факт объясняется, например, тем, что вопросительные предложения строятся путем смены порядка слов. Помимо этого, в славянских языках эмфаза также может показываться при помощи инверсии.
Помимо этого, инверсии подвержены сочетания существительного и
прилагательного (21 язык), глагола и наречия (27 языков). Другие сочетания подвержены инверсии в значительно меньшей степени.
Самая значительная инверсия наблюдается для существительных и прилагательных в польском языке. Важность ветвления здесь равна 0.055, то есть примерно 2,8% связей в польском корпусе приходятся на дисбаланс ветвления (на связь прилагательно-существительное приходится 7,85% связей, разница между левым и правым ветвлением составила 30% - 3327 против 1809).
Для сравнения, важность ветвления этого вида связи во французском составляет 0.0189, в испанском 0.0222, чешском 0.0156, а в русском лишь 0.0024.
Следующее по значимости ветвлений находится в связи глагола и агента: 0.0527 для эстонского, 0.0416 для латышского, 0.036 для русского и словацкого.
Наиболее значимые отклонения для связи глагола и наречия наблюдаются в эстонском языке - 0.055, далее идут шведский язык -0.414, финский - 0.411, в русском важность ветвления составляет 0.01.
Для множества векторов кортежей разных языков была рассчитана матрица корреляции (Прил. 1). Как видно из матрицы, языки, принадлежащие одной группе, действительно показывают высокую степень корреляции. Наибольшим сходством обладают испанский и каталонский, а также шведский и датский языки. Примечательно, что английский язык больше похож на норвежский и шведский, но слабо коррелирует с немецким и датским. При этом английский, немецкий и датский
относятся хотя все эти языки относятся к германским. Также примечательно поведение польского и чешского языков. Оба языка являются славянскими. При этом польский язык слабо коррелирует с языками славянской группы, тогда как чешский похож на языки разных групп.
Картина для романских языков соответствует, например, связям, показанным в «Атласе романских языков» Корякова Ю.Б.1
По полученным векторам была проведена иерархическая кластеризация. Ее результаты показаны на Рис. 1. Как видно из рисунка, точность кластеризации языков по языковым группам оставляет желать лучшего, но в целом корректно описывает отношения между языками. Так, например, литовский язык показывает максимальную корреляцию с русским, а не латышским, составляющим вместе с ним балтийскую группу. Заметим, что применение меры Минковского дает результаты кластеризации, более похожие на принятое языковое дерево. Так, финский и эстонский языки были объединены в одну группу.
Рис. 1. Кластеризация языков
4 Выводы
В данной работе предложен количественный метод оценки
синтаксической инверсии в различных языках. Результаты работы метода согласуются с имеющимся представлением о применении инверсии в разных языках. Предложенный метод позволяет оценивать
1 См.
https://ru.wikipedia.org/wiki/%D0%9A%D0%B0 %D1%82%D0%B0%D0%BB%D0%B0%D0%B D%D1%81%D0%BA%D0%B8%D0%B9 %D1% 8F%D0%B7%D1%8B%D0%BA#/media/File:Ro mance-lg-classification-ru.png
близость языков по степени, в которой они обладают инверсией, а также по списку связей, подверженных или не подверженных инверсии.
Заметим, что формулу расчета важности ветвления можно упростить, взяв лишь отношение минимума их из значений f и f2 к размеру корпуса. Это будет давать в два раза меньше значения, однако никак не скажется на ранжировании языков или корреляции их наиболее важных кортежей.
В дальнейшем мы планируем более детально изучить соотношение важности ветвления всех кортежей языка и первых десяти. Заметим также, что инверсия может быть обоснована разными видами предложений. Так, во многих языках вопросительное предложение формируется именно за счет смены порядка слов. Этот факт будет рассмотрен в дальнейших исследованиях.
Предложенный метод позволяет найти основные конструкции, в которых наблюдается инверсия порядка слов. Хотя данный вопрос уже исследовался в языкознании, однако количественная оценка позволит в дальнейших исследованиях рассмотреть вопрос влияния инверсии в синтаксическом анализе различных языков.
В заключении хочется повторить вывод, вынесенный в заголовок данной стать: мера использования инверсии в русском языке не до конца соответствует его славе как языка со свободным порядком слов.
Список литературы
Клышинский Э.С., Логачева В.К., Мансурова О.Ю. и др. (2014) Исследование неоднозначности употребления слов в европейских языках. Препринт ИПМ им. М.В. Келдыша РАН, М., 31 с.
Gibson E., Piantadosi S.T., Fedorenko E. (2012)
Quantitative methods in syntax/semantics research: A response to Sprouse and Almeida (2012), Language and Cognitive Processes, D0I:10.1080/01690965.2012.704385
Gibson E., Fedorenko E. (2013) The need for quantitative methods in syntax and semantics research, Language and Cognitive Processes, 28:12, 88-124
Hajic J., Vidova-Hladka B. (1998) Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset // In Proc. of the COLING-ACL Conference, pp. 483 - 490. Montreal, Canada.
Hawkins J.A. (1983) Word Orders Universalis. Academic Press. 342.
Köhler R. (2012) Quantitative syntax analysis. De Gruyter Mouton. 224.
Nivre. J, de Marneffe M.-C., Ginter F. et al. Universal Dependencies v1: A Multilingual Treebank Collection. In Proc. of LREC-2016, pp. 1659-1666
Прил. 1. Корреляция между языками, рассчитанная по десяти кортежам с наибольшей важностью ветвления для всех языков
Корреляция, % 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
1 Чешский 74 54 80 77 60 19 13 44 76 70 40 68 61 62 80 11 -1 15 5 -5 41 18 75
2 Словацкий 60 78 51 78 74 55 64 38 11 5 28 60 64 78 32 63 58 61 79 73 8 -3 7 0 -5 31 4 67
3 Польский 60 57 63 49 60 36 50 51 92 91 77 24 25 54 66 45 52 29 50 39 41 54 53 5 -1 9 3 -4 23 25 55
4 Русский 78 57 73 48 73 57 65 39 11 1 29 61 63 29 64 57 57 91 78 9 0 7 6 -4 37 9 73
5 Болгарский 63 71 64 79 71 67 77 51 17 10 37 73 69 27 76 73 70 90 77 11 -2 3 4 -5 34 9 73
6 Хорватский 74 49 73 71 77 31 73 68 44 52 27 5 -3 21 45 48 63 26 51 40 42 74 67 4 -2 5 3 -4 28 7 57
7 Словенский 60 77 52 55 64 41 11 1 28 60 71 33 63 61 59 75 7 -2 15 6 -4 38 7 71
8 Английский 54 51 36 48 64 31 52 55 52 50 57 56 24 21 29 64 77 5 75 93 55 45 11 -5 7 24 -4 24 22 53
9 Немецкий 80 78 50 79 73 55 49 58 40 14 5 27 54 74 31 73 68 70 75 4 -3 19 9 -5 35 13 73
10 Голландский 74 51 73 71 68 52 44 54 36 11 1 24 50 76 47 61 62 64 76 72 4 -5 36 10 -5 29 4 72
11 Испанский 77 55 92 57 67 44 55 50 49 44 97 91 38 38 66 75 46 56 12 57 50 54 54 47 10 2 -3 4 -4 31 30 56
12 Каталанский 64 91 65 77 52 64 57 58 54 97 35 32 62 77 55 66 19 65 59 62 64 58 12 0 -1 3 -4 30 26 63
13 Французский 60 38 77 39 51 27 41 56 40 36 91 58 56 77 72 44 51 -3 47 53 55 37 23 13 12 -5 8 -4 36 27 45
14 Португальский 19 11 24 11 17 5 11 24 14 11 38 35 58 95 91 35 19 28 -4 18 24 24 12 5 41 49 -9 13 -5 37 6 16
15 Бразильский 13 5 25 1 10 -3 1 21 5 1 38 32 56 95 32 20 20 -5 15 19 19 5 3 36 47 -8 20 -6 29 15 8
16 Итальянский 44 28 54 29 37 21 28 29 27 24 66 62 77 91 57 27 39 5 32 30 31 29 23 36 42 -6 15 -6 45 18 32
17 Румынский 76 60 66 61 73 45 60 64 54 50 75 77 72 35 32 57 58 63 11 59 65 62 59 46 10 -5 -1 8 -5 71 24 53
18 Финский 70 64 45 63 69 48 71 74 76 46 55 44 19 20 27 58 30 75 79 76 75 73 10 -2 28 34 -5 26 32 67
19 Эстонский 78 52 63 77 56 66 51 28 20 39 63 31 80 75 14 5 13 13 -4 30 9 79
20 Венгерский 40 32 29 29 27 26 33 5 31 47 12 19 -3 -4 -5 5 11 30 31 15 10 8 33 46 2 -2 27 5 -4 -2 -4 30
21 Норвежский 68 63 50 64 76 51 63 75 73 61 57 65 47 18 15 32 59 75 80 15 74 74 10 -4 4 28 -5 22 36 65
22 Шведский 61 58 39 57 73 40 61 93 68 62 50 59 53 24 19 30 65 79 10 96 63 50 13 -3 2 11 -4 24 12 61
23 Датский 62 61 41 57 70 42 59 70 64 54 62 55 24 19 31 62 76 8 96 61 50 12 -4 -4 3 -4 24 12 65
24 Латышский 79 54 91 90 74 55 76 54 64 37 12 5 29 59 75 33 74 63 61 10 0 14 23 -4 35 25 73
25 Литовский 80 73 53 78 77 67 75 45 75 72 47 58 23 5 3 23 46 73 75 46 74 50 50 10 0 25 34 -5 21 33 68
26 Иврит 11 8 5 9 11 4 7 11 4 4 10 12 13 41 36 36 10 10 14 2 10 13 12 10 10 58 -9 -2 -5 2 -3 7
27 Арабский -1 -3 -1 0 -2 -2 -2 -5 -3 -5 2 0 12 49 47 42 -5 -2 5 -2 -4 -3 -4 0 0 58 -8 8 -4 -3 -3 -3
28 Хинди 15 7 9 7 3 5 15 7 19 36 -3 -1 -5 -9 -8 -6 -1 28 13 27 4 2 -4 14 25 -9 -8 49 -5 -3 9 13
29 Урду 5 0 3 6 4 3 6 24 9 10 4 3 8 13 20 15 8 34 13 5 28 11 3 23 34 -2 8 49 -5 7 61 3
30 Японский -5 -5 -4 -4 -5 -4 -4 -4 -5 -5 -4 -4 -4 -5 -6 -6 -5 -5 -4 -4 -5 -4 -4 -4 -5 -5 -4 -5 -5 -4 -3 -6
31 Индонезийский 41 31 23 37 34 28 38 24 35 29 31 30 36 37 29 45 71 26 30 -2 22 24 24 35 21 2 -3 -3 7 -4 15 28
32 Фарси 18 4 25 9 9 7 7 22 13 4 30 26 27 6 15 18 24 32 9 -4 36 12 12 25 33 -3 -3 9 61 -3 15 10
33 Турецкий 75 67 55 73 73 57 71 53 73 72 56 63 45 16 8 32 53 67 79 30 65 61 65 73 68 7 -3 13 3 -6 28 10
Корреляция [0.9; 1]
Корреляция [0.8; 0.9)
Корреляция [0.7; 0.8)
Корреляция [0.6; 0.7)