Метод формирования модели глагольного управления
для русского языка
Кочеткова Н. А.
МИЭМ, каф. ИТАС
В статье рассмотрены вопросы автоматического формирования словаря глагольного управления (глагол + предлог + возможные падежи существительного) на основе анализа корпуса синтаксической сочетаемости слов русского языка.
Все существующие задачи анализа текстов на естественном языке непременно сталкиваются с трудностями толкования и неоднозначностями, которые необходимо решать или как-то обходить. Например с такими как, морфологическая омонимия, синтаксическая и семантическая неоднозначности. Существует множество методов, позволяющих частично разрешать подобные неоднозначности, но ни один из них не дает 100% правильный результат, потому поиски продолжаются [1]. Так словари глагольного управления могут, например, существенно повысить качество и скорость синтаксического анализа, частично снять омонимию и тому подобное.
Однако, существующие на данный момент словари глагольного управления не достаточны по объему для их использования в машинной лингвистике. Существующие же способы выявления синтаксических связей такого рода страдают неполнотой, громоздки и ненадежны. Например, ранее уже предпринимались попытки извлечения информации о глагольном управлении и глагольном примыкании из больших корпусов, а также других видов сочетаемости слов, путем их просмотра, что потребовало огромного количества времени. Так работы, проводимые Большаковым И.А. в течение 20 лет, позволили ему получить базу сочетаемости для 185 тысяч слов и выражений, в том числе около 38 тыс. титулов для глаголов (раздельно для инфинитива и личных форм). Общее количество сочетаний превышает 6 млн. В книге Розенталя Д.Э. «Управление в русском языке» приведено всего 2500 статей. Схожие объемы имеют и другие существующие на сегодняшний день словари: Словарь сочетаемости слов русского языка под ред. Денисова — 2500 статей, а Словарь глагольной сочетаемости непредметных имен русского языка (Бирюк и др.) - 10 000 статей. Очевидно, что временные затраты на создание подобных словарей велики, кроме того, для их применения в машинной лингвистике необходимо приведение словарей к представлению, удобному для машинной обработки. На данный момент существует несколько сайтов, решающих задачи, связанные с сочетаемостью слов русского языка - это сайты Грамота.ру (http://gramota.ru/) и Национального корпуса текстов русского языка (НКРЯ) (http://ruscorpora.ru/). Однако, на данных сайтах отсутствует информация о глагольном управлении словами. Так, на сайте НКРЯ можно получить информацию о словах, находящихся в непосредственной близости или на некотором расстоянии, но информации о связанности этих слов нет, и пользователь должен извлекать ее сам. В связи с высокой сложностью извлечения информации о глагольном управлении на данный момент не существует ресурсов для ее изучения. Более того, в таких языках, как английский или французский, глагольное управление с использованием падежей отсутствует, в связи с чем его изучение не ведется.
В связи с перечисленными выше трудностями встает вопрос автоматизации процесса создания словарей глагольного управления.
Глагольное управление - это такая подчинительная связь, при которой зависящее от глагола имя существительное стоит в форме косвенного падежа. Управление глагола может быть беспредложным или предложным [3]. Иначе говоря каждый глагол в каждой своей форме допускает лишь определенный набор падежей зависимого существительного. Более того каждый предлог, через который осуществляется это управление, еще более сужает набор падежей. Зачастую в существующих на данный момент словарях приводят не набор возможных падежей, а формы местоимений соотносимых с существительными. Например словарь Розенталя имеет вид: получить
$что-л. @от кого, у кого и с кого.@ $ 1. @от кого.@
*Получил книги от брата (брат дал, прислал). $2. @у кого.@
*Получил книги у брата (взял у брата). $3. @от кого и у кого.@
*Получить нужные сведения от эксперта (у эксперта). Получить задание от руководителя (у руководителя). %% от - у. $4. "с кого.@
*Получить деньги с заказчика. Описание метода
Для выделения глагольного управления из неразмеченного корпуса текстов на русском языке нужно выполнить следующие этапы:
1. выделить глагол+зависимое существительное (с предлогом, если он есть)
2. определить падеж существительного
При этом мы сталкиваемся с двумя большими задачами:
1. неполный синтаксический анализ (на первом этапе)
2. разрешение омонимии (частеречной на первом этапе, и падежной на втором) Первый этап совпадает с действиями предпринятыми нами для выделения
синтаксической сочетаемости слов (описан в статьях [4,5]). А именно:
На вход поступает текст на естественном языке. В каждом предложении ищутся группы, описываемые следующим шаблоном:
Группа существительного = {Предлог (б.)} + {Порядковое числительное (п.)} + {притяжательное местоимение (п.)}+ {наречие (п.)}+ {прилагательное (п.)} + {сочинительный союз (п.)} + {прилагательное (п.)}+ существительное (б.).
Группа глагола = {группа существительного (б. если встретится в начале предложения)} + {наречие (п.)} + глагол/причастие/деепричастие (б.) + {наречие (п.)} + группа существительного (б.).
Где б. обозначает, что данное слово попадет в базу, п. - пропускается. {}- обозначает не обязательное присутствие.
Если в ходе выполнения алгоритма встречается слово не ожидаемой части речи или слово, часть речи которого не удается однозначно определить (морфологически неоднозначное), то разбор данного сочетания прекратится. Полученные словосочетания хранятся в списках двух типов:
• Для каждого типа сочетаний: гл. +сущ., деепр.+ сущ., прич. + сущ., гл. + наречие, деепр. + наречие, прич. + наречие, сущ. + прил, - в них слова приведены к НФ и подсчитана встречаемость.
• Список в котором хранятся выделенные словосочетания в том виде, в котором они встретились в тексте.
Исходными данными для задачи выявления глагольного управления послужили списки второго типа.
Списки были получены на основе корпуса, содержащего в себе тексты: Название Количество
словоупотреблений
Библиотека Мошкова
lib.rus.ec
РИА Новости
Независимая газета
Лента. Ру
Итого
688642107
6 010 124 132 186 809 472 97 217 983 40 959 449
7 261 801 368
Второй этап
Ниже представлен алгоритм автоматического извлечения глагольного управления. Этот алгоритм в некоторой мере является реализацией подхода, инспирированного корпусом (согрш-дпуеп аргоасИ), при котором в идеале все извлеченные данные должны быть адекватными, а качество алгоритма оценивается по параметрам полноты и точности извлеченной информации.
Для выделения нужных пар был использован следующий алгоритм:
1. найти глагол (У1),
2. найти его существительное (п1) и (если есть) предлог (РЯЕР1),
3. определить все возможные падежи существительного (NounCase1).
4. если У2=У1 и РЯЕЯ1 = РЯЕЯ2, то соответствующая строка падежей от п1 дополняется падежами от п2.
Из-за падежной омонимии было принято решение, проводить работу в 2 этапа:
На первом отбирались падежнонеомонимичные словоформы существительных, и по ним составлялся первый предварительный словарь вида предлог + набор разрешенных падежей.
На втором же этапе, из списка словосочетаний выбирались триграммы, состоящие из глагола, существительного и предлога, как с прямым (гл.+сущ.), так и с инверсным (сущ.+гл.) порядком слов. Глагол приводился к нормальной форме. Наборы падежей падежноомонимичных существительных, фильтровались по шаблону предлог+разрешенные падежи, полученному на первом этапе.
В результате был получен словарь, содержащий в себе строки вида:
ПРИГЛАША ТЬ;К; 0 *0 *8950 *0 *0 *0
ПРИГЛАША ТЬ;КО;0 *0 *489 *0 *0 *0
ПРИГЛАША ТЬ;НА; 0*0*0*30707*0*0
В каждой строке содержится показатели встречаемости в корпусе для каждого из падежей. Низкочастотные показатели были отсеяны.
Всего было получено более 240 000 сочетаний подобного вида (глагол+предлог+список разрешенных падежей). Стоит учесть, что всего в морфологическом словаре представлено 26400 глаголов.
Анализ показал высокий уровень корректности полученных данных: по предварительным оценкам не ниже 95%.
Здесь стоит отметить, что большое количество предлогов является омонимичными, например, «при» (повелительное наклонение единственного числа от «переть»), «для» (деепричастие от «длить») и так далее. На этапе формирования списков сочетаемости было решено автоматически брать все слова, которые могут быть предлогами, как предлоги. И хотя это не всегда корректно, например, слово «сверху» может выступать как в роли предлога, так и наречия, причем примерно равновероятно, языковые конструкции, в которых данное слово встречается, существенно отличаются в зависимости от того, применяется в них наречие или предлог.
Часть ошибок объясняется не совсем корректной обработкой некоторых видов конструкций. Так, например, в предложении «Хочу от лица коллектива поздравить юбиляра» конструкция «от лица» ошибочно относилась к глаголу «хотеть». Отдельную проблему представляют ассоциации, гиперболы и другие выразительные средства литературного языка.
В скором времени планируется расширить словарь за счет обработки словосочетаний с составными предлогами.
Результаты работы планируется использовать для решения практических задач, таких как: разрешения омонимии, фильтрации и проверки корректности результатов автоматического анализа/синтеза текстов, и проведения синтаксического анализа. Кроме того, полученные результаты могут быть использованы в теоритических исследованиях и для обучения русскому языку, в том числе, как иностранному и прочих.
Список литературы
1. Большаков И. А., Гельбух А.Ф. Большой электронный словарь как политематический справочник и формирователь запросов к Интернету // Материалы международной конференции «Диалог 2011», 2011 г. сс. 124-134
2. Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php
3. Академия наук СССР институт русского языка «Русская грамматика» М.: Наука, 1980.
4. Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. с. 181
5. Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Метод автоматического извлечения базы сочетаемости слов // Сб. трудов тринадцатого научно-практического семинара «Новые информационные технологии», М., 2010, сс. 113-116
6. Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с.
7. Розенталь Д.Э. Управление в русском языке //Москва, 1986 г.