Метод формирования модели глагольного управления для русского языка

Кочеткова Н.А.

Метод формирования модели глагольного управления

для русского языка

Кочеткова Н. А.

МИЭМ, каф. ИТАС

В статье рассмотрены вопросы автоматического формирования словаря глагольного управления (глагол + предлог + возможные падежи существительного) на основе анализа корпуса синтаксической сочетаемости слов русского языка.

Все существующие задачи анализа текстов на естественном языке непременно сталкиваются с трудностями толкования и неоднозначностями, которые необходимо решать или как-то обходить. Например с такими как, морфологическая омонимия, синтаксическая и семантическая неоднозначности. Существует множество методов, позволяющих частично разрешать подобные неоднозначности, но ни один из них не дает 100% правильный результат, потому поиски продолжаются [1]. Так словари глагольного управления могут, например, существенно повысить качество и скорость синтаксического анализа, частично снять омонимию и тому подобное.

Однако, существующие на данный момент словари глагольного управления не достаточны по объему для их использования в машинной лингвистике. Существующие же способы выявления синтаксических связей такого рода страдают неполнотой, громоздки и ненадежны. Например, ранее уже предпринимались попытки извлечения информации о глагольном управлении и глагольном примыкании из больших корпусов, а также других видов сочетаемости слов, путем их просмотра, что потребовало огромного количества времени. Так работы, проводимые Большаковым И.А. в течение 20 лет, позволили ему получить базу сочетаемости для 185 тысяч слов и выражений, в том числе около 38 тыс. титулов для глаголов (раздельно для инфинитива и личных форм). Общее количество сочетаний превышает 6 млн. В книге Розенталя Д.Э. «Управление в русском языке» приведено всего 2500 статей. Схожие объемы имеют и другие существующие на сегодняшний день словари: Словарь сочетаемости слов русского языка под ред. Денисова — 2500 статей, а Словарь глагольной сочетаемости непредметных имен русского языка (Бирюк и др.) - 10 000 статей. Очевидно, что временные затраты на создание подобных словарей велики, кроме того, для их применения в машинной лингвистике необходимо приведение словарей к представлению, удобному для машинной обработки. На данный момент существует несколько сайтов, решающих задачи, связанные с сочетаемостью слов русского языка - это сайты Грамота.ру (http://gramota.ru/) и Национального корпуса текстов русского языка (НКРЯ) (http://ruscorpora.ru/). Однако, на данных сайтах отсутствует информация о глагольном управлении словами. Так, на сайте НКРЯ можно получить информацию о словах, находящихся в непосредственной близости или на некотором расстоянии, но информации о связанности этих слов нет, и пользователь должен извлекать ее сам. В связи с высокой сложностью извлечения информации о глагольном управлении на данный момент не существует ресурсов для ее изучения. Более того, в таких языках, как английский или французский, глагольное управление с использованием падежей отсутствует, в связи с чем его изучение не ведется.

В связи с перечисленными выше трудностями встает вопрос автоматизации процесса создания словарей глагольного управления.

Глагольное управление - это такая подчинительная связь, при которой зависящее от глагола имя существительное стоит в форме косвенного падежа. Управление глагола может быть беспредложным или предложным [3]. Иначе говоря каждый глагол в каждой своей форме допускает лишь определенный набор падежей зависимого существительного. Более того каждый предлог, через который осуществляется это управление, еще более сужает набор падежей. Зачастую в существующих на данный момент словарях приводят не набор возможных падежей, а формы местоимений соотносимых с существительными. Например словарь Розенталя имеет вид: получить

$что-л. @от кого, у кого и с кого.@ $ 1. @от кого.@

*Получил книги от брата (брат дал, прислал). $2. @у кого.@

*Получил книги у брата (взял у брата). $3. @от кого и у кого.@

*Получить нужные сведения от эксперта (у эксперта). Получить задание от руководителя (у руководителя). %% от - у. $4. "с кого.@

*Получить деньги с заказчика. Описание метода

Для выделения глагольного управления из неразмеченного корпуса текстов на русском языке нужно выполнить следующие этапы:

1. выделить глагол+зависимое существительное (с предлогом, если он есть)

2. определить падеж существительного

При этом мы сталкиваемся с двумя большими задачами:

1. неполный синтаксический анализ (на первом этапе)

2. разрешение омонимии (частеречной на первом этапе, и падежной на втором) Первый этап совпадает с действиями предпринятыми нами для выделения

синтаксической сочетаемости слов (описан в статьях [4,5]). А именно:

На вход поступает текст на естественном языке. В каждом предложении ищутся группы, описываемые следующим шаблоном:

Группа существительного = {Предлог (б.)} + {Порядковое числительное (п.)} + {притяжательное местоимение (п.)}+ {наречие (п.)}+ {прилагательное (п.)} + {сочинительный союз (п.)} + {прилагательное (п.)}+ существительное (б.).

Группа глагола = {группа существительного (б. если встретится в начале предложения)} + {наречие (п.)} + глагол/причастие/деепричастие (б.) + {наречие (п.)} + группа существительного (б.).

Где б. обозначает, что данное слово попадет в базу, п. - пропускается. {}- обозначает не обязательное присутствие.

Если в ходе выполнения алгоритма встречается слово не ожидаемой части речи или слово, часть речи которого не удается однозначно определить (морфологически неоднозначное), то разбор данного сочетания прекратится. Полученные словосочетания хранятся в списках двух типов:

• Для каждого типа сочетаний: гл. +сущ., деепр.+ сущ., прич. + сущ., гл. + наречие, деепр. + наречие, прич. + наречие, сущ. + прил, - в них слова приведены к НФ и подсчитана встречаемость.

• Список в котором хранятся выделенные словосочетания в том виде, в котором они встретились в тексте.

Исходными данными для задачи выявления глагольного управления послужили списки второго типа.

Списки были получены на основе корпуса, содержащего в себе тексты: Название Количество

словоупотреблений

Библиотека Мошкова

lib.rus.ec

РИА Новости

Независимая газета

Лента. Ру

Итого

688642107

6 010 124 132 186 809 472 97 217 983 40 959 449

7 261 801 368

Второй этап

Ниже представлен алгоритм автоматического извлечения глагольного управления. Этот алгоритм в некоторой мере является реализацией подхода, инспирированного корпусом (согрш-дпуеп аргоасИ), при котором в идеале все извлеченные данные должны быть адекватными, а качество алгоритма оценивается по параметрам полноты и точности извлеченной информации.

Для выделения нужных пар был использован следующий алгоритм:

1. найти глагол (У1),

2. найти его существительное (п1) и (если есть) предлог (РЯЕР1),

3. определить все возможные падежи существительного (NounCase1).

4. если У2=У1 и РЯЕЯ1 = РЯЕЯ2, то соответствующая строка падежей от п1 дополняется падежами от п2.

Из-за падежной омонимии было принято решение, проводить работу в 2 этапа:

На первом отбирались падежнонеомонимичные словоформы существительных, и по ним составлялся первый предварительный словарь вида предлог + набор разрешенных падежей.

На втором же этапе, из списка словосочетаний выбирались триграммы, состоящие из глагола, существительного и предлога, как с прямым (гл.+сущ.), так и с инверсным (сущ.+гл.) порядком слов. Глагол приводился к нормальной форме. Наборы падежей падежноомонимичных существительных, фильтровались по шаблону предлог+разрешенные падежи, полученному на первом этапе.

В результате был получен словарь, содержащий в себе строки вида:

ПРИГЛАША ТЬ;К; 0 *0 *8950 *0 *0 *0

ПРИГЛАША ТЬ;КО;0 *0 *489 *0 *0 *0

ПРИГЛАША ТЬ;НА; 0*0*0*30707*0*0

В каждой строке содержится показатели встречаемости в корпусе для каждого из падежей. Низкочастотные показатели были отсеяны.

Всего было получено более 240 000 сочетаний подобного вида (глагол+предлог+список разрешенных падежей). Стоит учесть, что всего в морфологическом словаре представлено 26400 глаголов.

Анализ показал высокий уровень корректности полученных данных: по предварительным оценкам не ниже 95%.

Здесь стоит отметить, что большое количество предлогов является омонимичными, например, «при» (повелительное наклонение единственного числа от «переть»), «для» (деепричастие от «длить») и так далее. На этапе формирования списков сочетаемости было решено автоматически брать все слова, которые могут быть предлогами, как предлоги. И хотя это не всегда корректно, например, слово «сверху» может выступать как в роли предлога, так и наречия, причем примерно равновероятно, языковые конструкции, в которых данное слово встречается, существенно отличаются в зависимости от того, применяется в них наречие или предлог.

Часть ошибок объясняется не совсем корректной обработкой некоторых видов конструкций. Так, например, в предложении «Хочу от лица коллектива поздравить юбиляра» конструкция «от лица» ошибочно относилась к глаголу «хотеть». Отдельную проблему представляют ассоциации, гиперболы и другие выразительные средства литературного языка.

В скором времени планируется расширить словарь за счет обработки словосочетаний с составными предлогами.

Результаты работы планируется использовать для решения практических задач, таких как: разрешения омонимии, фильтрации и проверки корректности результатов автоматического анализа/синтеза текстов, и проведения синтаксического анализа. Кроме того, полученные результаты могут быть использованы в теоритических исследованиях и для обучения русскому языку, в том числе, как иностранному и прочих.

Список литературы

1. Большаков И. А., Гельбух А.Ф. Большой электронный словарь как политематический справочник и формирователь запросов к Интернету // Материалы международной конференции «Диалог 2011», 2011 г. сс. 124-134

2. Бирюк О.Л., Гусев В.Ю., Калинина Е.Ю. Словарь глагольной сочетаемости непредметных имен русского языка - http://dict.ruslang.ru/abstr_noun.php

3. Академия наук СССР институт русского языка «Русская грамматика» М.: Наука, 1980.

4. Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. с. 181

5. Клышинский Э.С., Кочеткова Н.А., Литвинов М.И., Максимов В.Ю. Метод автоматического извлечения базы сочетаемости слов // Сб. трудов тринадцатого научно-практического семинара «Новые информационные технологии», М., 2010, сс. 113-116

6. Словарь сочетаемости слов русского языка / Под ред. П. Н. Денисова, В. В. Морковкина. 3-е изд., испр. М., АСТ, 2002. 816 с.

7. Розенталь Д.Э. Управление в русском языке //Москва, 1986 г.

Метод формирования модели глагольного управления для русского языка Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кочеткова Н. А.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Кочеткова Н. А.

Текст научной работы на тему «Метод формирования модели глагольного управления для русского языка»