Прикладные исследования
Т. Ю. Кобзарева
Некоторые свойства линейной структуры именных и предложных групп
(Поверхностно-синтаксический анализ русского предложения)
Введение
Анализ именных и предложных групп (ИГ и ПГ) - одна из наиболее актуальных проблем автоматического анализа текста. Практически любая прикладная задача, связанная с автоматическим анализом естественного текста, предполагает построение ИГ и ПГ.
Ниже рассматриваются некоторые свойства линейной структуры ИГ и ПГ. в частности - проективность и рекурсив-ность. характерные для организации линейной структуры русского предложения. Способ использования этих свойств в значительной мере определяет особенности лингвистического базиса системы поверхностно-синтаксического анализа русского предложения (ПСА), разрабатываемой в настоящее время в Институте лингвистики РГГУ1 [Кобзарева и др. 2001. Кобзарева 2002. Ножов2003. Кобзарева 2004. Кобза рева 2005, Баталина и др. 2006. Кобзарева 2006. Кобзарева 2007).
Задача ПСА. была поставлена давно, и существуют ставшие каноническими варианты ее решения для машинного перевода. описанные в [Мельчук 1964. Иорданская 1967. Кулагина 1979]. В них во всех большую роль играет порядок процедур анализа. Ниже обсуждаются возможности организации ПСА. отличной от описанных в [Мельчук 1964, Иорданская 1967. Кулагина 1979, Апресян 1989]. Система строится как многоступенчатый комплекс модулей с выделенными в отдельный модуль алгоритмами сегментации [Кобзарева 2007]. Анализ на всех уровнях использует свойства сочинительной и подчинительной проективности и рекурсивности линейной структуры русского предложения (Б) [Иорданская 1967. Падучева 1971. Кобзарева 2006. Кобзарева 2007]: фильтры для отсеивания ложных гипотез встроены непосредственно в процедуры анализа. Проективность рекурсивных структур подчинительных
и сочинительных [Кобзарева 2004. Кобзарева 2006. Кобзарева 2007) связей играет существенную роль и для построения динамических компонент анализа, и для упорядочения процедур анализа в целом.2
1. Понятие проективного фрагмента
Для организации анализа существенно, что проективность является свойством, производным от порядка слов, связанных отношениями подчинения или сочинения. Известно, что условие проективности графа поТеньеру (при изображении связей в виде дерева) соответствует в стрелочном изображении связей над линейной структурой предложения требованиям непересечения и необрамления [Иорданская 1967). т.е. не должно быть ситуаций типа (Ьк - слово, к - его порядковый номер в предложении):
Рис.1 ___ _
I г—Пг^п I г-а \г~\ I
Ьк...!>)... 1-4... Ьт ИЛИ Ьк...Ь)...Ц...Ьт и Ьк-.. Ь)... Ц ИЛИ и... и ... и
Таким образом, если границами некоторого отрезка в предложении являются два слова Ьк и и. связанные отношениями подчинения или сочинения (Ьк и или Ьк С Ц). то в этом отрезке (1) только слова-границы Ьк и Ь1 могут иметь связи со словами, находящимися вне этого отрезка и (2) никакое слово внутри отрезка не может быть хозяином слова-границы. Отрезки, удовлетворяющие этим условиям, будем называть проективными фрагментами (ПФ).
Если внутри ПФ появляется слово, не являющееся непосредственным или опосредованным слугою слова-границы, то - в силу связности графа - оно будет иметь хозяина или слугу вне ПФ. что породит пересечение, или будет хозяином одного из слов-границ, т.е. возникнет обрамление. Таким образом, все слова внутри ПФ являются узлами ветки графа Б с вершиною - одной из его границ. /
2. Проективные фрагменты определительных именных групп и предложных групп
Объектом рассмотрения являются ПФ определительных именных групп (ИГ) и предложных групп (ПГ). а именно ПФ. границы которых задаются поверхностно-синтаксическими отношениями ГША. где существительное или его синтакси-
ческий аналог является хозяином Л-полного прилагательного, причастия, местоименного прилагательного, порядкового числительного в необособленном согласованном определении в пре- или постпозиции или обособленном согласованном определения в препозиции и РЮЧ. где Р- предлог. При рассмотрении особенностей ПФ этих связей нас будет занимать грамматически правильные для русского языка линейные конфигурации вне зависимости от вероятности их появления в текстах3.
Некоторые важные особенности линейной структуры определительных именных групп, а именно - место распространенного согласованного определения по отношению к определяемому слову, уже обсуждались в (Санников 1963], но это рассмотрение не обладает необходимой для анализа естественных текстов полнотой.
В рамках ПСЛ эти ПФ можно рассматривать с двух точек зрения.
1. Общий вопрос, определяющий порядок работы с текстом: на каком этапе анализа возможно и удобно с точки зрения общей стратегии ПСА строить эти связи?
2. Группа вопросов, относящихся к собственно процедуре построения связей, задающих эти ПФ: какие факторы в линейной структуре текста необходимо учитывать при построении ПФ этих групп? Что при построении определяющих их связей порождает потенциальную неоднозначность дешифровки? Какова наилучшая процедура анализа?
3. Построение проективных фрагментов ИГ и ПГ в общей архитектуре системы
Ответ на вопрос о том. на каком этапе лучше строить ПФ определительных ИГ и ПГ, связан с ролевыми особенностями ИГ и ПГ в структуре Б.
В тексте мы имеем дело с предикативными словами (или группами связанных слов, выступающими в этой роли) и словами (или. опять-таки, группами связанных между собою слов), выступающими в роли имен актантов этих предикативных слов. При этом в группы, выступающие в качестве имен актантов, могут в свою очередь входить предикативные слова со своими актантами и т.д. Линейная структура манифестирует многоуровневую рекурсивную структуру с предикативными словами и актантами разных уровней связи в графе (Рис.2), где имена актантов выражены чаще всего ветками графа, представленными ПФ именных и предложных групп (ПГ рассматриваются как функциональный синтаксический аналог ИГ):
Т. Ю. Кобэарева Рис.2
ГТг=т1
Проплыла замороженная о голубом стакане
ярко-зеленая хвойная ветка-..
(Мандельштам, далее М)
Пример 1: (см. Рис.2) проективный фрагмент имени субъекта сказуемого Проплыла задается синтагматической связью ветка И замороженная, а в него вложен ПФ имени обстоятельства места, заданный связью в И стакане.
Пример 2:
.раздутая трюизмами и арифметическими выкладками брдтовня о гармонической личности лезла отовсюду, как сорная трава. (М)
ПФ субъекта предикативной вершины лезла с границами, определенными связью болтовня И раздутая, где предикативная вершина согласованного определения раздутая распространена двумя сочиненными слугами-ИГ.
Пример 3:
Постигаемые умом, не данные зрению линии (Флоренский, далее Ф)
Самая «длинная» связь линии И постигаемые задает ПФ с двумя соподчиненными предикативными вершинами, каждая со своим слугою-ИГ.
Пример.4:
В освещенной лампой комнате. по пояс обнаженный, онстоял. первые портреты в газетах, растущих в богатой осадками, плачущей и кровоточащей стране, выходили расплывчатыми. (Набоков, далее И).
В простом предложении с вершиной стоял внутри ПГ- ее слуги - появляется предикативная вершина освещенной, а в причастном обороте с вершиной растущих внутри ПГ- ее слуги - три соподчиненные предикативные вершины, у одной из которых - богатой есть ИГ-слуга осадками.
Структура «матрешек» ПФ в примерах 1 -4 иллюстрируют возможность рекурсивных вложений, где А-слуги вершин опоясывающих ИГ\ПГ имеют собственных слуг, представленных вложениями проективных фрагментов ИГ\ПГ следующего уровня связей. При этом количество уровней вложений теоретически не ограничено ничем, кроме возможностей оперативной памяти.
При построении ПСА будем исходить из того, что в подавляющем большинстве случаев связи и РЯЫ задают границы ПФ определительных ИГ\ПГ, а слова внутри этих фрагментов могут быть только непосредственными или опосредованными слугами слов-границ, т.е. узлами веток, исходящих из одной из границ. Например, построив ПФ ИГ в предложении Это была могучая по силе интеллектуального характера семья (М)4 (Рис.3), мы при дальнейшем анализе связей внутри сегмента можем сначала рассматривать три компоненты (это, была. и вершина ПФ. ограниченного связью семья И могучая), а затем хозяев ПГ=гто силе и ИГ= интеллектуального характера искать только внутри ПФ с вершиной семья.
Рис.3
/
/ \ %
к / I / \
ЭТО БЫЛА МОГУЧАЯ ПО СИЛЕ ИНТЕЛЛЕКТУАЛЬНОГО ХАРАКТЕРА СЕМЬЯ
Или. например, в предложении Он мог увлечь чванную, лишенную чувства юмора натуру паря (М) модуль предсегмен-тации строит:
Рис.4
ОН МОГ УВЛЕЧЬ ЧВАННУЮ . ЛИШЕННУЮ ЧУВСТВА ЮМОРА НАТУРУ ЦАРЯ
А в модуле внутрисегментного анализа (ВА) внутри ПФ натуру И лишенную достраиваются связи (Рис.5) лишенную И чувства И юмора (программная версия ВА, представленная в [Баталина и др. 2006])
Рис.5
ЛИШЕННУЮ ЧУВСТВА ЮМОРА НАТУРУ
Или, например, в ] иый гриднею тембра неопределенный звук, извлеченный из трубы неумелым музыкантом (М) такая последовательность действий облегчает, в частности. поиск хозяина (грудного) тембра в препозиции к хозяину звук (программная версия [Баталина и др. 2006]):
Для определения границ простых-главных, придаточных предложений и деепричастных и прочих обособленных оборотов, т.е. на этапе сегментации предложения, важно уметь определить функции знаков препинания (ЗП) и сочинительных союзов (СС) [Кобзарева 2004, Кобзарева 2005]. Как границы сегментов ЗП и СС разграничивают зоны влияния предикативных вершин сегментов и не являются границами, если сочиняют слова - не вершины сегментов [Кобзарева 2006]. Так как при этом они могут сочинять актанты предикативных слов - вершин, то для анализа сочинения удобно иметь уже построенные ПФ соответствующих ИГ и ПГ. Поэтому после снятия морфологических и морфосинтаксических неоднозначностей модуль предсегментации [Кобзарева 2007] строит связи, определяющие границы ПФ. вершины которых являются предикативными вершинами или именами актантов и которые можно рассматривать как единицы линейной структуры при сегментации: ПФ определительных ИГ и ПГ. конструкций с именами собственными. числами, сложных сказуемых. Ихудается строить,-используя только морфологические характеристики слов и минимальную грамматическую информацию о грамматическом управлении [Кобзарева и др.2001. Кобзарева 2007].
Эти связи, в частности, обсуждаемые здесь NRAh PRN. задают границы ПФ. выступающих как единицы текста при сегментации. Внутрь этих ПФ при сегментации нам не нужно заглядывать, что часто существенно упрощает линейную структуру.
«Связав» Л (построив синтагму NRA в искомых ситуациях), мы исключаем эти А и из числа А. претендующих при дальнейшем анализе на роль вершины сегмента - обособленного согласованного определения - и на роли сказуемого и подлежащего. Из зоны обозрения элиминируются знаки препинания и сочинительные союзы, предикативные слова, номинативы внутри ПФ. которые могли бы быть претендентами на роль подлежащих или сказуемых, существенно разрешается падежная омо-нимия существительных и омонимия управления предлогов.
На этом этапе не ставится задача построить связный подграф слов внутри ПФ: эта задача решается уже после сегментации в рамках модуля построения всех связей внутри сегмента. причем построенные к этому этапу ПФ используются при определении «зон влияния» хозяев синтагм.
Обособленное согласованное определение с вершиной Л (А-оборот) в препозиции к 1Ч-хозяину анализируется вместе с необособленными в отличие от обособленного согласованного определения в постпозиции. А-оборот в постпозиции строится, как другие сегменты, при сегментации, так как поиск его границ осложнен теми же проблемами, что и определение границ других сегментов: необходимостью учитывать сочинение и\или ситуации разрыва А-оборота вложением других сегментов [Кобзарева 2004]. Например, в отрывке из Набокова А-оборот разорван вложением придаточного:
...густые, очень темные брови, составлявшие, когда он хмурил ся или внимательно слушал, одну сплошную черную черту, но зато распахивающиеся как легкие крылья, когда редкая улыбка обнажала на миг...
Для ПФ ИГ в препозиции тоже необходимо, хотя это и встречается очень редко, учитывать возможность его разрыва вложением: Летящий рысью маленький, как мальчик, темный, как мулат, командир алы-сириец. равняясь с Пилатом, что-то тонко крикнул и выхватил из ножен меч. (Булгаков, далее Б).
Хотя, вообще говоря, фрагменты ИГ и ПГ могут быть и не-проективны. случаи непроективности, встречающиеся, например, в поэтических текстах, такие как на Рис.7 и 8. и чрезвычайно редкие в обычных прозаических текстах, в настоящей работе не рассматриваются.
Дай им цену, за которую любили. \ Чтоб за ту же и оплакивали цену (Бродский)
Необходимым условием построения связи ЫГ*А является согласование N и А [Мельчук 1993]. Известно, что помимо нюансов согласования в конструкциях с числительными (два болыиих\большие стола, большие\больших пять мальчиков) и др.. для Вин. необходимо учитывать одушевленность N - потенциального хозяина А (в частности, и для ситуаций с сочи-
Рис.7
Ужален небольшою \ Крылатой я змеею (Державин) или
Рис.8
4. Согласование N и А
нением. когда возможен случай отсутствия согласования по числу): Вин п. есть у двух форм А - формы, омонимичной Род. п. и омонимичной Им.п.. так как у Модуш м.р. ед. и Модуш мн. совпадают формы Вин. и Род. (вижу маленького малъчика\ маленьких девочек \ маленьких мальчика и девочку \ маленького и большого мальчиков), а у Мнеодуш м.р. в ед.ч. и Мнеодуш мн. совпадают Вин. и Им. (вижу большой стол\ большие стол и стул \болыиой и маленький столы \ маленькие чашки).
Это существенно, например, при анализе цепочек Ак N1: если N3 и N1- м.р.. то в цепочке Ы) Ак N1 в ситуации журналИм\вчи старый«м\вин лшльчикарод\вин не занимал или девочекрод\вчн маленькшроД\вии журналььм\вин не занимали для предупреждения построения ложных связей мальчикароа\в»и К старый-им\вик и журналыим\вин И маленькихр0а\в»ч: А согласовано с Модуш м.р. ед. и Модуш мн.ч. тогда и только тогда, если в пересечение. кроме Вин, входит Род.п.. а в пересечение падежей с Мнеодуш м.р. ед. и Мнеодуш мн. должен входить, кроме Вин. еще и Им. п.5
Ниже будут рассмотрены различные особенности линейной структуры, в силу которых согласование N и А является условием необходимым, но не достаточным для констатации связи N И А. В частности, для обычной структуры, когда потенциально распространенный Ак (один или цепочка соподчиненных) находится в препозиции к Мк - хозяину.
5. Рекурсивная структура ИГ и ПГ
Вершина ИГ (не «вырожденного» случая ИГ. когда у N нет А-слуг) может быть слугой предлога, при этом вся ИГ с вершиной- слугою предлога - оказывается внутри ПФ предложной группы. Внутри этой ИГ могут появиться ПФ как ПГ- слуг А. так и ИГ-слуг этого же А. Кроме того, появление любого слуги А провоцирует появление его слуг ИГ\ПГ. Появление каждой новой ИГ с А-слугою создает предпосылки появления новых вложений ИГ\ПГ - непосредственных или опосредованных слуг А. Так. у А может появиться слуга - инфинитив. Кроме того, появление каждого нового N1 внутри ПФ всегда означает возможность появления его слуг - NJ в слабоуправляемом Род.п. и, если N1 имеет валентности, в требуемых этими валентностями падежах.
Таким образом, при появлении А всегда вероятна матрешка.
(1) Близкое присутствие моря за окном томило его. словно это огром-
которое он угадывал... (Н)
(2) Он вносит посторонние. чуждые этому духовному началу, черты (Ф)
(3) Много прохожих поглядывало с завистью на высокого гончара, ко торый медленными шагами шел за своим товаром, заботливо окутывая глиняных своих щеголей ненавистным для них сеном (М)
Проблемы, инициируемые появлением «матрешки" - вложений ИГ и ПГ и ПГ в ИГ возникают, так как А - слуга ИГ в препозиции к N - может иметь слуг (любых, так как появление любого слуги может инициировать появление слуг следующего уровня вложений).
Анализ рекурсивных структур ИГ и ПГ представляет собою некоторый комплекс проблем, которые удобно решать одновременно.
В каждом очередном вложении ИГ (без Р- хозяина или же слуги Р) с А - слугою потенциально содержится отпредикатив-ная ветка графа, в линейной структуре которой могут появляться все новые и новые вложения ИГ и ПГ. В (4) Лежащий на ложе в грозовом полумраке прокуратор сам наливал себе вино в чашу...[Б] - два параллельных - на одном уровне вложения. а в предложении Набокова Измяв и отбросив последнюю газету, все высосав, все узнав, сжигаемый неотвязным зудом. желанием принять мне одноми понятные меры, я сел за стол и начал писать способность А= сжигаемый управлять Тв.п. порождает вложение между ним и его хозяином М=я двух сочиненных ИГ. одно из которых - желание- может управлять инфинитивом, а появившийся инфинитив в свою очередь инициирует появление между ним и вершиной ПФ. ограниченного отношением я И сжигаемый двух вложенных ИГ-слуг этого инфинитива: мне одному и понятные меры. На этапе предсегментации будет построена матрешка ПФ:
Рис.9 ^ —
СЖИГАЕМЫЙ НЕОТВЯЗНЫМ ЗУДОМ
6. Рекурсивная процедура анализа матрешек ИГ и ПГ
Если N является слугою предлога (Р). то возникает возможность вложений ИГ и ПГ между Р и N. его слугою.
/ \ 7 т-
ЖЕЛАНИЕМ ПРИНЯТЬ МНЕ ОДНОМУ ПОНЯТНЫЕ МЕРЫ
Как обсуждалось в [Кобзарева 1004]. сегментная структура русского предложения в письменном тексте, не являющемся записью устной речи или ее имитацией, проективна и рекурсивна. Как показано в [Кобзарева 2004. Кобзарева 2007]. в ситуациях. когда мы анализируем «матрешку», где однотипные линейные структуры вложены друг в друга и отправной точкой построения каждой структуры является ее минимальная левая составляющая, анализ удобно вести справа налево, так как при этом мы начинаем анализ каждой матрешки с самого глубокого вложения.
При анализе ИГ и ПГ ситуация почти аналогична.Опорными элементами построения ИГ служат А. а исходными словами при построении ПГ - предлоги.
Необособленные согласованные А чаще всего находятся слева отЫ-хозяина. справа необособленными могут быть только нераспространенные А. Предлог обычно стоит слева от его слуги Ы6 (в постпозиции к существительному-слуге может появиться только предлог ради (Бога ради)). В си/1у сказанного, анализ ИГ и ПГ естественно начинать с поиска левой (по порядку следования в Э) составляющей - А (А: полное прилагательное, причастие, местоименное прилагательное, порядковое числительное) и Р (предлог).
Структура ИГ и ПГ рекурсивна, и в принципе количество и глубина вложений заранее не определены. Оптимальной является процедура анализа, когда мы. двигаясь справа налево по тексту, анализируем последовательно справа налево все А и Р. находя для каждого очередного А и Р соответственно хозяина или слугу. При таком порядке анализа мы. если вложений несколько, анализируем каждую матрешку, начиная с самого глубокого вложения, и постепенно укрупняем строимый проективный фрагмент.
При итерации поиска для каждого очередного справа налево А или р соответственно хозяина или слуги используется один и тот же набор линейных конфигураций, разложенных для минимизации проверок на группы признаков ситуаций.
11а Рис. 10 - условная схема фрагмента работы с предложением Олицетворение пассивной и обреченной на всяческую пассивность мысли, подглядывающей мир. неподвижной, неспособной охватить движение (Ф) при построении ИГ и ПГ в ситуации, когда хозяин А находится справа .
Рис.10
Шаги анализа при поиске хозяина справа: 1. поиск хозяина А=всяческую2. поиск слуги Р -на; 3. поиск хозяина А=обреченной (на всяческую пассивность из рассмотрения уже исключается); 4. поиск хозяина А=пассивной (обреченной на всяческую пассив-ноешь из рассмотрения при этом исключено). Каждый цикл анализа - итерация поиска для контекстной ситуации соответствующей базисной ситуации по соответствующим правилам.
В результате или строится соответствующая синтагма с учетом возможной неоднозначности, вытекающей или из морфологический неоднозначности, или из потенциальной неоднозначности линейной конфигурации, или констатируется, что у Л есть или отсутствует Ы-хозяин справа, и при любом из этих результатов начинается поиск хозяина слева (если хозяин справа есть, возможна ситуация синтаксической омонимии).
Проективность фрагментов позволяет, как только ПФ построен. при анализе очередного следующего справа налево А или Р исключить очередной построенный ПФ из рассмотрения, для ПГ - вместе с его границами, а для ИГ - все слова ПФ, кроме Ы-хозяина, тем самым уменьшив, и иногда существенно, зону анализа на очередном этапе.
7. Основные типы структур линейной конфигурации ПФ
Позиция в линейной структуре по отношению к потенциальному хозяину.
1. А необособленное в препозиции. Самая длинная связь с самым левым А потенциальной матрешки ограничивает фрагмент с несколькими соподчиненными и сочиненными между собою А - слугами одного и того же N1 Считалось, что это нелепая, истерическая, суеверная, сверхподозрительная, и чем-то привлекательная мать внушила сыну боязнь ада. которая терзала его всю жизнь (Н)
г
/ 4
I I ( ; Ч
НЕПЕПАЯ . ИСТЕРИЧЕСКАЯ . СУЕВЕРНАЯ . СВЕРХПОЛОЗРИТЕПЬЛАЯ . И ЧЕМ ТО ПРИВЛЕКАТЕЛЬНАЯ МАТЬ 8НУЯИПА
При этом при каждой итерации процедуры анализа, т.е. при анализе каждого очередного А строится очередной Г1Ф, ограничивающий зону с собственными актантами, выраженными вложенными ПФ (Рис. 12).
Воздух, уксус и солнце уминались с зелеными тряпками в горящий солъю, трельяжами, серыми листьями, жаворонками и стрекозами, гремящий
Рис.12
I ; ; * I ч
в гориий сот.». трелижами. серыми листьями. жаворонками и стрекозами греняций терелг-амм бврбизомоий полдень
2. А в обособленном обороте в препозиции (Рис. 13.14). Неизбалованный такими желаниями, я отвечал умиленным согласием, и было решено, что он зайдет ко мне в гостиницу (Н)
Рис.13 ^— у""X
/
\
\
НЕИЗБАЛОВАННЫЙ ТАКИМИ ЖЕЛАНИЯМИ . Я ОТВЕЧАЛ УМИЛЕННЫМ СОГЛАСИЕМ
Маленький, коротконогий, в стариковской шубе до пят, о тяжелой шапке, он пыхтел, пока его не освобождали от жарких бобро в, и тогда садился на диван, протянув ножки, как ребенок (М)
Рис.14 ___
■ лч / \ ■ '' / к
/ л 1 . 1 / >—- _ 1 1
3. Постпозиция без обособления: А стоит справа от N (Рис. 15.16).
Способ крайне узкий, крайне ущемленный, стесненный множеством добавочных условий, которыми определяется его возможность и границы применения (Ф)
Рис.15
Способ крайне узкий. крайне ущемленный, стесненный множеством добавочных условий
Он не слышал и. совершенно потерявшись, совершенно еще не сознавая происшедшего, а только стремясь отойти от чего-то стыдного, гнусного, нестерпимого, подвинулся к столику, где продавались билеты, вдруг повернул вспять и. очутившись у гардероба, протянул свой жетон (М)
Рис.16 I ;
I-те-4- -£-^ >
стремясь отойти от чего-то стыдного , гнусного , нестерпимого ,
Процедура организована так. что могут быть построены ИГ и ПГ любых грамматически допустимых комбинаций исходных линейных конфигураций.
8. Некоторые проблемы поиска ^хозяина для А-согласованного определения в препозиции
Необходимое условие: справа от А есть N - потенциальный хозяин этого А.
Рассмотрим некоторые особенности анализа определительных конструкций с необособленным А в препозиции, когда справа от А найден N - потенциальный хозяин этого А: А... N.
Один из распространенных вариантов такой ситуации (в силу регулярной омонимии Род. и Вин.): А и N - потенциальный хозяин - согласуются одновременно по Род. и Вин: рисующего сына. Между А и его потенциальным хозяином могут находиться N - слуги этого А. но. так как управление несильное, т.е. заполнение объектной валентности рисующего необязательно. то N может быть проинтерпретировано и как хозяин (вар. 1: сына Г* рисующего). и как слуга А (вар. 2: рисующего К сына).
Если правее есть еще одно N подходящее на роль хозяина (в данном случае - в Вин.\Род), для Вар. 1 возникает интерпретация (Рис. 17)
*-11 ^
...рисующегосына брата...
Вар.2 позволяет построить два разных графа (Рис. 18): Рис.18
I I-* . I
...рисующего сына брата......рисующего сына брата...
Если слева от А есть запятая. а левее этой запятой стоит еще одно N. согласующееся с А. то соответственно 1гужно зарезервировать возможность построения трех вариантов (Рис. 19)
Рис.19
,.................сом................
Вар. 1 ...художника, рисующего сына брата...
Г.................у I у :...........у
Вар. 2.1. ...художника, рисующего сына брата...
.сам.
во ▼ 1-* 1 ;
Вар.З ...художника, рисующего сына брата...
При этом для Вар. 1 и 3 анализ на данном этапе закончен, а для Вар. 2 нужно предусмотреть возможность появления линейной конфигурации, порождающей две интерпретации связей (Рис.20):
Рис.20 ......................-..........;т
Вар. 2.2. ....художника, рисующего сына брата друга..
;СОЧГ..................................................................
ф | —^ •..........у | |
Вар. 2.3. .. .художника, рисующего сына брата друга...
Вар. 2.2. предполагает очередной цикл поиска правее еще одного потенциального слугиХхозяина А. Анализ будет закончен. как только окажется, что очередного такого N правее нет.
Мы видим, что при поиске хозяина справа от А неоднозначности может порождать (1) необязательность заполнения валентности А в совокупности с (2) возможностью совпадения падежей, по которым А и N согласуются, с падежами N. которыми А может управлять.
Неоднозначности такого типа могут возникать не только для РодХВин.. но во всех случаях, когда падеж потенциального слуги А совпадает с падежом, общим у А и его потенциального хозяина. Во всех подобных случаях при анализе необходимо расширение контекста: ...любующимся сыном...: (...наблюдал за)отцом, любующимся сыном...\ (...наблюдал за)отцом, любующимся сыном брапюм...
Эту и еще одну важную проблему анализа ИГ иллюстрирует предложение Перед ним был дуб. почти засохший этим летом, усыпанный изъеденными гусениццми молодыми побегами хуетсирени. старая, завалившаяся кое-где и поломанная зимними ветрами изгородь, поросшая мхом (Л. Н.Толстой). В ПФ усыпанный изъеденными гусеницами молодьши побегами куст (Рис.21) есть вложенная «матрешка» изъеденными гусеницами молодььмц побегами. В ней гусеницами подходит и на роль слуги, и на роль хозяина причастия изъеденными, и только наличие второго претендента на роль хозяина - побегами - позволяет нам утверждать, что первый претендент на самом деле не хозяин, а слуга7.
Рис. 21
I г N 1' \
УСЫПАННЫЙ ИЗЪЕДЕННЫМИ ГУСЕНИЦАМИ МОЛОДЫМИ ПОБЕГАМИ КУСТ
Это предложение интересно еще и классическим случаем неоднозначности при интерпретации интерпозиции обособленного оборота почти засохший этим летом, причем стоящего не непосредственно перед потенциальным хозяином справа, а перед довольно длинным ПФ ИГ. Это распространенное определение можно интерпретировать и как обособленное
определение к дуб засохший) и как необособленное или обособленное (запятая после летом может быть проинтерпретирована и как правая граница обособленного определительного оборота, и как оператор сочинения засохший и усыпанный) распространенное определение в препозиции к куст (И засохший). В последнем случае запятая после дуб сочиняет дуб и куст и. если считать, что определение почти засохший этим летом обособлено, является еще и левой его границей.
Управление А практически всегда несильное, но возможность появления у А слуг нужно учитывать всегда, так как ни для какого А нельзя утверждать, что у него не может появиться слабоуправляемый слуга.
9. Ограничение зоны поиска N - хозяина А и N - слуги Р
8.1. Так как на этом этапе мы ставим задачу построить связи. определяющие границы проективной матрешки, границы поиска хозяина А-те части речи и знаки препинания, которые не могут находиться внутри такого ПФ. так как их появление там потенциально ведет к нарушению проективности.
К таким «нарушителям» проективности относятся любые вершины сегментов - сказуемые: глаголы в личной форме, краткие А. деепричастия. А - вершины обособленных оборотов. подчинительные союзы, свободные8 N (полнозначные и местоимения) в неомонимичном Им.п. и т.д.
8.2. Если при таких границах поиска мы не находим N. согласующегося с А. нужно учесть ситуацию возможного вложения в ПФ сегмента - в настоящее время алгоритм учитыват возможность вложения обособленных оборотов с как (Летящий рысью маленький, как мальчик, темный, как мулат, командир алы-сириец. равняясь с Пилатом, что-то тонко крикнул и выхватил из ножен меч (Б.)) и хотя (Но какое оскорбление - раввина (М))
8.3. Не является границей поиска хозяина запятая непосредственно перед Г4- хозяином необособленного А. В-первых, из-за возможного обособления в препозиции перед местоименным существительным (Рис.22):
Измяв и отбросив последнюю газету, все высосав, все узнав, сжигаемый неотвязным зидом. желанием принять мне одноми понятные меры, я сел за стол и начал писать (II)
Рис.22
______■ , \ —. .
' \ .
/ I' , I г
СЖИГАЕМЫЙ НЕОТВЯЗНЫМ ЗУДОМ . ЖЕЛАНИЕМ ПРИНЯТЬ МНЕ ОДНОМУ ПОНЯТНЫЕ МЕРЫ . Я
Или же перед полнозначным существительным (Рис.23):
Грязная, на серой древесной бимаге. всегда похожая на корректуру. газетка... (М)
Но возможны и другие причины появления запятой непосредственно слева от Ы-вершины ИГ. например, у П.Флоренского:
Он вноснт посторонние. чуждые этому диховноми начеши, черты.
Запятая непосредственно перед N может быть проинтерпретирована и как результат обособления уточняющего А= посторонние оборота.
Рассмотрены линейные особенности проективных фрагментов ИГ и ПГ и механизмы их построения, работающие как фильтры проективности в процессе анализа, и некоторые свойства их линейной структуры, которые необходимо учитывать, чтобы строить ПФ ИГ и ПГ любых линейно-комбинаторных конфигураций.
Показано, что потенциально рекурсивные структуры ПФ ИГ и ПГ удобно строить, обрабатывая А и Р в предложении справа налево, начиная с конца предложения. При этом анализ каждой матрешки проективных фрагментов начинается с самого глубокого вложения.
Рассмотренная модель использует сравнительно небольшой исходный набор возможных линейных конфигураций. Исключая при каждой очередной итерации процедуры анализа уже построенные ПФ. она дает возможность рассматривать самые разные их линейные комбинации, возникающие в тексте.
Такой способ организации анализа потенциально рекурсивных структур удобен в русском предложении при анализе синтаксических структур всех уровней (ср. [Кобзарева 2004])
Работа подготовлена при частичной поддержке гранта РФФИ №03-
. ВСЕГДА ПОХОЖАЯ НА КОРРЕКТУРУ . ГАЗЕТКА
10. Заключение
Примечания
06-80434.
2 Система ориентирована на анализ любых неэллиптичных русских предложений, не являющихся записью или имитацией устной речи.
3 В процессе отладки программных реализаций алгоритмов возник небольшой, но представительный корпус примеров из прозы Мандельштама. Набокова. Булгакова и др.. подтверждающих необходимость рассмотрения излагаемых проблем для возможности работы с естественным текстом.
4 Приводятся в графическом виде примеры результатов анализа: с круглыми стрелками (кроме двух примеров со ссылкой на (Батали-на и др. 2006]) - из частичной программной реализации системы (Ножов 2003). с квадратными ломаными стрелками связей - из дипломной работы студента ф-та Прикладной математики МАИ Пашковского П.В.
5 Можно считать, чтоу А есть Вин.одуш.. совпадающий с Им., и Вин. неодуш.. совпадающий с Род., но при любом представлении для Вин.п. нужна проверка одушевленности у потенциального хозяина.
6 Он может иметь слугу, общего с сочиненным с ним предлогом (до и после работы), или - при эллипсисе - не иметь слуги справа [Вам с сиропом или без?].
7 В ответ на вероятное возражение, что спасти в таких ситуациях может семантика, хочется отметить, что нельзя утверждать, что невозможен контекст, где гусеницы м.б. изъеденными.
8 Здесь важно, чтобы N в Им.п. . которые не могут претендовать на роль подлежащего или сказуемого, были к этому моменту анализа уже обработаны, что в системе обеспечивают алгоритмы построения конструкций с именами собственными, числами и т.д.
Литература
Апресян 1989 - Лингвистическое обеспечение системы Этап-2 / Апресян Ю.Д.. Богуславский И.М.. Иомдин Д.Л.. Лазурский A.B.. ПерцовН.В.. Санников В.З..Цинман Л.Л. М.: Наука. 1989. Баталина A.M. и др. Опыт экспериментальной реализации алгоритмов поверхностно-синтаксического анализа / Баталина A.M.. Епифанов М.Е.. КобзареваТ.Ю.. Кушнарсва Е.В.. Лахути Д.Г.// Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции «Диалог 2006« (Бекасово. 31 мая - 4 июня 2006 г.) М.: Наука. 2006. С. 51 -56. Иорданская H.H. Автоматический синтаксический анализ. 1961.Т.2. Межсегментный синтаксический анализ. Новосибирск: Наука. 1967.
Кобзарева Т.Ю.. Лахути Д.Г.. Ножов ИМ Модель сегментации русского предложения // Труды Международной конференции «Диалог'2001 Аксаково. 2001. т.2. С. 185-194.
Кобзарева Т.Ю. Некоторые аспекты анализа сочинения при сегментации русского предложения // КИИ'2002. Труды восьмой национальной конференции по искусственному интеллекту с международным участием. М.: Физматлит. 2002. Т. 1. С. 192-198.
Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал М.. 2004. Т.8 М. С. 31-80.
Кобзарева Т.Ю. Омонимия и синонимия знаков препинания в русском тексте / /Труды Международной конференции «Диалог'2005». М.: Наука. 2006. С. 233-237.
Кобзарева Т.Ю. Рекурсивность и проективность сочинительных связей в русском тексте // Компьютерная лингвистика и интеллектуальные технологии Труды Международной конференции «Диалог 2006» (Бекасово. 31 мая -4 июня 2006 г.). М.: Наука. 2006. С. 223-229.
Кобзарева Т.Ю. Иерархия задач поверхностно-синтаксического анализа русского предложения // НТИ. Сер.2. 2007. N? 1. С 23-35.
Кулагина О.С. Исследования по машинному переводу. М.: Наука. 1979.
Мельчук И.А. Автоматический синтаксический анализ. 1964. Том 1. Общие принципы. Внутрисегментный синтаксический анализ. Новосибирск. 1964.
МельчукИ.А. Согласование, управление, конгруэнтность // ВЯ. 1993. N»5. С. 17-57.
Ножов И.М. Процессор синтаксической сегментации русского предложения.// НТИ. Сер. 2.2003. N» 11. С. 26-37.
ПадучеваЕ.В. О порядке слов в предложениях с сочинением: сочинительная проективность// НТИ. Сер. 2. 1971. №3. С. 14-18.
Санников В.З. Место распространенного определения по отношению к определяемому слову в русской фразе // ВЯ. 1963. №1. С. 124-130.
/ /
V
>