Научная статья на тему 'Дешифровка линейной структуры русского предложения. (программа спецкурса для студентов-лингвистов)'

Дешифровка линейной структуры русского предложения. (программа спецкурса для студентов-лингвистов) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY-NC-ND
328
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКИЙ АНАЛИЗ ИМЕННЫХ И ПРЕДЛОЖНЫХ ГРУПП / AUTOMATIC PARSE / РУССКИЙ СИНТАКСИС / RUSSIAN SYNTAX / СЕГМЕНТАЦИЯ РУССКОГО ПРЕДЛОЖЕНИЯ / SEGMENTATION OF THE RUSSIAN SENTENCE / ОМОНИМИЯ ЧАСТЕЙ РЕЧИ / HOMONYMY OF PARTS OF SPEECH / АВТОМАТИЧЕСКИЙ СИНТАКСИЧЕСКИЙ АНАЛИЗ / THE AUTOMATIC ANALYSIS OF NOUN AND PREPOSITIONAL PHRASES

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Кобзарева Татьяна Юрьевна

Представлена программа курса для студентов-лингвистов, рассматривающего проблемы автоматического поверхностно-синтаксического анализа русского предложения. Изучаются возможности новой организации анализа: особая грамматика, определяющая порядок и рекурсивную структуру процедур анализа, позволяет сегментировать предложение перед моделированием внутренней структуры сегментов и их связей.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Decoding linear structure of the Russian sentence (the Curriculum for Students in Linguistics)

The program of the course for students-linguists considering problems of automatic surface-syntactic analysis of the Russian sentence is presented. Possible new ways of analysis organization are studied: the special grammar defining the order and recursive structure of procedures of the parse, enables to segment the sentence before modelling of internal structure of segments and connections between them.

Текст научной работы на тему «Дешифровка линейной структуры русского предложения. (программа спецкурса для студентов-лингвистов)»

Проблемы лингвистического образования

Т. Ю. Кобзарева

Дешифровка линейной структуры русского предложения

(Программа спецкурса для студентов-лингвистов)

Представлена программа курса для студентов-лингвистов, рассматривающего проблемы автоматического поверхностно-синтаксического анализа русского предложения. Изучаются возможности новой организации анализа: особая грамматика, определяющая порядок и рекурсивную структуру процедур анализа, позволяет сегментировать предложение перед моделированием внутренней структуры сегментов и их связей.

Ключевые слова: автоматический синтаксический анализ, русский синтаксис, сегментация русского предложения, омонимия частей речи, автоматический анализ именных и предложных групп

Предисловие

Курс «Дешифровка линейной структуры русского предложения» входит в цикл специальных дисциплин образовательной программы специальности № 021800 - «Теоретическая и прикладная лингвистика» и читается студентам 3-его года дневной формы обучения (II семестр) Института лингвистики.

В состав программы входят

1. Содержание курса,

2. Тематический план,

3. Список литературы.

Курс посвящен проблемам автоматического поверхностно-синтаксического анализа (ПСА) русского предложения. Интенсивная разработка общих и частных проблем ПСА, продолжающаяся уже более полувека, до сих пор не привела к созданию устойчивой и общепринятой системы синтаксического анализа. В то же время в современной культуре с ее быстро растущим количеством текстовой информации и столь же быстро совершенствующимися компьютерными технологиями задачи автоматической обработки текста становятся все более актуальными.

© Кобзарева Т. Ю., 2010

В силу этого представляется важной подготовка квалифицированных специалистов, понимающих лингвистическую специфику подобный: задач и готовыгх к поиску новыгх путей их решения.

Изложение проблем и их решений опирается на опыт построения системы автоматического поверхностно-синтаксического анализа русского предложения MARS1, разрабатываемой автором курса с 2000 года в РГГУ, и на результаты успешные экспериментальный: программные реализаций этой системы, полученные в последние годы дипломниками и аспирантами Отделения Интеллектуальные Систем Института Лингвистики РГГУ.

Весь материал курса, состоящий из 8-ми тем, делится на четыре раздела (см. Тематический план):

1. Введение в проблематику и обоснование архитектуры системы MARS.

2. Проблемы морфологического и морфо-синтаксического анализа.

3. Моделирование сегментной структуры:

3.1 .предсегментация - построение сложный: сказуемый:, проективные фрагментов атрибутивные именные групп, предложные групп и т.д.;

3.2. сегментация - построение сегментов (простые и придаточных предложений, деепричастные, причастных и других оборотов, эксплицитно заданные правилами русской пунктуации).

4. Моделирование внутренней структуры сегментов.

В курсе уделяется особое внимание обоснованию и лингвистическому базису новой организации анализа - иерархии процедурно независимых модулей, в которой сегментация предложения предшествует моделированию синтаксической структуры предикативные ситуаций. Центральная роль отводится грамматике линейной организации предложения, позволившей впервые реализовать универсальные процедуры сегментации предложения с любой сегментной структурой, возможной в русском тексте, не являющемся записью или имитацией устной речи, и проблемам, решение которые определяет возможность сегментации.

При построении лингвистического базиса системы на всех этапах «преобразования линейного порядка в структурный» (Л. Теньер) центр тяжести перенесен с проблем словарного описания, разрабатышаемые глубоко и успешно многими исследователями и научными коллективами и ориентированные

на описание простого предложения или его трансформов в составе сложного, на до сих пор системно не изученные вопросы использования информации, которую несет порядок слов и знаков препинания. Сегментация сложных предложений на основе информации линейного порядка слов и знаков препинания, предваряющая моделирование предикативной структуры отдельных сегментов, помогает оптимизировать использование лексической информации2.

В курсе демонстрируется, как использование свойств линейной организации русского предложения делает возможным моделирование поверхностно-синтаксической структуры предложения практически без обращения к глубинно-синтаксической и лексико-семантической словарной информации, что так важно для решения прикладных задач анализа.

Пристальное внимание уделяется специфической проблеме анализа, отличающей его от синтеза, а именно - омонимиям разных уровней.

Новизна курса состоит в том, что в нем рассматривается новый подход к решению проблем автоматического поверхностно-синтаксического анализа русского предложения, разрабатываемый автором курса в РГГУ и доказавший свою продуктивность при экспериментальных реализациях. Этот подход создает предпосылки решения актуальных проблем, стоящих перед специалистами данного профиля.

Предмет курса составляют свойства линейной организации русского предложения, определяемая ими иерархия независимых модулей поверхностно-синтаксического анализа и лингвистические и алгоритмические решения проблем каждого модуля.

Цель курса «Дешифровка линейной структуры русского предложения» - способствовать подготовке квалифицированных специалистов, в равной мере владеющих теоретическими знаниями и практическими навыками, необходимыми в области автоматического анализа русского предложения.

Задачи курса.:

• дать студентам совокупность теоретико-методологических представлений о свойствах линейной структуры русского предложения, служащих основой решения прикладных задач ПСА;

• познакомить студентов с важнейшими понятиями и моделями, используемыми автором курса при разработке автоматического ПСА;

• дать лингвистическое обоснование введенной автором курса иерархии дешифровочных задач ПСА;

• познакомить студентов с универсальным рекурсивным принципом анализа рекурсивных проективных структур, в частности - сегментной структуры русского предложения любой сложности;

• познакомить со сложностями и неоднозначностями дешиф-ровочной работы с естественным текстом на всех уровнях анализа;

• сформировать практические навыки, необходимые для работы в области автоматического анализа и понимание возможных путей решения общих и частных его задач;

• обучить студентов понимать и тестировать алгоритмы, построенные на базе лингвистического обеспечения системы, разрабатываемой в настоящее время автором курса.

Место курса в образовательной программе определяется задачей подготовки студентов по специальности «Теоретическая и прикладная лингвистика». После изучения теоретических основ морфологии и общего синтаксиса курс «Дешифровка линейной структуры русского предложения» позволяет учащимся углубить и расширить полученные теоретические знания, применяя их на практике к материалу русского языка.

Методические особенности курса обусловлены тем, что студенты должны научиться соотносить лингвистическую теорию и практические знания языка с требованиями, которые накладывает на создаваемую для подобных задач грамматику этап программной реализации - верифицикации создаваемых моделей. Этому способствует решение задач, развивающих умение типизировать и структурировать наблюдаемые языковые явления.

Студент, прослушавший курс, должен:

• иметь представление о предмете и задачах автоматического морфологического и поверхностно-синтаксического анализа естественного текста;

• знать свойства линейной структуры русского предложения, существенные для оптимизации анализа;

• владеть понятийным аппаратом изучаемого подхода;

• знать, какие уровни анализа и соответствующие им модули вводятся для оптимизации процесса анализа;

• знать проблемы и пути их решения для каждого модуля системы;

• понимать существо используемых для анализа свойств проективности и рекурсивности подчинительных и сочинительных связей, имплицирующих проективность и рекурсивность линейной структуры именных и предложных групп и сегментов;

• знать функциональные особенности запятой и сочинительных союзов;

• уметь строить условные схемы анализа проективных рекурсивных структур для конкретных примеров;

• уметь, используя грамматику соответствующих уровней анализа, объяснять результаты анализа на каждом этапе, и в частности - неоднозначности каждого уровня анализа;

• уметь прочитывать и применять к конкретным примерам алгоритмы изучаемой системы;

• знать содержание основных работ, посвященных проблемам данной тематики.

Объем курса - 28 часов лекций и практических занятий. Содержание курса предусматривает лекционное изложение, совмещенное с семинарскими занятиями, и самостоятельную работу студентов.

В ходе занятий студенты решают задачи и выполняют упражнения, способствующие усвоению излагаемого материала.

Уровенъ усвоения предмета проверяется на этапах промежуточного и итогового контроля: студенты выполняют тесты, позволяющие оценить владение изученными моделями и практические навыки работы с текстом.

Содержание курса

Тема 1. Введение в проблематику История постановки задачи синтаксического анализа.

Знаковая природа текста. Понимание текста (текст и его смысл). Два понимания термина дешифровка. Двуязычные записи одного и того же текста (билингвы) как шифры.

Дешифровка как установление соответствия между знаками и их значением.

Идея подобия перевода дешифровке: американский крип-толог Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, в письме Норберту Винеру (март 1947 г,) о машинном переводе: «Передо мною текст, написан-

ный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи каких-то странных символов. Все, что мне нужно сделать - это взломать код, чтобы извлечь информацию, которую содержит текст».

Переход от текста к смыслу (анализ) и от смысла к тексту (синтез). Базис автоматического «понимания» текста - лингвистическое описание знаковой структуры текста - как определение «шифра».

Проблемы анализа и синтеза предложения. Главное отличие анализа от синтеза: неоднозначности интерпретации на каждом уровне анализа как один из основных факторов, осложняющих анализ.

Машинный перевод (МП) как автоматический (при помощи компьютера) перевод текстов с использованием специальных алгоритмов и автоматических машинных словарей.

Рис. 1. Принципиальная схема процедуры машинного перевода.

Идея использования ЭВМ для перевода (А. Бут и У. Уивер), 1946 г. - дискуссии о принципиальной возможности МП; 1948 г. - предварительные эксперименты А. Бута и Р. Риченса. Разбиение словоформ на основы и окончания; 1952 г. - первая конференция по МП в Массачусетском технологическом университете, организованная Бар-Хиллелом: способы представления синтаксических правил языка и морфологических структур, описание семантики и структуры словарей для автоматического перевода; 1954 г. - Джорджтаунский эксперимент: (фирма IBM совместно с Джорджтаунским университетом) перевод с русского языка на английский 49 заранее отобранных предложений

на основе словаря из 250 слов и 6 синтаксических правил. Два этапа; исходное предложение — язык-посредник (упрощенный английский) — представление на английском языке.

Анализ и синтез предложения как компоненты задачи автоматической обработки текста, в частности - задачи машинного перевода.

Лингвистическое обеспечение: словари, грамматика, математические формализмы записи данных и алгоритмы их переработки.

Деление процедуры анализа на этапы морфологического и синтаксического анализа.

Разные поколения экспериментов по МП:

1. МП в три этапа: морфанализ — преобразование — морф-синтез.

2. МП с синтаксическим анализом: морфанализ- синтаксический анализ — преобразование — синтаксический синтез — морфсинтез.

3. Те же этапы, что в п.2., но независимые анализ и синтез.

4. Отделение грамматики от «механизма», т.е. лингвистического описания от процедур - статической компоненты от динамической.

Идеи Л. Теньера и А.М. Пешковского как теоретическая основа синтаксического анализа русского предложения: представление синтаксической структуры простого предложения в виде графа связей слов: «В основании всего структурного синтаксиса лежит соотношение между структурным порядком и порядком линейным»; понятия валентности, проективности, нулевого знака в словоизменении и в синтаксисе и др.

Возможности и области приложения. Актуальность общей задачи анализа и ее частных подзадач в свете совершенствования виртуальных форм хранения информации.

Разные цели автоматического анализа и разные конечные задачи.

Система синтаксического анализа русского предложения И.А. Мельчука и Л.Н. Иорданской.

Словарь. Понятие отношения непосредственной домина-ции. Понятие синтагмы.

Постулируемые задачи: 1 .Расчленение предложения на части - простые предложения и их трансформы, представляющие отдельные экстралингвистические ситуации. 2. Различение синтаксической омонимии. 3. Выявление фразеологизмов. 4. Получение информации к частям сложного предложения и

всему сложному предложению. 5. Установление связей между словоформами внутри частей сложного предложения и между этими частями.

Основа анализа - единый модуль решения 5-ой задачи.

Синтаксический базис: список отношений непосредственной доминации и словарь синтаксических конфигураций. Понятие исходного и окончательного сегментов. Построение дерева связей слов предложения на основе словаря синтаксических конфигураций.

Два этапа: внутрисегментный анализ в границах исходных сегментов и межсегментный анализ в пределах всего предложения.

Применение идеи фильтров проективности Д. Лесерфа.

Сущностная общность сравнительно-исторических реконструкций, задач дешифровки и лингвистического моделирования при машинном переводе.

Сравнительно-историческое языкознание. Идея реконструкции праязыка как корня родственных языков и строгость сравнительно-исторических «правил вывода». Праязык как язык-посредник.

Необходимость для дешифровки существования перевода на известном языке, выступающем в роли языка-посредника, дающего возможность определить означаемые неизвестных знаков: дешифровка египетской письменности. Параллельные тексты, найденные Наполеоном: древнеегипетский - новоегипетский - греческий.

Язык смысла или язык глубинного синтаксиса в модели И.А. Мельчука «Смысл О Текст» как язык-посредник.

Грамматика линейной организации предложения.

Объект исследования при анализе предложения - строго упорядоченная последовательность знаков (слов, пробелов, знаков препинания).

Предложение как сложный знак. Единицы линейной структуры при его интерпретации: графемы, словоформы и морфологически автономные группы слов и\или знаков препинания, простые предложения и части сложного предложения - трансформации простых предложений, объединенные в единое целое. Структура простого предложения по Л. Теньеру: «Глагольный узел, который является центром предложения в большинстве европейских языков <...>, выражает своего рода маленькую драму. Действительно, как в какой-нибудь драме, в нем обязательно имеется действие, а чащ е всего также

действующие лица и обстоятельства. Если перейти от плана драматической реальности к плану структурного синтаксиса, то действие, актеры и обстоятельства становятся соответственно глаголом, актантами и сирконстан-тами»

По Л. Теньеру «конструировать или устанавливать стем-му фразы - это значит преобразовывать линейный порядок в структурный».

Грамматика линейной организации предложения, задающая грамматические смыслы определенным линейным конфигурациям.

Объединение множества «маленьких драм» Л. Теньера в одно многосегментное предложение. Трансформация простых исходных пред ложений в придаточные, деепричастные и причастные обороты и т.д.

Информация о линейных компонентах предложения дня его интерпретации - поиска означаемых,

Тема 2. Архитектура системы поверхностно-синтаксического анализа

Морфологический анализ Синтаксический анализ Рис 2. Обязательные компоненты анализа.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Иерархия дешифровочных задач при синтаксическом анализе.

Деление процедуры анализа на модули - группы алгоритмов, объединяемые синтаксической общностью анализируемых явлений. Важность идентификация отрезков предложения, соответствующих составляющим его исходным простым ситуациям для упрощения построения связей слов внутри этих отрезков и связей между ними.

Упрощение анализа и уменьшение вариантов интерпретации на каждом следующем уровне при введении естественного порядка дешифровочных процедур, определяемого, в частности, возможностью сегментации.

Деление процедуры анализа на уровни и решение проблем каждого уровня при помощи отдельного модуля. Л. Теньер: «Синтаксическая иерархия устроена так же, как и иерархия военная, в которой каждый военнослужащий выполняет строго определенные функции».

Модульность системы как базис решения разных конечных задач синтаксического анализа.

Рис. 3. Представление результата синтаксического анализа предложения в виде графа связей его слов.

Архитектура системы синтаксического анализа.

Иерархия задач и соответствующих модулей системы. Поиск путей упрощения хода анализа и предупреждения построения ложных вариантов. Естественный порядок работы независимых модулей дешифровочных процедур (Табл. 1).

Табл. 1. Иерархия и задачи модулей системы синтаксического анализа MARS.

Модуль Задачи модуля

1. Постморфологический анализ Решение несловарных проблем морфанализа

2.Разрешение омонимии частей речи Разрешение морфологической омонимии частей речи

3. Предсегментация Построение линейных отрезков -единиц текста при сегментации (проективных фрагментов именных и предложных групп, сложных сказуемых и т.д.)

4. Сегментация Построение эксплицитно заданных сегментов: придаточных предложений, деепричастных, определительных и других обособляемых оборотов

5. Внутрисегментный анализ Поиск связей слов внутри построенных сегментов

6. Межсегментный анализ Построение связей сегментов

7. Построение отношений кореференции Установление отношений референциального тождества именных групп в пределах предложения.

Возможность разных подходов к анализу русского предложения: 1) с центром тяжести на лексико-семантической или глубинно-синтаксической словарной информации и 2) алгоритмический путь на основе грамматики линейно-комбина-торныгх возможностей предложения. Достоинства и сложности каждого из этих подходов.

Теория и эксперимент. Верифицирование In vitro vs. In vivo.

Статическая и динамическая компоненты анализа.

Статическая компонента (грамматический инструментарий): словарная информация, словарь типов омонимии частей речи, списки синтагм, линейные синтаксические конфигурации, идеальные модели явлений вводимых уровней и др.

Базис каждого модуля системы синтаксического анализа: а) морфологическая и грамматическая словарная информация, получаемая в результате морфологического анализа;

б) информация о линейном порядке компонент предложения;

в) информация, полученная предшествующими модулями;

г) лингвистические модели явлений, определяющие грамматические значения линейной структуры контекста.

Динамическая компонента (алгоритмические процедуры) - процедуры, устанавливающие соответствие между компонентами текста - реальными словами или линейными структурами - и единицами словарей, списков слов или словосочетаний, идеальными моделями анализируемых объектов.

«Стандартные подпрограммы» (в терминологии И.А. Мельчука - операторы) - универсальные алгоритмы, используемые на всех уровнях анализа: проверки согласования (согласование существительного и его синтаксических эквивалентов( N*) и прилагательного и его синтаксических эквивалентов (A*) по роду, числу. падежу, согласование N* и A* по падежу, согласование двух А*, согласование двух N по падежу, согласование глаголов, глагола и полного А* в ИмЛТв и т.д.), проверка управления (может ли слово управлять данной частью речи в данной форме) и т.д.

Тема 3. Спектр проблем и этапы морфологического анализа (MA). Лингвистическое обеспечение морфанализа в системе MARS.

3-этапностъ MA в системе.

1-ый этап. Словарный морфанализ на основе словаря основ (VL), списка флексий русского языка и словаря таблиц флексий (VT).

Информация словарной статьи VL - стандартный набор характеристик статьи: буквенная запись основы (дом, красн); лексический номер основы (разные номера у совпадающих (омонимичных) основ: пол:1. ЛН=41831 - сущ. поле, 2. ЛН=70458 - сущ. пол, 3. ЛН=10486 - прил. полый); 4P - часть речи в принятой кодировке; поверхностно-синтаксическая модель управления - способность управлять определенными

падежами, предлогом (без указания конкретного предлога), инфинитивом и подчинительным союзом; семантический класс (семантические классы, релевантные для поверхностно-синтаксических связей). Отсылка на таблицу флексий.

Табл. 2. Примеры семантических классов и подклассов существительных

класс подкласс пример

1 - предмет неодушевленный 1 машины, аппараты двигатель

2 все остальные дом

2 - предмет одушевленный 1 - собственные имена лиц Лужков

2 - собственные имена не лиц Барбос

3 - нарицательные имена лиц инспектор

4 - нарицательные имена не лиц верблюд

3 - вещество, материал 1 - видовое вода

2 - родовое жидкость

Информация словарной статьи словаря флексий (УТ): номер словоизменительной таблицы, часть речи, число, время, род, падеж, лицо и т.д. Для окончаний существительных - падежи определенных родов и определенных чисел, для личной формы глагола - лицо, число, время, род и т.д.

Алгоритм словарного морфологического анализа. 1. Процедура морфологического членения: отсечение всех возможных у данной словоформы окончаний в соответствии со списком существующих в русском языке окончаний, проверка сочетаемости полученных гипотетических основ и окончаний по отсылкам при основах на таблицы флексий. 2. Построение исходного грамматического образа словоформы соединением информации словаря основ и информации найденных окончаний. Возможность морфологической омонимии и полисемии - построения для словоформы более одного грамматического образа.

Недостаточность словарного морфанализа для покрытия произвольного текста: частицы (-ка, -то), продуктивное суффиксальное и префиксальное словообразование (поскорее, помедленнее, немочка, чистосердечнейшей, розовейшее и др.), неологизмы, окказиональные аббревиатуры.

Этапы 2 и 3 - построение гипотез о морфологических свойствах слов, основ которых нет в УЬ.

2-ой этап. Алгоритм анализа причастий и деепричастий глаголов, основы которых отсутствуют в УЬ, по суффиксам и окончаниям.

3-ий этап. Морфанализ слов, не получивших морфологические характеристики на 1-ом и 2-ом этапах, по словарю «псев-

доокончаний» (УР) - словарю концов («хвостов») слов в объеме словника обратного «Грамматического словаря» А.А. Зализняка. Гнездовая структура словаря «хвостов». Необходимость включения в УЬ слов, являющихся исключениями из морфологических гипотез «хвостов».

Табл. 3 - примеры из прозы О.Мандельштама со словами, основ которых нет в словаре и результаты анализа этих слов по «хвосту» (в скобках - расшифровка результатов, записанных в кодах системы).

Табл. 3. Примеры анализа продуктивных словообразовательных моделей по псевдоокончанию («хвосту»).

О. Мандельштам Результат анализа

такую степень зачеловеческого бытия зачеловеческого - ЧР=6 (прилагательное); МР=2,4 (Род\Вин м.р.); СР=2 (Род. ср.р.);

непреодолимыми необычностями необычностями - ЧР= 1 (существительное); МН=5 (Тв мн.ч.);

в неясных видениях первосонья первосонья - ЧР=1 (существительное); МР=1,2,4 (Им\Род\Вин м.р.)

привычными обобщительными рукоплесканиями обобщительными - ЧР=6 (прилагательное); МН=5;

в позе роденовского мыслителя роденовского - ЧР=6(прилагательное); МР=2,4;СР=2;

близехонько от нее близехонько - ЧР=16 (наречие);

Недостаточность 3-хэтапного морфанализа для работы на открытом естественном тексте - проблемы, остающиеся нерешенными после 3-х рассмотренных этапов морфанализа: 1. слова, которые не могут быть проанализированы правильно ни по одному из трех рассмотренных этапов; 2. словоформы, которые 2а) в составе словосочетания теряют морфологическую автономность и\или меняют свой морфологический статус и 2б) получают несколько морфологически правильных характеристик.

Тема 4. Проблемы морфо-синтаксического анализа.

Виды омонимии.

Понятия морфологической и синтаксической омонимии. Омонимия в словаре и омонимия в тексте. Омонимия слов и омонимия структур. Омонимия внутрисегментных связей (подчинительных и сочинительных связей), омонимия сегментной структуры предложения, порождаемая морфологической омо-

нимией, омонимией знаков препинания и сочинительных союзов и неоднозначностями сочинительных и подчинительных связей. Необходимость определения на каждом уровне анализа набора значимых ситуаций, и, в частности, линейно-комбинаторных структур, манифестирующих возможность появления омонимии.

Омонимия частей речи как один из значимых источников шума на всех уровнях дешифровки.

Синтаксическая омонимия, порождаемая морфологической омонимией частей речи (Поговорим о плохом после. Зимним утром он любовался дорогой.)

Функциональная омонимия знаков препинания и сочинительных союзов, возможные неоднозначности сочинительных и подчинительных связей. Проблема определения на каждом уровне признаков контекстных ситуаций, манифестирующих возможность омонимии.

Предсинтаксический анализ.

Два класса морфологических проблем после работы модуля МА: 1. несловарные проблемы морфанализа (модуль постморфологического анализа) и 2. омонимия частей речи.

Модуль постморфологического анализа. Несловарные проблемы МА: слова, которые не могут получить правильные морфологические характеристики при рассмотренном МА.

Построение исходных грамматических характеристик аббревиатур, имен собственных, названий в кавычках, многосоставных числительных в буквенной и цифробуквенной записи, осложненное омонимией количественных vs. порядковых числительных,

Табл. 4. Примеры объектов анализа модуля постморфологии

Слова и словосочетания Примеры

Аббревиатуры МВД

Слова и словосочетания Имена собственные Важа Лордкипанидзе

Числительные 2 млрд. 57 тыс. 24

Названия в кавычках «Ты должен бежать от них»

Проблемы приписывания морфологических характеристик цифро-буквенным, буквенным общепринятым и окказиональным аббревиатурам, словам и словосочетаниям в кавычках, многосоставным числительным. (В «Войне и мире» автор...; В романе «Война и мир»».; В «Любить»режиссер.)

Сложности и особенности анализа каждой из этих групп, обусловленные возможностью омонимии (УчительницаЕвгения Иванова, сфотографировал 21 дом, 24 (дом) vs. 24 (дома)и др.).

Модуль разрешения морфологической омонимии частей речи. Важность разрешения омонимии частей речи. Неоднозначности интерпретации линейной структуры при сегментации и построении графа связей: морфологическая омонимия как фактор, порождающий неоднозначности интерпретации. Универсальный модуль предсинтаксического анализа (УМП) -«мост» от морфологического анализа к синтаксическому, содержательно необходимый при любом подходе и любых конечных задачах анализа естественного текста (ЕТ).

Рис. 4. Место УМП в системе автоматического анализа естественного

текста.

Проблема снятия морфологической неоднозначности. Источники частичной омонимии.

1. Потеря словами морфологической автономности и изменение морфологического статуса в следующих случаях:

1а. вхождение в устойчивые словосочетания. Подчинительный союз Ув. компонента сложного наречия (вряд ли, во что бы то ни стало и др.): [избегает объяснений, говоря что угодно..., делая что угодно..., думает при этом о чем угодно...]уз. [делает, что угодно начальству...]; подчинительный союз те. разорванное вложением предлога местоимение [ни с кем), возможность омонимии этих словосочетаний (Я не знаю, ни с кем он ушел, ни для чего взял с собой эти книги) и др.

16. Вхождение в состав вводного оборота-слова или словосочетания [значит, как правило, признаться, и др.).

Разрешение 1-ого типа омонимии: списки устойчивых словосочетаний (вводные, сложные наречия, фразеологизмы, сложные предлоги и др.) и контекстные условия в ситуациях возможной омонимии.

2. Неоднозначность как результат словарного морфанали-за - омонимия частей речи (частеречная омонимия) - совпадение отдельных форм слов разных частей речи как один из самых значимых источников синтаксической омонимии и шума

на всех уровнях дешифровки. Разрешение омонимии частей речи (частичной омонимии)

Разрешение омонимии частей речи 2-го типа.

Исчисление видов частичной омонимии. Необходимость создания базиса модуля. Словарь частеречных омонимов. Составление на его основе словаря типов омонимии частей речи, значимыгх с точки зрения их синтаксических функций, в объеме словника «Грамматического словаря» А.А. Зализняка3 с учетом словоизменительные моделей русского языка.

Используемые обозначения:

N*:= {N - существительное, Npr - местоименное существительное}; A*:= {A - полное прилагательное, Av - полное причастие, Apr - местоименное прилагательное}; Abr*:= {Abr - краткое прилагательное; Vf - глагол в личной форме; D - наречие;; Dv -деепричастие; P - предлог; Nps - существительное - подчинительный союз; Ch - частица; CC - сочинительный союз. Li упр L Ф 0: слово Li может управлять словом Lj (т.е. данной частью речи в данной форме); Li С?2 Lj Ф 0: слова Li и Lj согласуются по роду, числу и падежу; Li П Lj Ф 0: слова Li и Lj согласуются по падежу; Vfi пл Vfj Ф 0: глаголы в личной форме согласуются.

Табл.5. Фрагмент списка типов омонимии из словаря типов омонимии частей речи с указанием количества омонимов каждого типа с примерами в объеме словника «Грамматического словаря»A.A. Зализняка.

№ Тип омонимии Кол-во Примеры

1 <D/Abr*> 922 совершенно, адекватно, безумно...

2 <Vf/N*> 878 берег, вызову, души...

3 <N*/A*> 379 больной, дорогой, это...

4 <N*/Abr*> 263 гол, долги, знаком...

5 <N*/Dv> 167 пролив, буря, нагоняя...

6 <N*/D> 107 часами,, летом, бегом...

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Разрешение частичной омонимии по грамматическому контексту.

Алгоритмы разрешения омонимии определенного типа. Диагностические ситуации. Проблема порядка работы алгоритмов. Необходимость итераций всего комплекса алгоритмов. Несущественность порядка алгоритмов при введении итераций. Условие итерации - разрешение на очередном шаге работы комплекса хотя бы одного случая омонимии.

Табл. 6. Пример разрешения по контексту частеречной омонимии для предложения «После завтрака все больные, не готовые к резкой перемене погоды, ждали врача».

Результаты морфанализа После работы модуля снятия

омонимии

1. После 1. После

1. ЛН=82430;ЧР=1;РД=1;МР=6; 1. ЛН=243;ЧР=22; ПУ=2;

2. ЛН=243;ЧР=22; ПУ=2;

2. завтрака 2. завтрака

1. ЛН=81467;ЧР=1;РД=1;МР=2; 1. ЛН=81467;ЧР=1;РД=1;МР=2;

3. все 3. все

1. ЛН=10000;ЧР=8;СР=1,4; 1. Н=10000;ЧР=8;СР=1,4;

МН=1,4; МН=1,4;

2. ЛН=10000;ЧР=5;РД=4;СР=1,4;

МН=1;

4. больные 4. больные

1. ЛН=13722;ЧР=1;РД=8;МН=1; 1. ЛН=13722;ЧР=1;РД=8;МН=1;

2. ЛН=13722;ЧР=6;РД=8;МН=1,4;

5. , 5.

1. ЧР=37;ВР=0; 1. ЧР=37;

6. не 6. не

1. ЛН=56;ЧР=23; 1. ЛН=56;ЧР=23; Д1=,26;

7. готовые 7. готовые

1. ЛН=14028;ЧР=6;РД=8;МН=1,4; 1. ЛН=14028;ЧР=6;РД=8;МН=1,4

ПУ=1,8; ; ПУ=1,8;

8. к 8. к

1. ЛН=161;ЧР=22; СУ=3; 1. ЛН=161;ЧР=22; СУ=3;

9. резкой 9. резкой

1. ЛН=40598;ЧР= 1 ;РД=2; ЖР=5; 1. ЛН=12064;ЧР=6;РД=2;

ПУ=2,5; ЖР=2,3,5,6;

2. ЛН=12064;ЧР=6;РД=2;

ЖР=2,3,5,6;

10. перемене 10. перемене

1. ЛН=46275;ЧР=1;РД=2;ЖР=3,6; 1. ЛН=46275;ЧР=1;РД=2;ЖР=3,

ПУ=2; 6; ПУ=2;

11. погоды 11. погоды

1. ЛН=65235;ЧР=1;РД=2;МР=2; 1. ЛН=65235;ЧР=1;РД=2;МР=2;

ЖР=2; ЖР=2;

12. , 12. ,

1. ЧР=37; 1. ЧР=37;

13. ждали 13. ждали

1. ЛН=3115;ЧР=10;ЛЧН=8; В3=1; 1. ЛН=3115;ЧР=10;ЛЧН=8;В3=1;

ВР=1; АСУ=2,4; АСУ=2,4;

14. врача 14. врача

1. ЛН=42132; ЧР= 1; РД= 1; МР=2,4; 1. ЛН=42132;ЧР=1;РД=1;МР=2,4;

Пример обработки текста:

Внимаmельно[=Abr*/D] глядя^=Dv] на[=Р] дежурного[=А*/ №°], коmорый[=Nps], казалось[=УТ/УЗ] бы[=С^, тихо[=АЬг*^] сидел[=УТ и[=СС] чmо-mо[=Npr] правил[=№/УТ в[=Р] дежурно-

м[=А/№] журнале[=Щ, больная[=А?/№], прекрасно[=АЬг*^] понuмавшая[=Av] ситуацию[=^, совершенно[=Abr*/D] неосо-знанно[=АЬг*^] вздрогнула[=УЦ, когда[=Dps] ее[=А/№] позва-ли[=УГ] в[=Р] приемную[=А°/№] врача[=^.

Ситуация 1: ... вздрогнула, когда ее позвали......<У1>

ps> <А*/№; - (его/ее/их)> <У1>...

Проверка условий: В данной ситуации между <УТ> = вздрогнула и <УТ> = позвали 13 & 13 <А> (кроме омонима ее). Условие выполняется. Вывод: ее =

Ситуация 2: ... глядя на дежурного, который, казалось бы, тихо сидел...

...<Dv> <Р> <АЖ*> <Zpt> <Nps> <Zpt> <VS> <Zpt> <Abr*/D> <У£>...

Проверка условий: 1) на упр дежурного ф 0. 2) Справа от омонима дежурного до <УТ> = сидел 13 Вывод: дежурного =

Ситуация 3: ..в дежурном журнале, больная... неосознанно вздрогнула... <Р> <АЖ*> . ,<АЬг*/0><У£>...

Проверка условий: 1) Непоср. слева от омонима дежурном 3 <Р>. 2) Справа от омонима дежурном до <УТ> = вздрогнула 3 = журнале. 3) в журнале ф 0 4) журнале <С}2 дежурномф 0. Все условия выполняются. Вывод: дежурного = <А>

Тема 5. Синтаксический анализ.

Базисные понятия и идеальные модели.

Понятия синтаксически автономных единиц, отрезка, проективного фрагмента, сегмента. Два вида эксплицитно заданных компонент текста: морфологически автономные единицы - слова и словосочетания, заданные пробелами, и синтаксически автономные части предложения - сегменты - самодостаточные, соответствующие отдельным элементарным ситуациям и заданные эксплицитно правилами русской пунктуации компоненты предложения: простые и придаточные предложения, деепричастные обороты, согласованные обособленные определения с вершинами - причастием, прилагательным или их синтаксическими аналогами, вводные обороты, уточняющие, сравнительные, предложные обороты.

Табл. 7. Усложнение предложения. вставлением в него сегментов -трансформов простых предложений, задающих ситуации, входящих в многосегментное предложение.

Тип сегмента Пример

простые-главные Мальчик ел каши.

придаточные предложения Мальчик, отец которого ушел ел каши.

деепричастные обороты Мальчик, отец которого, вспомнив о намеченной встрече, ушел, ел кашу.

обособленные согласованные определения Мальчик, уставший от занятий, отец которого, вспомнив о намеченной встрече, ушел, ел кашу

Представление отношений слов и сегментов в виде графа.

Два типа отношений слов и сегментов.

1. Подчинительная связь: отношение, связывающее непосредственно две единицы и направленное от слова X (хозяина) к слову Y (слуге) набор нумерованного списка видов связи -список синтагм (форма записи: X Rk Y где X - хозяин, Y- слуга, и Rk - связь с номером к.

Мальчик ест кашу. ест Rk мальчик; ест Rn кашу.

Представление связей в виде графа:

ест.

I II 1

Мальчик кашу. или Мальчик ест кашу.

Рис.5.

2. Сочинительная связь. Понятие оператора. Операторы - знаки препинания и сочинительные союзы или их комбинации, выступающие в предложении в функциях границ сегментов, операторов сочинения или манифестирующие другие отношения компонент предложения.

Неоднозначности интерпретации функций операторов на примере запятой.

I ^ I О I I

1. Он видел отца, работающего в саду соседа, старика и Ваню. зпт1 зпт2

V | ^Гр^Г

2. Он видел отца, работающего в саду соседа, старика и Ваню. зпт1 зпт2

Рис. 6. Понятие бифинкииональности запятой.

Табл. 8. У Зпт2 в интерпретации 1 две разные функции - она бифункциональна.

Пример Запятая Функция запятой

Интерпретация 1 Зпт1 1. Левая г-ца обособленного А-оборота

Зпт2 1. Правая г-ца обособленного А-оборота 2. Оператор сочинения слов отца и старика

Интерпретация 2 Зпт1 1. Оператор сочинения слов отца и соседа

Зпт2 1. Оператор сочинения слов соседа и старика

Базисные свойства линейной структуры.

Понятие проективности структуры, введенное Л. Теньером. Граф связей слов с сохранением по горизонтали порядка следования слов, а по вертикали - с расположением слов соответственно иерархии подчинительных связей. Непересечение ветвей и опущенных из узлов дерева перпендикуляров как условие правильности структуры.

написана

Ужален

Книга

ученым

известным

я змеею,

небольшою крылатой

Рис. 7. Пример проективной Рис. 8. Пример непроективной структуры (из структуры. стихотворенияДержавина).

Понятие рекурсивности структуры.

Рекурсивность линейной структуры предложения. Вложение сегментов в сегменты - сегментная матрешка. Иерархия вложений.

уже опазды вая на работу о шц ел.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Мальчик " чшпал книгу

Рис. 9. Пример иерархии вложений.

Тема 6. Предсегментация. Понятие сегмента.

Сегмент - компонента линейной структуры, эксплицитно заданная при помощи операторов и соответствующая одной

из элементарных ситуаций, составляющих предложение. Компоненты сегмента - предикативная вершина и актанты и сир-константы, заданные именными и предложными группами (ИГ, ПГ) или целыми сегментами, замещающими ИГ и ПГ.

Предсегментация как построение значимых при сегментации единиц текста: предикативных вершин сегментов - сложных сказуемых, проективных фрагментов ИГ, ПГ, и др.

Построение проективных фрагментов ИГ и ПГ

Особенности линейной организации ИГ и ПГ, определяющие процедуры их моделирования.

Понятие проективного фрагмента ИГ и ПГ - не выделенной эксплицитно части предложения, рассматриваемой в ходе сегментации как единое целое: ...упрямые, рассудочные, в глухих местечках метившие в гении юноши...; ...он исполнял какой-то темный, лично ему свойственный инстинктивный акт (О. Мандельштам)

Проективный фрагмент (ПФ) - часть текста, являющаяся потенциально сколь угодно сложной рекурсивной структурой -«матрешкой» ИГ или ПГ.

Синтагматические связи, определяющие в линейной структуре границы ИГ и ПГ.

Построения внутрисегментных подчинительных связей, задающих границы ПФ, выступающих единицами при сегментации и границами анализа при внутрисегментном анализе.

Краткая характеристика алгоритмов модуля предсегмен-тации: построение сложного сказуемого, определительных отношений именных групп (ИГ), предложных групп (ПГ) и т.д.

Рекурсивность и проективность 1. определительных именных групп (ИГ), задаваемых связью существительного с необособленным согласованным определением - прилагательным или его синтаксическим аналогом ^ЯА), 2. предложных групп (ПГ: РК^, 3. конструкций с именами собственными и 3. конструкций с числительными.

Идеальная модель «матрешечной» ПФ ИГ и ПГ. Иерархия последовательных и параллельных вложений ИГ в ИГ и ПГ и ПГ в ИГ и ПГ.

Рис. 10. «Матрешка.» проективных фрагментов ИГ и ПГ.

Построение проективных фрагментов ИГ и ПГ как базисная модель построения проективных рекурсивных структур.

Набор элементарных вложений и проблемы, ими порождаемые . Элементарные вложения: 1) вложения ПГ в ИГ (в валяющейся под... столом корзине); 2) вложения ИГ - слуги А* (для занятого... экспериментом студента); 3) вложение инфинитива в ИГ (на начавшую решать ... студентку); 4) вложения ИГ - слуги N (рисующего сына друга художника) и др.

У1 }

1. рисующего сына художника

2. рисующего сына художника

1

3. рисующего сына художника Рис. 11. Истинная синтаксическая омонимия.

Построение внутрисегментных подчинительных связей, задающих границы проективных фрагментов - потенциальных матрешек.

Падежная омонимия и несильное управление согласованного определения А* как источники неоднозначностей при построении проективных фрагментов именных и предложных групп.

Рекурсивный алгоритм построения ИГ и ПГ, определяемый грамматическими возможностями их линейной организации.

Условная схема построения проективных фрагментов ИГ и ПГ - способ визуализации процедуры работы с линейной структурой текста.

Рис. 12. Условная схема процедуры рекурсивного анализа матрешки ИГ и ПГ.

Согласование А* и №. Стандартная подпрограмма проверки согласования N - существительного или его синтаксического аналога и А - прилагательного или его синтаксического аналога.

Факторы, осложняющие проверку согласования существительного с прилагательным4.

Одушевленность - неодушевленность существительного - вершины ИГ (мальчика (Вин.\Род) первого (Вин.\Род.) стол (Вин. \Им.); мальчика (Вин. \Род) первый (Вин. \Им.) стол (Вин.\Им.)).

Сочинение (рыжим мальчику и девочке; первой и второй девочкам).

Представление сочинения как результата сочинительного сокращения, суть которого -элиминирование повторов, как бы «вынесение за скобки» общих компонент (Он описывает стиль этих художников, и он описывает темперамент этих художников.^ Он описывает [стиль этих художников и темперамент этих художников]^ Он описывает [[стиль и темперамент] этих художников]).

Конструкции с числительными (два старые\старых стола; старые\старых два стола; старые\старых пять столов)

Возможность недревовидности графа при сочинении (Пришли старые папа и мама. Старые дедушка, дядя и отец; белый и черный столы; Папа и мама, которые не знали.)

Проективность как свойство, непосредственно связанное с линейной структурой предложения, сочинительная проективность. Операторы сочинения - границы «зон влияния» сочиненных слов (Он любил [картины [отца и брата] и его мастерскую].

Иерархия сочинительных связей (Он живет не в этом доме и в своей квартире никогда не появляется. Навестил мать старую и больную сестру.).

Истинные неоднозначности (Мальчик маленький стульчик отодвинул).

Тема 7. Сегментация предложения. Идеальная структура русского предложения. Рекурсив-ность и проективность сегментной структуры и рекурсивная процедура ее анализа.

Что такое сегментация предложения. Идеальная модель многосегментного предложения. Представление многосегментного предложения в виде многомерного «леса графов».

Сложности дешифровки, порождаемые фактом одномерности структуры предложения и многомерности языкового пространства предикативных ситуаций, проецируемых в процессе синтеза предложения на линейную структуру письменного текста.

Простое предложение (условное обозначение при моделировании - в-сегмент). Цепочка «сочиненных» простых(-глав-ных) предложений.

Уровни вложений.

Первый уровень вложений. Вложения в каждое из простых-главных предложений (в-сегментов), являющихся основой, «костяком» сложного предложения, следующих компонент: придаточных предложений, деепричастных оборотов, согласованных определительных оборотов с вершинами - прилагательными или существительными, сравнительных, уточняющих, предложных, вводных оборотов (условное обозначение сегментов, вложенных в простые-главные - а-сегменты).

Следующие уровни вложений - вложения а-сегментов в а-сегменты.

Разрывы при вложениях как главный источник проблем сегментации.

Понятие иерархии вложенных сегментов (Странно, что в те годы,, когда словесность в России пришла в упадок, русский режиссер, несмотря на все искажения, создал сценический вариант, который в какой-то мере передавал подлинного Гоголя (В.Набоков))

когда словесность который в какой-то

в России пришла в несмотря на мере передавал

что в те годы русский режиссер создал сценический вариант. Странно.

Рис. 13. Пример 3-уровневой иерархии вложений сегментов в сегменты - сегментной «матрешки».

Правила русской пунктуации: эксплицитная заданность границ сегментов в РП при помощи операторов. Бифункцио-нальность и омонимия запятой.

Граница сегмента - сочинительный союз. Ситуации сочинения придаточных с повтором подчинительного союза и без повтора (Беда в том, что ни искренность, ни честность, ни даже доброта сердечная не мешают демону пошлости завладеть пишущей машинкой автора,, если у него нет таланта и если читающая публика такова, какой считают ее издатели. И теперь, когда на освещенном столе была положена доска и (когда*) отец стал ее вытирать газетой, лицо у него было не насмешливое, и Лужин,. (В.Набоков))

упадок

все искажения

подлинного Гоголя

Операторы - границы отрезков.

Используемые обозначения: в-сегмент - простое-главное предложение, а-сегмент - любой сегмент, не являющийся в-сегментом, а-отрезок - безусловная левая компонента а-сег-мента, в-отрезок - отрезок предложения, не являющийся а-от-резком и а-сегментом, ограниченный операторами, не находящимися внутри ПФ, про который еще неизвестно, к какому сегменту этот в-отрезок относится.

в-отр в-отр

[Он взял новенькую, золотисто-кожаную записную книжку], [сел],

в-отр в-отр

[наклонил потный, со вздутыми жилами лоб], [сдвинул колени и не

а-отр

только написал адрес], [с мучительной тщательностью перечтя

а-отр в-отр

его], [поставив забытую точку], [но еще набросал план]. (Набоков)

Рис. 14. Пример разметки типов отрезков на первом этапе сегментации.

Свойство проективности сегментов, вытекающее из проективности подчинительных и сочинительных связей внутри сегментов.

Общий принцип анализа на основе проективности сегментов.

Рекурсивный алгоритм анализарекурсивной сегментной структуры предложения, определяемый свойством проективности сегментов и рекурсивности иерархической линейной структуры вложений сегментов в сегменты.

1-й этап - деление предложения на а-отрезки и в-отрезки. Определение всех левых границ а-сегментов - поиск а-отрез-ков - минимальных левых составляющих а-сегментов.

2-й этап сегментации - построение а-сегментов. Условная схема процедуры, визуализирующая работу с а- и в-отрезками при построении а-сегментов.

Пример результата 1-ого этапа - членения предложения на а- и в-отрезки: £]=[Она не понимала], а6=[о чем идет речь], вк=[но догадывалась, а5=[что за газетным обрывком стоит неведомый ей мир, а4=[который она мимоходом видела на старом щите], а3=[населенный улыбающимися широкоплечими мужчинами], ^=[детьми], а2=[глядящими в неведомую взрослым даль],^+1=[женщинажи], а1=[замершими у весенних роялей в тревожном ожидании счастья].

начало 8 конец 8

Р1 V-» аб J рк 1 ► а,5 А ¡Г"» а4 J -*

аЗ +р! и х2 +Р1+1 а1

^—

Л л

Рис. 15. Условная схема 2-ого этапа - процедуры формирования а-сегментов для данного примера.

Неоднозначности функций знаков препинания на примере запятой. Функции запятой: омонимия запятой - граница vs. оператор сочинения. Возможная бифункциональность запятой.

Сегментация как определение функций знаков препинания (на примере запятой). Омонимия сегментной структуры предложения, порождаемая омонимией и синонимией знаков препинания и сочинительных союзов и неоднозначностями сочинительные и подчинительных связей.

Грамматика этапов построения а-сегментов - оборотов и придаточных предложений и в-сегментов - простых-главных.

Построение а-сегментов.

1. Определение левы1х границ а-сегментов.

2. Рекурсивная процедура восстановления целостности а-сегментов. Поиск правы1х границ а-сегментов. Удлинение а--сегментов - вводных и обособленных определительных оборотов; построение деепричастны1х оборотов; построение придаточные предложений. Анализ сочинения предикатов-сказу-емыгх как важнейшая составляющая восстановления целостности а- и в-сегментов, разорванные вложениями а-сегментов. Виды сказуемые - «морфологические» сказуемые и «неморфологические предикаты» (НМП).

Идеальная структура цепочки сказуемые в а-сегменте -придаточном предложении. Поиск операторов - границ зон влияния предикатов придаточные предложений. Определение истинной функции найденные границ: дифференциация операторов сочинения сказуемые одного придаточного и операторов - границ придаточные.

Возможные наборы функций запятые в ситуации без разрыва вложением и в ситуации разрыва сегмента вложением.

Возможные комбинаторные ситуации и соответствующие правила удлинения а-сегментов.

1 -я группа: вводные и сравнительные обороты с сочинением без разрыва и их удлинение.

2-я группа - удлинение обособленных определительных оборотов (А*-об) и деепричастных оборотов (Dv-об) с разрывами, требующее анализа сочинения: 2.1. запреты присоединения ^-отрезков; 2.2.присоединение ^-отрезков по сочинению ниже уровня предикатов; 2.3.отсутствие сочинения и присоединение ^-отрезков по подчинению.

3-я группа: а-сегменты - придаточные предложения и их построение: 3.1. удлинение придаточных, разорванных вложением, по тривиальной неполноте.

в-отр^ [Но], в-отрп=[по^алуй], в-отрт=[самым мучительным для него было то], а-отр3=[что], а-отр2= [догадываясь], а-отр1=[какие идут о нем пересуды], в-отр.=[сам он их не слышал]. (В.Набоков)

Рис. 16. Условная схема построения структуры придаточного с разрывом, позволяющего элиминировать разрыв по тривиальной неполноте исходного а-отрезка.

3.2. Построение придаточных в ситуациях отсутствия потенциального сочинения сказуемых: присоединение в-отрезков по сочинению и подчинению по правилам удлинения оборотов. (Она так усмехнулась, как будто я плоско пошутил, как будто города, где нам рок назначал свидания, на которые сам не являлся, эти платформы, и лестницы, и чуть-чуть бутафорские переулки были декорациями (В.Набоков))

3.3. Структуры придаточных, разорванных вложением, требующие анализа сочинения сказуемых.

Идеальная модель структуры придаточного предложения при потенциальном сочинении сказуемых. Построение сочинительных связей сказуемых как важнейшая составляющая процедуры восстановления целостности а-сегментов, разорванных вложениями других а-сегментов

Идеальная ситуация сочинения предикатов в а-сегменте -придаточном предложении:

а-отр. = [...ПРЕД очередной* в а.)...] +(вк=[...])+(вк+1=[...])...+ (вп= [...ПРЕД|+1...])... ),

Этапы анализа сочинения предикатов.

1. Поиск границ зон влияния сказуемые для каждые двух ближайших ПРЕД и ПРЕД^+1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Определение функции каждой найденной границы: для каждые двух очередные слева направо сказуемые - идентификация 1) ситуации сочинения сказуемые внутри одного придаточного - с общим субъектом, 2) сочинения двух придаточные с сочинительным сокращением подчинительного союза 3) в-отр, не относящегося к строимому придаточному.

Поиск границ в-сегментов (простые-главные) с одновременным элиминированием их разрытов вложением а-сегментов.

1. Элиминирование а-сегментов.

2. Поиск предикативные вершин (морфологических и неморфологических предикатов).

3. Поиск границ зон влияния предикатов. Определение сочинительные функций границ: 1) сочинение предикатов с сочинительным сокращением субъекта; 2) сочинение простые-главные предложений.

Тема 8. Моделирование внутренней структуры сегментов.

Внутрисегментный анализ (ВА)- построение графов связей слов внутри уже построенные сегментов - в простые-главные и придаточные предложениях, деепричастные и других обособляемые оборотах - или внутри проективные фрагментов.

Список синтагм как базис поиска связей. Синтагма: отношение RN, связывающее в тексте два слова классов X)' и Yi: X)' RN Yi: где X) и Yi заданы перечнем частей речи с определенными морфологическими характеристиками и минимальными грамматически необходимыми семантическими ограничениями. Контекстные условия реализации списочной синтагмы, задаваемые алгоритмами.

Стратегия поиска контекстных ситуаций, определяющих архитектуру подчинительных связей внутри сегментов. Модуль внутрисегментного анализа (ВА).

Порядок работы алгоритмов ВА:

1. поиск сказуемого и подлежащего, если они еще не найдены в процессе сегментации. 2. заполнение словарно заданные валентностей (управление инфинитивом, Род., Дат., Вин., Твор. падежами); 3. поиск хозяина ПГ; 4. поиск хозяев определительные ИГ в Род.п. и наречий.

Границы рабочих зон, обеспечивающие проективность строимых связей: границы сегментов и границы проективных фрагментов подчинительных и сочинительных связей, построенных к моменту обработки очередного слова.

Иерархия приоритетов при построении внутрисегментной связи.

Стратегия построения связей в алгоритмах ВА: грамматически нормативные правила построения связи и случаи-исключения. Границы поиска - границы ПФ, если ПГ внутри ПФ, границы сегментов с исключением из рассмотрения линейных отрезков внутри ПФ.

Алгоритм заполнения словарно заданных валентностей с учетом возможных альтернатив. Синтаксические конфигурации, определяющие особые случаи «перехвата» потенциального слуги на основе словаря частных случаев (ЧС) с использованием семантических классов и\или списков лексем (например, различение Вин. прямого дополнения и Вин. обстоятельства: Он смотрит фильм уже целый час)

Стратегия анализа на примере алгоритма поиска хозяина ПГ. Три типа предлогов по способности быть слугою глагола, прилагательного и существительного.

Поиск хозяина при потенциальной неоднозначности подчинения. Нормативные случаи - хозяин ПГ - предикативная вершина в зоне поиска. Поиск ситуаций-исключений из правила - подпрограмма «Частные случаи» (ЧС) и таблица списков лексем - потенциальных хозяев определенных предлогов.

Базис подпрограммы ЧС - словарь линейных синтаксических конфигураций - ситуаций-исключений.

Порядок работы - 3 этапа анализа: 1. обращение к ЧС и, если ситуация ЧС не найдена, — 2. обращение к таблице списков хозяев - существительных, «перехватывающих» управление предиката ПГ и, если таковых не найдено, - 3. работа по общим правилам.

Уровень подробности задания контекстных ситуаций на каждой из трех ступеней анализа.

Тематический план

Номер и название раздела Номер и название темы Кол-во часов ауд. занятий

1. Введение в проблематику и обоснование архитектуры системы MARS 1. Введение в проблематику 2

2. Архитектура системы поверхностно-синтаксического анализа 2

2. Проблемы морфологического и морфо-синтаксического анализа 3. Спектр проблем и этапы морфологического анализа. Лингвистическое обеспечение морфанализа в системе MARS 4

4. Проблемы морфо-синтаксического анализа 4

3. Моделирование сегментной структуры 5. Синтаксический анализ 4

6. Предсегментация 4

7. Сегментация предложения 6

4. Моделирование внутренней структуры сегментов 8. Моделирование внутренней структуры сегментов 2

Итого: 28

Литература

Обязательная литература

Апресян Ю.Д. «Русский синтаксис в научном освещении» в контексте современной лингвистики. //Пешковский. А.М. Русский синтаксис в научном освещении. - М.: Языки русской культуры, 2001. С. III-XXXIII.

ИорданскаяЛ.Н. Автоматический синтаксический анализ.Т.П. Межсегментный синтаксический анализ - Новосибирск: Наука, Сибирское отд. АН СССР, 1967. С.7-75.

Иорданская Л.Н. Синтаксическая омонимия в русском языке (с точки зрения автоматического анализа и синтеза) / / НТИ. Сер. 2. № 5, 1967. С. 9-17.

Кобзарева Т.Ю. Морфанализ in vivo // Труды Международной конференции Диалог'2004. М.: Наука, 2004. С.286-291.

Кобзарева Т.Ю. Принципы сегментационного анализа русского предложения // Московский лингвистический журнал. М. 2004.Т.8 №1. С.31-80.

Кобзарева Т.Ю. Рекурсивность и проективность сочинительных связей в русском тексте / / Компьютерная лингвистика и интеллектуальные технологии. Труды Международной конференции Диалог 2006, М.: Наука, 2006. - С. 223-229.

Кобзарева Т.Ю. Иерархия задач поверхностно-синтаксического анализа русского предложения / / НТИ, Сер.2, №1, 2007, с 23 - 35.

Мелъчук И.А. Автоматический синтаксический анализ. Том 1. Общие принципы. Внутрисегментный синтаксический анализ -Новосибирск: Издательский отдел Сибирского отд. АН СССР, 1964. С. 7-31, 39-62.

Мелъчук И.А. Согласование, управление, конгруэнтность // ВЯ, №5, 1993. С. 16-57.

Падучева Е.В. О порядке слов в предложениях с сочинением: сочинительная проективность / / НТИ Сер. 2, 1971, N3. С. 14-20.

Е.В. Падучева. О семантике синтаксиса. - М. 1974. С. 161-185; 125-142

Пешковский. А.М. Русский синтаксис в научном освещении. - М.: Языки русской культуры, 2001. С. 53-61; 34-52.

Плунгян В.А. Общая морфология. Введение в проблематику. - М: УРСС, 2003. С. 12-36.

ТенъерЛ. Основы структурного синтаксиса. — М.: Прогресс, 1988. С. 22-35; 117-142; 250-256.

Дополнительная литература

Апресян Ю.Д., Богуславский И.М., ИомдинЛ.Л., Лазурский А.В., Перцов Н.В., Санников В.З., ЦинманЛ.Л. Лингвистическое обеспечение системы ЭТАП-3 - М.: Наука, 1989. С. 3-8, 13-24.

Валгина Н. С. Актуальные проблемы современной русской пунктуации. - М.: Высшая школа, 2004. С. 20-91.

Гладкий А.В. Синтаксические структуры естественного языка. М., 2007. 145 с.

Дашен Фр. Опыт теоретической интерпретации синтаксической омонимии // ВЯ №6,1964. С.3-16.

Долина И.Б. Гипотеза «глубины» и проблема «громоздкости» предложения / / Инвариантные синтаксические значения и структура предложения (Доклады по конференции по теоретическим проблемам синтаксиса) - М.: Наука, 1969. С. 86-95.

Иомдин Л.Л. Автоматическая обработка текста на ЕЯ: модель согласования. - M.: Наука, 1990. 168 с.

Кобзарева Т.Ю, Афанасъев Р.Н. Универсальный модуль пред-синтаксического анализа омонимии частей речи в русском языке на основе словаря диагностических ситуаций / / Труды международного семинара Диалог'2002 Протвино 2002. Т.2. - С.258-268.

Кобзарева Т.Ю. Некоторые аспекты анализа сочинения при сегментации русского предложения / / КИИ'2002. Труды восьмой национальной конференции по искусственному интеллекту с международным участием. М. Физматлит, 2002. Т.2. - С. 192-198

Кулагина О. С. Исследования по машинному переводу. - М.: Наука, 1979. С. 18-33, 118-131.

Кулагина О. С. Об одном подходе к установлению отношений между простыми предложениями в составе сложного при автоматическом анализе текстов. Математические вопросы кибернетики. 2001, №10, С. 15-34.

Лаптева. О.А. Речевые возможности текстовой омонимии. - М.: УРСС, 2003. 21-32, 41-62.

Мельчук И.А. Русский язык в модели «Смысл - Текст». - М.: Языки русской культуры 1995. 682 с.

Мельчук И.А. Поверхностный синтаксис русских числовых выражений. Wien: Wiener Slawischer Almanach 1985. С. 37-55, 103-117, 220-250.

Оре О. Графы и их применение. - М.: Мир, 1965. С. 15-40, 47-52.

Падучева, Е.В. О способах представления синтаксической структуры предложения // ВЯ 1964, N 2. С. 99-113.

Падучева Е.В. О порядке слов в предложениях с сочинением: сочинительная проективность / / НТИ Сер.2, №3, 1971. С. 14-20.

Пащенко Н.А. Об одном подходе к проблеме снятия омонимии при автоматической обработке текстов на естественных языках / / НТИ, № 4, 1967. С. 13-18.

Перцов Н.В., Старостин С.А. О синтаксическом процессоре, работающем на ограниченном объеме лингвистических средств / / Труды международной конференции Диалог' 1999, т.2. - Таруса: 1999. С. 224-230.

Санников В.З. Русские сочинительные конструкции (Семантика. Прагматика. Синтаксис.). Автореферат диссертации. М. 1987. 52 с..

Санников В.З. Русские сочинительные конструкции. М. 1989. 266 с.

Санников В.З. Место распространенного определения по отношению к определяемому слову в русской фразе // ВЯ, №1, 1963. С. 124-130.

Сиротинина. О.Б. Порядок слов в русском языке. - М:УРСС, 2001. С 34-41, 58-73.

ТестелецЯ.Г. Введение в общий синтаксис. - М. 2001. С. 156-216, 739-745.

Шапиро А.В. Основы русской пунктуации - М.: Изд. АН, 1955. С. 147-324.

ШварцкопфБ.С. Современная русская пунктуация. Система и ее функционирование. - М.: Наука,1988. С. 9-66, 120-126.

Примечания

Работа выполняется при частичной поддержке гранта РФФИ № 09-06-00275-а.

Как показывает опыт, при работе с текстом на основе информационно-лингвистической модели (см.: Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. - М: Академия,2006) сегментация предложения устраняет многие проблемы анализа еще до уровня

1

2

семантического анализа. См., в частности: ЕрмаковМ.В. Коррекция смысловых отношений как этап семантического анализа (на материале криминальных сводок) / / Труды международной конференции 2007 -М.: Изд.РГГУ, 2007. С.178-181.

Разработанный список синтаксически значимых видов частеречной омонимии полезен для любых систем синтаксического анализа. После его публикации в: Кобзарева Т.Ю. Афанасьев Р.Н. Универсальный модуль предсинтаксического анализа омонимии частей речи в русском языке на основе словаря диагностических ситуаций / / Труды международного семинара Диалог 2002 - Протвино, 2002, Т.2. С 258-268, он был использован также в работе: Зинькина Ю.В., Пяткин Н.В., Невзорова О. А. Разрешение функциональной омонимии в русском языке на основе контекстных правил / / Труды международной конференции Диалог 2005 - М.: Наука, 2005. С.198-202 и Невзорова О.А., ЗинькинаЮ.В., Пяткин Н.В. Метод контекстного разрешения функциональной омонимии: анализ применимости / / Труды международной конференции Диалог 2006 - М.: Наука, 2006 С.399-402 .

Заметим, что синтаксический корректор Microsoft Office Word 2003 для предложения Пришли старые папа и мама выдает сообщение «Нет существительных, согласующихся с прилагательным "старые"», а для Папа и мама, которые не знали... - «Перед "которые" в пределах 3-х слов нет согласованных с ним существительных. Исправьте окончание...»

3

4

i Надоели баннеры? Вы всегда можете отключить рекламу.