Научная статья на тему 'Моделирование содержания испанского технического текста'

Моделирование содержания испанского технического текста Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
176
35
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ ПОНИМАНИЕ ТЕКСТА / ПОДЪЯЗЫК / КОРПУСНАЯ ЛИНГВИСТИКА / ИСПАНСКИЙ ЯЗЫК / ЛЕКСИКОН / АВТОМАТИЧЕСКИЙ АНАЛИЗ ТЕКСТА / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / AUTOMATIC TEXT UNDERSTANDING / SUBLANGUAGE / CORPUS LINGUISTICS / SPANISH / VOCABULARY / AUTOMATIC TEXT ANALYSIS / NATURAL LANGUAGE PROCESSING

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Мыларщикова Татьяна Юрьевна

Предложена модель автоматического понимания испанской патентной формулы на устройства, которая создана с учетом специфики как подъязыка текстов патентов, так и структурных особенностей испанского языка. Исследование проводилось на корпусе испанских текстов патентов, объемом более 130 тыс. словоупотреблений

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The Content Modelling of a Technical Text in Spansich Language

This article proposes a model of automatic Spanish claim understanding, which is developed in consideration of the peculiarities of the patent domain and the Spanish grammar. The study was conducted on the Spanish patent corpus with the amount of more than 130 thousand tokens

Текст научной работы на тему «Моделирование содержания испанского технического текста»

Филологические науки

УДК 81'322

Мыларщикова Татьяна Юрьевна Tatiana Mylarschikova

МОДЕЛИРОВАНИЕ СОДЕРЖАНИЯ ИСПАНСКОГО ТЕХНИЧЕСКОГО ТЕКСТА

THE CONTENT MODELLING OF A TECHNICAL TEXT IN SPANSICH LANGUAGE

Предложена модель автоматического понимания испанской патентной формулы на устройства, которая создана с учетом специфики как подъязыка текстов патентов, так и структурных особенностей испанского языка. Исследование проводилось на корпусе испанских текстов патентов, объемом более 130 тыс. словоупотреблений

Ключевые слова: автоматическое понимание текста, подъязык, корпусная лингвистика, испанский язык, лексикон, автоматический анализ текста, автоматическая обработка текста

В настоящее время в связи с возрастанием объемов информации особое внимание уделяется разработке систем, которые позволяли бы оперативно «понимать» огромные массивы различных документов. В эпоху развития науки и техники на первый план выходит обработка патентной документации, так как патент содержит данные о последних изобретениях.

Необходимым условием построения моделей автоматического понимания текста (АПТ) является наличие простых и достаточно надежных процедур перехода от информации в виде предложений на входе ЭВМ к представлению в виде формальной структуры. Такое «локальное» понимание [4] является необходимой базой для большинства систем автоматической обработки текстов (АОТ).

Любая система АОТ направлена на определенный подъязык. Ограничение на подъязык позволяет обойти множество проблем при автоматическом анализе

This article proposes a model of automatic Spanish claim understanding, which is developed in consideration of the peculiarities of the patent domain and the Spanish grammar. The study was conducted on the Spanish patent corpus with the amount of more than 130 thousand tokens

Key words: Automatic text understanding, sublanguage, corpus linguistics, Spanish, vocabulary, automatic text analysis, natural language processing

текста, таких как омонимия, синонимия, огромные словари и т.д. Поэтому процесс моделирования АПТ требует, прежде всего, глубокого анализа подъязыка, результаты которого могут быть использованы при построении модели АПТ [8].

Целью нашего исследования является моделирование процесса автоматического понимания текстов патентов на испанском языке.

Для получения достоверной информации о структуре и явлениях подъязыка технических текстов исследование проводилось на корпусе текстов формул патентов на испанском языке (около 130 тыс. словоупотреблений).

Основываясь на методике, предложенной С.О. Шереметьевой в [7], проведен анализ предикатной лексики и аргументов предикатов. При анализе предложений естественного языка необходимо попытаться определить глубинную структуру, так как именно она определяет смысл всего пред-

ложения. Один из способов представить глубинную структуру — использование аппарата представления пропозиции в форме предикатно-аргументной конструкции.

Аргументами предикатов могут быть знаменательная и служебная лексика [3]. Слой служебной лексики необходим для связи слов в предложении, а также для ссылки на упомянутые в патенте объекты. Являясь закрытым классом, служебная лексика может быть легко исчислена. Знаменательная лексика представляет собой открытый класс слов. Наиболее важной группой знаменательной лексики при заполнении аргументов предикатов является именная группа (как простая, так и сложная ). Анализ ИГ включает построение моделей ИГ и их частотный анализ [2].

Второй важной группой лексики при анализе текста являются предикаты. В качестве предикатов могут выступать глаголы, причастия, деепричастия, прилагательные и существительные. Анализ предикативной лексики важен как для создания словников лексиконов АОТ, так и, что особенно важно, для выявления морфо-синтаксических особенностей подъязыка, поскольку именно валентности предиката определяют структуру текстов документов. В нашем исследовании при анализе предикатов мы описали особенности функционирования морфологических форм, разбили все предикаты на семантические классы, а также описали все возможные валентности предикатов корпуса [5].

Анализ подъязыка выявил основные особенности функционирования предикатной лексики, а также именных групп в корпусе текстов патентов.

1. Простые именные группы часто объединяются в сложные, которые насчитывают до 6 элементов в ее составе (например, «dispositivo electrónico de juego de bingo»). В результате составлены основные модели испанской ИГ. Самые частотные модели следующие: N; N+Prep+N; N+Adj; N+Part; N+Adj+Prep+N; Num+N; Adj+N; N+Prep+N+Adj; N+Prep+N+Part.

2. Формы предикатов достаточно ограничены. В основном это простые формы:

формы настоящего времени 3 лица единственного и множественного лица активного залога, эти же формы пассивного залога. Остальные формы глаголов (будущее время, прошедшее время и др.) встречаются очень редко.

3. Все предикаты разбиты на 11 семантических классов: (1) предикаты, выражающие меронимические отношения (самая частотная группа); (2) предикаты, описывающие свойства компонентов устройства; (3) предикаты, обозначающие местоположение в пространстве; (4) предикаты, обозначающие соединение; (5) предикаты, выражающие взаимодействие; (6) предикаты со значением сопоставления; (7) предикаты, обозначающие перемещение; (8) предикаты, обозначающие ограничение;

(9) предикаты со значением отделения;

(10) предикаты, выражающие целевые отношения, и (11) предикаты, описывающие структурные особенности.

Полученные результаты, а именно лексиконы, грамматические правила и статистические характеристики функционирования лингвистических единиц использованы при моделировании автоматического понимания технического текста.

Одной из главных составляющих процесса АПТ является база знаний. База знаний включает два компонента: 1) лексикон, ориентированный на нашу предметную область — тексты патентов на устройство; 2) правила анализа текста патентных формул, используемые для процесса автоматического понимания теста.

Модель понимания испанского технического текста основана на методике автоматического анализа формул патентов на устройство на английском языке, разработанной С.О. Шереметьевой [7]. Эта методика позволяет осуществить разбор текста и представить его содержание в форме предикатно-аргументных конструкций, учитывая особенности синтаксиса подъязыка.

На примере формулы патента на устройство на испанском языке мы разберем общую схему процесса автоматического понимания текста.

Пример: Un motor que comprende dos o más rotores que giran a través de un suministro de energía común, cada rotor teniendo una pluralidad de polos y estando asociado con un estator común teniendo una pluralidad de polos, en donde la disposición de polos de rotor y polos de estator es diferente para cada rotor, de manera que los rotores giran a diferentes velocidades cuando se aplica un suministro de energía común.

Автоматическое понимание текста содержит ряд узловых этапов:

I. Подготовительный этап включает первичное разбиение текста: в тексте выделяются блоки на основе пунктуации и технического оформления текста (красные строки, отступы и т.д.), соответствующие абзацам, синтаксическим оборотам, выделенным запятыми, и т.д. На этом же этапе на основе знаков табуляции структура пункта патентной формулы разбивается на логические составляющие, представляющие отрезки текста, репрезентирующие компоненты устройства (COMP), свойства этих компонентов (ATTRIB), отношения между этими компонентами (REL) (в размеченных скобках):

[Un motor que comprendeCOMP dos o más rotores que giran a través de un suministro de energía común],[ cada rotor teniendo una pluralidad de polos y estando asociado con un estator común teniendo una pluralidad de polos]ATTRIB,

[en donde la disposición de polos de rotor y polos de estator es diferente para cada rotor], [ de manera que los rotores giran a diferentes velocidades cuando se aplica un suministro de energía común]REL.

К подготовительному этапу относится также лексико-грамматический анализ текста: автоматическая морфологическая разметка текста, а также этап разрешения многозначности морфологических форм. Все словоупотребления анализируются по словарю и им присваиваются метки, передающие их грамматическое значение. В случае омонимии словоформ, приписывается более одной метки. Следующей стадией является разрешение морфологической неоднозначности по продукционным пра-

вилам [8]. Блок разрешения морфологической неоднозначности при задании правил дает возможность учитывать значение текущей метки/слова, а также левый и правый контекст (до 2 слов или меток).

Например: IF CT={~Pgw~Pgwg} (~Pgw обозначает активный предикат, семантический класс (СК) Мерониманические отношения, форма причастия настоящего времени; ~Pgwg

— то же, форма герундия; ~Nfg обозначает существительное, СК Процесс; ~N — существительное, СК физический объект; ~Adj

— прилагательное; ~DETs — грубая метка, объединяющая все метки артеклей: ~Det-dm — определенный артикль мужского рода ед. числа; ~Detf — неопределенный артикль женского рода ед. числа и т.д.)

THEN

IF (LT={~Nfg,~N,~Adj}) AND (RT={~DETs}) THEN

DELETE~Pgw ENDIF ENDIF

В результате каждому словоупотреблению приписывается одна метка, описывающая часть речи, семантический класс, морфологическую форму слова в каждом конкретном случае.

{cada}~Qu {rotor}~N {teniendo}~Pgw {una}~Detf {pluralidad}~N {de}~Prep {polos}~Np.

II. Этап выявления синтаксических структур.

На данном этапе происходит восходящий анализ синтаксических конструкций: в тексте последовательно выделяются синтаксические группы ( именные группы, предложные группы, наречные группы, инфинитивные обороты и т.д.). Грамматический компонент этапа включает продукционные правила, позволяющие распознавать синтаксические образцы, которые задаются как линейная последовательность морфологических меток и описываются в регулярной форме с использованием формального аппарата — * и + ("звезда" Кли-ни и "плюс" Клини).

Например:

IF T = ~Num{*}~Conj{*}~Adj{*}~Np{1} THEN

BRACKETS «BnpO(open)», «Bnp0(close» ENDIF

Результат работы этапа — разметка синтаксических групп:

[ { Det(Un) N(motor) }np Wh(que) Pgws(comprende) { Num(dos) Conj(o) Adjo(mas) Np(rotores) }np Wh(que) Pgtp(giran) { Prep(a) (traves) (de) {{ Det(un) N(suministro) }np Prep(de) { N(energia) Adjo(comun) }np }np }pp ].

III. Этап построения семантического представления:

1) поиск семантических зависимостей: в тексте выделяются фрагменты, каждый из которых содержит один предикат с его аргументами. Предикатом признается «свободная» лексическая единица, помеченная меткой, допустимой для предиката (например, ~Pgw, ~Pgwg, ~Pdl, ~Pgws (~Pdl

— пассивный предикат, причастие прошедшего времени, СК Местоположение; ~Pgws

— активный предикат в форме настоящего времени 3 лица ед.ч., СК Меронимические отношения.) и др.). Определение для каждого предиката относящихся к нему синтаксических конструкций и соотнесение их с соответствующим аргументом предиката происходит по правилам. В данном наборе правил в качестве условия указывается список элементов в терминах лексических и синтаксических выражений, которые могут представлять поверхностную реализацию аргумента, и их возможное расположение в тексте. Например, одно из правил для определения валентности.

Средство:

IF ((CPH=PP) AND (CPH={"por medio de "}) )AND ((LPH=MP) AND (ISSET First-Detected)) THEN

IF LLPH=MP THEN

MANN(CURR) =CPH

ENDIF ENDIF

Результатом этого этапа анализа является список предикатно-аргументных конструкций текста, представленных в виде

фреймов.

(1 P1 Pgws «comprende «

1 "Un motor" //<subject>

2 "dos o mas rotores" //<direct-obj>

и т.д., где в заголовке фрейма: P1 — уникальный номер предикатно-аргументной конструкции; Pgws — метка предиката, кодирующая его семантические и морфологические признаки (указывают, что рассматриваемые предикат реализован в тексте как активный предикат в форме настоящего времени 3 лица единственного числа (Pgws) и относится к семантическому классу «Меронимия»; "comprende « — название фрейма ( предикатное слово) ; цифра 1 обозначает принадлежность предиката к одной из групп:

a) компоненты изобретения ( предикат, используемый в заголовке пункта патентной фразы с названием устройства);

b) свойства (атрибуты) этих компонентов ( предикаты, описывающие компоненты устройства);

c) отношения между этими компонентами (все остальные предикаты, используемые в данном пункте патентной формулы).

Под строкой заголовка фрейма показан список его слотов, заполненных текстовыми выражениями, которые реализуют аргументы предикатов (в угловых скобках указана валентность, которую заполняет соответствующий аргумент);

2) преобразование аргументов предиката: для аргументов, представленных сложными синтаксическими конструкциями, производится разложение на более простые составляющие ( вычленяются инфинитивные и герундиальные обороты в отдельные предикатные конструкции, сочиненные именные группы раскладываются на простые). Из состава аргументов извлекаются предлоги, которые обусловлены моделью управления предиката [1], артикли и другие сегменты текста, нерелевантные для процедуры понимания.

Процедура поиска и разбиения предикатного аргумента осуществляется следующим образом:

— аргументы составленных предикатных конструкций просматриваются все по

порядку, внутри аргумента — слева направо:

а) ЕСЛИ внутри аргумента обнаружено «свободное» выражение, ТОГДА к аргументу применяются правила выявления предикатов;

б) ЕСЛИ выполняется одно из правил, ТОГДА формируется новая фреймовая структура с заголовком, соответствующим предикатному слову в сложном аргументе управляющего предиката, а в валентности управляющего предиката оставляется только ссылка на созданную предикатно-аргументную структуру.

Процедура для извлечения из синтаксической структуры аргументов элементов, нерелевантных для понимания, включает:

1) последовательный просмотр всех аргументов предикатных конструкций; ЕСЛИ текущий аргумент начинается с предлога, ТОГДА он убирается за пределы аргумента ( в квадратных скобках рядом с аргументом);

2) последовательный просмотр лексического состава аргумента; ЕСЛИ текущая лексическая единица помечена как Определитель (метка ~Det) или как Квантифи-

катор (метка ~Qu), ТОГДА он удаляется из текста.

Результатом прохождения всех этапов является представление содержания текста в виде фреймов. (3 P6 Pdes es diferente

1 "[[la disposicion]NP de [polos]NP de [ro-

torjNPy [polos]NP de [estator]NP ]NP,,//<subj>

2 "[cada rotor]NP] PP" //<purp> [para]

3 " [los rotores] // < direct-obj >

4 giranP7 "//<manner> [de manera que] (3 P7 Pgtp girando

1 "[los rotores]NP"//<subj>

2 "[diferentes velocidades]NP" //<transfer> [a] NP

3 "se aplicaP8" //<condition> [cuando] (3 P8 Pgis aplicandose

1 "[un suministro de energia comun] " //<direct-obj>

Разработанная модель автоматического понимания испанских текстов патентов может быть полезной для разного рода прикладных задач: автоматического перевода, автоматического извлечения информации, системы автоматического индексирования и др.

Литература

1. Апресян Ю.Д. Избранные труды. 2-е изд., испр. и доп. М.: Школа «Языки русской культуры»; «Восточная литература» РАН, 1995. Т. 1. Лексическая семантика. VIII. 472 с.

2. Мыларщикова Т.Ю., Бабина О.И. Извлечение именных групп из корпуса текстов на испанском языке / / Вестник ЮУрГУ. Сер. Лингвистика. Челябинск: ЮУрГУ, 2011. Вып. 13. № 22 (239). С.47-54.

3. Кобозева И.М. Лингвистическая семантика: учебник. М.: Эдиториал УРСС, 2000. 352 с.

4. Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лингв. фак. вузов. М.: Изд. центр «Академия», 2006. 307 с.

5. Мыларщикова Т.Ю. Статистический анализ морфологических парадигм испанского глагола // Материалы третьей научной конференции аспирантов и докторантов ЮУрГУ (г. Челябинск, 14-15 апреля 2011 г). Челябинск: ЮУрГУ, 2011. С. 104-108.

6. Филмор Ч. Дело о падеже // Зарубежная лингвистика. III / Общ. ред. В.Ю. Розенцвейга, В.А. Звегинцева, Б.Ю. Городецкого. М.: Изд. группа «Прогресс», 2002. С. 127-258.

7. Sheremetyeva S. On MT Learning Environment for Computational Linguistics Students // Теория и методика преподавания языков в вузе: тезисы докладов / Под ред. Е.Н. Ярославовой. Челябинск: ЮУрГУ, 2003. С. 32-38.

8. Лизункин В.М., Мязин В. П., Романова Н.П. Методология научного творчества. Чита: ЧитГТУ, 2001. 215 с.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Коротко об авторе_

Мыларщикова Т.Ю., аспирантка, Южно-Уральский государственный университет (ЮУрГУ) +7(906)8687848

Научные интересы: компьютерная лингвистика, автоматическая обработка текста, автоматическое извлечение знаний, формализация языка

_Briefly about the author

T. Mylarschikova, Postgraduate student, South Ural State University

Scientific interests: computational linguistics, natural language processing, automatic knowledge acquisition, language formalization

i Надоели баннеры? Вы всегда можете отключить рекламу.