Научная статья на тему 'Определение функционально-стилистической принадлежности текста как этап предпереводческого анализа в машинном переводе'

Определение функционально-стилистической принадлежности текста как этап предпереводческого анализа в машинном переводе Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
2363
146
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРЕДПЕРЕВОДЧЕСКИЙ АНАЛИЗ / ФУНКЦИОНАЛЬНЫЙ СТИЛЬ / АЛГОРИТМ / МАШИННЫЙ ПЕРЕВОД / ФОРМАЛИЗАЦИЯ / ЭТАП / BEFORE-TRANSLATION ANALYSIS / FUNCTIONAL STYLE / ALGORITHM / MACHINE TRANSLATION / FORMALIZATION / STAGE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Бабалова Галина Григорьевна, Гюнтнер Юлия Викторовна

Знание жанровых и стилистических особенностей текстов имеет огромное значение для создания качественного перевода. На понимание текста переводчиком во многом влияют формальные признаки, которые присущи текстам того или иного стиля. Это обстоятельство может способствовать оптимизации процессов машинного перевода. Представляется возможным пойти по пути формализации, создания алгоритма анализа текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Determination of functional style as a stage of before-translation analysis in machine translation

It is necessary to know the genre and stylistic peculiarities of the text in the process of translation in order to translate it properly. Of great importance are formal features peculiar to the texts of different styles. These should be taken into account in machine translation process. One should pay attention to formal methods, creating the algorithms of text analysis.

Текст научной работы на тему «Определение функционально-стилистической принадлежности текста как этап предпереводческого анализа в машинном переводе»

ФИЛОЛОГИЧЕСКИЕ НАУКИ

УДК 81 '3224 Г. Г. БАБАЛОВА

Ю. В. ГЮНТНЕР

Омский юридический институт

Северо-Казахстанский государственный университет им. М. Козыбаева, г. Петропавловск

ОПРЕДЕЛЕНИЕ

ФУНКЦИОНАЛЬНО-СТИЛИСТИЧЕСКОЙ ПРИНАДЛЕЖНОСТИ ТЕКСТА КАК ЭТАП ПРЕДПЕРЕВОДЧЕСКОГО АНАЛИЗА В МАШИННОМ ПЕРЕВОДЕ_________________________

Знание жанровых и стилистических особенностей текстов имеет огромное значение для создания качественного перевода. На понимание текста переводчиком во многом влияют формальные признаки, которые присущи текстам того или иного стиля. Это обстоятельство может способствовать оптимизации процессов машинного перевода. Представляется возможным пойти по пути формализации, создания алгоритма анализа текста.

Ключевые слова: предпереводческий анализ, функциональный стиль, алгоритм, машинный перевод, формализация, этап.

Проводя аналогию между работой человека-пе-реводчика и системой машинного перевода, можно предположить, что предпереводческий анализ текста также имеет определенное значение и для системы МП. Если в случае с человеком анализ при-

зван направить внимание переводчика на наиболее значимые моменты в коммуникативной и предметной ситуации исходного текста, его существенные характеристики, то для системы МП, очевидно, целью предварительного анализа будет определение

ОМСКИЙ НАУЧНЫЙ ВЕСТНИК №4 (111) 2012 ФИЛОЛОГИЧЕСКИЕ НАУКИ

ФИЛОЛОГИЧЕСКИЕ НАУКИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК №4 (111) 2012

некоторых параметров текста. Эти параметры выбираются в зависимости от используемой модели перевода, подготавливают текст к обработке (делают возможной работу алгоритмов МП), а также по возможности упрощают анализ текста.

Наиболее проработанной моделью предпере-водческого анализа, на наш взгляд, является модель немецкого переводоведа Кристианы Норд [1, с. 19 — 21]. Она представляет собой анкету, состоящую из двух групп вопросов.

Первая группа вопросов используется для анализа коммуникативной ситуации или экстралингви-стических факторов текста. Вопросы фокусируют внимание переводчика на специфических особенностях представленной в тексте речевой ситуации, которые полезны для правильного понимания не только значения, но и прагматических целей текста. Работая с этим вопросником, переводчик определяет сферу деятельности коммуникантов, конкретизирует ситуацию общения — личную, общественную, институциональную или неформальную, определяет прагматические цели коммуникантов, их позиции, свойства, отношения, а также строит гипотезы о речевой стратегии коммуникантов.

Вторая группа вопросов обращена к содержательным и структурным характеристикам исходного текста. Здесь переводчик определяет тему сообщения и содержание сообщения, а также контекст, то есть ту информацию, которая необходима для понимания, не выражается напрямую, но предполагается известной коммуникантам.

Выбор последовательности изложения темы (т. е. композиции), отбор лексики, грамматических и риторических возможностей определяются не только общей целенаправленностью исходного текста и его жанровой принадлежностью, но и соблюдением тех норм, которые существуют для соответствующей разновидности текстов в переводящем языке.

Композиция и языковое исполнение определенного содержания составляют жанрово-стилистические и стилистические особенности текста. Под жанрово-стилистическими и стилистическими особенностями мы понимаем закреплённые в определенном языковом коллективе нормы подачи и представления информации, особенности ее расположения и структурирования, и нормы языкового оформления информации в рамках различных функциональных и социальных контекстов. Знание жанровых и стилистических особенностей текстов составляет текстовые ожидания переводчика-реципиента, предопределяет понимание текстов. Отчасти эти сведения приобретаются переводчиком из курсов стилистики родного и изучаемого иностранного языков.

Однако более всего в этом отношении помогает практика работы с различными по жанру текстами, выявление черт сходства и различия переводимого материала и аналогичных по функции материалов на переводящем языке, обобщение такой работы в форме моделей-характеристик и параллельных текстов-образцов. Знание жанровых и стилистических особенностей текстов имеет огромное значение для создания качественного перевода. Необходимо также учесть, что на понимание текста переводчиком во многом влияют формальные признаки, которые присущи текстам того или иного стиля. Это обстоятельство может способствовать оптимизации процессов машинного перевода. Представляется возможным пойти по пути формализации, создания алгоритма анализа текста.

Определение функционального стиля текста. Представляется целесообразным вспомнить об опыте создания словарей, обрабатываемых с помощью лексических функций. Эти словари разработаны в рамках переводческой модели «Смысл <» Текст». Они содержат необходимые сведения о стилистическом контексте использования того или иного термина и успешно используются, например, в отечественной системе машинного перевода ЭТАП. Типовые лингвистические характеристики, позволяющие опознать тот или иной функциональный стиль, были найдены Брандес М. П. и Проворотовым В. И., которые разрабатывали методику обучения переводчиков на базе немецкого языка.

Поскольку работа системы МП предполагает формальную обработку текста, невозможно использовать все имеющиеся признаки того или иного стиля для сопоставления с характеристиками переводимого текста, т.к. они рассчитаны на переводчи-ка-человека. Поэтому из совокупности признаков, выделенных М. П. Брандес и В. И. Провоторовым, воспользуемся теми, которые можно описать с помощью статистических зависимостей, регулярных выражений, словарей и иных средств, составляющих суть технологии компьютерной обработки текста [2, с. 59 — 99].

Официально-деловой стиль составляет макросреду речевого общения в сфере сугубо официальных человеческих взаимоотношений, а именно, в сфере правовых отношений и управления людьми. Эта среда представляет собой информационную систему функционально-стилистических отношений, инвариантную основу которых составляет социальная (прагматическая) функция долженствования и формальная (стилистическая) функция официальности. Формальными признаками стиля являются:

— модальные глаголы;

— глаголы приказания и побуждения;

— глаголы в императиве;

— безличные конструкции;

— сослагательное наклонение (используется для выражения сомнения, предположения; неуверенности, осторожного предложения; смягчения значения долженствования; выражения формы вежливости и пожелания; как средство реализации аргументированности в дипломатическом общении, особенно в текстах памятных записок и меморандумов);

— функционально-окрашенная лексика (термины и терминологизированные словосочетания, устойчивые обороты и клише текстов);

— собирательные существительные или существительные, выражающие совокупное единство;

— канцеляризмы;

— обращения, начальные и конечные формулы уважения и т.д.

Научно-технический функциональный стиль представляет собой информационное пространство функционирования научно-технических текстов, это глобальное информационно-функциональное поле, в котором действуют многочисленные научнотехнические речевые жанры. Общее содержание функции научно-технического стиля можно определить как объяснение в широком смыле этого слова, которое включает в себя как закрепление процесса познания и изложение результатов познания, так и фиксацию способов применения этих результатов. Основу языкового оформления научно-технических текстов составляет стандартизированность, т. е. выбор предписываемого для данных условий коммуни-

кации клишированного языкового варианта. Формальными признаками стиля являются:

— простые термины-существительные;

— сокращенные термины: N (Newton), m (meter);

— сложные термины;

— многокомпонентные термины;

— термины-глаголы;

— термины-прилагательные.

Газетно-публицистический стиль охватывает массовые популярные политические тексты, воздействующие на актуальные общественно-политические процессы оперативным документальным отображением, основанным на идейно-политическом осмыслении и эмоционально выраженной оценке.

Основная коммуникативно-прагматическая функция газетно-публицистического стиля — про-пагандистско-агитационная. Она направлена, с одной стороны, на распространение политической информации, а с другой — на побуждение людей к действию, на активизацию их мыслей. В отличие от официально-делового стиля, газетно-публицистический стиль, входя в систему массовой коммуникации, не является обезличенным. Он индивидуализирован по группам людей: возрастным, образовательным, социальным, идеологическим, по интересам и т.д.

Основу языка газетно-публицистического стиля составляет книжно-обиходный язык, представляющий собой сочетание элементов лексики и синтаксических структур разных стилей при частичном сохранении или утрате искомой стилистической окраски. Книжный характер этого языка определяется тем, что он выражает целостную информацию, предварительно продуманную и организованную. Основной стилистический принцип организации языка в публицистике — сочетание стандарта и экспрессии.

Функциональный стиль обиходного общения обусловливает языковое оформление содержания общения в сфере бытовых отношений людей. Сферу действия обиходного стиля можно поделить на две части: обиходно-бытовую, охватывающую семейные бытовые отношения, включая круг друзей и знакомых и обиходно-деловую, охватывающую неофициальное личное общение в профессиональной среде (на работе).

Контактность общения ведёт к экономии языковых элементов и замене их экстра и паралингвисти-ческими средствами, что, в свою очередь, приводит к упрощению самого текста высказывания. Формальными признаками стиля являются:

— большая активность некнижных средств языка, в том числе, употребление просторечных единиц;

— неполноструктурная оформленность языковых единиц на всех уровнях;

— ослабленность синтаксических связей между частями предложения или их неоформленность, не-выраженность;

— обилие языковых средств субъективной оценки, оценочных и эмоционально-экспрессивных единиц, наличие речевых стандартов и фразеологизмов разговорного характера;

— наличие окказионализмов;

— широкое использование личных местоимений и личных форм глагола;

— неполноструктурность на всех уровнях, т.е. опущение отдельных частей предложения и эллиптичность, обусловленные контекстом;

— присоединительный характер структурной организации предложения;

— бессоюзие, как правило, в сложных предложе-

ниях или сложных синтаксических целых;

— всевозможные виды редукций.

Литературно-художественный стиль. Основной функцией литературно-художественного стиля является функция эстетического воздействия на адресата. Художественный язык, будучи рассчитан на восприятие и понимание его на фоне общенационального языка, отличается от него тем, что действительность языка художественного произведения — это действительность целостного художественного мира, в результате чего языковые и внеязыковые (содержательные) стороны художественного произведения спаяны значительно прочнее, чем в других функциональных стилях. Поэтому закономерности построения художественного языка объясняются не грамматическими и синтаксическими правилами, а правилами построения смысла. Возникает семантическая двойственность художественного языка как результат столкновения объективной значимости слов с их субъективной смысловой направленностью. Реализация замысла автора произведения может потребовать обращения к любому из существующих стилей, что приводит к проблемам нефор-мализуемости признаков данного стиля.

Для выделения в семантической сети текста понятий, представляющих ключевые слова и словосочетания, может быть применен статистический алгоритм, основанный на анализе частототности встречаемости цепочек слов различной длины. Статистические закономерности существуют в тексте независимо от автора и использованного им языка — внутренняя структура текста останется неизменной. Она описывается законами Дж. Ципфа (George K. Zipf). Законы Ципфа универсальны. Ципф предположил, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Ципф вывел два универсальных закона [3, с. 65 — 69].

Первый закон Ципфа: «Ранг-Частота». Если измерить количество вхождений каждого слова в текст и взять только одно значение из каждой группы, имеющей одинаковую частоту, расположить частоты по мере их убывания и пронумеровать (порядковый номер частоты называется рангом частоты), то наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними — 2 и т.д. Вероятность встретить произвольно выбранное слово будет равна отношению количества вхождений этого слова к общему числу слов в тексте.

Ципф обнаружил следующую закономерность: произведение вероятности обнаружения слова в тексте на ранг частоты есть константа (С).

^ Количество вхождений слова х Ранг частоты

Это функция типа y=k/x и её график — равносторонняя гипербола. Следовательно, по первому закону Ципфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово с высокой долей вероятности, окажется на уровне 50. Значение константы С в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Ципфа равна приблизительно 0,1.

ОМСКИЙ НАУЧНЫЙ ВЕСТНИК №4 (111) 2012 ФИЛОЛОГИЧЕСКИЕ НАУКИ

ФИЛОЛОГИЧЕСКИЕ НАУКИ ОМСКИЙ НАУЧНЫЙ ВЕСТНИК №4 (111) 2012

Второй закон Ципфа «Количество-Частота». В первом законе не учтён тот факт, что разные слова могут входить в текст с одинаковой частотой. Ципф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) — количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов. Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Ципфа останется неизменной. Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график — прямая линия). Законами Ципфа можно воспользоваться для извлечения из текста слов, отражающих его смысл (ключевых слов) [3, с. 65 — 69] (рис. 1).

Исследования показывают, что наиболее значимые слова лежат в средней части диаграммы. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском языке — артиклями и т.п. Редко встречающиеся слова также не имеют решающего смыслового значения.

От того, как будет выставлен диапазон значимых слов, зависит многое. Если поставить широко, то к ключевым словам будут относиться вспомогательные слова; если установить узкий диапазон, то можно потерять смысловые термины. Сделать выделение наиболее значимых слов качественнее помогает предварительное исключение из исследуемого текста некоторых слов, которые априори не могут являться значимыми и поэтому являются «шумом». Такие слова называются нейтральными или стоповыми (стоп-словами). Словарь стоп-слов называют стоп-листом. Например, для английского текста стоп-словами станут служебные слова: the, a, an, in, to, of, and, that... и т.д.

Для подтверждения законов Ципфа «Ранг-Частота» и «Количество-Частота» проведено исследование текстов на английском языке вышеназванных стилей (за исключением литературно-художественного стиля) общим объёмом 175000 слов по следующему алгоритму: 1) подбор текстов разных стилей в равном количестве слов; 2) удаление из текста стоп-слов (the, a, an, in, to, of, and, that); 3) вычисление частоты вхождения каждого слова в отдельно взятом тексте; 4) составление списка слов в порядке убывания их частотности; 5) выбор диапазона частот.

Из выбранного диапазона необходимо выписать слова, наиболее полно соответствующие смыслу текста для дальнейшего сопоставления и построения графика. В большом тексте в диапазоне может оказаться довольно много слов. Достаточно взять 10-20 терминов. Их следует выбирать, руководствуясь, в первую очередь, здравым смыслом. При этом не стоит ограничиваться только характерными терминами (это относится, например, к текстам научно-технического стиля), даже если они кажутся наиболее удачными. В список должны попасть и общеупотребительные слова (их лучше выбирать из средней части диапазона).

В ходе исследования было выявлено, что закон Ципфа релевантен по отношению ко всем изученным текстам. Так, например, в статье, опубликован-

Рис. 1.

ной на сайте ‘komonews.com ‘CIA bomber coerced to work for Jordan spy agency' (05.01.2010), наиболее часто встречающимися являются слова первого ранга: counterterrorism (5), officials (5), Afghanistan (5). (Примеч.: в скобках указано количество словоупотреблений). Зарегистрировано по одному словоупотреблению таких слов как Palestinian, Egypt, fellow, government, foreign, chapman, human, web, interview и др. [4].

Подобная тенденция наблюдается и в текстах других функциональных стилей. Например, научнотехнический текст "The Engineer's Guide to Motion Compensation" содержит: motion (21), section (19), standards (19); слова второго ранга: methods (10), systems (10), reduction (9), transform (8). Кроме того, большое количество слов было от несено к третьему рангу, среди которых можно обозначить следующие: technical (5), equipment (5), level (5), research (5), vibration (4) и т.д. [5].

Изучение стиля обиходного общения является наиболее трудоёмким. В связи с этим в качестве материала исследования было принято решение рассмотреть язык современных фильмов, а точнее — скрипты этих фильмов. При анализе скрипта фильма "The sixth sense" [6] было выявлено, что наиболее употребительными являются: people (18), sound (17), afraid (16), God (16), efforts (16), life (15), compassionate (14), trouble (14), а также имена главных героев: Vincent, Cole, Malcolm — более 30 — на каждое имя. На втором месте по частоте употребления зарегистрированы слова: call (7), possible (7), mood (7), divorce (7), disorder (6), appointment (6), chance (6), concentrate (5), important (5). К третьему рангу можно отнести слова: couple (4), achievement (4), outstanding (3), residence (3), sacrifices (3) [6].

Таким образом, технология определения функционального стиля представляет собой статистическую обработку текста с выделением определённого множества формальных признаков. Как уже было отмечено, его подмножествами выступают ключевые слова, грамматические конструкции, шаблоны и другие функциональные единицы. Основным множеством является множество ключевых слов, отражающих смысл и функциональный стиль текста. В статье приведена диаграмма и описана методика вычисления константы и формы кривой Ципфа.

При таком подходе одной из ключевых задач предпереводческого анализа как раз и релевантно обнаружение в тексте тех элементов, наличие ко-

торых сигнализирует о его принадлежности к определённому функциональному стилю. Поскольку система машинного перевода (МП), в отличие от человека-переводчика, практически не в состоянии учесть все формальные и содержательные признаки текста в их совокупности, мы предлагаем ограниченный перечень наиболее показательных признаков каждого из функциональных стилей, которые достаточны для автоматического проведения пред-переводческого анализа при МП.

Библиографический список

1. Nord C. Textanalyse und Ubersetzungsauftrag // Ubersetzungswissen — schaft und Fremdsprachenunterricht. Neue Beitrege zueinemalten Thema. — Munchen:GoetheInstitut, 1989. —

S. 19-21.

2. Брандес, М. П. Предпереводческий анализ текста / М. П. Брандес, В. И. Провоторов. — М. : НВИ-ТЕЗАУРУС, 2003. — 223 с.

3. Узуев, А. Непрочтённый / А. Узуев // Компьютерра. — 2005. — № 1. — С. 65 — 69.

4. Jamal Halaby. CIA bomber coerced to work for Jordan spy agency [Электронный ресурс]. — Режим доступа: http://www.

komonews.com/news/national/80766812.html (дата обращения: 08.01.2010).

5. John Watkinson. The Engineer's Guide to Motion Compensation. — Snell & Wilcox Ltd, 2007. — 62 p.

6. Kinofilms [Электронный ресурс]. — Режим доступа: http://www.kinofilms.org/titres/sort = date&1 = 32/thesixthsense (дата обращения: 16.02.2010).

БАБАЛОВА Галина Григорьевна, доктор филологических наук, доцент (Россия), профессор кафедры иностранных языков Омского юридического института.

Адрес для переписки: e-mail: [email protected] ГЮНТНЕР Юлия Викторовна, преподаватель кафедры «Германская филология» Северо-Казахстан-ского государственного университета им. М. Козы-баева.

Адрес для переписки: e-mail: [email protected]

Статья поступила в редакцию 06.06.2012 г.

© Г. Г. Бабалова, Ю. В. Гюнтнер

удк лги : 8i'42 н. Н. ПЕЛЕВИНА

Хакасский государственный университет им. Н. Ф. Катанова, г. Абакан

ЛИНГВИСТИЧЕСКИЕ СРЕДСТВА ФОРМИРОВАНИЯ РЕЦЕПТИВНОЙ ПРОГРАММЫ НАУЧНОГО ТЕКСТА_____________________________________________

В статье предлагаются результаты исследования прагматических особенностей научного текста в актуальной для современной лингвистики дискурсивной проекции. Новизна исследования состоит в понимании автора текста как когнитивно-речевого субъекта научной коммуникации. Рецептивная программа научного текста рассматривается при этом как реализация авторской стратегии рецептивного управления в научном дискурсе. Устанавливаются и описываются лингвистические средства формирования рецептивной программы в научном тексте. Материал и результаты исследования рекомендуются для использования в вузовской практике преподавания учебных дисциплин, связанных с интерпретацией научного текста.

Ключевые слова: когнитивно-речевой субъект, когнитивная компетенция, коммуникативно-прагматические стратегии, научный дискурс, рецептивная программа, рационально-логическая акцентуация.

Антропоцентрический подход к исследованию научного текста позволяет получить системное представление о процессе текстообразования в научной коммуникации исходя из главенствующей роли автора как когнитивно-речевого субъекта, взаимодействующего с объектом познания, семиотическим пространством культуры и читателем.

В научном дискурсе создается текст, который в когнитивных системах автора и читателя соотносится с особым ментальным миром, со специфическим типом воплощаемого в нём знания,

а также с особой текстообразовательной моделью и с другими текстами, строящимися по этой модели и обнаруживающими поэтому определённую общность текстовых структур и стилевых признаков [1, с. 8]. Прототипическую модель текстообразования в научном дискурсе образуют конвенциональные правила и стратегии, знание которых входит в когнитивную компетенцию автора научного текста.

Познавательные стратегии когнитивно-речевого субъекта в научном дискурсе направлены на раци-

ОМСКИЙ НАУЧНЫЙ ВЕСТНИК №4 (111) 2012 ФИЛОЛОГИЧЕСКИЕ НАУКИ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.