Научная статья на тему 'Основные проблемы машинного перевода'

Основные проблемы машинного перевода Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
5998
772
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Дубровина Е. В., Городищева А. Н.

Для машинного перевода пока не создано программы, которая понимала бы естественный язык. Существуют 3 подхода к процессу машинного перевода: перевод, основанный на правилах; статистический перевод; подход Translation Memory. Все они выдают одинаковые ошибки: случаи неуместного перевода собственных имен, сокращений и некоторых двусмысленных лексем. МП-программы пока применимы только для профессиональных переводчиков в работе над большим однородным текстом.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Основные проблемы машинного перевода»

фактов (типа: дом, зеркало), экзистентных ситуаций (типа: обмен, встреча, путь), границы состояний (типа: сон, смех, слезы, тайна, экстаз) или их «следов» (типа: тень, двойник, голос). Завершается пирамида универсалий культуры списком видов деятельности; их культурно-исторической импликацией является, вероятно, игра. В отличие от универсалий цивилизации, которые живут факультативно-атрибутивной семантикой, универсалии культуры являются вечными онтологическими и экзистентными константами человеческого бытия, фундаментальными категориями картины мира, суммарной аксиоматикой внутреннего опыта. Универсалии культуры есть априорное наследие культурной памяти, проективно определяющей работу механизмов духовного преемства, новаторства и палингенеза. Когда этот «механизм» начинает работать в режиме катастрофы, то мы имеем дело либо с мифологией культуры, осложненной «историософской» мимикрией и подражанием неактуальному прошлому, либо с патологией культуры (эксплуатацию и ревизию архаичной семантики «крови» и «почвы» в идеологии расизма и фашизма) [2, с. 69].

Универсалии (категории) культуры функционируют:

- как формы селективного отбора и трансляции социально-исторического опыта;

- как категориальная структура сознания в ту или иную историческую эпоху;

- как предельно обобщенная структура человеческого жизненного мира.

Система универсалий культуры служит своего рода генетическим кодом каждого вида и типа цивилизации. Большинство универсалий культуры присутствует и в литературе, преображаясь в соответствии с законами художественного сознания, хотя ряд литературных универсалий, очевидно, может быть скорректирован и продолжен. Это прежде всего универсалии, связанные с духовной и физической жизнью человека: душа и тело, жизнь и смерть, счастье и горе и т. д. Таким образом, универсальное не есть распространенное, массовое, но в каком-то смысле единичное, вбирающее в себя бесконечное множество смы-

слов. Это категория, уточняет исследователь, «обозначающая многосторонность, присущую отдельному явлению, способность поворачиваться разными гранями». При этом если в концепте ведущей оказывается национальная, этническая составляющая, то в универсалии - общечеловеческая. Это вечные, онтологические и метафизические константы человеческого бытия. Все это, безусловно, справедливо и по отношению к литературным универсалиям.

Универсалии являются объектом специального изучения современной лингвистики, прежде всего, языковые универсалии. Фундаментальная работа А. Вежбицкой посвящена семантическим универсалиям и описанию языков [3]. Автор исходит из программного положения о существовании «фиксированного набора семантических компонентов, которые являются универсальными в том смысле, что оказываются лексикализованными во всех языках». Это прежде всего «концептуальные примитивы», в круг которых Вежбицкая включает около шестидесяти кандидатов, связанных с характеристикой субстанти-вов, атрибутов, ментальных предикатов и пр., например: «я», «ты», «некто», «нечто», «где» и «когда», «большой» и «маленький», «хороший» и «плохой», «делать» и «произойти». Применительно к каждой национальной культуре такие константы играют роль близкую роли «ключевых слов», «особенно важных и показательных для отдельно взятой культуры».

Библиографические ссылки

1. Безрогов В. Г. Культура памяти: историзация и/или мифологизация пережитого // Культура исторической памяти: невостребованный опыт : сб. ст. Петрозаводск, 2003. С. 7-11.

2. Хабермас Ю. Будущее человеческой природы. М. : Весь Мир, 2002. 144 с.

3. Вежбицкая А. Семантические универсалии и базисные концепты. М. : Языки славянских культур, 2011. 586 с.

© Быканова А. С., 2014

УДК 81'322.4

Е. В. Дубровина Научный руководитель - А. Н. Городищева Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ОСНОВНЫЕ ПРОБЛЕМЫ МАШИННОГО ПЕРЕВОДА

Для машинного перевода пока не создано программы, которая понимала бы естественный язык. Существуют 3 подхода к процессу машинного перевода: перевод, основанный на правилах; статистический перевод; подход Translation Memory. Все они выдают одинаковые ошибки: случаи неуместного перевода собственных имен, сокращений и некоторых двусмысленных лексем. МП-программы пока применимы только для профессиональных переводчиков в работе над большим однородным текстом.

Машинный перевод (МП) - одна из наиболее важных областей компьютерной лингвистики, которая включает в себя все проблемы обработки речи на всех языковых уровнях [1]. Преимущества МП состоят в

возможности обработки большого объема данных и скорости перевода и уменьшаются затраты на перевод. Но пока не создано программы для машинного перевода, которая понимала бы языковые нюансы,

Секция «Фундаментальные и прикладные проблемы гуманитарных наук»

намеки в тексте, то, что называется тонкой игрой слов.

«Сегодня существует 3 подхода к процессу МП: перевод, основанный на правилах; статистический перевод; подход Translation Memory.

Для перевода по правилам используется алгоритм, напоминающий процесс мышления человека, заключающийся в последовательности действий над входным предложением:

- морфологический анализ - поиск частей речи, определение входных словоформ (рода, числа, падежа, спряжения);

- поиск идиом, фразеологизмов для данной предметной области и исключение их из дальнейшего анализа;

- синтаксический анализ - разбор структуры, нахождение членов предложения - подлежащего, сказуемого, дополнения, обстоятельства. При этом общепризнанно, что системе МП легче переводить английский текст, так как в нем порядок слов в предложении жестко фиксируется. Русский язык поддерживает свободный порядок слов в предложении, что значительно усложняет процесс его формализации;

- лексический анализ - отделение однозначных входных слов (лексем) от многозначных (имеющих несколько переводных эквивалентов);

- грамматический анализ - доопределение грамматической информации с учетом данных выходного языка;

- синтез выходного предложения (перевода).

Статистический метод МП заключается в анализе

колоссального массива параллельных текстов и выборе для перевода наиболее часто совпадающие варианты. Никаких грамматических правил в программу не заложено. На основе такой технологии построен сервис от компании Google - отдельные словосочетания при статистическом переводе получаются более точными и изящными, но грамматика хромает: иногда предложения настолько несогласованны, что невозможно понять их смысл.

Технология Translation Memory использует правила перевода и сравнивает входной документ с текстами из постоянно пополняющейся базы переводов. Находя совпадения, программа предлагает ранее одобренный вариант» [2].

Основная масса переводов приходится на техническую документацию и деловую переписку. В этих областях, где часто встречаются стандартные фразы, а лексика ограничена некими рамками, машинный перевод может и должен оказывать пользователям помощь. Однако часто при переводе специализированных компьютерных текстов возникают случаи неуместного перевода. В деловой переписке часто встречаются имена собственные, и их неуместный перевод существенно затрудняет чтение текста. Еще один камень преткновения - сокращения: International Association of Empirical Aesthetics - IAEA, и International Atomic Energy Agency - IAEA. Одной из следующих проблем процесса машинного перевода является семантическая двусмысленность некоторых лексем, которая может быть правильно осмыслена только исходя из контекста, где значение слова может зависеть

от области знаний, к которой принадлежит переводимый текст.

Таким образом, в результате десятилетней работы над программами переводчиками, специалистами были выделены следующие недостатки:

1. Невысокое качество переводов:

- хорошее качество касается только тематически ограниченной области. Общеизвестно, что каждая область, каждая тема имеет свой характерный лексикон. Слова, входящие в состав устойчивых словосочетаний, зачастую имеют смысл в той или иной мере отличный от того, который они имеют, когда употребляются свободно. Поэтому такие сочетания следует переводить целиком, а не пословно. Для этого необходим словарь словосочетаний;

- перевод литературных текстов практически невозможен (например, тексты Шекспира, которые не могут перевести даже большинство людей).

2. Сложность технической реализации:

- система сбора данных (лексика, грамматика; корпус). Современные программы дают разумный результат только после настройки их на конкретную языковую ситуацию, то есть следует установить словарь из соответствующей предметной области, указать тип текста и откорректировать несколько первых страниц перевода, задав программе определенные эталоны.

- удобство обслуживания, расширяемость. В области МП имеется практика создания переводческих накопителей, специальным образом организованной индивидуальной базы данных. Она создается конкретным переводчиком или коллективом переводчиков в ходе работы над конкретным проектом, то есть в ее основе лежат знания, интеллект и профессионализм человека. Но их создание довольно трудоемкий процесс [3; 4].

Иначе говоря, МП-программы могут помочь в работе над большим однородным текстом профессиональному переводчику, хорошо владеющему тематикой и прекрасно понимающему этот текст, а не тому, кто плохо знает иностранный язык [5].

Библиографические ссылки

1. Арзамасцева И. В., Подгорный И. В. Подход к корректному машинному переводу на основе автономных адаптивных интеллектуальных систем // Современные технологии обучения иностранным языкам. Международная научно-практическая конференция (Ульяновск, 25 января 2012 года) : сб. науч. тр. / отв. ред. Н. С. Шарафутдинова. Ульяновск : УлГТУ, 2012. С. 181-186.

2. Карасев И. В., Артюшина Е. А. Системы машинного перевода // Успехи современного естествознания. 2011. № 7. С. 117-118.

3. Нестерова Я. А. Машинный перевод // Инновационный потенциал урока английского языка: от теории к практике (From Reflection to Action): материалы Международной научно-практической конференции для преподавателей английского языка. 20-22 сентября 2013 г.: сборник / сост. О. А. Титова ; отв. ред. И. В. Родионова. Тула : Гриф и К, 2013. С. 174-179.

4. Томин В. В., Еремина Н. В., Богомолова А. Ю. О лингвистических особенностях электронного пере-

вода научно-технических текстов // Вестник ОГУ. 2013. № 11 (160)/ноябрь. С. 198-204.

5. Шахова Н. Результат меняется от перестановки, или Что такое хорошо и что такое плохо? [Электронный ресурс] // Pcweek. 2000. 13 (235). URL:

http://www.pcweek.ru/themes/detail.php?ID=54064 (дата обращения: 18.03.2014).

© Дубровина Е. В., 2014

УДК 004.738.52

А. П. Зеленко, В. В. Пьянкова Научный руководитель - Е. В. Тетерина Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева, Красноярск

ИНФОРМАЦИОННЫЙ МУСОР: ПРОБЛЕМА XXI ВЕКА

Освещаются проблемы связанные с засорением Интернета нерелевантной информацией, а также варианты их решения.

В настоящее время, пожалуй, каждый человек, являющийся частью социума, пользуется Интернетом, а, соответственно, и теми или иными видами поисковых систем, таких как Yandex, Google, Поиск mail.ru, Rambler.

Каждый, кто когда-либо осуществлял поиск при помощи поисковой системы, сталкивался с различными проблемами, рассмотрим основные из них и возможные пути решения данных проблем.

Первой проблемой, с которой сталкивается пользователь, является то, что на поисковой запрос более узкой направленности она выдает неимоверно большой объем ответов, содержание большинства из которых не может удовлетворить потребность поиска. Причиной данной проблемы являются так называемые сайты «пустышки», которые полностью состоят из рекламы, а также тэгов, за которыми не закреплен какой-либо контент. Тэги или ключевые слова используются на сайтах для того, чтобы при осуществлении поискового запроса пользователь мог попасть на сайт с нужной ему информацией, однако в таком случае его просто вводят в заблуждение.

Вторая проблема заключается в неправильном понимании запроса поисковой системой. Сейчас существует тенденция перехода к «умному» поиску, т. е. поиска, основанного на семантической обработке запросов данных. Такая система применяется в поисковых системах Google и Yandex [1; 2], однако она еще не может учитывать всех нюансов, а соответственно поисковые системы не всегда «понимают» что именно ищет пользователь.

Третья проблема, с которой сталкиваются пользователи - наличие большого объема устаревшей информации. Также в случае, если пользователь осуществляет поиск информации научного плана существует проблема неподкрепленности информации достоверными источниками, иными словами, ненаучность представляемого контента. Эти две проблемы связаны с тем, что сейчас создать свой сайт может каждый. Существует множество как платных, так и бесплатных конструкторов сайтов, а процесс регистрации домена не представляет особого труда и подробно описан, к примеру, на сайте Хабрахабр [3]. Однако грамотно вести сайт, заполнять его актуальной и дос-

товерной информацией гораздо сложнее. Таким образом, излишняя доступность и простота создания сайтов порождает web-ресурсы сомнительного содержания.

Решением первой проблемы видится в повышении популярности использования специализированных поисковых систем. Так, по данным Liveinternet, по состоянию на 6 апреля 2014 года российские пользователи предпочитают пользоваться следующими поисковыми системами: Yandex - 50,4 %, Google - 38,4 %, Поиск mail.ru - 8,3 %, Rambler - 0,9 % [4]. Популярность остальных поисковых систем крайне мала, это говорит о том, что люди в России даже не задумываются о том, что помимо выше перечисленных поисковых систем есть и другие, более удобные для осуществления узконаправленных запросов. Существует множество специализированных поисковых систем, например ILIGENT.info - поиск информации на бизнес-сайтах, poiskknig.ru - поиск электронных книг, свободно распространяемых в интернете, Progler.Ru -система поиска для программистов и так далее [5].

Также для защиты компьютера от нежелательного контента в Интернете можно использовать специальные блокирующие программы, работающие по принципу распознавания ключевых слов и блокировки сетевого трафика. Наиболее актуальными являются программы блокировки рекламного контента и родительского контроля. Часто программы-блокировщики рекламы встраиваются в сам браузер, например разработчики браузера Google Chrome предоставляют бесплатное приложение-блокировщик AdblockPlus. Лучшей платной программой родительского контроля по версии интернет-портала www.ixbt.ruявляется ChildWebGuardianPro, разработчиками которой являются русские программисты С. Зимин, С. Маркин. Из бесплатных аналогов можно выделить «Интернет Цензор», детский интернет фильтр КиберПапа, также существует бесплатный Детский браузер Гогуль [6].

Для того чтобы разрешить вторую проблему, необходимо соблюдать некоторые правила, при осуществлении поиска. Во-первых, осуществлять поиск не по одному, а нескольким ключевым словам, таким образом, сужая область запроса. Во-вторых, не рекомендуется начинать слова, используемый в поиско-

i Надоели баннеры? Вы всегда можете отключить рекламу.