2002.02.020. ЭЛЕКТРОННЫЕ СЛОВАРИ И МАШИННЫЙ ПЕРЕВОД.
1. A HIERARCHICAL APPROACH FOR TOPIC IDENTIFICATION / Bigi B., Brun A., Smaili K., Haton J.-P. // SPECOM 2001: Intern. workshop SPEECH AND COMPUTER, Moscow, Russia, 29-31 Oct. 2001.-M., 2001.-P. 85-88.
2. KOKKINAKIS G. Electronic dictionaries: Integrating multimedia a. speech language technologies // Ibid-P. 6-7.
3. MARCHUK Yu. N. Basic trends in modern machine translation research // Ibid. -P. 8-11.
В коллективной статье четырех авторов французского исследовательского центра в Нанси, Франция, 'Иерархический подход к идентификации топиков" (Б.Бижи, А.Брюн, КСмайли, Ж.-П.Атон) (1) становится вопрос о разработке лингвистической модели для автомати-ческого распознавания речи, в которой можно бышо бы определить тему отрезка речи (текста). Структура некоторого множества тоников определяется введением иерархических уровней. Модели распознавания топиков (РТ) могут использовать семантические отношения между родительскими и порожденными ими узлами дерева топиков. Оригинальность подхода, изложенного в статье, заключается в том, что каждому соседнему (brother) топику придается свой особенный вокабуляр, который базируется на двух уровнях основы (backing-off levels). Данная модель быиа сравнена с моделью неиерархического одноуровневого представления и дала лучшие результаты, что дает надежду на ее дальнейшее усовершен-ствование.
Во введении к статье говорится, что статистическое моделирование языка является попыткой выявить лингвистические закономерности. Такое моделирование является главной частью многих современных лингви-стических технологий, в том числе и технологии автоматического распознавания речи (АРР). В данном исследовании разрабатывается технология распознавания топика в новык данных и приспособления модели к этому топику. Топик представляет собой подмножество лингвистических единиц. Адаптация топика часто является линейной комбинации общей модели языша и соответствующего языша топика. Недавние исследования показали, что адаптация топика в АРР существенно уменьшает неод-нозначность. Авторы приводят в статье аппарат математической статистики, применяемый при построении иерархии топиков. Главной целью идентификации топика является приписать один или несколько ярлыков топика потоку данных. Эти ярлыки берутся из набора топиков, созданного заранее априори. Таким образом, набор топиков может количественно варьировать в широком диапазоне, от 8 до более чем 5000.
Авторы полагают, что дифференциация топиков позволяет улучшить эффективность РТ. В работе вводится дифференциация и иерархия структуры
топиков, особенно касающаяся соседних (son topics), или подтопите®. Первые результаты опытных испытаний показали.
В статье "Электронные словари, объединяющие мультимедийную и речевую технологии}' (2) Дж. Коккинакис, руководитель исследовательской группы университета Патрас (Греция), рассматривает современное состояние лексикографической работы в мире. В течение веков лексикографическая работа была связана с огромными затратами человеческого труда и времени. В настоящее время новые технологии дают возможность существенно сократить и повысить качество лексикографичнских работ. Группа университета Патрас давно ведет исследования и разработки новых технологий в лексикографии. Коккинакис предлагает конкретное решение ряда трудоемких лексикографических проблем. Работа в Интернете позволяет использовать лексические богатства многих словарей электронной формы. Новые информационные технологии дают возможность исполь-зовать следующие инструменты:
-лемматизаторы, которые выделяют лемму из всех возможных форм слова; это особенно важно для таких богатых флексиями языков, как греческий, немецкий и пр.;
-морфологические анализаторы, которые представляют лемму во всех ее флективных формах;
-преобразователи графем в фонемы, обеспечивающие произношение любого отдельного слова или предложения в международном фонетическом алфавите;
-спеллеры, которые исправляют неправильное написание слова; -синтезаторы' текст-речь', которые преобразуют любой текст в устную речь; - устройства, распознающие устно произносимые слова для больших словарей, что облегчает поиск по словарю.
Кроме всего этого, мультимедийная технология может быть использована также и в режиме непосредственного доступа к словарным массивам с помощью мобильных телефонов и портативных компьютеров. В других статьях данного сборника сотрудники исследовательской группы под руководством Коккинакиса подробно описывают работы, ведущиеся по созданию современных словарных массивов для многих языков мира.
Статья '"Основные тенденции в современных исследованиях по машинному переводу?' Ю.Н.Марчука (3) посвящена современным решениям актуальной проблемы межъязыковой коммуникации, каковой является машинный перевод, приобретающий все большее значение как средство преодоления языковых барьеров в многоязычном развивающемся мире. В настоящее время машинный перевод (МП) становится практическим средством и в меньшей
степени, чем раньше, ареной столкновений разных теоретических направлений, касающихся скорее общих языковедческих воззрений, чем собственно языкового перевода. Это объясняется тем, что все ныне действующие системы МП используют тот или иной вариант модели перевода на уровне переводных соответствий, сформулированной в докторской диссертации Ю.Н.Марчука 'Лингвистические основания системы машинного перевода по переводным соответствиям}', защищенной в МГУ в 1979 г. Однако конкретные лингвистические алгоритмы, которые ранее свободно публиковались и обсуждались , в настоящее время стали объектом know-how, т. е. коммерческим секретом фирм, и исследования принципов работы действующих систем приходится делать поэтому в режиме "черного ящика.', подавая определенные тексты на вход системы и анализируя качество машинного продукта. П.Н.Хроменков в кандидатской диссер-тации, защищенной в 2000 г. изучил таким образом практически все коммерческие системы МП и установил типы модификаций модели переводных соответствий.
Эквивалентные соответствия задаются списком, вариантные соответствия разрешаются системой алгоритмов анализа входного текста на разных уровнях языковой структуры, а трансформационные соответствия в зависимости от типа участвующих в МП языков могут устанавливаться как на этапе анализа, так и после перевода соответствующих ключевых для данного соответствия слов входного языка. Так, синтезирование выходной русской словоформы, имеющей показатель рода, может быть правильно сделано только после того, как на этапе перевода будет получена информация о роде, если такая категория есть в переводном эквиваленте.
Была обнаружена зависимость между типом ошибок и их частотой. На основе изучения переводов исходного корпуса текстов большою объема. П.Н.Хроменков усовершенствовал модель перевода на основе переводных соответствий в двух основных аспектах: в части программного обеспечения, разделив его на табличное и на использующее специальные алгоритмы, и в части лингвистического обеспечения, выделив и уточнив типы переводных соответствий в рамках установившейся модели.
Одной из наиболее важных частей современных систем МП является этап трансфера. Понятие трансфера достаточно неопределенно, разные исследователи понимают под трансфером различные виды содержания, от некоторого семантического компонента, независимого от языков, до чисто языковых переводных соответствий. В.АНовиков исследовал различные понятия трансфера и проанализировал коммерческие системы МП, находящиеся на рынке и осуществляющие переводы, в том числе и через Интернет. С появлением
Интернета потребности в переводах резко возросли. Автоматические переводчики в Интернете обычно двух типов: браузеры, инкорпорирующие уже существующие настольные модели систем МП, и системы он-лайн. Первый тип реализует возможности "объектно-ориентированного программирования', которое состоит из независимых модулей-компонентов (например, система WebTranSite семейства Stylus, произведенная компанией ПРОМТ российского происхождения). Второй тип не требует какого-либо специального программного обеспечения для компьютеров пользователей, ему нужен только браузер для навигации по сети, в то время как перевод осуществляется на сервере, где установлена система МП. Это более удобно для пользователя, но сокращает объемы переводимого текста из-за ограниченных возможностей сервера. Наиболее популярные системы в Интернете-www. translate. ru и www. social. ru. Идея объектно-ориентированного программирования сейчас весьма популярна , поскольку представляет собой мощный инструмент для решения многих лингвистических задач, включая машинный перевод и исследования текстов.
В статье особо освещается вопрос о МП с восточных языков и обратно. Рассматриваются основные этапы МП с английского языка на персидский. Работы такого рода представляют не только практический, но и научный интерес в связи с тем, что языки данной пары принадлежат разным языковым группам и соответствия в таких парах строятся достаточно своеобразно. Вызывающие трудности проблемы также принадлежат не к тем типам, которые, например, характерны для языков европейского ареала. Так, в названной языковой паре трудности выстраиваются следующим образом образом: синтаксическая неоднозначность; омография; лексичес-кая идиоматика; нулевые эквиваленты; многозначностьслов.
Особое место в современном МП занимают лексические проблемы, главным образом те, которые касаются терминов. Современные системы Mil переводят с постредактированием главным образом тексты научно-технического характера при условии однородности текстов, т.е. отсутствия больших различий в синтаксисе, стиле, характере употребляемой лексики и т.п. При этом наибольшую трудность зачастую представляет именно перевод терминов, причем широкого лексического значения, таких как "машина', "реакция, 'Эффективность', "автомат"' и т.п. Интересно отметить, что в трудностях языковых пар МП с восточных языков эти трудности занимают последнее место (см. выше). Многозначность терминологии снимается ближайшим контекстом, поскольку, как правило, экстралингвистический контекст (принадлежность к определенному предметному полю) задается тематикой текстов. Однако такое
снятие многозначности предполагает наличие и использование специальным образом построенного контекстологического словаря.
В статье также обращается внимание на недавно вышедшую книгу Earty Years in Machine Translation (ed. by W. J. Hutchins, Benjamins Publ. Co., Amster dam/Philadelphia, 2000, 400 p.), в которой не только собраны мемуары ветеранов МП с начала появления идеи до 1970-х годов, но также содержится анализ современного состояния и перспектив развития современных систем МП. Что касается последних, то здесь наиболее ясно вырисовываются три основных черты: -насущная и растущая потребность мирового сообщества в быстрых и точных переводах при все большем их объеме и росте числа языков, вступающих в коммуникацию;:
- продолжающийся интерес к машинному переводу как наиболее актуальной проблеме искусственного интеллекта, имеющей как теоретическое, так и практическое значение;
-появление новых информационных технологий, которое, безусловно, внесет новый вклад в направление и результаты работ по МП.
Ю.Н.Марчук