2001. 02. 023. Comlex 2000. Вычислителыая лексикография и мультимедийные словари. Материалы семинара, Греция, като Ачайя, 2223 сент. 2000 г. Comlex 2000. Workshop on computational lexicography and multimedia dictionaries: Proc. , Greece, 2223 Sept.. 2000 / ed. By Kokki-nakis G. A. Dermatas E. Kato Achaia, 2000. 144 p

Марчук Ю.Н

2001.02.023. COMLEX 2000. ВЫЧИСЛИТЕЛЫАЯ ЛЕКСИКОГРАФИЯ И МУЛЬТИМЕДИЙНЫЕ СЛОВАРИ. Материалы семинара, Греция, Като Ачайя, 22—23 сент. 2000 г.

COMLEX 2000. Workshop on computational lexicography and multimedia dictionaries: Proc., Greece, 22—23 Sept. 2000 / Ed. by Kokki-nakis G. a. Dermatas E. — Kato Achaia, 2000. — 144 p.

Университет греческого города Патрас при поддержке Департамента электроники и ЭВМ провел 22-23 сентября 2000 г. Международный семинар по проблемам вычислительной лексикографии и мультимедийным словарям. В семинаре участвовали ученые Греции, России, Италии, Франции, США и других стран. Bcего в материалы семинара вошли 32 доклада.

Работа семинара проходила по следующим секциям: лексикография, основанная на корпусе текстов; морфология; создание баз знаний (терминология); представление лексических знаний; мультимедийные словари; многоязычная лексикография.

Программный доклад Жана Верониса называется "Распознавание смысла: смотри не на значение слова, а на его использование". Автоматическое распознавание смысла слов представляет собой вызов, который еще предстоит рассмотреть лингвистам. Пока что результаты в этом направлении очень скромные. Трудности возникают с разных сторон, особенно в части извлечения необходимой разрешающей информации из контекста. Однако одна из главных проблем заключается в том, что само понятие "смысл слова" или его "значение" плохо определены. Обычные словари не дают дистрибутивных критериев для разных значений слова. Так же обстоит дело и с машинными словарями, которые строятся по образцу традиционных и не дают слов в их дистрибутивных окружениях. В статье описываются результаты эксперимента, в котором информантам давались многозначные слова в конкордансах (в контекстном окружении) и требовалось определить смысл слова. Задание большинством информантов считалось легким, однако, когда сверили результаты эксперимента, оказалось, что понятие "смысл" слова понимается по-разному и разброс в определении смысла был весьма широк.

Статья "Прямой подход к морфологическому анализу и синтезу" (авторы К.Старбас, Н.Д.Факотакис, Дж.К.Коккинакис) посвящена проблеме морфологической обработки большого корпуса текстов. В специальном словаре соединены полные формы слов, леммы и

грамматические ярлыки. Процесс анализа/синтеза сводится к поиску в графе, который осуществляется очень быстро и может быть выполнен даже в случае, когда некоторой информации нет во входном словаре. Такой словарь (база данных) может пополняться в результате пользования им. Предложенный подход не зависит от языка (опытный образец выполнен на материале греческого языка) и не использует морфологические правила или какую-либо специальную информацию. Морфологическому анализу посвящены также два следующих доклада: Набиль Хатут "Морфологический анализ, основанный на сетевой модели" и Эвангелис Дерматас "Стоха-стический алгоритм для определения суффиксов слов: эксперименты с греческим языком". В каждом из этих докладов описывается формализм, с помощью которого в форме таблицы или графа можно достаточно уверенно получить морфологическую информацию для языков синтетического типа.

Много докладов посвящено работе с лексикой. Доклад Дж.Вуроса, К.Котиса и П.Целиоса "Поиск и использование терминологических знаний во всемирной паутине" посвящен вопросам использования Bilingual Information Browser (BILIB) — двуязычного информационного браузера. Этот браузер в большей степени, чем другие системы, позволяет пользователю получать терминологическую информацию, использовать концептуальные знания и прозрачным образом работать как с терминологической базой данных, так и с формальной концептуальной базой знаний. Главное внимание уделяется структуре базы знаний, которая построена на основе принципов Em-oWo^^! В рамках проекта ПРОМЕТЕЙ, который также входит в данное исследование, главная цель заключается в том, чтобы построить общую рамку для многоязычных "электрон-ных энциклопедий", которые будут предоставлять термины в их переводах на другие языки, дадут возможность пользователям ознакомиться с системой концептов любой предметной области, найти нужные термины в любом языке на основе их семантической связи с другими терминами или на основе их лингвистических характеристик, понять семантические связи между терминами и рассматривать мультимедийные документы, в которых используются данные термины. Поля типичного терминологического формата словарной статьи содержат следующие кластеры: вводные данные, такие как язык, страна, дата ввода термина; лингвистические данные, такие как часть речи, идиоматические выражения, аббревиатуры; объяснительные данные, такие как дефиниция, контексты, комментарии; данные по использованию, такие

как отношения с другими терминами (родовые, видовые и пр.). В работе приводится общая схема организации БЮБ.

В докладе коллектива авторов (Дж.Контос и др.) "Семантика технических лексиконов" рассматривается система анализа технических словарей машиночитаемой формы с целью извлечения из них предметной семантической информации. Машиночитаемые лексиконы приобретают сейчас все большее значение, поскольку они используются для машинного перевода; парсеров, основанных на лексике; доступа на естественном языке к базам данных; обработки текстов; представления концептов; создания тезаурусов для информационно-поисковых систем. Описывается проект совместного исследования ряда греческих университетов в части следующих предметных областей: коммерческая деятельность, новости бизнеса, фармакология, медицина, инструкции по программному обеспечению. Многозначные слова обрабатываются человеком-редактором, однако результаты работы по разрешению многозначности сводятся в обучающийся блок — подсистему общей системы. Этот блок состоит из следующих модулей: процессор для машиночитаемых словарей, лексический процессор, синтаксический процессор, семантический процессор, графический процессор и обучающий модуль. Некоторые важные вопросы остаются нерешенными. Так, нет ясности относительно наилучшего способа представления семантической информации.

Т.Нордгард представил доклад "МОККОМРЬБХ — норвежский машиночитаемый лексикон". В лексиконе содержится информация о флексиях и произношении всех слов, в него включенных. Для глаголов дается также информация о синтактико-семанти-ческих свойствах.

Р.К.Потапова (МГЛУ) и В.В.Потапов (МГУ, Москва) представили доклад "Лингвистическая база данных для электронной энциклопедии русского языка (новая версия 2000)". Описываются принципы построения и общая структура лингвистической базы данных по русскому языку. Энциклопедия предназначена для разных пользователей — исследователей, преподавателей и студентов, криминалистов и др. В базе знаний содержится лексическая, фонетическая, семантическая информация и другие сведения. В каждом семантическом поле выделяются субполя с текстуальным определением каждого ключевого слова. Все блоки Энциклопедии связаны между собой гипертекстовой

1 0 0

технологией. Новая версия энциклопедии базируется на интеграции самых разных сведений о языке, как устном, так и письменном.

Другие доклады на семинаре: Г.Мартыненко "Измерение лексико-семантической концентрации в тексте и в корпусе текстов; Дж.Де Калюве "Исследование названий профессии в корпусе голландских текстов; М.Марагудакис и др. "Выявление фреймов субкатегоризации из корпуса текстов на материале современного греческого языка".

Ю.Н.Марчук

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Марчук Ю. Н.