Лексикографические ресурсы для автоматической обработки текстов

Яцко Вячеслав Александрович

УДК 803.000+811.111 ББК 81.001.2+87.41

В.А. Яцко

ЛЕКСИКОГРАФИЧЕСКИЕ РЕСУРСЫ ДЛЯ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТОВ

Предлагается классификация лексикографических ресурсов, необходимых для поддержки функционирования систем автоматического анализа текста. Выделяются и описываются четыре вида словарей: терминологические словари, терминолого-статистические словари, тезаурусы, онтологии. Показываются возможности их использования в системах различных типов.

Ключевые слова: лексикографические ресурсы, классификация, словари, тезаурусы, онтологии

V.A. Yatsko

LEXICOGRAPHIC RESOURCES FOR TEXT PROCESSING

A classification of lexicographic resources used to support text processing systems is described. Four types of dictionaries are distinguished: terminological, terminological-statistic dictionaries, thesauri, and ontologies. Opportunities for their application in various types of text processing systems are demonstrated.

Key words: lexicographic resources, classification, dictionaries, thesauri, ontologies

Как мы показывали ранее [Яцко, 2012], особенностью развития лингвистики в настоящее время является тесная взаимосвязь с предметной областью NLP (natural language processing) в рамках которой разрабатываются алгоритмы, программы и системы обработки единиц естественного языка. Одной из важных проблем, решаемых в рамках данной предметной области, является создание словарей различных типов, необходимых для поддержки функционирования систем автоматической обработки текста. В настоящей статье будет предложена классификация словарей и рассмотрены возможности их использования в различных системах автоматического анализа текста.

Как мы полагаем, лексикографические источники можно разделить на четыре основных вида: терминологические словари, терминолого-стати-стические словари, тезаурусы, онтологии.

Терминологические словари представляют собой списки терминов - единиц текста. В качестве терминов выступают ключевые слова и /или словосочетания, выделяемые по некоторым параметрам и отражающие специфику данного текста/текстов и/или его основное содержание. Основным параметром для распознавания терминов-ключевых слов служат их весовые коэффициенты. В этой связи возникает проблема разработки адекватных алгоритмов взвешивания терминов.Существеннойособенностьюэтоговида

словарей является возможность их динамической генерации: словарь не закладывается заранее в базу данных, а создается на лету, в ответ на запрос пользователя. В разработанной нами системе реферирования художественных и газетных текстов ETS (Event Tracking Summarizer) во входном тексте распознаются собственные имена, и составляется ранжированный список, в котором каждому из имен приписывается весовой коэффициент в зависимости от его значимости для данного текста. Из верхней части списка автоматически выделяется некоторое количество имен, и анализируется их распределение в тексте, на основе чего начисляются весовые коэффициенты предложениям. При этом учитывается позиция собственного имени в предложении и тексте, совместная встречаемость с другими собственными именами и местоимениями, использование в сочинительных и предложных конструкциях. Далее составляется ранжированный список предложений, и из него в реферат-экстракт выбираются предложения, количество которых определяется автоматически по специальной формуле. На рис.1 представлены словарь имен, реферат газетного текста (начало), полученный с помощью онлайновой версии ETS*, а также сочетания собственных имен, обозначающие основных персонажей и место действия.

* http://cll.khsu.ru/ets_web/default.aspx

Рис.1. Словарь и реферат, автоматически сгенерированные с помощью ETS

Остальные виды словарей

предварительно записываются в базу данных, т. е. создаются статически, причем достаточно часто вручную, экспертами.

Терминолого-статистические словари содержат статистические данные о распределении единиц текста. К таким

данным могут относиться частотность, распределение по файлам, ранг. В качестве примера можно привести лемматизированные и нелемматизированные списки слов Британского национального корпуса (БНК), составленные А. Килгарифом [Kilgarriff, 1998].

Таблица 1

Терминолого-статистический словарь БНК А. Килгарифа (выдержка)

Лемматизированный список Нелемматизированый список

Ранг Частот- ность Слово Тег части речи Частот- ность Слово Тег части речи Количество файлов

2333 3703 bomb n 22147 book nnl 2336

4960 1202 bomb v 47 book vvb 28

252 37675 book n 2321 frequent aj0 1094

3623 1894 book v 39 frequent vvb 37

Статистические данные, содержащиеся в словарях этого типа, имеют существенное значение для определения вероятностных характеристик, которые необходимы при разработке ряда систем автоматического анализа теста. Например, вероятностные параметры можно учитывать при разработке теггеров частей речи [Алоритмы, 2009], причем можно игнорировать случаи маловероятного использования токенов с определенными тегами. Как показано в табл. 1, частотность использования frequent как прилагательного почти в 60 раз выше его использования в качестве глагола, в вероятностных величинах разница составит 0,002 321 - 0,000 039 = 0,002 282 (при 1 000 000 слов в корпусе). В данном случае

вполне возможно игнорировать глагольные формы, и всем токенам frequent приписывать тег прилагательного, поскольку вероятность ошибки крайне мала. Однако, вряд ли это возможно по отношению к глагольным и именным формам bomb, поскольку разница их вероятностных значений не так существенна.

Тезаурусы предоставляют информацию о терминах, связанных с данным термином структурно-семантическими связями: синонимическими, антонимическими, гипонимо-ги-перонимическими. Наиболее широко известным тезаурусом для английского языка является Wordnet, разработанный в Принстонском университете США и распространяющийся с открытым исходным кодом, локализованным для различных языков программирования

[About Wordnet, 2012]. По проблемам применения этого тезауруса в целях автоматического анализа текста даже проводятся международные конференции, что свидетельствует об актуальности разработок словарей этого типа. Основным понятием, лежащим в основе архитектуры Wordnet, является понятие синонимических рядов (synsets) - группы семантически связанных терминов, распределенных по частям речи, которые различаются в зависимости от степени смысловой близости. Смысловая близость определяется расстоянием от исходного (текущего) слова. Если взять в качестве исходного, например, слово courage, то синонимический ряд первого уровня составят слова, через которые непосредственно толкуется данное слово: courageousness, bravery, braveness. К синонимическому ряду второго уровня относятся слова, выделяемые стрелкой в нижней строке интерфейса. В данном случае синонимический ряд второго уровня включает только одно слово: spirit. К синонимическому ряду третьего уровня будут относиться синонимы spirit: character, fiber, fibre. К синонимическому ряду четвертого уровня относятся синонимы слов, находящихся на третьем уровне (в данном случае - trait) и т. д. Таким образом, создается типичная гипертекстовая структура с переходами от одного кластера синонимов к другому.

Очевидно, что на каждом уровне уменьшается степень смысловой близости с исходным словом; в сущности на втором и третьем уровнях располагаются не синонимы, а его гиперонимы. Группа экспертов во главе с Т. Педерсеном разработали программу Word-Net Similarity, которая позволяет вычислять коэффициент смысловой близсти между словами по различным методикам [Pedersen, 2008]. Для courage и bravery коэффициент смысловой близости, подсчитанный по расстоянию между синсетами (path length) равен 1, а для courage и character (в значении «совокупность свойств личности») - 0,333 3 *

Тезаурусы применяются в информационно-поисковых системах (ИПС) и системах автоматического реферирования, системах автоматической классификации и категоризации текстов, системах интеллектуального анализа текста.

* Данные получены с использованием веб-интерфейса http://talisker.d.umn.edu/cgi-bin/similarity/similarity.cgi

Ранее нами была предложена методика составления словаря для автоматического реферирования научных текстов, в соответствии с которой вначале динамически создается часть словаря, включающая знаменательные слова из заглавия текста, далее к этим словам добавляются семантически соотносимые термины из заранее интегрированной лексической базы данных типа WordNet [Яцко, 2002].

В ИПС применение тезаурусов является эффективным средством расширения поисковых запросов. В [Николаев, 2010] приводятся следующие данные о распределении поисковых запросов разной длины в ИПС Яндекс и Google для русского сектора Интернета. Запросы, состоящие из одного слова, составляют 16,999 % от общего количества запросов в Яндексе и 17,17 - в Google; состоящие из двух слов - 28,076 % и 27,784 %; состоящие из трех слов - 24,261 % и 24,226 %; состоящие из четырех слов - 14,966 % и 15,123 %; состоящие из пяти слов - 7,82 % и 8,054 %. Очевидно, что если запрос состоит из одного - двух слов, то достаточно сложно определить релевантные документы, анализируя распределение терминов запроса в текстах, находящихся в базе данных информационно-поисковой системы. Поэтому к терминам поискового запроса автоматически, с помощью словаря-тезауруса, добавляются их синонимы и/или другие семантически соотносимые термины, что позволяет повысить эффективность поиска.

Под онтологиями понимаются словари, моделирующие структуру определенной предметной области. Онтологии характеризуются сложной структурой, которая проявляется в многоуровневой иерархии, причем на определенных уровнях компоненты онтологии - понятия и категории - соотносятся с конкретными терминами - экземплярами или инстанциа-циями [Pretorius, 2012]. Онтологии классифицируются на формальные и лингвистические [Лингвистическая онтология, 2006].

Формальные онтологии не связаны с анализом текста и содержат термины и соотносящиеся с ними количественные и числовые данные. К ним могут относиться собственные имена, обозначающие, например, названия продукции; количественные данные о покупках и продажах; данные о возрасте, профессиональном статусе, поле и т. д. Такая информация представляется в табличном

формате баз данных и обрабатывается средствами СУБД. Онтологии такого типа содержат на верхнем уровне иерархии две основных категории: покупатели и

продукты. Категория покупателей делится на подкатегории в зависимости от типов личных данных, а категория продуктов - в зависимости от ассортимента продукции. В качестве экземпляров выступают названия конкретных продуктов. Применение формальных онтологий позволяет выявить имплицитные зависимости между покупкой товаров определенного ассортимента и такими данными о покупателях, как наличие в собственности дома, марка принадлежащего автомобиля, возраст, профессия, доход, расстояние между домом и магазином. В результате может быть принято решение об изменении ассортимента товаров, которое повлияет на увеличение количества продаж. Основной проблемой, возникающей при разработке формальныхонтологий, является сбор личных данных пользователей. Обычно пользователь не готов тратить достаточно большое количество времени на заполнение анкет и, тем более, предоставлять личные данные. Поэтому крупные производители и торговые сети стимулируют пользователей, предоставляя за заполнение анкет скидки на товары, бонусы, или просто переводя деньги на счета пользователей и покупателей. В последнее время в отдельную профессию выделилось написание обзоров товаров и услуг [Surveys Paid, 2012].

Под лингвистической онтологией мы понимаем сложно-структурированный

словарь с функциональными связями между его компонентами, связанный с грамматикой. Под сложной структурированностью понимается многоуровневая иерархия. Под функциональными связями понимаются связи, основанные на поддержке определенных функций системы. Лингвистические онтологии применяются для поддержки систем интеллектуального анализа, которые выдают информацию, содержащуюся в тексте в имплицитном виде, либо генерируют новую информацию, которой нет в тексте. В качестве примера можно привести разработанную нами онтологию для системы автоматического анализа мнений пользователей о коммерческих продуктах [Опыт, 2011]. Эта онтология представляет собой пятиуровневую иерархию, на первом уровне которой - категории,

на втором - подкатегории, на третьем -группы, на четвертом - классы, на пятом

- конкретные термины (инстанциации). К категориям относятся синтаксические термины и семантические термины. Семантические термины выражают отрицательную или положительную семантику, в то время как синтаксические термины сами по себе не имеют оценочного значения, но могут изменять интенсивность оценки, выражаемой семантическими терминами. Соответственно, отношение между синтаксическими и семантическими терминами может рассматриваться как бинарное, что позволяет выделить подкатегории с симметричным, асимметричным и обратным отношением. Ср., например, (1) verygood, verybad; (2)almostperfect, almost worthless; (3) too expensive, too modern; (4) not good, not bad. В (1) синтаксический термин very увеличивает интенсивность как положительной, так и отрицательной оценки, выражаемой семантическими терминами good и bad. В (2) синтаксический термин almost снижает интенсивность как положительной, так и отрицательной оценки, выражаемой семантическими терминами perfect и worthless. В (3) синтаксический термин too снижает интенсивность положительной оценки, выражаемой семантическим термином modern, и усиливает интенсивность отрицательной оценки, выражаемой семантическим термином expensive. В (4) синтаксический термин not меняет положительную семантику термина good на отрицательную, а отрицательную семантику термина bad - на положительную.

Интенсивность отрицательной или положительной оценки выражалась коэффициентами от 1 до 9, которые приписывались соответствующим семантическим и синтаксическим терминам. Синтаксические термины учитывались, только в том случае, если они встречались в одной клаузе с семантическими терминами, т. е. просматривались все клаузы исходного текста и выявлялись клаузы, содержащие семантические термины. Далее в этих же клаузах искались синтаксические термины. Если они находились, то словосочетаниям с семантическими и синтаксическими терминами начислялся весовой коэффициент по сумме коэффициентов синтаксического и семантического терминов. Например, весовой коэффициент словосочетания too lopsided = (-2)+(-3)=-5, где -2 - коэффициент

синтаксического термина too, -3 - весовой коэффициент семантического термина lopsided.

Онтология была связана с грамматикой линейного типа, которая выполняла следующие функции: (1) Распознавание клауз. Под клаузой понималась характерная для английского языка последовательность именного (NP) и глагольного (VP) словосочетаний. Данные типы словосочетаний распознавались на основе правил фразовой структуры типа NP ^ AjN, разработанных в английских грамматиках [Introducing, 2001, p. 16-40]. Компоненты фраз определялись по тегам частей речи, которые приписывались токенам автоматически на этапе предварительной обработки. (2) Распознавание словосочетаний с синтаксическими и семантическими терминами, которое проводилось на основе совместной встречаемости этих терминов в

одной клаузе. (3) Разрешение анафоры, которое выполнялось для личного местоимения it и неопределенно-личного one.

Разработанная в результате система анализа мнений пользователей в ответ на запрос, в котором указывалось имя оцениваемого объекта, выдавала общие коэффициенты отрицательной и положительной оценок, а также фразы с оценочными (семантическими и синтаксическими) терминами и соответствующими оценками. В качестве исходных использовались тексты чатов и форумов. На рис. 2 показаны результаты обработки текста в ответ на запрос dell. Внизу выведены оценочные термины с коэффициентами, вверху - сам текст, а в средней части - текст, разбитый на клаузы, отделяющиеся знаком решетки.

j Ta;.:v, 24 ,

Start Add to list Type Chaf

dells are so much shiltxer than hps. whys that? dells are cheaper because they suck lol.

dells are so much shittier than hps . whys that ? dells are cheaper because # they suck lol.

[ Open text ] Que* dell

<score vaIue='-13'>so much shittier</score>

<score value-4’>cheaper because</score>

</scores>

</object>

</document>

Puc. 2. Интерфейс отладочной версии системы автоматического распознавания мнений пользователей о продуктах

В данной статье мы предложили классификацию лексикографических

ресурсов, необходимых для поддержки систем автоматической обработки текстов, на основе их структурных особенностей. По этому критерию мы выделяем четыре типа ресурсов: терминологические, терминологостатистические словари, тезаурусы и онтологии. В качестве дополнительных характеристик мы также предлагаем выделить методы генерации и компьютерной реализации указанных ресурсов, и их соотнесенность с определенной предметной областью.

В процессе создания лексикографического обеспечения используются три основных типа методов генерации: динамические,

статические, гибридные. К динамическим относятся методы генерации словарей на лету, по определенному алгоритму, в результате запроса пользователя в процессе функционирования системы. Таким динамическим способом создаются терминологические словари в информационно-поисковых системах, системах автоматического реферирования текста универсального типа. Существенным

требованием в данном случае является быстродействие, поскольку пользователь не готов долго ждать результатов работы системы. Некоторые ИПС интернета выводят данные о количестве времени, затраченном на обработку запроса. К статическим относятся методы, предусматривающие создание и запись словаря в базу данных до начала функционирования системы. К процессу создания таких лексикографических ресурсов, к которым относятся терминологостатистические словари, тезаурусы и онтологии, не предъявляется требований по быстродействию. Возможны и гибридные методы, когда часть словаря закладывается заранее (например, тезаурус), а другая часть генерируется динамически на основе анализа запроса пользователя.

Компьютерная реализация лексикографического обеспечения обычно проводится в виде файлов данных, баз данных, баз знаний. Программа реферирования AutoSummarize, реализованная в виде сервисной функции текстового редактора MS Word версий XP и 2003, функционировала на основе файла стоп слов [Яцко, 2012б, с. 121], в то время как функционирование современных систем интеллектуального анализа текста требует не только сложно структурированной базы данных, представляющей онтологию, но и базы знаний, включающей грамматические правила. В целом наблюдается закономерная тенденция к усложнению баз данных и знаний, и их использованию в системах различных типов. Актуальной проблемой является разработка грамматик линейного типа для выполнения местоименной субституции в процессе разрешения анафоры, что имеет непосредственное значение для повышения эффективности систем автоматического реферирования и информационного поиска [Там же. С. 95-100]. Не менее важным представляется разработка семантических словарей, в которых терминам приписываются семантические признаки типа ±abstract, ±human. Большое значение для развития всей предметной области имеет и разработка ролевых грамматик и исследование когнитивных ролей, которые используются в системах интеллектуального анализа текста и в фактографических ИПС [Там же. С. 36-37].

Решение данных проблем, как мы полагаем, требует тесной связи с теоретической лингвистикой и соответствующей ориентации

проводимых в ее рамках диссертационных исследований.

Библиографический список

1. Алгоритмы предварительной обработки

текста : декомпозиция, аннотирование,

морфологический анализ [Текст] / ВА. Яцко, М.С. Стариков, Е.В. Ларченко [и др.] // Научнотехническая информация. Сер.2. - 2009. - № 11. -С. 8-18.

2. Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска [Электронный ресурс] / Б.В. Добров, Н.В. Лукашевич // Web journal of formal, computational and cognitive linguistics. - 2006. - Режим доступа : http://fccl.ksu.ru/fcclpap.htm (дата обращения :

30.01.2012).

3. Николаев, В.Г. Узкоспециализированные поисковые интернет-системы [Электронный ресурс] /

B.Г. Николаев. - 2010. - Режим доступа : http://www. in-internet.narod.ru/teor/poisk3.html (дата обращения :

30.01.2012).

4. Опыт разработки онтологии для автоматического анализа мнений пользователей о коммерческих продуктах [Текст] / ВА. Яцко, М.С. Стариков // Научно-техническая информация. Сер.2. - 2011. - № 7. -

C. 9-14.

5. Яцко, В.А. Симметричное реферирование : теоретические основы и методика [Текст] / ВА. Яцко // Научно-техническая информация. Сер.2. - 2002. - №5.

- C. 18-28.

6. Яцко, В.А. Aлгоритмы и программы автоматической обработки текста [Текст] / ВА. Яцко // Вестник ИГЛУ - 2012а. - № 1. - C. 150-161.

7. Яцко, В.А. Проблемы предварительной обработки и автоматического анализа текста : монография [Текст] / ВА. Яцко. - Aбакан : Журналист, 20126. -178 с.

8. About WordNet [Electronic resource] // The Trustees of Princeton University. - 2012. - URL : http://word-net.princeton.edu (дата обращения : 30.01.2012).

9. Introducing English grammar [Текст] / K. Borjars, K. Burridge. - London; New York : Oxford University Press, 2001. - 311 p.

10. Kilgarriff, A. BNC database and word frequency

lists [Electronic resource] / A. Kilgarriff. - 1998. - URL : http://www.kilgarriff.co.uk/bnc-readme.html (дата

обращения : 30.01.2012).

11. Pedersen, Т. WordNet : Similarity [Electronic resource] / T. Pedersen. - 2008. - URL : http://wn-similarity.sourceforge.net (дата обращения : 30.01.2012).

12. Pretorius, A.J.Ontologies - introduction and overview [Electronic resource] / A.J. Pretorius. 2004. -URL : http://www.starlab.vub.ac.be/teaching/Ontologies_ lntr_Overv.pdf (дата обращения : 30.01.2012).

13. SurveysPaid - get paid taking surveys at home [Electronic resource] / SurveysPaid. - 2012. - URL : http:// www.surveyspaid.com (дата обращения : 30.01.2012).

Лексикографические ресурсы для автоматической обработки текстов Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Яцко Вячеслав Александрович

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Яцко Вячеслав Александрович

LEXICOGRAPHIC RESOURCES FOR TEXT PROCESSING

Текст научной работы на тему «Лексикографические ресурсы для автоматической обработки текстов»