Научная статья на тему 'Метод извлечения технических терминов с использованием меры странности'

Метод извлечения технических терминов с использованием меры странности Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
723
190
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИЗВЛЕЧЕНИЕ ТЕРМИНОВ / СТРАННОСТЬ / ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВ

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Клышинский Э. С., Кочеткова Н. А.

В данной статье предлагается метод извлечения терминов из технических текстов. Метод основан на применении морфологических шаблонов и меры странности. Метод протестирован на корпусе статей журнала «САПР и графика».

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод извлечения технических терминов с использованием меры странности»

Метод извлечения технических терминов с использованием меры странности

Клышинский Э.С., Кочеткова H.A.

Московский институт электроники и математики НИУВШЭ [email protected], natalia k [email protected]

Аннотация. В данной статье предлагается метод извлечения терминов из технических текстов. Метод основан на применении морфологических шаблонов и меры странности. Метод протестирован на корпусе статей журнала «САПР и графика».

Ключевые слова: извлечение терминов, странность, извлечение знаний из текстов

1 Введение

Терминологические словари необходимы для решения таких задач как индексирование, реферирование, классификация документов, извлечение знаний и информационный поиск. Постоянный рост количества информации, активное развитие новых направлений и областей знания требуют непрерывного пополнения терминологических словарей для поддержания их в актуальном состоянии. Это делает особенно важной задачу автоматического выделения терминов из корпусов текстов. Выделенные таким образом термины могут использоваться для создания и развития терминологических ресурсов и для эффективной обработки документов.

На данный момент существует множество работ, посвященных автоматизированному извлечению терминов, для многих языков. Так в [Ahrenberg, 2009] приведен сравнительный обзор для английского, в [Bonin et al., 2010] для итальянского, в [Bourigault, 1992] для французского языка. Наиболее эффективные для русского языка методы и их подробная оценка приведены в работах [Браславский и др., 2008] и [Лукашевич и др., 2010]. Однако в качестве тестовых корпусов в этих работах были выбраны новостные статьи и гуманитарные журналы, поэтому возник вопрос применимости описанных методов к техническим текстам. Целью исследования было выбрать оптимальный по затратам и качеству метод выделения терминов из технических текстов.

Процесс автоматизированного получения терминологического словаря должен состоять из трех этапов:

1) Формирование текстового корпуса.

2) Применение методов извлечения терминов.

3) Проверка и исправление результатов экспертами.

Задача формирования репрезентативных корпусов предметных областей в данной статье не рассматривается.

Большинство существующих методов извлечения терминов из текста работают в два шага. На первом шаге извлекаются все возможные кандидаты в термины. На втором осуществляется фильтрация истинных терминов.

На первом шаге используются морфологические, синтаксические и лексические критерии отбора, такие как морфологические шаблоны, синтаксические шаблоны и списки стоп-слов соответственно.

На этапе фильтрации применяются статистические критерии, машинное обучение и списки ключевых слов.

Многие работы посвящены выделению терминов заданной длины: однословных [Лукашевич и др., 2010; Ягунова и др., 2014], двухсловных [Браславский и др., 2006]. Так же часто встречается подход, отбирающий максимально длинные термины [Bourigault, 1992].

В след за [Браславский и др., 2008] нас интересует метод, который может быть использован для выделения терминов произвольной длины. В связи с этим широко распространённые статистические меры не применимы (для терминов длины более 3 не существует формул Ml, t-score). Более того при увеличении длины термина падает частота его встречаемости. Кроме того, для выделения терминов произвольной длины, требуется не накладывать строгих ограничений на структуру. На этапе выделения терминов-кандидатов мы используем минимум информации о структуре и составе терминов, не используем словари, онтологии и другие семантические ресурсы.

2 Исходные данные

В качестве исходного технического корпуса были выбраны статьи журнала «САПР и графика» [САПР и графика, 2000 - 2013]. Корпус содержит примерно 4500 статей разных авторов по CAD системам, а также смежным областям, опубликованных в журнале «САПР и графика» с 2000 по 2013 год. Объем корпуса составил около 5 млн. токенов.

Тексты анализировались в формате plain text. Корпус обрабатывался как единый документ, без учета разбиения на отдельные статьи. Морфологическая обработка осуществлялась с помощью программы Кросслейтор.

3 Метод извлечения терминов

Основу предлагаемого метода составляет предположение, что большинство терминов представляют собой именные группы, которые часто встречаются в текстах заданной предметной области и редки или отсутствуют в текстах других областей.

3.1 Этап отбора

Исходя из предположения, что большинство терминов представляют собой группы существительного, было введено ограничение: термины могут состоять только из существительных, прилагательных, причастий, порядковых числительных, предлогов и союза «и». Наречия и местоимения не разрывали термин, но и не входили в его состав, а игнорировались.

Слова, составляющие извлекаемые словосочетания, приводились к нормальной форме.

Следуя этому шаблону, из выбранного корпуса было извлечено 84915 уникальных кандидатов в термины.

3.2 Этап фильтрации

На первом шаге фильтрации отсеивались все сочетания, частота которых была меньше 3. Хотя некоторые термины в корпусе могли встретиться всего 1-2 раза, и, следовательно, не пройти этот фильтр, это скорее является вопросом формирования репрезентативного корпуса, нежели извлечения знаний из него.

Было решено не использовать существующие терминологические словари, следовательно, применение методов машинного обучения с учителем не возможно. Эти методы нами не рассматривались так же и по той причине, что применение лексических методов требует наличия списков ключевых слов, то есть предварительных знаний.

Среди статистических методов самыми перспективными по оценкам, приведенным в работах [Ahrenberg, 2009], [Браславский и др., 2008], являются C-value, tf-idf, weirdness.

3.3 Обзор мер терминологичности

C-value - метод выделения многословных терминов [Ananiadou, 1994], поощряет словосочетания, не входящие в состав других, более длинных. Встречаемость длинных терминов в тексте ниже, чем коротких, и метод С-value был предложен для компенсации этого эффекта. Значение рассчитывается так:

C-value(a)= log2lal*freq(a), если не вложен

log2lal*freq(a)-l/p(Ta)*Xfreq(b), где а - кандидат в термины,

lal - длина словосочетания, измеряемая в количестве слов, freq(a) - частотность а,

Та - множество словосочетаний, которые содержат а, Р(Та) - количество словосочетаний, содержащих а. £freq(b) - сумма частот всех сочетаний, содержащих а. Чем больше частота термина-кандидата и его длина, тем больше его вес. Но если этот кандидат входит в большое количество других

словосочетаний, то его вес уменьшается. Однако для технических терминов подобное утверждение зачастую неверно, так как части термина сами по себе могут являться терминами.

Для примера частоты и С-value для терминов содержащих сочетание «программное обеспечение» приведены в таблице 1.

Таблица 2. Параметры терминов включающих в себя подстроку «программное

обеспечение»

Термин Частота С-value

программный обеспечение 272 175

разработчик программный обеспечение 12 19

лицензионный программный обеспечение 6 10

Мера Tf*idf позволяет снижать вес общеупотребимых слов. Tf - это частота слова в корпусе. Idf - обратная подокументная частота слова.

Tf*Idf (w) = Tf * log ((n - b) / b), где n - размер контрастной коллекции, b - число документов, в которых употреблялось слово w в контрастной коллекции.

Эксперимент показал, что в контрастной коллекции большинство истинных терминов не встречается вообще, что приводит к 0 в знаменателе.

В связи с этим был выбран другой метод сравнения с контрастной коллекцией текстов - Странность (Weirdness) [Ahmad, 1999]

Данный признак учитывает пропорциоальное соотношение частотности употребления слова в рабочей текстовой коллекции по сравнению с контрастной коллекцией

Пусть w - слово. Тогда

Weirdness(w) = (Ws / Ts) / (Wg / Tg), где

Ws - частотность слова в коллекции предметной области;

Ts - совокупная частотность слов в коллекции предметной области;

Wg - частотность слова в контрастной коллекции;

Tg - совокупная частотность слов в контрастной коллекции.

В классическом варианте так же возможно Wg = 0, чтобы избежать этого мы модифицировали формулу:

Weirdness(w) = (Ws / Ts) / (Wg + Ws / Tg + Ts)

Обозначения те же.

3.4 Эксперимент

Для экспериментов были выбраны две контрастные коллекции:

1) Библиотека Мошкова - 560,3 млн. словоупотреблений.

2) Выборка librusec.ru за 2013 год - около 840 млн. словоупотреблений.

Для подсчета итогового рейтинга была произведена следующая нормировка значений:

1) каждое значение странности по библиотеке Мошкова поделить на максимальное значение странности по библиотеке Мошкова

2) каждое значение странности по выборке ИЬшвес поделить на максимальное значение странности по выборке ИЬшвес

3) каждое значение частоты поделить на максимальное значение частоты

4) пункты 1,2,3, перемножить для каждой позиции

5) полученное в пункте 4 значение поделить на максимальное значение, полученное в пункте 4.

Для получения итого рейтинга использовался мультипликативный критерий, так как, согласно предположению, термином является частотное для предметной области сочетание являющееся «странным», то есть редким, в текстах других областей.

4 Результаты экспериментов

Для оценки результатов была выбрана 1000 сочетаний, получивших наибольшие значения мультипликативной меры. Как уже отмечалось выше, оценка по словарю не проводилась. Экспертная оценка точности в зависимости от строгости критериев терминологичности колеблется от 75% до 89%. Стоит отметить, что оценка точности выделения проводилась экспертами в смежной предметной области.

Часть ошибок объясняется не совсем чистым корпусом предметной области, в статьях журнала встречаются статьи экономического характера и презентации новых программных продуктов.

Использование в качестве контрастной коллекции подобных по жанру текстов смежных областей должно существенно повысить качество извлекаемых терминов.

Повысить точность метода можно применением списков стоп слов. Так же при повышении порога частоты до 5 наблюдается существенное улучшение качества (порядка 10%).

Топ 10 терминов представлены в таблице 2.

Таблица 2. Топ 10 терминов с характеристиками

Термин Частота АУеш^евв по библиотеке Мошкова Weirdness по Iibrusec.ru Мультипликативная мера

ПОЛЬЗОВАТЕЛЬ 2926 46,95 2646,8 0,998

ПРОЕКТИРОВЩИК 542 74,15 3245,8 0,358

ПРОЕКТИРОВАНИЕ 538 76,49 3113,6 0,352

САПР 312 86,92 3516,6 0,262

ТЕХНОЛОГ 413 75,05 2733,5 0,233

ПРОГРАММНЫЙ 234 78,98 3825,2 0,197

ПРОДУКТ

МОДУЛЬ 644 49,86 1716,8 0,151

РАЗРАБОТЧИК 454 67,64 1713,2 0,145

СИСТЕМА 3168 21,52 740,2 0,138

МОДЕЛИРОВАНИЕ 253 67,15 2688,6 0,125

5 Список литературы

[Ahmad, 1999] Ahmad, К.; Gillam, L.; and Tostevin, L. University of surrey participation in trec8: Weirdness indexing for logical document extrapolation and retrieval (wilder). In The Eighth Text Retrieval Conference (TREC-8).

[Ahrenberg, 2009] Lars Ahrenberg Term Extraction: A Review, 2009 // http://www.ida.liu.se/~lah/Publications/tereview_v2.pdf

[Ananiadou, 1994] Ananiadou S. A methodology for automatic term recognition // In the Proceedings of COLING-1994, 1994. pp. 1034-1038.

[Bonin et al., 2010] Francesca Bonin, Felice Dell'Orletta, Giulia Venturi, Simonetta Montemagni A Contrastive Approach to Multi-word Term Extraction from Domain Corpora. //In Proceedings of the LREC 2010, Seventh International Conference on Language Resources and Evaluation, 2010

[Bourigault, 1992] Bourigault D. Surface Grammatical Analysis for the Extraction of Terminological Noun Phrases // In Proceedings of the COLING-92, 1992. P. 977-981.

[Браславский и др., 2006] Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2006. М.: Изд-во РГГУ, 2006. С. 88-94.

[Браславский и др., 2008] Браславский П.И., Соколов Е.А. Сравнение пяти методов извлечения терминов произвольной длины// Компьютерная лингвистика и интеллектуальные технологии: Труды Междунар. конф. Диалог'2008. М.: Изд-во РГГУ, 2008. С. 67-74.

[Лукашевич и др., 2010] Лукашевич Н.В., Логачев Ю.М. Использование методов машинного обучения для извлечения слов-терминов //В кн.: Одиннадцатая национальная конференция по искусственному интеллекту с международным участием КИИ-2010.

[САПР и графика, 2000 - 2013] Журнал «САПР и графика» //http://www.sapr.ru/

[Ягунова и др., 2014] Ягунова Е.В., Пивоварова Л.М., Савина А.Н. Особенности однословной терминологии междисциплинарной предметной области «Интеллектуальные технологии и компьютерная лингвистика» // Сб. трудов научно-практического семинара «Новые информационные технологии в автоматизированных системах-17», М.: МИЭМ НИУ ВШЭ, 2014, сс. 357-364.

i Надоели баннеры? Вы всегда можете отключить рекламу.