О разметке корпусов текстов ключевыми словами
Ванюшкин А.С., Псковский государственный университет [email protected] Гращенко Л.А., Академия ФСО России [email protected]
Аннотация
В статье обсуждаются практические аспекты разметки ключевыми словами текстовых корпусов, предназначенных для решения задачи разработки и оценивания алгоритмов извлечения ключевых слов. На основе рассмотрения процесса разметки как разновидности экспертного оценивания формулируются требования к автоматизированной системе разметки. Предлагается вариант такой системы, поддерживающей разметку на принципах краудсорсинга.
1 Введение
Для объективного сравнения алгоритмов извлечения ключевых слов (КС), созданных разными авторами в рамках множества подходов, необходимо проводить их тестирование на одних и тех же специализированных текстовых корпусах (ТК), предварительно размеченных КС. Однако если для оценки применимости решений к англоязычным текстам можно выбрать вариант из ранее апробированных и размеченных ключевыми словами ТК, то применительно к русскому языку такой корпус в открытом доступе не представлен. Поэтому создание подобных лингвистических ресурсов актуально и, в частности, создание двуязычного корпуса уже идет, необходимо лишь разметить его КС.
Разметка текстов ключевыми словами может осуществляться непосредственно их авторами, группой экспертов по тематике текста или при помощи широкой общественности. Оценка алгоритмов не должна основываться только на наборах КС, выделенных авторами, поэтому разумнее использовать либо КС, выделенные несколькими экспертами, либо комбинировать ключевые фразы, выделенные разными способами [Ванюшкин, Гращенко, 2017]. Однако здесь возникает ряд вопросов: кого относить к категории экспертов, какое количество экспертов необходимо и каким способом их привлекать к разметке.
Учитывая опыт работы исследователей в данной области следует отметить ряд требо-
ваний к программным средствам, с помощью которых осуществляется разметка:
—позволять выполнять разметку максимально просто и эффективно;
—предоставлять возможность одновременной разметки одного документа несколькими людьми;
—предоставлять широкие функции администрирования и настройки системы с учетом специфики конкретных задач (текстов);
—отображать текущий прогресс процесса разметки;
— позволять осуществлять проверку экспертов выполнением тестовых заданий.
В данной работе будут обсуждены практические аспекты реализации автоматизированных систем разметки текстов ключевыми словами, а также предложено описание авторского варианта такой системы.
2 Подходы к разметке 2.1 Терминология
Лингвистическая разметка ТК бывает внешней (метаразметкой) и внутренней (собственно лингвистической), при этом синонимами выступают понятия тэггинг и аннотирование [Leech, 1993]. Несмотря на то, что в иностранной литературе зачастую понятия annotation, markup и tagging используются взаимозаменяемо, именно аннотирование относится к внешней разметке.
В литературе приводятся различные определения аннотирования. Согласно ГОСТ 7.7696 это процесс составления аннотации, а сама аннотация - краткая характеристика документа, поясняющая его содержание, назначение, форму, другие особенности. Если семантика аннотации выражена явным образом, то такая аннотация - семантическая [Когалов-ский, Паринов, 2017]. Таким образом, процесс формирования списка КС является видом сематического аннотирования. С другой стороны, сопоставление тексту набора КС может быть выполнено в форме, которая больше соответствует внутренней разметке, то есть явному указанию (выделению) непо-
средственно в тексте слов и фраз, ёмко описывающих его содержание.
Таким образом, разметка текстов ключевыми словами обладает особенностями, свойственными как внешней, так и внутренней лингвистической разметке, что требует учета на практике.
2.2 Аннотирование и экспертное оценивание
В общем виде в работе [Oren et al., 2006] выделяют три вида аннотаций: неформальные, формальные и онтологические. Неформальная аннотация описывается на естественном языке и поэтому обычно не обрабатывается программно. Формальные аннотации составляются с использованием специальных языков, что позволяет выполнять их программную обработку. Онтологические аннотации основываются на концептуальных моделях, называемых онтологиями. Там же
представлено формальное определение аннотации. Аннотация документа - это набор {а, Ь, с, где а - субъект аннотирования (метаданные), с - объект аннотирования (данные для аннотирования), Ь - логическое выражение (предикат), определяющее связь между а и с, и d - контекст в котором производится аннотирование. Каждый из приведенных компонентов может быть формальным и неформальным.
Формирование аннотаций группой размечающих лиц относится к задачам экспертного оценивания. Экспертные оценки представляют собой процедуры получения оценок проблемы на основе мнения специалистов (экспертов) с целью последующего принятия решения (выбора). На основе известной классификации экспертных оценок [Данелян, 2015], характеристика задачи аннотирования текстов КС может быть представлена рис. 1.
Аналитические
НепосредстЕ
Оценивающие
Ранжирующие
Идейные
J
Без ограничения Ограниченные
По способу обработки мнений По типу ответа По количеству экспертов
т
лт Воды экспертных оценок
По количеству этапов По форме участия По решаемым задачам
а
Одчошаговые
Итерационные
Заочное
)
Очное
Оценивающие варианты
Генерирующие решения
Рис. 1. Задача выделения ключевых слов с точки зрения экспертного оценивания
Обращает внимание проблема подбора экспертов для проведения исследований -эксперты должны не только обладать опытом в соответствующих областях, но и иметь личную заинтересованность.
Методы экспертных оценок разделены на две группы: коллективные и индивидуальные. Разметку корпуса КС следует отнести ко второй по причине сложности формирования групп. К методам индивидуальной оценки, в частности, относятся методы:
1) Аналитический - самостоятельная работа эксперта;
2) Интервью - беседа в формате «вопрос-ответ»;
3) «Дельфи» - многоуровневый индивидуальный опрос. Предполагает итерационную
(3-4 цикла) работу экспертов с обработкой результатов и сообщением их экспертам.
Большинство современных средств разметки ТК предполагают использование аналитического метода.
Обработка результатов происходит методами математической статистики, где решаются следующие задачи:
1) формирование обобщенной оценки;
2) определение относительных весов оценок;
3) установление степени согласованности мнений экспертов и др.
2.3 Привлечение общественности
Существует множество работ, в которых использовалось привлечение общественности
(краудсорсинг) для различных видов аннотирования. Основная цель - создание тестовых данных для задач обработки текстов на естественных языках. Преимуществами краудсор-синга перед привлечением экспертов являются относительная быстрота и низкая стоимость. Однако на данный момент не существует универсальной схемы подготовки, проведения и обработки результатов такого рода проектов. Процесс краудсорсинга может быть условно разделен на четыре основных этапа [8аЬои й а1., 2014], рис. 2.
Рис. 2. Этапы краудсорсинга
Первый этап - определение типа проекта, оценка времени исполнения, выработка требований к размечающим лицам. После этого необходимо разделить задачу аннотирования на несколько простых и понятных для не являющегося экспертом пользователя этапов. Действительно, интуитивно понятный интерфейс приводит к лучшим результатам.
Второй этап - сбор и подготовка данных для обработки, разработка программных средств. Затем необходимо проведение пилотного запуска и возвращение системы на доработку в случае необходимости.
Основой этап - выполнение разметки. Задачи выбора участников, их количества и мотивация является ключевыми факторами успешного проекта.
На заключительном шаге необходимо произвести анализ полученных результатов, что обсуждалось в предыдущем параграфе.
В зависимости от способа привлечения размечающих краудсорсинг можно разделить на три категории: ручная работа, где размечающие вознаграждаются финансово; игровой формат - задание представлено в виде игры и бескорыстный труд.
3 Предлагаемое решение
На данный момент в открытом доступе представлены различные программные сред-
ства для разметки корпусов, большинство из которых веб-ориентированные. Разметка КС является более узкоспециализированной задачей относительно возможностей существующих средств аннотирования, однако обладает рядом требований, которые необходимы для качественной разметки, среди которых:
—учет затраченного размечающими лицами времени на каждый текст;
—ориентация именно на «разметку», а не «приписывание» КС, с возможностью выбора режима;
— запрет выделения последовательности слов, разделенных знаками пунктуации;
— возможность привлекать как экспертов, так и общественность (самостоятельная регистрация без участия администратора).
При разработке средств аннотирования одной из рекомендаций является использование инструментов на основе веб-технологий [Хоай, Тузовский, 2013]. Поэтому для продолжения исследований создано новое узконаправленное средство разметки в виде веб-приложения. Архитектура системы в целом представлена на рис. 3.
Рис. 3. Архитектура системы разметки
Функциональность реализована в виде клиент-серверной архитектуры с использованием сервера IIS. Серверная часть реализована на языке C# во взаимодействии с сервером БД MS SQL, клиентская - с помощью механизма Razor ASP.NET, языка JavaScript и библиотеки jQuery.
Для начала работы пользователю с правами администратора необходимо создать проект, добавить документы для разметки в формате
plain text и определить пользователей, которые могут участвовать в разметке, рис. 4. Использование кодировки utf-8 для исходных файлов позволяет адаптировать платформу для разметки текстов на широком диапазоне языков.
Рис. 4. Редактирование проекта по разметке текста
Разметка ключевыми словами осуществляется выделением мышкой участка текста, который пользователь посчитал нужным для добавления в список КС, рис. 5.
Рис. 5. Процесс разметки текста
При разработке систем аннотирования необходим этап совместной работы с экспертами и лингвистами для тестовых испытаний и
выработки окончательных принципов разметки [Загуролько, Кононенко, Сидорова, 2012]. На момент написания статьи приложение находится в завершающей стадии разработки и подготовке к тестированию.
4 Выводы и предложения
В рамках работы по разметке ключевыми словами англо-русского корпуса разработано новое средство аннотирования на основе веб-технологий. Возможности программы позволят подготовить данные для агрегации и окончательной разметки подготавливаемого корпуса.
Дальнейшая исследовательская работа будет направлена на анализ полученных с помощью системы данных, разработки и выбора модели разметки и испытания существующих алгоритмов извлечения КС на новом корпусе.
Список литературы
Ванюшкин, А.С. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы / А.С. Ванюшкин, Л.А. Гращенко // Новые информационные технологии в автоматизированных системах. - 2017. - №. 20 - С. 95-102.
Данелян, Т.Я. Формальные методы экспертных оценок / Т.Я. Данелян // Экономика, статистика и информатика. Вестник УМО. - 2015. - №. 1 -С. 183-187.
Загорулько, М.Ю. Система семантической разметки корпуса текстов в ограниченной предметной области / М.Ю. Загорулько, И.С. Кононенко, Е.А. Сидорова // Компьютерная лингвистика и интеллектуальные технологии. Труды XVIII Международной конференции «Диалог 2012»: в 2-х томах. - Т. 1 -№. 11(18) - С. 674-683.
Когаловский, М.Р. Семантическое аннотирование информационных ресурсов в научной электронной библиотеке средствами таксономий / М.Р. Когаловский, С.И. Паринов // CEUR Workshop Proceedings. - 2017. - Vol. 2022 - pp. 301310.
Хоай, Л. Семантическое аннотирование документов в электронных библиотеках / Хоай Л., Тузовский А. Ф. // Известия Томского политехнического университета. - 2013. - Т. 322 - №. 5 - С. 157-164.
Leech, G. Corpus annotation schemes / G. Leech, // Literary and Linguistic Computing. 1993. № 8(4). pp. 275-281.
Oren, E. What are Semantic Annotations / E. Oren, K.H. Moller, S. Scerri, S. Handschuh, M. Sintek.
2006. URL: http://www.siegfried-
handschuh.net/pub/2006/whatissemannot2006.pdf.
Sabou, M. Corpus Annotation through Crowdsourc-ing: Towards Best Practice Guidelines / M. Sabou, K. Bontcheva, L. Derczynski, A. Scharl // Proceedings of the ninth international conference on language resources and evaluation (LREC'14) - 2014. - pp. 859-866.