Научная статья на тему 'Метод тематического связанного ранжирования для задач реферирования сообщений'

Метод тематического связанного ранжирования для задач реферирования сообщений Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
240
30
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СВОДНОЕ РЕФЕРИРОВАНИЕ / АВТОМАТИЧЕСКОЕ СВОДНОЕ РЕФЕРИРОВАНИЕ / СВОДНЫЙ РЕФЕРАТ / МЕТОДЫ И АЛГОРИТМЫ АВТОМАТИЧЕСКОГО СВОДНОГО РЕФЕРИРОВАНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тарасов Сергей Дмитриевич

Дан обзор современных методов и алгоритмов автоматического сводного реферирования. Рассмотрен разработанный автором метод тематического связанного ранжирования для задач автоматического сводного реферирования

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An approach to modern methods and algorithms of multidocument summarization is described. In this paper the method developed by the author thematically related rankings to automatically generate summary abstracts is considered.

Текст научной работы на тему «Метод тематического связанного ранжирования для задач реферирования сообщений»

УДК 004.912

С.Д. Тарасов

МЕТОД ТЕМАТИЧЕСКОГО СВЯЗАННОГО РАНЖИРОВАНИЯ ДЛЯ ЗАДАЧ РЕФЕРИРОВАНИЯ СООБЩЕНИЙ

Задача автоматического построения сводных рефератов на сегодняшний день является очень актуальной. Это вызвано, в первую очередь, необходимостью в условиях постоянного роста информации знакомить специалистов и других заинтересованных людей с необходимыми им документами, представленными в сжатом виде, но с сохранением смысла. В 50-х гг. прошлого века появился термин «информационный взрыв» - резкое увеличение объёма информации, которую должен воспринять, хранить и использовать человек в процессе своей трудовой деятельности. Угроза лавинообразного роста объёма информации послужила толчком к целому ряду научных исследований в области автоматической классификации и реферирования информации, однако, результаты этих исследований не получили широкого распространения в силу ограниченности средств вычислительной техники и отсутствия на тот момент должного развития сетевых технологий. Классическое реферирование - процесс сжатия текстового документа и получение реферата, в котором сохраняется смысл оригинала. Наибольший интерес представляют обзорные или сводные рефераты, составляемые на некоторое множество документов, содержащие основные положения из этих документов [1]. Использование сводных рефератов вместо первоисточников позволяет эффективнее работать с большими объёмами информации. Одной из наиболее приоритетных областей применения методов автоматического сводного реферирования является подготовка аналитических справок и информационных бюллетеней в виде сводных рефератов в задачах обеспечения требуемой информационной поддержки для лиц, принимающих управленческие решения.

Обзор существующих методов сводного реферирования

Все существующие методы реферирования как классические (по одному документу), так и сводные (обзорные по набору документов), можно разделить на два направления:

квазиреферирование (Sentence extraction);

генерация реферата с порождением нового текста (Abstraction).

Квазиреферирование основано на экстрагировании фрагментов документов - выделении наиболее информативных предложений (иногда -фраз и словосочетаний) и формировании из них квазирефератов. Методы генерации реферата с порождением нового текста основываются на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождении новых текстов, содержательно обобщающих первичные документы. Семантические методы формирования рефератов-изложений допускают два основных подхода: метод синтаксического разбора предложений, и методы, базирующиеся на понимании естественного языка, методах искусственного интеллекта. В силу ограниченности на практике методов понимания естественного языка, а также отсутствия необходимой базы семантических словарей достаточного объёма и содержания, данные методы на сегодняшний день не получили значительного распространения. Большинство современных методов реферирования, имеющих практическую реализацию, относятся к направлению квазиреферирования.

Задача получения сводных рефератов, в которых были бы представлены все основные вопросы, затрагиваемые в каждом документе, но в обобщенном виде без повторения информации, - намного более сложная задача, чем традиционное автоматическое реферирование одного документа, даже очень большого объёма. Во-первых, это связано с неизбежной разнородностью формулировок тем документов, на которые, как правило, ориентированы методы автоматического сводного реферирования. Во-вторых, для сводного реферирования отдельной задачей является метод упорядочивания предложений, отобранных для включения в сводный реферат. Предложения могут выбираться из разных документов и в общем случае, как правило, не составляют связный текст.

За рубежом в рамках конференций по проблемам автоматического аннотирования DUC (Document Understanding Conference) и текстового реферирования TSC (Text Summarization Challenge) данному направлению исследований придаётся очень большое значение. Автоматическое сводное реферирование реализовано в таких системах:

«NewsBlaster» (http://www.newsblaster.com/);

«Ultimate Research Assistant» (http://ultimate-research-assistant.com);

«iResearch Reporter» (http://iresearch-reporter. com/);

Новостных порталах: «Google News» (http:// news.google.com/), «Яндекс. Новости» (http:// news.yandex.ru/), «Рамблер. Новости» (http://news. rambler.ru) и др.

На сегодняшний день предложено большое количество различных методов получения сводных рефератов. В традиционных методах реферирования чаще всего используются различные модификации подхода Г. Луна [2], известного с конца 50-х гг. XX в., заключающегося в отборе предложений с наибольшим весом для включения их в реферат. Вес предложения определяется как сумма частот, входящих в него значимых слов (с учётом закона Ципфа). Предложены методы, в которых вместо слов используются словосочетания, концепты тезауруса [3, 4]. К наиболее перспективным можно отнести методы, описывающие связную модель текста документов с помощью формального математического аппарата. Данные методы, как правило, не привязаны к особенностям конкретного языка, не требуют большого количества лингвистических ресурсов.

В результате анализа были сформулированы следующие критические недостатки существующих подходов, которые необходимо исправить для достижения требуемого качества реферирования, а также для расширения сферы применения метода:

Большинство существующих методов требуют большого количества различных лингвистических ресурсов (толковые, лексические и частотные словари, грамматики, тезаурус). Большая сложность естественных языков не позволяет создать достаточно полные формализованные лингвистические ресурсы, необходимые для работы алгоритмов автоматического реферирования.

Большинство существующих методов ориентировано на особенности конкретного естественного языка.

В существующих методах либо вообще не рассматривается вопрос о формировании связного текста итогового реферата, либо ему уделяется недостаточное внимание.

Большинство подходов требуют ручной корректировки со стороны экспертов-лингвистов.

Существующие средства анализа и синтеза текста на естественном языке, используемые рядом методов сводного реферирования, находятся на ранней стадии своего развития и не позволяют использовать данные методы в целях, отличных от научно-исследовательских.

Ряд алгоритмов требует значительных вычислительных ресурсов, что нежелательно при их использовании в реальных условиях обработки больших объёмов данных.

Необходимость учёта вышеперечисленных недостатков, а также исследование качества автомагического и ручного сводного реферирования определяют требования к новым эффективным методам и алгоритмам:

минимальная потребность в лингвистических ресурсах (словарях, грамматиках и т. д.);

отсутствие привязки к особенностям конкретного естественного языка;

метод должен обеспечивать не только сжатие информации и выделение из текста наиболее значимых предложений, но и формирование из этих предложений связного текста;

метод должен обеспечивать полностью автоматическое порождение текста реферата без необходимости последующей корректировки со стороны эксперта;

алгоритм должен быть прост с вычислительной точки зрения, чтобы его можно было использовать в реальных задачах автоматического реферирования больших объёмов данных в условиях ограниченного времени.

Метод тематического связанного ранжирования

Суть разработанного автором метода тематического связанного ранжирования заключается в отборе предложений из исходных документов, наиболее полно отражающих темы этих документов, при этом:

1. Для предварительного ранжирования предложений документов относительно тем может быть использован любой алгоритм, например, алгоритм Луна. Автором был использован алгоритм Manifold Ranking [5].

2. Темы, которые плохо отражают суть документа, исключаются. По результатам анализа такие темы имеют очень слабую связь с текстом документа.

3. Для обеспечения связности полученного реферата каждое последующее предложение реферата связано с предыдущим некоторой общей темой.

4. Для обеспечения уникальности каждого предложения, каждое последующее предложение отражает основную тему предыдущего предложения, а также некоторую новую тему, отличную от предыдущей.

5. Для разрешения анафорических связей предложения, содержащие анафорическую связь, игнорируются, если предыдущее предложение уже не содержится в реферате.

Рассмотрим метод более подробно. Для набора документов _0={Б}, где Т. - тема документа Б. вычисляется матрица Е = где столбцы

соответствуют векторам ранга соответствующих предложений относительно заданных тем. Например, для кластера из двух документов по два предложения, первое и третье из которых используются как темы:

0,9

^2,4 я = 0,7 ^3,40,3 ¡54,4 0,21

Ш — 7

^3,1

§2 р.

^1,3 ^92,3

^43

о о о о

0,12 0

0,33 0

0,7 0'

0,5 0

где

вектор ранжирования

, „ , , }T предложений кластера относительно предложения j (темы T). Если для ранжирования используется метод Manifold Ranking, то ^ вычисляется итеративно:

| (t + 1) = а ■ S • | (t) + (1 - ay ,

где вектор у, = [ yy .j, где yj = 1, иу'=0, ie (1, n), i ф j для всех остальных предложений; а - коэффициент передачи ранга от источника; S - нормализованная матрица связей между предложениями. Традиционно в качестве матрицы связей использовалась:

где

W.. = sim(x. ,x), 'j i' j"

--Х=

sim(Xj,Xj) =

|Х;|| ■ Xj

Xi = [t/o' ^

где t - стандартная TF-IDF мера относительной

важности терма tk. В [5] предложена модификация W = X, • W + X • W для учёта различных

1 inner 2 intra А

весов связей предложений одного документа и разных документов и S = D~m • W • D12 для симметричной нормализации полученной матрицы. Автором была предложена и реализована следующая модификация матрицы W:

W = L • W + L • W + Z ■ W , ,

1 inner 2 intra 3 path 7

где Wpahh - матрица весов удалённости предложений друг от друга в тексте.

Далее матрица Е подвергается симметричной нормализации:

Е = Z-1/2 • Е • Z-1/2,

где Z - диагональная матрица, каждый элемент которой равен сумме элементов соответствующей строки исходной матрицы Е.

В результате этого строки матрицы Е содержат коэффициенты соответствия предложений кластера заданным темам документов:

Т(ж,) = 1Вц-Т,

j=i

Например, для вышеприведённого кластера: T(Xi) = 0,9 • Ti + 0,1 • T3.

Формально, это означает, что предложение х1 отражает 0,9 темы T1 (собственной темы) и 0,1 темы предложения x3 (T3).

Алгоритм формирования связного текста итогового реферата. Для формирования связного текста итогового реферата используется следующий алгоритм:

1. На главной диагонали матрицы Е выделяется элемент, имеющий наименьшее значение. Это соответствует теме документа, наиболее сильно связанной с другими предложениями кластера. Эта тема используется как текущая основная тема T и выносится в заголовок итогового

current

реферата.

2. Главная диагональ матрицы обнуляется.

3. В current-столбце матрицы Е определяется элемент с наибольшим значением. Это

*i,current

соответствует нахождению предложения xi, наиболее близкого теме T .

current

4. Предложение x. помещается в итоговый реферат.

5. Для уменьшения ранга предложений, которые похожи на xi, а также тем, которые уже нашли отражение в итоговом реферате, выполняется следующая процедура:

£.. = £..- ш ■ S

">/ Л/

i,current ^current

L

где ш - коэффициент усечения похожих предложений (новизны); £ * - первоначальное значе-

current

ние вектора-столбца £ ,

current

6. В i-й строке матрицы выполняется поиск элемента £ с наибольшим значением. Исходя из

^next

п

T(Xj ) = ^ Sy ■ Tj выполняется поиск следующей j=i

темы Tnext, отражённой в предложении x. следующей по значимости после T .

current

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

7. Процесс переходит на шаг 3 (T = T ),

current next

пока объём итогового реферата не достигнет требуемой величины.

Кроме того в алгоритме предложения, содержащие анафорические связи, игнорируются в том случае, если предыдущее предложение документа не было включено в реферат на предыдущем шаге.

Реализация. Для научно-исследовательских целей автором был разработан программный комплекс для ручного и автоматического сводного реферирования на базе предложенного алгоритма тематического связанного ранжирования и оценки качества полученных сводных рефератов. Кроме данного алгоритма в системе были реализованы такие алгоритмы, как BasicLines [6], Manifold Ranking [7], модифицированный алгоритм Manifold Ranking [7]. Созданный автором программный комплекс «MDS Evaluation» позволяет решать следующие задачи:

1. Производить автоматическое сводное реферирование в широком диапазоне различных параметров для различных нужд.

2. Производить ручное сводное реферирование в многопользовательском режиме.

3. Производить ручную и автоматическую оценку качества сводного реферирования.

4. Сравнивать эффективность различных алгоритмов и методов.

Оценка. Традиционные методы оценки качества сводного реферирования включают в себя оценку сводного реферата по ряду критериев специалистами-лингвистами. К таким критериям относятся связность полученного текста, краткость (лаконичность), грамматическая правильность, сложность восприятия, содержание.

Однако даже простая ручная оценка качества сводного реферирования по нескольким критериям требует больших объёмов человеческих ресурсов (согласно DUC, более 3000 ч работы лингвистов), что очень дорого. Одной из наибо-

лее удачных реализации систем для автоматической оценки качества сводного реферирования можно считать пакет ROUGE [8], используемый в DUC. Набор программ позволяет автоматически рассчитывать различные метрики ROUGE (Recall-Oriented Understudy for Gisting Evaluation): ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S, ROUGE-SU. Автором были реализованы алгоритмы оценки ручных и автоматических рефератов с помощью данных автоматических метрик для русского языка.

Для экспериментальной оценки качества работы предложенного автором метода реферирования была проведена ручная и автоматическая оценка рефератов, полученных различными методами а также было выполнено построение ручных рефератов. В эксперименте приняло участие тринадцать человек (преподаватели и студенты пятого курса БГТУ «Военмех»). Эксперимент состоял из двух частей: построение ручных рефератов и их оценка. Исходными данными послужили двенадцать отобранных вручную новостных кластеров различной тематики («Россия», «Происшествия», «Наука и техника», «Спорт», «Культура» и др.) из системы «Google. News» за 2009 г. Участниками эксперимента было построено 156 ручных рефератов: каждый участник составил свой ручной сводный реферат для каждого кластера. Каждый из участников оценил все сводные рефераты (всего было получено 156 ручных и 2600 автоматических, полученных различными методами с различными параметрами) по набору формальных критериев. Кроме того была проведена автоматическая оценка всех сводных рефератов по метрикам ROUGE, для чего были использованы рефераты, построенные вручную. Результаты оценки приведены в таблице.

BL - Усреднённое значение для BasicLines (BL-1 - BL-7) - заведомо плохие рефераты [6].

Manifold - Метод Manifold Ranking [7]. Параметры: а = 0,8; Х1Д2 = 3; ю = 50.

Модифицированный Manifold - модифицированный метод Manifold Ranking [7]. Параметры: а = 0,8; ИД2 = 0,3; ю = 50.

МТСР - метод тематического связанного ранжирования, предложенный автором. Параметры: а = 0,9; Я.1Л2 = 0,3; ю = 50; Z = 0,1.

Ручное реферирование, несомненно, имеет ряд преимуществ перед автоматическим. Однако помимо крайне высокой стоимости построе-

Сравнительные результаты ручной и автоматической оценки методов сводного реферирования

BL Manifold Модифицированный Manifold MTCP Ручные

Связность 0,42 0,69 0,73 0,81 0,88

Содержание 0,45 0,78 0,78 0,83 0,84

Полнота 0,45 0,78 0,80 0,82 0,84

Общее впечатление 0,41 0,71 0,78 0,85 0,86

ROUGE-1 0,26 0,39 0,40 0,41 0,38

ROUGE-2 0,11 0,18 0,18 0,19 0,17

ROUGE-3 0,07 0,12 0,12 0,12 0,12

ROUGE-L 0,22 0,33 0,34 0,36 0,33

ния рефератов имеет и ряд других недостатков. К ним относятся: невозможность оперативного составления рефератов для очень большого количества исходных документов или документов большого объёма; невозможность оперативного составления различных рефератов с заданными свойствами (например, объём реферата); элементы субъективности, присутствующие в конечном реферате (каждый эксперт выделяет те или иные

значимые элементы и т. д.), и ряд других. Предложенный автором метод открывает возможность для построения сводных рефератов, представляющих связный текст в автоматическом режиме без использования сложных и труднодоступных лингвистических ресурсов и больших вычислительных мощностей. При этом эффективность метода и качество полученных сводных рефератов подтверждаются экспериментально.

СПИСОК ЛИТЕРАТУРЫ

1. ГОСТ 7.9-95. Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования. 2001. URL: http://www. standards.ru/document/4155011.aspx (дата обращения: 01.02.2010)

2. Luhn H.P. The Automatic Creation of Literature Abstracts // IBM Journal. 1958. Apr. P. 159-165.

3. Лукашевич Н.В., Добров Б.В. Автоматическое аннотирование новостных кластеров на основе тематического представления // Компьютерная лингвистика и интеллектуальные технологии. По матер. ежегодной Междунар. конф. «Диалог». 2009. Вып. 8 (15).

4. Абрамова Н.Н., Абрамов В.Е. Автоматическое составление обзорных рефератов новостных сюжетов // Тр. IX Всерос. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2007. Переславль-Залесский, 2007.

5. Xiaojun Wan, Jianwu Yang, Jianguo Xiao.

Manifold-Ranking Based Topic-Focused Multi-Document Summarization // DUC 2003. URL: http://www.ijcai.org/ papers07/Papers/IJCAI07-467.pdf

6. Тарасов С.Д. Исследование и оптимизация параметров алгоритма Manifold Ranking на основе метрики автоматической оценки качества обзорного реферирования ROUGE-RUS // Тр. XI Всерос. науч. конф. «Электронные библиотеки. Перспективные методы и технологии, электронные коллекции». Петрозаводск, 2009. С. 86-93.

7. Тарасов С.Д. Автоматическое составление обзорных рефератов новостных сюжетов // Вестник БГТУ СПб., 2008. № 3. С. 61-67.

8. Chin-Yew Lin. ROUGE: A Package for Automatic Evaluation of Summaries. Information Sciences Institute // University of Southern California, 2004.

i Надоели баннеры? Вы всегда можете отключить рекламу.