Научная статья на тему 'Современные методы автоматического реферирования'

Современные методы автоматического реферирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
6547
792
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКОЕ РЕФЕРИРОВАНИЕ / АВТОМАТИЧЕСКОЕ СВОДНОЕ РЕФЕРИРОВАНИЕ / РЕФЕРАТЫ / СВОДНЫЙ РЕФЕРАТ / МЕТОДЫ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тарасов Сергей Дмитриевич

Проведен глубокий анализ существующих подходов к проблеме автоматического реферирования текста. Подробно рассмотрены различные методы монографического и сводного (обзорного) реферирования, показано историческое развитие данного направления научных исследований в контексте проблемы обработки текста на естественном языке при помощи ЭВМ. Произведена подробная классификация существующих подходов, сформулированы их основные преимущества и недостатки. Проанализированы, сопоставлены и выявлены наиболее важные и перспективные направления развития современных исследований в области автоматического реферирования. Сделаны выводы о текущем состоянии научных исследований в данной области

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

An in-depth analysis of existing approaches to the problem of automatic summarization of text is described. Discussed in detail various methods of monographs and summary (review) abstracting, shows the historical development of this area of research in the context of natural language processing by computers are considered. Made a detailed classification of existing approaches, formulated their main advantages and disadvantages is described. We analyzed, compared and identified the most important and promising areas of modern research in the field of automatic summarization. Conclusions about the current state of research in this area are drawn

Текст научной работы на тему «Современные методы автоматического реферирования»

Таким образом, обеспечивается не только протоколирование данных о воздушной обстановке, но и действий операторов, а также их переговоров. Комплекс управления БПЛА, построенный с использованием компонент системы УВД, получает возможность тесной интеграции с ней: способен давать операторам управления информацию не только об управляемых ими БПЛА, но и обо всех воздушных судах, находящихся в контролируемой зоне полетов [4]. Также сохраняется возможность осуществлять голосовую связь как с диспетчерами служб УВД, так и с пилотами воздушных судов.

Расширением системы, не являющейся компонентой системы УВД, является модуль сопровождения и управления БПЛА. Он реализуется в виде набора вычислительных блоков, которые предназначены для выработки команд управления БПЛА, осуществляющих контроль за движением аппарата по заданному маршруту. Данный

СПИСОКЛ

1. Кулик, А.С. Проблематика разработки перспективных малогабаритных летающих роботов [Текст]/А.С. Кулик, А.Г. Гордин, В.В. Нарожный [и др.]. -Харьков, Национальный аэрокосмический ун-т имени Н.Е. Жуковского «Харьковский авиационный институт». -Украина, 2006. -С.1-33.

2. Управление и наведение беспилотных маневренных летательных аппаратов на основе современных информационных технологий [Текст]/Под ред. М.Н. Крас ильщикова,Г.Г. Себрякова.-М.:Физматлит, 2003.-279 с.

модуль комплекса не зависит от АРМ операторов и может осуществлять автономный контроль за движением БПЛА без участия операторов управления (даже при временно не функционирующих АРМ операторов). Тем самым повышается устойчивость всего комплекса управления к отказам оборудования. Модуль сопровождения и управления также строится на базе плат стандартных персональных компьютеров.

Комплекс управления БПЛА с использованием технологии АЗН-В для аппаратов рассматриваемого класса может быть построен из стандартных компонент системы УВД. Такой путь целесообразен, т. к. это приводит к снижению себестоимости комплекса, упрощению его эксплуатации, сокращению сроков построения. Открывающаяся возможность обмена информацией между комплексом управления БПЛА и АС УВД будет способствовать повышению уровня безопасности воздушного движения.

ГЕРАТУРЫ

3. Ахмедов, Р.М. Автоматизированные системы управления воздушным движением: Новые информационные технологии в авиации: Учеб. пособие [Текст]/Р.М. Ахмедов, А.А. Бибутов, А.В. Васильев [и др.]; Под ред. С.Г. Пятко, А.И. Красова.-СПб.: Политехника, 2004. -444 с.

4. Патент № US2008033604 «System and Method For Safely Flying Unmanned Aerial Vehicles in Civilian Airspace» [Электронный ресурс] опубл. 2008-02-07, http://v3.espacenet.com

УДК 004.912

С.Д. Тарасов

СОВРЕМЕННЫЕ МЕТОДЫ АВТОМАТИЧЕСКОГО РЕФЕРИРОВАНИЯ

Одна из самых серьезных проблем современного общества - лавинообразное увеличение объема информации, которую должен воспринимать, хранить и использовать человек в процессе своей трудовой деятельности. Согласно последним исследованиям, до 2020 г. количество информации и потребности в ней будут расти экспоненциально [1]. В таких условиях особую важность приобретают новые эффективные методы борьбы

с большими объемами информации. Одним из таких методов является автоматическое реферирование как вид аналитико-синтетической обработки документов, позволяющий осуществлять требуемую информационную поддержку лиц, принимающих управленческие решения. Классическое реферирование - процесс сжатия текстового документа и получение вторичного документа (реферата), в котором сохраняется смысл

Классификация методов автоматического реферирования

оригинала. Реферат представляет собой краткое изложение содержания документа, его части или коллекции документов, включающее основные фактические сведения, необходимые для первоначального ознакомления с первоисточником и определения целесообразности обращения к нему. Использование рефератов вместо первоисточников документов позволяет эффективнее работать с большими объемами информации.

Классификация методов автоматического реферирования

С самого начала активного использования ЭВМ первого поколения (с середины 50-х гг. XX в.)

стали предприниматься попытки решать задачи обработки текста на естественном языке. Одной из первых задач по обработке естественноязыковых текстов при помощи ЭВМ стал машинный перевод. Почти одновременно с работами по машинному переводу начались исследования по использованию ЭВМ для целей автоматического реферирования текстов.

На первом этапе исследований наиболее популярными были подходы, основанные на выявлении тех или иных статистических закономерностей распределения терминов в тексте или их взаимного расположения в нем [2, 3]. В дальнейшем исследования в области автоматизированного

реферирования сместились в сторону использования внутренних структур текста, выявления той информационной основы, которая организует весь текст [4, 5]. Классификация современных методов автоматического реферирования представлена на рисунке. Рассмотрим ее более подробно.

1. По типу получаемого реферата можно выделить следующие подходы.

1.1 Экстракция (извлечение предложений, Sentence Extraction, квазиреферирование) - извлечение из исходного текста наиболее важных и существенных информационных блоков (абзацев, предложений). Первые методы автоматического реферирования были ориентированы именно на извлечение предложений. При этом наиболее значимые предложения отбирались на основе позиционных (местоположение предложения в документе, разделе, абзаце с определением типа выделенного элемента, например, заголовок, вступление, заключение) и тематических (наличие ключевых слов в предложении) критериев. Дальнейшее развитие методов извлечения предложений привело к использованию более «тонких» маркеров, фиксирующих значимость предложений (например, фраз типа «в итоге», «наше исследование показывает», «важно» и др.) и ориентации на связность элементов текста (учет близости расположения в тексте, частоты повторов и синонимичности, тождества по референту и т. п.). Методы данного подхода характеризует наличие оценочной функции (Scoring Function) важности информационного блока (предложения), сложность вычисления которой постоянно росла с развитием методов и учетом все большего списка количественных и качественных характеристик текста. Все существующие системы автоматического реферирования промышленного масштаба реализованы в рамках данного подхода. К основному недостатку систем этого класса стоит отнести отсутствие связанности текста получаемого реферата: как правило, выбранные наиболее значимые информационные блоки никак не связаны между собой.

1.2. Абстракция (извлечение содержания, Content Extraction) - генерация реферата с порождением нового текста, содержательно обобщающего первичный документ или документы. Данный подход характеризуется тремя неотъемлемыми этапами: анализ исходного текста с генерацией внутреннего представления, семантическое сжатие внутреннего представления и синтез ново-

го текста (реферата). В рамках данного подхода можно выделить два основных направления.

1.2.1. Абстракция на основе лингвистического сжатия. Методы данной группы ориентированы на чисто лингвистический подход к сжатию текста. При этом этап анализа входного текста представляет собой синтаксический разбор и формирование синтаксического дерева разбора. Процедуры сжатия манипулируют непосредственно деревьями с целью удаления и перегруппировки частей, например, путем сокращения ветвей на основании некоторых структурных критериев, таких, как скобки или встроенные условные или подчиненные предложения. После такой процедуры дерево разбора существенно упрощается, становясь, по существу, структурной «выжимкой» исходного текста. Заключительным этапом является формирование текста итогового реферата. Для реализации данных методов необходимы мощные вычислительные ресурсы для систем обработки естественных языков (NLP — natural language processing), в т. ч., грамматики и словари для синтаксического разбора и генерации естественно-языковых конструкций.

1.2.2. Абстракция с опорой на знания. Подход для составления краткого изложения текста, основанный на абстракции, уходит корнями в системы искусственного интеллекта и опирается на попытки построить модели понимания и синтеза текста на естественном языке [6-8]. Синтаксический разбор при этом является составной частью метода анализа, но деревья разбора в этом случае не порождаются. Напротив, формируются концептуальные репрезентативные структуры всей исходной информации, которые аккумулируются в базе знаний. В качестве структур могут быть использованы формулы логики предикатов или такие представления, как семантическая сеть и набор фреймов [9]. В процессе преобразования концептуальное представление претерпевает несколько изменений. Избыточная и не имеющая прямого отношения к тексту информация устраняется путем удаления поверхностных суждений или отсечения концептуальных подграфов. Затем информация подвергается дальнейшему агрегированию путем слияния графов (или шаблонов) или обобщения информации, например, при помощи таксономических иерархий отношений подклассов. В результате преобразования формируется концептуальная репрезентативная структура реферата, по существу, концептуальные «выжим-

ки» из текста. Кроме грамматик и словарей для синтаксического разбора и синтеза текста на естественном языке, для реализации методов данного подхода необходимы онтологические справочники, отражающие соображения здравого смысла и понятия, ориентированные на предметную область, для принятия решений во время анализа и определения наиболее важной информации.

Несмотря на то, что большинство исследователей считают методы абстракции более близкими к ручному составлению рефератов экспертами, чем методы экстракции, по мнению автора это не так. Для различных типов задач реферирования могут быть использованы различные ручные методики, в т. ч. и составление реферата путем выделения наиболее информативных структурных единиц (предложений) и связывания их в итоговый связный текст. Именно связанность получаемого в результате реферирования текста отличает методы ручного составления рефератов от классических методов автоматической экстракции предложений.

2. Не менее важной является классификация методов автоматического реферирования по уровню анализа исходного текста. На основе этого критерия можно выделить подходы в соответствии со следующими уровнями:

2.1. Поверхностный уровень (Surface-level approach). Все подходы поверхностного уровня характеризует поверхностный анализ текста. Текст, как правило, представляется как линейная последовательность предложений, никак не связанных между собой. Предложения рассматриваются как линейные последовательности слов (в некоторых случаях, словосочетаний). В рамках подхода этого уровня можно выделить два основных направления.

2.1.1. Классические методы. В большинстве методов классического подхода применяется модель линейных весовых коэффициентов. Основу аналитического этапа в этой модели составляет процедура назначения весовых коэффициентов для каждого блока текста в соответствии с такими характеристиками, как расположение этого блока в оригинале, частота появления в тексте, частота использования в ключевых предложениях, а также показатели статистической значимости. Сумма индивидуальных весов, как правило, определенная после дополнительной модификации в соответствии со специальными параметрами настройки, связанными с каждым весом, дает общий вес всего блока текста. В рамках методов

классического подхода можно в свою очередь выделить три основных направления.

2.1.1.1. Статистические методы основаны на использовании статистических параметров для оценки информативности различных элементов текста (слов, предложений, абзацев) прежде всего по частоте встречаемости слов в тексте. В результате ранжирования лексики в том или ином документе они определяют слова с высоким рангом и их сочетаемость в различных фразах и по этим показателям оценивают информативность данных фраз. В другом случае на основе функционирования различного типа повторов всем предложениям присваивается функциональный вес, определяемый числом слов данного предложения, связанных со словами других предложений, и на основе выбранного критерия (порога) осуществляется экстрагирование элементов с наибольшим функциональным весом.

Первым методом автоматического реферирования принято считать статистический метод, предложенный Г. Луном в 1958 г. [10]. Суть метода заключается в выделении в тексте частотных слов, вычислении весов предложений с помощью суммирования частот (весов), входящих в их состав слов и включении в реферат предложений с наибольшими весами. Для подсчета весов предложений не используются слова, входящие в так называемый «стоп-лист» (местоимения, предлоги, артикли). Дальнейшее развитие статистических методов происходило в рамках комбинации их с позиционными и индикаторными методами.

2.1.1.2. Позиционные методы опираются на предположение о том, что информативность текстового блока (предложения) находится в зависимости от его позиции (места) в тексте документа. Данные методы относительно эффективны на строго структурированных документах типа стандартов, патентных описаний и т. п., а в остальных случаях применяются лишь в сочетании с другими методами, поскольку в чистом виде не обладают необходимой репрезентативностью результатов.

2.1.1.3. Индикаторные методы основаны на функциональной идентификации фраз первичного документа с помощью индексации их специальными словами - маркерами, индикаторами и коннекторами (лексический аппарат свертывания).

Маркеры (им принадлежит основная роль) -это отдельные слова или словосочетания, обеспечивающие однозначную идентификацию

фраз, принадлежащих к различным смысловым (содержательным) аспектам текста. Существуют два типа содержательных аспектов (их называют иногда «сетками»): первый тип отражает структуру (логику) вида документа (например, статьи, патентного описания, методического пособия и т. д.), второй тип - структуру (логику) той или иной области знания или группы объектов.

Индикаторы - лексические единицы, призванные выполнять преимущественно модально-оценочные функции, - с содержательными аспектами четко не связаны, а отражают отношение автора к рассматриваемому в документе вопросу. Они подразделяются на подытоживающие, акцентирующие, констатирующие, оценочно-вероятностные, иллюстрирующие и др. Например, «итак», «следовательно», «следует подчеркнуть», «важным представляется», «существенным является», «главное в» и многие другие.

Коннекторы - лексические единицы, обеспечивающие межфразовые связи. Известно, что законченным смыслом (автосемантичностью) чаще всего обладают не отдельные предложения, а некоторая их совокупность - минимальный релевантный фрагмент. Нередки случаи, когда маркированное предложение является синсеман-тичным - в нем основной предмет рассмотрения заменен местоименным словом или словосочетанием. В этом случае для устранения смысловой неполноценности (синсемантичности) фразы к нему необходимо присоединить выше- или нижестоящую фразу (или фразы). Функцию сигнала о смысловой неполноте предложения и выполняют коннекторы, которые разделяются на левые, отсылающие к вышестоящей фразе (аналогичный, данный, этот, такой, описанный, изложенный и др.), и правые, уточняющие, добавляющие (более того, вместе с тем, кроме того, в частности, тем самым и др.), требующие присоединения нижестоящей фразы.

Первой работой в области автоматического реферирования с применением индикаторного подхода принято считать работу Г. Эдмундсона, опубликованную в 1969 г. [11], сочетающую в себе статистический метод Г. Луна с позиционным и индикаторным методами. Данный метод характеризует модель линейных весовых коэффициентов:

№ = Ш • Кш + а2 • №кеу + а3 • ЩооаПоп ,

где а, а2 и а3 - коэффициенты для весов предло-

жения на основе статистического, индикаторного и позиционного подходов соответственно. Статистический вес текстового блока W вычисляется

stat

как нормированная по длине блока сумма весов входящих в него слов или словосочетаний. Вес W'location определяется расположением блока в исходном тексте и зависит от того, где появляется данный фрагмент: в начале, в середине или в конце, а также используется ли он в ключевых разделах текста, например, в заголовке или выводах. Ключевые фразы представляют собой конструкции-маркеры, например, «в заключение», «в данной статье», «в результате анализа» и т. п. Весовой коэффициент ключевой фразы может зависеть также от оценочного термина, например, «отличный».

Дальнейшее развитие методов классического направления происходило в соответствие с моделью линейных весовых коэффициентов: сочетания статистического, индикаторного и позиционного подходов с различными нововведениями. Первой коммерческой системой автоматического реферирования принято считать систему для автоматического реферирования статей по химии (CAS, Chemical Abstracts Service) [12], разработанную J.J. Pollock и A. Zamora на основе алгоритма [13]. Основой системы был индикаторный подход, ориентированный на специфичную предметную область (научные статьи по химии). В работе [14] описывается система ANES, в которой важные слова выделяются на основе TF*IDF. Единственное отличие от традиционного подхода - обнаружение анафорических связей, что позволяет исключить из реферата предложения с «висящими» ссылками на предыдущие предложения. На основе [15] в [16] предложен метод реферирования, где в качестве лексических единиц текста используются не слова, а словосочетания. К методам классического направления можно также отнести работы Р.Г. Пиотровского [17].

Работы в направлении индикаторного подхода в СССР велись в течение ряда лет (1980-е -начало 1990-х гг.), в частности, коллективом разработчиков ЛГИК имени Н.К. Крупской и ВНИИ «Информэлектро» под руководством В.П. Леонова и Д.Г. Лахути [18].

Своеобразным развитием методов классического направления можно считать переход к более сложным статистическим моделям. Определенную популярность приобрели модели, основанные на марковских цепях [19]. Однако эти

модели достаточно сложны и имеют высокую вычислительную сложность. Также стоит отметить алгоритм LRU-K, который является вариантом алгоритма «последний недавно использованный». Данный алгоритм был предложен в [20] как алгоритм определения значимости термина в тексте [21]. Применение алгоритмов класса «последний используемый» опирается на известное из психологии предположение, что человек в быстрой памяти сохраняет только относительно малое количество объектов. Такой подход позволяет учесть «локальную плотность» распределения слов в документе. Дополнительно учитывается структура документа: реферат формируется для каждой части документа отдельно, далее отбираются пять фрагментов с наибольшим весом. Эксперименты с участием экспертов показали превосходство этого подхода над методами, основанными на частотах слов. Кроме того, данный метод продемонстрировал высокую производительность.

В [22] предложен метод квазиреферирования, основанный на различных стратегиях оценивания информативности предложений внутри сверхфразовых единств и регулируемом выборе ограниченного числа предложений для реферата на основе сканирующих статистик. В работе предлагается формальный критерий выделения сверхфразовых единств, основанный на использовании сканирующих статистик, для выявления аномальных отклонений от равномерности в распределении лексических единиц по тексту. Предполагается, что выделенные с помощью сканирующих статистик аномальные сгущения (кластеры) отдельных лексических единиц, трактуемые как сверхфразовые единства, достаточно адекватно отражают смысловое содержание соответствующего фрагмента текста. Отличительная особенность подхода - построение «профиля кластери-зуемости» лексических единиц в тексте и отбор фраз для квазиреферата в местах существенного нарастания или убывания этой функции. Такая стратегия присуща позиционным методам отбора значимых фрагментов в тексте, но они работают с задаваемой автором структурой текста, а не со сверхфразовыми единствами.

Отдельно стоит выделить метод фрактального реферирования, предложенный в [23]. В ряде исследований [24, 25] отмечается, что большинство статистических методов реферирования рассматривают исходный документ как линейную последовательность предложений, но игнориру-

ют его структуру. Метод фрактального реферирования основывается на довольно популярной в настоящее время математической теории фракталов. Фрактальный принцип самоподобия предполагает бесконечное дробление набора объектов с сохранением их свойств. Реферирование исходного документа производится путем многократного использования сжимающих преобразований в теории фракталов. По аналогии с фрактальной геометрией большой документ имеет иерархическую структуру с несколькими уровнями: главы, разделы, подразделы, пункты, предложения, понятия и слова. Хотя документ не является истинной математической моделью фрактального объекта, т. к. не может рассматриваться в бесконечном уровне абстракции, структуру документа можно рассматривать как псевдо-фрактальную с конечной рекурсией.

2.1.2. Методы на основе машинного обучения стали своеобразным развитием статистических методов классического подхода. В качестве набора признаков выбирается ряд статистических характеристик.

• Тематические признаки: топ-10 частотных слов документа; сумма весов слов (ТГ*ЮК);

имя + фамилия; слова заголовка.

• Структурные признаки предложения: вопросительное предложение; прямая речь;

длина предложения, отнесенная к самому длинному предложению в тексте; подчинительный союз из списка; синтаксическая сложность предложения.

• Структурные признаки текста:

топ-10 частотных слов документа для предыдущего и последующего;

сумма весов слов (ТР*ЮК), для предыдущего и последующего;

простой сигнал анафоры; положение предложения в тексте.

• Формальные признаки: длина предложения в знаках; количество запятых в предложении; количество точек в предложении; количество чисел в предложении.

На основе корпуса текстов и имеющихся ручных рефератов, составленных экспертами, происходит обучение классификатора.

Первые принципы автоматического рефери-

рования с применением корпусного подхода были изложены в [11]. Первой работой, в которой задача выделения предложений была сформулирована как задача автоматической классификации на основе машинного обучения, стала публикация [26]. В ней используется относительно небольшой набор признаков, который был опробован в более ранних работах: длина предложения, «сигнальные фразы», положение предложения в абзаце, наличие в предложении частотных (для этого документа) слов, присутствие слов, набранных в верхнем регистре. В качестве метода использовался байесовский классификатор. Корпус для обучения состоял из 188 научно-технических статей на английском языке, для которых профессиональными библиографами были составлены рефераты. Так как предложения из составленных вручную рефератов могли отличаться от предложений оригинального текста, проводилась дополнительная процедура нахождения соответствия между предложениями реферата и оригинала. Результат оценки методом перекрестной проверки (cross validation): при формировании рефератов, совпадающих по длине с ручными рефератами (в среднем три предложения), доля совпадений с сопоставимыми предложениями рефератов-образцов составила 42 %. Дальнейшим развитием стала работа [27] по созданию системы автоматического реферирования научно-технических текстов на корейском языке на основе алгоритма KPC [26]. Авторами было обнаружено, что более чем 96 % предложений ручных рефератов были главными предложениями темы. В данной работе был сделан вывод, что использование комбинации статистических, позиционных и индикаторных методов дает наилучший результат.

Аналогичный подход применяется и в [28]. В работе используется больший набор признаков, а также более совершенный метод классификации - метод опорных векторов (support vector machine). В качестве корпуса используются 180 газетных статей корпуса «Text Summarization Challenge» на японском языке. Для каждого документа в корпусе редакторами выделены наборы наиболее важных предложений, соответствующие 10 %, 30 % и 50 % объема исходного текста (по количеству предложений). В работе применяется достаточно широкий набор признаков: позиция предложения, длина предложения, вес предложения (сумма модифицированных весов TF*IDF всех слов предложения), а также веса

предыдущего и последующего предложений, плотность ключевых слов документа, наличие в предложении имен собственных определенных типов, присутствие определенных союзов и других функциональных слов, учитываются части речи, «семантическая глубина» существительных (определяется по словарю), жанр документа (каждому документу в корпусе приписан один из четырех жанров), наличие специальных символов, прямая речь, утвердительные высказывания. Пятикратная перекрестная проверка дала такой результат: 46,2 % совпадающих предложений при объеме реферата 10 % от исходного документа и 51,6 % - при объеме 30 %.

Дальнейшее развитие подхода KPC есть в [29]. В работе предлагается несколько дополнений к традиционным статистикам: помимо морфологии предложено использовать словарь синонимов, а также идентифицировать имена собственные, названия, сокращения и т. д.

В работе [30] рассматривается сразу несколько различных методик в области автоматического реферирования на основе машинного обучения. Авторы описывают реферирование как процесс, состоящий из следующих частей: идентификация темы, соответствующая этапу анализа исходного текста; толкование концептов, соответствующее этапу трансформации; генерация реферата, соответствующая этапу синтеза результирующего текста. Идентификация темы нацелена на извлечение наиболее значимых понятий в документах для того, чтобы использовать их для ранжирования предложений. Авторы представляют свой метод для идентификации наиболее релевантной информации. Посредством обучения на корпусе документов и соответствующих им тем в виде набора ключевых слов предложенный метод выдает ранжированный список позиций предложений, который имеет тенденцию содержать в себе большинство ключевых слов, относящихся к теме. Система была обучена на корпусе из 13 000 статей, содержащем тексты, аннотации и ключевые слова. Метод, получивший название «Optimal Position Policy» показал довольно неплохие результаты. В рамках так называемого «толкования концептов» для того, чтобы перейти к более общим темам, Hovy и Lin делают попытки объединить связанные «концепты» путем подсчета в тексте частот концептов из тезауруса WordNet, используя иерархию понятий в тезаурусе для того, чтобы достичь соответствующего обобщения. Предложен-

ную методику можно считать одним из первых шагов на пути от квазиреферирования к составлению абстракций. Однако поскольку многие связи могут отсутствовать в WordNet, авторами были использованы также другие методы на основе машинного обучения, включая категоризацию и кластеризацию. В работе присутствует описание эксперимента по категоризации 30 000 текстов из «Wall Street Journal», где каждая статья отнесена к одной из 32 возможных тематических категорий (космос, банковское дело, окружающая среда, телекоммуникации и т. п.). Для каждой тематической категории были подсчитаны «топ-300» терминов, определяющих тему. В настоящее время данные методы, по мнению авторов, требуют дальнейшего исследования.

Из отечественных разработок стоит отметить работу [31]. В качестве корпуса в работе используются статьи новостного ресурса Газета.ру (http://www.gazeta.ru). Для построения классификатора был использован метод опорных векторов.

Оценка систем автоматического реферирования на основе машинного обучения продемонстрировала возможность их применения для коммерческих и промышленных систем. Однако относительно низкий уровень анализа исходного текста методами поверхностного подхода и относительно низкое качество получаемых рефератов определило направление дальнейшего развития методов в сторону более детального изучения модели текста на естественном языке, как сложной структуры. Этому способствовало развитие различных лингвистических и психолингвистических теорий, основной предмет исследования которых - связность текста [32]. Связность является основным неотъемлемым признаком текста. Известно, что в лингвистической традиции существует две устойчивые тенденции трактовки текста как линейной последовательности предложений и как иерархического образования, обладающего глубинной и глобальной связанностью. Ряд ученых разделяют связность текста на структурную (когезия) и содержательную (когеренция), при этом, однако, они подчеркивают условность такого деления [33]. Попытки использовать различные лингвистические модели связности текста для задачи автоматического реферирования привели к появлению двух принципиально новых по отношению к поверхностному подходу направлений: так называемые подходы уровня «сущностей текста» (Entity-level approach) на основе

модели структурной связности текста (когезии) и подходы уровня «дискурсной структуры текста» (Discourse-level approach) на основе содержательной модели связности (когеренции). Стоит отметить, что ряд исследователей не разделяет эти два направления, объединяя их по признаку анализа связности текста.

2.2 Уровень сущностей текста (Entity-level approach). Подходы данного направления более детально рассматривают модель текста, его элементы - «сущности», их взаимосвязи, совместную встречаемость, кореферентность, анафорические отношения и т. д., опираясь на модель структурной связности текста (когезию). Когезия представляет собой формально-грамматическую связность дискурса [34]. Теоретическими основами для исследования послужили научные труды таких ученых, как М.А.К. Хэллидей, R. Hasan, И.Р. Гальперин, а также труды других известных лингвистов. К основным типам языковых отношений между предложениями текста (высказываниям дискурса), которые обеспечивают его структурную целостность и связность, относятся:

референция, делится на анафору (референция имени, которое уже было сказано) и котафору (референция имени, которое еще будет названо);

субституция (substitute, замена) имени, глагола и предикативной группы (например, The President arrived);

эллипсис имени, глагола и предикативной группы (опущение, характерное для русского и не характерное для английского языка); слова-коннекторы (союзы, предлоги); лексическая когезия (можно взаимозаменять не все слова, а только синонимы).

Выбор наиболее важных предложений для реферата осуществляется на основе анализа этой модели. Связи между сущностями включают в себя:

подобие (сходство), например, словарное совпадение;

близость (расстояние между текстовыми единицами);

совместная встречаемость (родство слов, основанное на их встречаемости в одних и тех же контекстах);

связи по тезаурусу: синонимия, гиперонимия (связи род-вид), связи часть-целое и т. п.

кореферентность (отношения между компонентами высказывания, которые обозначают один и тот же объект внеязыковой действительности),

в т. ч., и анафорические связи;

логические связи, такие, как согласие, возражение, ограничение, логичность, последовательность, связность;

синтаксические связи, например, основанные на результатах грамматического разбора.

Первой работой по автоматическому реферированию в данном направлении можно считать [35], в которой делается попытка разрешения анафорических связей при помощи анализа модели когезии. На первом этапе текст разбивается на набор смежных блоков предложений с использованием вариации метода TextTiling [36]. Для каждого референта в тексте создается глобальная мера «дискурсной значимости», основанная на локальной значимости и частотном критерии. Затем наиболее значимые глобальные сущности в каждом сегменте идентифицируются как основные темы. Для формирования итогового реферата на основе оценок значимости создается перечисление кореферентных фраз, связанных с основными темами, а также некоторой информации из окружающего контекста. Этот формат представления получил название «краткий обзор» (capsule overview).

Следующей работой в данной области является статья [37]. В ней рассматривается подход на основе создания лексических цепочек - последовательностей связанных терминов, сгруппированных вместе посредством текстовых структурных связей (когезии). Для выделения лексических цепочек предлагается использовать большой лингвистический ресурс WordNet. Группировка слов в лексические цепочки позволяет более точно определить основные темы документа, чем традиционный подсчет наиболее часто встречающихся слов. Основная проблема при формировании цепочек с помощью ресурса WordNet - высокая степень многозначности слов в WordNet, в результате чего формируется большое количество возможных цепочек. Авторами предложен метод выбора лучшей цепочки, основанный на количестве и весе различных связей внутри лексической цепочки. Узлами цепочки служат существительные, либо составные существительные, определяемые в результате простейшего грамматического разбора. Построение лексических цепочек происходит в два этапа: на первом этапе цепочки строятся для каждого текстового сегмента в отдельности (разбиение текста на сегменты по алгоритму TextTiling), на

втором этапе цепочки из разных сегментов объединяются, если они содержат хотя бы одно общее слово. Извлечение предложений происходит на основе комбинации нескольких эвристических алгоритмов. Авторами назван ряд ограничений предлагаемого подхода: нет возможности управлять размером и уровнем детализации получаемого реферата; присутствие обособленных анафорических связей; невозможность выбрать единицу текста, меньшую, чем предложение. Тем не менее, оценка по внутренним признакам показала превосходство данного подхода над некоторыми коммерческими системами.

Дальнейшее развитие методов на основе применения лексических цепочек отмечено такими работами, как [38, 39]. Обзор различных методов данного направления, их сравнение и оценка есть в [40]. В рамках подхода уровня сущностей текста также известен подход на основе тезауруса [41].

К наиболее известным исследованиям в России в рамках данного направления относятся [42, 43], проводимые в НИВЦ МГУ под руководством Б.В. Доброва. Авторами предложен ряд методов на основе тематического представления новостного кластера, моделирования лексической связности текста и тезаурусном описании лексических значений, разработана коммерческая система для автоматического сводного реферирования новостных сюжетов для портала «Rambler. Новости».

2.3. Уровень дискурсной структуры текста (Discourse-level approach) предполагает качественно новый уровень анализа исходного текста, его глобальной структуры, его связи с коммуникативными целями. В основе данного подхода лежит анализ содержательной модели связности текста (когеренции). Когеренция представляет собой семантико-прагматические аспекты смысловой и деятельностной (интерактивной) связности дискурса как локальной, так и глобальной.

Глобальная когеренция - это отношение каждого конкретного высказывания к общему плану дискурса (стратегии, сценарии, когнитивные схемы, находящиеся в сознании участников коммуникации). Глобальная когеренция соответствует планированию своего речевого поведения и соотношение его с ситуацией.

Локальная когеренция - отношение каждого высказывания к текстовой цели, т. е. к цели дискурса. Она осуществляется посредством тема-рематической связности дискурса. Также харак-

терна логическая когеренция (ее осуществляют коннекторы, риторические фигуры), грамматическая когеренция, семантико-прагматическая когеренция (экспликатура, импликатура, инференция и пресупозиция).

Тематическая когеренция формируется вокруг глобальной темы дискурса или темы, выражается в повторении определённых мотивов и тем, т. е. ключевых объектов, фактов, когнитивных структур, социальных представлений, эксплицитно или имплицитно выраженных в дискурсе.

Первой значимой работой в данном направлении принято считать [44]. Автор применяет риторический анализатор для произвольного текста, который использует ключевые фразы для построения деревьев на основе теории риторических структур (RST) из подчиненных предложений исходного текста. Формализация структуры деревьев RST позволяет подсчитывать значимость предложений, основанную на структуре этого дерева. Подход показал неплохие оценки (около 60 % точности и полноты) при относительно высокой производительности. Развитие данного направления представлено в [45-47].

3. По критерию использования опоры на знания.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3.1. Методы без опоры на знания (Knowledge-poor approach) не предполагают создания специальных баз знаний какой-либо предметной области с целью понимания смысла текста на естественном языке. К данному направлению относится большинство существующих на текущий момент методов извлечения предложений и ряд методов абстракции на основе лингвистического сжатия.

3.2. Методы c опорой на знания (Knowledge-rich approach). Предполагают использование специальных баз знаний, содержащих наборы правил и эвристик какой-либо специфичной предметной области для формирования реферата. В рамках данного направления можно выделить работы [8, 48, 49, 50].

4. Также можно рассматривать классификацию методов автоматического реферирования по технологии построения реферата.

4.1. Подходы «сверху-вниз» (Top-down approaches) на основе извлечения информации предполагают трансформацию исходного текста в некоторое более содержательное внутреннее представление, а затем манипуляцию с этим представлением и формирование итогового реферата.

4.2. Подходы «снизу-вверх» (Top-down approaches) используют методику информационного поиска и пытаются выделить релевантные фрагменты из исходного текста и сформировать из них итоговый реферат.

5. Также стоит выделить классификацию методов автоматического реферирования по ориентации на предметную область.

5.1. Подходы без ориентации на предметную область (Domain-independent approaches).

5.2. Подходы с ориентацией на конкретную предметную область_(Domain-dependent

approaches).

Стоит отметить, что приведенная выше классификация современных методов автоматического реферирования довольно условна. Практически каждый из них сочетает в себе комбинацию нескольких подходов разных направлений с некоторыми нововведениями. Кроме того, большинство исследователей данной области вообще не выделяет подходы на уровне модели текста, относя их либо к подходам поверхностного уровня, либо к подходам уровня дискурсной структуры. Также ряд исследователей смешивает понятия подходов абстракции и экстракции с подходами, предполагающими и не предполагающими опору на знания, т. к. построение абстракций, как правило, предполагает опору на знания, а квазиреферирование - нет.

Методы автоматического сводного реферирования

Сводный (обзорный) реферат составляется на некоторое множество документов-первоисточников и является сводной характеристикой определенного содержания документов: обычно по одной теме (проблеме), на произведения автора (авторов), на одном или нескольких языках, за определенный хронологический период и т. д. Критерием такого свода может быть любая типологическая характеристика первоисточника. В этой связи определение обзорного реферата как составленного по нескольким первоисточникам, объединенным только общей тематикой содержания, нужно считать недостаточным, хотя наиболее распространенным способом группировки материала в рефератах остается предметно-тематический. Сводные рефераты могут быть использованы в реферативных указателях, списках, картотеках, критико-биографических словарях, и, что наиболее актуально, в различных

информационно-аналитических отчетах, справках, бюллетенях.

Классификация методов автоматического сводного реферирования не отличается от классификации методов монографического реферирования. Это связано с тем, что основные проблемы реферирования, а, следовательно, и приемы их решения идентичны как для однодокументного (монографического), так и для многодокументного (сводного, обзорного) автоматического реферирования. Таким образом, большинство методов автоматического сводного реферирования комбинируют подходы автоматического реферирования одного документа с подходами и методиками, предназначенными для решения специфичных проблем многодокументного реферирования.

Первый простейший метод многодокументного реферирования был предложен в [51]. Суть метода заключается в построении «карты связей в тексте» - взвешенного графа, узлами которого являются параграфы исходных документов, а весами дуг - коэффициенты словарной близости этих параграфов. Параграфы, имеющие сильные связи с другими параграфами в тексте, считаются «значимыми», и отбираются для включения в реферат. Дальнейшее развитие данного подхода есть в не менее известной работе [52]. Авторами предложен метод, сочетающий в себе некоторое развитие подхода [51] с подходами уровня сущностей текста [35, 37]. В документах выделяются наиболее значимые блоки и их связи на основе модели лексической связности. Для разрешения проблемы повторения информации авторами предложена разновидность жадного алгоритма для включения в реферат наиболее «различных» (уникальных) общих текстовых блоков.

Более детально проблема избыточности и повторов информации в сводных рефератах была рассмотрена в [52]. В работе предложен подход для уменьшения избыточности на основе сравнения предложений-кандидатов с предложениями, уже попавшими в реферат, и оценки новой (непохожей) информации Maximal Marginal Relevance. Другой подход к устранению избыточности и повторов на основе предварительной кластеризации предложений и построения «центроида» коллекции документов предложен в [53]. Результатом научных исследований авторов стал программный комплекс автоматического реферирования MEAD, реализующий большой набор алгоритмов автоматического реферирования, в т. ч. и сводное

реферирование с предварительной кластеризацией предложений (Cross-sentence informational subsumption, CSIS). Похожий подход к устранению избыточности используется и в [54]. В [55] предложен подход на основе выделения похожих («перефразированных») предложений из различных документов кластера и использовании их в качестве основных тематических узлов. Развитие этого подхода есть в [56, 57].

Среди методов, предложенных российскими исследователями, стоит отметить подход, разработанный Н.Н. Абрамовой [16], основанный на статистическом методе подсчета весов предложений с использованием в качестве лексических единиц не слов, а словосочетаний. Кроме того, в [42, 43] предложен ряд методов на основе лексических цепочек специального вида - тематических узлов. В качестве лексической базы для создания тематических узлов использовался двуязычный Информационно-поисковый тезаурус для автоматического концептуального индексирования по общественно-политической тематике, разработанный этим же коллективом авторов.

В рамках задач по сводному реферированию отдельно стоит выделить направление исследований, связанных с решением задачи слежения за потоком сообщений и обнаружения новой темы. В этом направлении на основе исследований в [58] предложен целый ряд методов и алгоритмов для решения данной задачи [59, 60].

Современные системы автоматического реферирования

Стремительный рост потока научно-технической информации стал причиной появления довольно высокого спроса на средства автоматического и автоматизированного реферирования и аннотирования. Потребности в таких системах испытывают информационно-аналитические отделы, корпоративные системы документооборота; поисковые машины и каталоги ресурсов Internet; автоматизированные информационно-библиотечные системы; каналы телерадиовещания; службы рассылки новостей и др. Многие ведущие производители программного обеспечения предлагают свои продукты и решения в области автоматического реферирования текстов на естественном языке.

Одним из первых коммерческих и наиболее используемых в настоящее время приложений систем автоматического реферирования являет-

ся аннотирование результатов информационного поиска. Так, модуль автоматического реферирования документов входит в состав каждой крупной ИПС (Google, Yandex, Rambler, Yahoo).

Существующие системы автоматического реферирования общего назначения, как правило, имеют развитый графический интерфейс, богатые возможности визуализации и манипулирования с данными, предоставляют доступ к различным источникам данных. К наиболее известным системам автоматического реферирования документов в России можно отнести:

• Intelligent Miner for Text (IBM) - объединяет мощную совокупность инструментов, базирующихся в основном на механизмах поиска информации, одним из которых является Annotation Tool - утилита составления рефератов-аннотаций к исходным текстам.

• TextAnalyst («Мегапьютер Интеллид-женс») решает задачи глубокого анализа текста, такие, как создание семантической сети большого текста, подготовка реферата текста, поиск по тексту, автоматическая классификация и кластеризация текстов.

• Oracle Text RCO - программный комплекс, интегрированный в СУБД, позволяющий эффективно работать с запросами, относящимися к неструктурированным текстам. Возможности обработки текстовой информации на русском языке в Oracle Text достаточно ограничены. Для решения этой проблемы компанией ООО «Гарант-Парк-Интернет» (в настоящее время ООО «ЭР СИ О») был разработан модуль Russian Context Optimizer (RCO), предназначенный для совместного использования с Oracle Text. RCO дополняет Oracle Text лингвистическим обеспечением, необходимым для полноценной поддержки русского языка. В частности, RCO позволяет осуществлять поиск с учетом словоформ русского языка, повышая полноту и точность выдаваемых результатов, выделять значимые темы документов, строить рефераты, классифицировать документы по рубрикам, на лету группировать списки документов в иерархии, наглядно представляя результаты поиска.

• MS Office AutoSummarise - встроенная в офисный пакет функция автоматического получения краткого реферата, основанная на комбинации нескольких статистических методов. Основным недостатком этой системы является низкое качество получаемого реферата.

• Inxight Summarizer - одна из наиболее

известных коммерчески распространяемых систем реферирования документов на основе запроса пользователя. В системе реализовано параллельное использование нескольких широко известных алгоритмов реферирования, а также непосредственная связь между алгоритмами реферирования и алгоритмом оценки качества реферата.

• Summarist является попыткой разработать технологию, основанную на использовании двух подходов - экстракции и абстракции. В данной системе предпринимается попытка найти компромисс между глубиной анализа текста и возможностью промышленной реализации. Система производит аннотации на пяти языках, ведется работа по расширению этой системы для создания большой базы знаний для использования технологии абстракции.

• Prosum представляет собой cgi-скрипт, встроенный в веб-страницу. Построение каждого реферата стоит определенную фиксированную сумму и оплачивается с помощью кредитных карточек MicroCredit.

• Copernic summarizer использует сложные статистические алгоритмы для выделения наиболее значимых предложений. Может анализировать текст любой длины и любой тематики на любом из четырех языков и создавать краткую выжимку в зависимости от желаний пользователя. Для получения аннотации могут быть использованы текстовые документы, веб-страницы, PDF-файлы, электронные письма.

• Extractor (Институт Информационных Технологий Национального исследовательского Совета Канады) представляет собой модуль, выделяющий из представленного ему на вход текста наиболее информативные именные группы. Extractor используется в программных продуктах фирм ThinkTank Technologies и Tetranet, а также в поисковой системе журнала исследований в области искусственного интеллекта.

• ОРФО (разработчик - компания «Инфор-матик») — включает функцию автоматического аннотирования русских текстов.

• Либретто (разработчик — компания «Ме-диаЛингва») — обеспечивает автоматическое реферирование и аннотирование русских и английских текстов (система встраивается в Microsoft Word).

• Пакет «МедиаЛингва Аннотатор SDK

1.0» — служит инструментарием для реализации

функций автоматического реферирования и аннотирования в прикладных ИАС;

• Поисковая система «Следопыт» - включает средства автоматического реферирования и аннотирования документов;

• Поисковая машина «Золотой Ключик» (компания Textar) — обеспечивает составление рефератов и аннотаций.

К наиболее известным коммерческим системам, в которых реализовано автоматическое сводное реферирования относятся:

• Columbia NewsBlaster (http://www. newsblaster.com/) — система для автоматической обработки ежедневных новостей без привлечения редакторов. Система анализирует ряд новостных сайтов, скачивает статьи, группирует их в кластеры по тематике и реферирует каждый кластер. Результатом такой работы является веб-страница, которая содержит информацию о наиболее важных событиях дня. Данная система разрабатывалась в рамках проекта Колумбийского университета на тему «Обработка текста на естественном языке».

• Ultimate Research Assistant (http://ultimate-research-assistant.com) - система-помощник, предлагающая пользователю возможности по сводному реферированию и структуризации результатов интернет-поиска. Система использует большое количество различных алгоритмов «понимания» текста на естественном языке и включает в себя инструменты по извлечению сущностей (концептов, понятий), автоматического реферирования, кластеризации и категоризации концептов, включая автоматическое построение таксономии, карты связей понятий, облаков тегов; а также набор инструментов для визуализации полученных результатов. Система позволяет пользователю задать поисковый запрос, а затем производит поиск релевантных документов и формирует графический отчет.

• iResearch Reporter (http://iresearch-reporter. com/) - коммерческая поисковая система, поддерживающая автоматическое сводное реферирование. Демо-версия продукта позволяет ввести пользовательский запрос, затем он передается ИПС «Google». Система производит категоризацию и реферирование множества релевантных поисковому запросу документов, выданных ИПС, производит расчет цитируемости данных документов, производит лексический и грамматический анализ, выявляет основные понятия и предлагает пользователю отчет.

• NewsInEssence (http://lada.si.umich.edu: 8080/clair/nie1/nie.cgi) - может использоваться для поиска и сводного реферирования кластеров статей. В системе также реализована ежедневная кластеризация и построение аннотаций для новостных сюжетов.

• NewsFeed Researcher (http:// newsfeedresearcher.com/) - новостной портал, реализующий непрерывное автоматическое реферирование новостных сюжетов, предварительно кластеризованных новостными агрегаторами, например, Google News. Портал охватывает основные новости по направлениям «Бизнес», «Технологии», «США» и «Международные новости». Пользователю также доступно создание сводных аннотаций «по запросу» по любой выбранной теме.

• Shablast (http://shablast.com/) - универсальная поисковая система, предоставляющая функции сводного реферирования первых результатов, выдаваемых поисковой системой Microsoft Bing по набору ключевых слов.

• Новостные агрегаторы, поддерживающие автоматическую (автоматизированную) кластеризацию и сводное реферирование новостных потоков, например, «Google News» (http://news. google.com/). Автоматическое сводное реферирование русскоязычных текстов реализовано в русскоязычных новостных агрегаторах, таких, как «Яндекс. Новости», «Рамблер. Новости», «Ново-тека», а также в информационно-аналитической системе «InfoStream», разработанной в Информационном центре «ЭЛВИСТИ».

Обзор существующих систем автоматического сводного реферирования показал, что в настоящее время до уровня промышленной реализации доведено всего лишь несколько программных продуктов на основе различных комбинаций методов экстракции (в основном, на базе поверхностного подхода). Несмотря на многочисленные попытки решить проблему связности текста итогового реферата для методов экстракции это остается серьезным ограничением. Методы абстракции изначально лишены данного недостатка, однако в настоящее время находятся в рамках научно-исследовательских работ в силу ограниченной поддержки со стороны методов искусственного интеллекта, а также отсутствия необходимых лингвистических ресурсов (словарей, грамматик, тезаурусов) и соответствующих баз знаний должного объема. Практически все из существующих

программных продуктов автоматического реферирования являются коммерческими разработками, отсутствует какая-либо подробная информация об алгоритмах и методах, используемых авторами, все продукты ориентированы на лексические особенности какого-то конкретного языка, решение узкоспециализированной задачи реферирования, например, сжатия новостного кластера; ряд про-

дуктов отличает относительно низкое качество получаемых рефератов и аннотаций. Растущая потребность информационно-аналитического направления в более совершенных системах сводного реферирования определяет необходимость развития новых подходов к решению этой задачи с применением более эффективных методов и алгоритмов.

СПИСОК ЛИТЕРАТУРЫ

1. Toffler, A. Third Wave [Текст]/А. Toffler//Bantam Books.-N.Y.-1991.-544 с.

2. Михайлов, А.И. Основы научной информации [Текст]/А.И. Михайлов, А.И. Черный, Р.С. Гиляревский. -М.: Наука, 1965.-655 с.

3. Леонов, В.П. О методах автоматического реферирования (США 1958-1974 гг.) [Текст]/В.П. Лео-нов//Научно-техническая информация.-Сер.2.-1975. -№6.-С. 16-20.

4. Пащенко, Н.А. Проблемы автоматизации индексирования и реферирования [Текст]/Н.А. Пащенко, Л.В. Кнорина, Т.В. Молчанова [и др.]//Итоги науки и техники. -Сер. Информатика. -М.: ВИНИТИ, 1983. -Т.7. -С. 7-164.

5. Севбо, И.П. Структура связного текста и автоматизация реферирования: Монография [Текст]/ И.П. Севбо.-М.: Наука, 1969.-135 с.

6. Hutchins, J. Summarization: Some Problems and Methods [Текст]Л. Hutchins; K.P. Jones, ed. //Proc. Informatics 9: Meaning The Frontier of Informatics. -Aslib, London, 1987.-С. 151-173.

7. van Dijk, T.A. Semantic Macro-Structures and Knowledge Frames in Discourse Comprehension [Текст]/ T.A. van Dijk; M.A. Just, P.A. Carpenter, eds.//Cognitive Processes in Comprehension. -Lawrence Erlbaum, Hillsdale, N.J., 1977.-С. 3-32.

8. Hahn, U. Knowledge-Based Text Summarization: Salience and Generalization Operators for Knowledge-Based Abstraction [Текст]/и. Hahn, U. Reimer; I. Mani, M. Maybury, eds.//Advances in Automatic Text Summarization. -MIT Press, Cambridge, Mass., 1999.-С. 215-232.

9. Хан, У Системы автоматического реферирования [Текст]/У Хан, И. Мани//Открытые системы. 2000. -№ 12 (http://www.osp.ru/os/2000/12/067.htm).

10. Luhn, H.P. The automatic creation of literature abstracts [Текст]/НР. Luhn // IBM Journal of Research and Development.-1958 -Вып. 2.-С. 159-165.

11. Edmundson, H.P. New Methods in Automatic Extracting [Текст]/НР. Edmundson//Journal of the Association for Computing Machinery. -Apr. 1969. № 16(2), -С. 264-285.

12. Pollock, J.J. Automatic abstracting research at Chemical Abstracts Service [Текст]ЛЛ Pollock, A. Zamora // Journal of Chemical Information and Computer Sciences.-1975. (15). -С. 226-233.

13. Rush, J.E. Automatic Abstracting and Indexing [Текст]Л.Е. Rush, R. Salvador, A. Zamora//Production of Indicative Abstracts by Application of Contextual Inference and Syntactic Coherence Criteria. Journal of the American Society for Information Science.-July-Aug. 1971. -С. 260-274.

14. Brandow, R. Automatic Condensation of Electronic Publications by Sentence Selection [Текст]/Я. Brandow, K. Mitze, L.F. Rau.//Information Processing & Management. -1995. -№ 31(5).-С. 675-685.

15. Белоногов, Г.Г. Компьютерная лингвистика и перспективные информационные технологии: Монография [Текст]/Г.Г. Белоногов, Ю.П. Калинин, А.А. Хорошилов.-М.: Русский мир, 2004.-246 c.

16. Абрамова, Н.Н. Автоматическое составление обзорных рефератов новостных сюжетов [Текст]/ Н.Н. Абрамова, В.Е. Абрамов//Интернет-математика. Сб. работ участников конкурса науч. проектов по информ. поиску.-Екатеринбург: Изд-во Урал. ун-та, 2007.-С. 1-11.

17. Пиотровский, Р.Г. Текст, машина, человек: Монография [Текст]/Р.Г. Пиотровский. -Л.: Наука, 1975.-327 с.

18. Лахути, Д.Г. Формализованное реферирование с использованием словесных клише (маркеров) [Текст]/Д.Г. Лахути, Д.И. Блюменау, Н.И. Гендина// НТИ. -1981.-Сер. 2.-№2.-С. 16-20.

19. Fung, P. Combining Optimal Clustering and Hidden Markov Models for Extractive Summarization [Текст]/Р. Fung, G. Ngai, C. Cheung//Proc. of the ACL 2003 Workshop on Multilingual Summarization and Question Answering, 2003.-С. 21-28.

20. Губин, М.В. Эффективный алгоритм формирования контекстно-зависимых аннотаций [Текст]/ М.В. Губин, А.И. Меркулов//Тр. Междунар. конф. Диалог 2005.-М.: Наука, 2005.-С. 116-120.

21. O'Neil, E.J. An Optimality Proof of the LRU-K Page Replacement Algorithm [Текст]/БЛ O'Neil, P.E. O'Neil, G. Weikum//Journal of the ACM.-Jan. 1999. -Vol. 46.-№ 1.-С. 92-112.

22. Гусев, В.Д. Тематический анализ и квазиреферирование текста с использованием сканирующих статистик [Текст]/В.Д. Гусев, Л.А. Мирошниченко, Н.В. Саломатина//Тр. Междунар. конф. Диалог 2005: Компьютерная лингвистика и интеллектуальные тех-

нологии, Звенигород, 1-7 июня 2005.-М.: Наука, 2005. -С. 121-125.

23. Yang, Ch. C Fractal Summarization for Mobile Devices to Access Large Documents on the Web [Текст]/ Ch. С. Yang, F.L. Wang//In Proc. of the WWW2003, Budapest, Hungary, 2003.-С. 134-139.

24. Endres-Niggemeyer, B. How to Implement a Naturalistic Model of Abstracting: Four Core Working Steps of an Expert Abstractor [Текст]/В. Endres-Niggemeyer, E. Maier, A. Sigel//Information Processing & Management.-1995. № 31(5).-С. 631-674.

25. Glaser, B.G. The discovery of grounded theory; strategies for qualitative research [TeKcr]/B.G. Glaser, A.L. Strauss//Aldine de Gruyter.-N. Y., 1967.-271 с.

26. Kupiec, T. A trainable document summarizer. [Текст]/Т. Kupiec, J. Pedersen, F. Chen//In Proc. of the 18th ACM/SIGIR Annual Conf. on Research and Development in Information Retrieval. -Seattle, WA, 1995.-C. 68-73.

27. Jang, D. Development of a document summarization system for effective information services [Текст]/0. Jang, S.H. Myaeng//In RIAO-97 ComputerAssisted Information Searching on Internet, 25th-27th June 1997.-С. 101-111.

28. Hirao, T. Extracting Important Sentences with Support Vector Machines [Текст]/Т. Hirao, H. Isozaki, E. Maeda [et al.]//In Proc. of the 19 International Conf. on Computational Linguistics.-2002. -Vol. 1.-С. 1-7.

29. Aone, C. A Scalable Summarization System using Robust NLP [Текст]/С Aone, M.E. Okurowski, J. Gorlinsky [et al.]; I Mani, M. Maybury, eds.//Proc. of the ACL/EACL'97Workshop on Intelligent Scalable Text Summarization. -Madrid, Spain, 11 July 1997.-С. 66-73.

30. Hovy, E. Automated Text Summarization in SUMMARIST [Текс^/E. Hovy, C-Y. Lin; I. Mam, M.T. Maybury, eds.//Advances in Automatic Text Summarization.-The MIT Press, 1999.-С. 81-94.

31. Браславский, П.И. Система автоматического реферирования новостных сообщений на основе машинного обучения [Текст]/П.И. Браславский, В. Густе-лев//Тр. IX Всерос. науч. конф. RCDL 2007.-Переславль-Залесский: Изд-во ун-та, 2007.-С. 142-147.

32. Гальперин, И.Р. Текст как объект лингвистического исследования [Текст]/И.Р. Гальперин.-М.: Наука, 1981.-140 с.

33. Тураева, З.Я. Лингвистика текста [Текст]/ З.Я. Тураева.-М.: Просвещение, 1986.-128 с.

34. Хэллидей, М.А.К. Когезия в английском языке [Текст]/М.А.К. Хэллидей, Р. Хасан//Исследо-вания по теории текста: реферативный сб.-М., 1979. -С. 108-115.

35. Boguraev, B. Salience-based Content Characterization of Text Documents [Текст]/В. Boguraev, C. Kennedy; I. Mani, M. Maybury eds.//Proc. of the ACL/ EACL, 1997.-С. 2-9.

36. Hearst, M. TextTiling: Segmenting Text into Multi-Paragraph Subtopic Passages [Текст]/Ы. Hearst//

Computational Linguistics.- 1997. № 23(1).-С. 33-64.

37. Barzilay, R. Using lexical chains for text summarization [Текст]Ж. Barzilay, N. Elhadad//In Proc. of the ACL/EACL-97 Workshop on Intelligent Scalable Text Summarization-Madrid, Spain, 1997.-С. 10-17.

38. Brunn, M. Text summarization using lexical chains [Текст]/М. Brunn, Y. Chali, C. J. Pinchak//In Proc. of DUC2001 Conf. -New Orleans, Louisiana, USA,

2001.-С. 135-140.

39. Silber, H. Efficient text summarization using lexical chains [Текст]/Н. Silber, G.F. McCoy, K.F. Kathleen//In 2000 International Conf. on Intelligent User Interfaces.-New Orleans, USA, Jan. 2000. -С. 487-496.

40. Kolla, M. Automatic text summarization using lexical chains: algorithmsand experiments [Текст]/М. Kolla, B. Tech.-Jawaharlal Nehru Technological University,

2002.-80 с.

41. Morris, J. Lexical cohesion computed by thesaural relations as an indicator of the structure of a text [Текст]Л. Morris, G. Hirst//Computational Linguistics.-1991. № 17(1). -С. 21-48.

42. Лукашевич, Н.В. Обработка потока новостей на основе больших лингвистических ресурсов [Текст]/Н.В. Лукашевич, Б.В. Добров, С.В. Штернов// Интернет-математика 2005. Автоматическая обработка веб-данных.-М.: 2005.-С. 461-484.

43. Лукашевич, Н.В. Автоматическое аннотирование новостного кластера на основе тематического представления [Текст]/Н.В. Лукашевич, Б.В. Добров// Компьютерная лингвистика и интеллектуальные технологии по матер. ежегодной Междунар. конф. Диалог 2009. -М.: Наука, 2009.-Вып. 8(15).-С. 299-305.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

44. Marcu, D. Discourse trees are good indicators of importance in text [Текст]/0. Marcu//Advances in automatic text summarization.-Cambridge, The MIT Press, 1999.-C. 123-136.

45. Strzalkowski, T. Arobust practical text summarizer [Текст]/Т. Strzalkowski, G. C. Stein, J. Wang [et al.]//In Advances in Automatic Text Summarization, COLING-ACL, 1999.-С. 137-154.

46. Teufel, S. Argumentative classification of extracted sentences as a first step towards flexible abstracting [Текст]^. Teufel, M. Moens; Mani, M. Maybury eds.// Advances in automatic text summarization. -The MIT, 1999.-С. 155-171.

47. Teufel, S. Sentence Extraction and rhetorical classification for flexible abstracts [Текст]^. Teufel, M. Moens//AAAI Spring Symp. on Intelligent Text summarization, 1998.-С. 89-97.

48. Lehnert, W.G. Plot Units and Narrative Summarization [Текст]/Ж G. Lehnert//Cognitive Science. 1981.-Vol. 4.-С. 293-331.

49. McKeown, K.R. Generating concise natural language summaries [Текст]/К.Я. McKeown, J. Robin, K. Kukich//Information Proc. & Management.-1995.

-№ 31(5), -C. 702-733.

50. Maybury, M.T. Generating summaries from event data [TeKCT]/M.T. Maybury//Information Proc. & Management-1995 -31(5),-C. 735-751.

51. Salton, G. Automatic Text Structuring and Summarization [TeKCT]/G. Salton, A. Singhal, M. Mitra [et al.]//Information Proc. &Management.-1997. -№ 33(2),-C. 193-207.

52. Mani, I. Summarizing similarities and differences among related documents [TeKCT]/I. Mani, E. Bloedorn// Information Retrieval.-1999.-№ 1(1).-C. 35-67.

53. Carbonell, J. The use of MMR, diversity based reranking for reordering documents and producing summaries [TeKCT]/J.G. Carbonell, J. Goldstein//In Research and Development in Information Retrieval.-1998. -C. 335-336.

54. Radev, D.R. Centroid-based summarization of multiple documents: sentence extraction, utility-based evaluation, and user studies [TeKCT]/D.R. Radev, H. Jing, M. Budzikowska//In ANLP/NAACL Workshop on Summarization.-Seattle, WA, Apr. 2000.-C. 21-29.

55. Nomoto, T. The diversity-based approach to open-domain text summarization [TeKCT]/T. Nomoto,

Y. Matsumoto//In Information Proc. & Management.-2003. -№ 39. -C. 363-389.

56. Barzilay, R. Inferring strategies for sentence ordering in multidocument news summarization [TeKCT]/R. Barzilay, T. Elhadad, K.R. McKeown// Journal of Artificial Intelligence Research.-2002. —№ 17. -C. 35-55.

57. Evans, D.K. Columbia Newsblaster: Multilingual News Summarization on the Web [TeKCT]/D.K. Evans, J.L. Klavans, K.R. McKeown//In Proc. of NAACL/ HLT .-2004.-C. 1-4.

58. Allan, J. Introduction to topic detection and tracking [TeKcr]/J. Allan //Event-based Information Organization.-Kluwer Academic Publishers, Boston, 2002.-C. 1-16.

59. Braun, R.K. Exploiting Topic Pragmatics For New Event Detection In TDT-2004 [TeKCT]/R.K. Braun, R. Kaneshiro//DARPA Topic Detection and Tracking Workshop.-Gaithersburg, 2004.-C. 189-192.

60.Connel,M.UmassatTDT2004[TeKCT]/M. Connel, A. Feng, G. Kumaran [et al.]//Proc. DARPA Topic Detection and Tracking Workshop Report.-Gaithersburg, Dec. 2004.

УДК 517

А.Н. Фирсов

МЕТОД МОМЕНТОВ В ТЕОРИИ ОБОБЩЕННЫХ ФУНКЦИЙ И ЕГО ПРИЛОЖЕНИЯ В ЗАДАЧАХ СИСТЕМНОГО АНАЛИЗА И УПРАВЛЕНИЯ. ОСНОВЫ ТЕОРИИ

Хорошо известны принципы применения преобразований Фурье и Лапласа в прикладных задачах. Особенно популярно использование их свойства, позволяющего переходить от соотношений, содержащих линейные дифференциальные операторы, к чисто алгебраическим (полиномиальным) соотношениям. Проблема, однако, остается: далеко не всегда тривиальной (если вообще аналитически возможной) оказывается задача обращения этих преобразований на заключительном этапе исследования. Кроме того, изображения сами по себе мало информативны с точки зрения оценки свойств соответствующих оригиналов. Наконец, d

операторы типа x—x переходят при упомянутых преобразованиях сами в себя, что делает в таких случаях неэффективным использование этих преобразований.

В предлагаемом исследовании строится метод, позволяющий трансформировать задачи, содержащие линейные дифференциальные операторы (вообще говоря, с переменными коэффициентами), к линейным алгебраическим задачам рекуррентного типа, лишенным указанных выше недостатков. Кроме того, величины, входящие в преобразованные соотношения, сами по себе оказываются имеющими содержательный смысл, что во многих случаях не требует обратного перехода к оригиналам.

Линейные функционалы (обобщенные функции) в пространствах целых функций изучались главным образом в связи с преобразованием Фурье. В книгах [1, 2] подробно исследованы свойства и структура линейных функционалов в пространстве Z целых функций экспоненциального

i Надоели баннеры? Вы всегда можете отключить рекламу.