УДК 004.023
Обзор современных лингвистических технологий и систем
К.И. Якубовский, К.А. Якубовская
Московский государственный университет печати имени Ивана Федорова 127550, Москва, ул. Прянишникова, 2А e-mail: [email protected]
В работе рассмотрены уровни представления анализа текста. Проведена сравнительная характеристика программ для автоматизации обработки текста, выявлены основные группы программ: компьютерные программы для синтаксического и морфологического анализа русскоязычных текстов; компьютерные программы для представления о частоте выявленных лексических единиц; системы, позволяющие собирать данные для определения стиля и степени оригинальности текстов.
Ключевые слова: анализ текста, графематический анализ, морфологический анализ, синтаксический анализ, семантический анализ, «Russian Morphological Dictionary», «Mystem», «Рабочее Место Лингвиста», «Морфологический анализатор», «TextAnalyst 2.0», «Система Пропись 4.0», «Свежий взгляд», «Технологии поиска и анализа текстовой информации».
Автоматизированная обработка текста обычно включает проведение анализа текста на нескольких уровнях.
Уровни представления анализа текста:
1. Морфологический - выделение грамматической основы слова, определение частей речи, приведение слова к словарной форме.
2. Графематический - выделение токенов из массива
данных.
3. Синтаксический - выявление синтаксических связей между словами в предложении, определение синтаксической структуры предложения.
315
4. Семантический - нахождение семантических связей между словами и семантических отношений [1].
Группы компьютерных программ, которые используются для автоматической обработки текста
1. Используется для синтаксического и морфологического анализа русскоязычных текстов.
«Russian Morphological Dictionary». В этой программе используется словарь А. Зализняка, который включает более 100000 слов. Программа позволяет определить грамматические признаки слов. При обращении к текстам социальной принадлежности эта возможность обеспечивает доказательную атрибуцию морфов, используемых пользователями социальных сетей. Но существует проблема ограниченности слов словаря А.Зализняка — отсутствуют имена собственные, некоторые неологизмы последнего времени, сравнительные формы (например, «постарше«), наречия (например, «по-детски«), сложные слова, которые пишутся через дефис, наречия на о и е (это не исправляется введением синкретического класса «наречие/краткая форма прил.«) [7].
«Mystem» — это компактный, быстрый, бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря А.Зализняка. Работает как консольное приложение и имеет различные режимы представления результатов. Программа Mystem производит морфологический анализ литературного нормативного русскоязычного текста. Для слов, отсутствующих в словаре, порождаются гипотезы на основании частотности суффиксов — > неологизмы и окказионализмы, появление которых можно спрогнозировать в социолекте, не получат достаточного аргументированного распознавания, однако существует факт наличия гипотезы, сформированной на основе имеющихся в программе сведений о функционировании литературного языка [7].
«Рабочее Место Лингвиста» — предлагает анализ текстов для построения систем автоматического перевода с русского на английский язык (и наоборот). Включает ряд компонентов:
• синтаксический анализатор русскоязычных текстов;
• морфологический анализатор текстов на русском и английском языках;
• построение конкордансов для заданной совокупности текстов [6].
«Морфологический анализатор» — это интернет-версия программы морфологического анализа слов русского и английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию на основе словарей В. Мюллера и А. Зализняка. В «Морфологический анализатор» может быть введено
316
русское или английское слово в любой грамматической форме. Программой анализа выдаются следующие сведения для русского слова:
a) исходная слоформа (по Зализняку);
b) словарная информация;
c) перевод;
d) морфологическая характеристика введенного русского
слова.
В случае наличия нескольких значений формы выводятся все варианты анализа. Именно возможность получить варианты анализа введенной в программу формы представляется наиболее важной, потому что эти варианты дадут почву для объективного определения места морфа в системе языка.
2. Используются для обобщенного представления о частоте выявленных лексических единиц, об их группировке в текстах и для исследования семантических процессов в изучаемых речевых продуктах.
«TextAnalyst 2.0». Основные возможности программы:
• используется для анализа символьных текстов, позволяет построить семантическую сеть понятий, выделенных в обрабатываемом тексте, со ссылками на контекст;
• реферирование текста;
• смысловой поиск фрагментов текста с учетом скрытых в тексте смысловых связей со словами запроса;
• анализ текста путем построения иерархии тем и подтем, затрагиваемых в тексте;
• анализ содержания текста с автоматическим формированием семантической сети с гиперссылками - получение смыслового портрета текста в терминах основных понятий и их смысловых связей;
• анализ содержания текста с автоматическим формированием тематического древа с гиперссылками - выявление семантической структуры текста в виде иерархии тем и подтем;
• смысловой поиск с учетом скрытых смысловых связей слов запроса со словами текста;
• автоматическое реферирование текста - формирование его смыслового портрета в терминах наиболее информативных фраз;
• кластеризация информации - анализ распределения материала текстов по тематическим классам;
• автоматическая индексация текста с преобразованием в гипертекст;
• ранжирование всех видов информации о семантике текста по «степени значимости» с возможностью варьирования детальности ее исследования;
• автоматическое формирование полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации.
317
Компоненты
1. «TextAnalyst Lib» - используется для построения гипертекстовых электронных книг
2. «TextAnalyst SDK» - используется для лемматизации и построения частотных списков понятий.
«Система Пропись 4.0» - используется для лингвистической обработки русскоязычных текстов. Основные возможности:
• расстановка переносов;
• поиск слов в тексте с учетом их форм;
• замена слов в тексте;
• проверка орфографии;
• построение списка антонимов и синонимов слова;
• грамматическая проверка текста;
• толкование слова с использованием словаря.
Благодаря своим возможностям эта система подходит для
обучения.[7]
3. Программы, позволяющие собирать данные, необходимые для определения принадлежности текста определенному стилю и степени оригинальности текстов.
«Технологии поиска и анализа текстовой информации» - это интернет-сайт, на котором представлены разработки компании «Гарант-Парк-Интернет».
Основные технологии:
• классификация текстов;
• создание реферата;
• поиск текста;
• анализ текста (синтаксический, морфологический, семантический);
• средства поиска в больших массивах текста [7].
«Свежий взгляд» - это продукт, который реализует стилистическую проверку текстов на русском языке - он находит в тексте места, где схожие слова расположены в непосредственной близости друг от друга, что порождает паронимию [7].
Рассматривая программы для автоматической обработки текстов, можно сделать вывод, что анализ, который может осуществить человек-эксперт в различных областях, вряд ли с большой степенью правильности сможет заменить программная обработка текста. Но эти программы могут позволить человеку прийти к заключениям, потратив на проведение исследования меньшее количество времени. Также эти программы позволяют опробовать гипотезы на гораздо большем объеме материала и с большей долей уверенности в объективности полученных данных.
318
Библиографический список
1. Ильвовский Д, Черняк Е. Системы автоматической обработки текстов // Открытые системы. - 2014 - № 1.
2. Селезнев К., Владимиров А. Лингвистика и обработка текстов // Открытые системы. - 2013. - № 04. - C. 46-49.
3. S.O. Kuznetsov. Fitting Pattern Structures to Knowledge Discovery in Big Data. ICFCA 2013. - P. 254-266.
4. C Manning, H. Schuetze. Foundations of Statistical Natural Processing. MIT Press, 1999.
5. B. Mirkin. Core Concepts in Data Analysis: Summarization, Correlation and Visualisation, DOI 10.1007/978-0-85729-287-2. Springer,
2011.
6. Автоматическая Обработка Текста: [Электронный ресурс]. URL http://www.aot.ru (Дата обращения: 15.04.2015).
7. Компьютерные программы обработки русскоязычных текстов: [Электронный ресурс]. URL: http://www.zlat.spb.ru/
CatalogImages/File/pdf/comp_progr.pdf (Дата обращения: 15.04.2015).
319