Исследование методов машинного обучения
в задаче автоматического определения тональности текстов на естественном языке
Ермаков П.Д., Федянин Р.В.
МГТУим. Н.Э.Баумана ermakov.pd@mail. ru, roma.fedyanin@mail. ги
Аннотация. В данной статье приводится исследование применения различных методов машинного обучения в задаче автоматического определения тональности текстов и сравниваются результаты их работы. В статье приводится исследование влияния параметров различных методов машинного обучения на результаты решения данной задачи. Также в статье приводится перечень мер изменения пространства признаков модели и исследуется влияние данных мер на результаты определения тональности.
Ключевые слова: машинное обучение, анализ тональности, логистическая регрессия, деревья принятия решения, метод опорных векторов, random forest, k-ближайших соседей
1 Введение
Анализ тональности текстов является одной из распространенных задач компьютерной лингвистики. С увеличением пользовательской активности в сети (социальные сети, блоги, форумы, онлайн системы отзывов на фильмы, рестораны и др.) необходимость в данной задаче лишь растет, как и требования к ее точности.
В данной работе приводится исследование применимости широкого спектра методов машинного обучения для задачи определения тональности текста на естественном языке, сравниваются результаты их работы и анализируется зависимость этих результатов от входных параметров.
2 Машинное обучение
Базовые понятия машинного обучения:
• X - множество объектов (например, тексты на естественном языке);
• У - множество допустимых ответов (например, тональность текста: позитивный или негативный);
• у*: X Y - целевая функция (target function), значения которой известны лишь на конечном подмножестве X (например, тексты для которых заранее определена тональность).
Задачей машинного обучения является построение решающей функции (decision function) а: X У, которая бы приближала целевую
функцию. В задаче тональности решающая функция должна ставить тексту (не только множество текстов, для которых известно значение целевой функции) некую тональность [Воронцов, 2011].
2.1 Машинное обучение применительно к обработке текстов
В задачах обработки естественного языка и информационного поиска часто используется модель bag of words. Bag of words - это упрощенная модель представления данных о текстовом документе, в ней текст представляется в виде "мешка слов" (набора слов) без учета грамматики и порядка, а сохраняется лишь частота вхождения каждого слова в данный документ. Данная модель широко используется в методах классификации документов, где признаком для обучения классификатора является частота вхождения каждого слова. Также модель, копирующая подход bag of words, была применена в компьютерном зрении [Sivic et al., 2008].
Все исследования, упомянутые в данной статье, проводились на следующих англоязычных корпусах текстов:
1. Корпус отзывов о фильмах, входящий в состав библиотеки NLTK, 2000 текстов, в среднем 3500 символов в тексте;
2. Корпус из лексического семантического тезауруса SentiWordNet, 2000 текстов, в среднем 150 символов в тексте.
Все результаты, приведенные в данной статье, получены на корпусе 1. Результаты, полученные на корпусе 2, показали схожие результаты и потому не приводятся в данной статье.
2.2 Логистическая регрессия
Логистическая регрессия {Logistic regression) - это метод построения линейного классификатора, позволяющий оценивать апостериорные вероятности принадлежности объектов классам [Воронцов, 2011].
Вероятность наступления события у = 1 вычисляется по формуле
Р{у=1|х} = Я», (1)
где /(z) - логистическая функция (сигмоида): 1
Hz) =-, (2)
' w 1 + е~я
z = 8Тх = 01х1 + ■■■ + впх71, (3)
где х1(, хп - независимые переменные и 91 4— + 0п коэффициентов регрессии.
Переменные хг, являются признаками объекта х (в нашем
случае текста на естественном языке) из множества X [Воронцов, 2011].
Для уменьшения эффекта переобучения на практике часто рассматривается логистическая регрессия с регуляризацией. Регуляризация заключается в том, что параметры рассматриваются как случайный вектор с некоторой заданной априорной плотностью распределения. В качестве
Исследование методов машинного обучения в задаче автоматического определения
тональности текстов на естественном языке_
априорного распределения часто выступает многомерное нормальное распределение с нулевым средним, соответствующее априорному убеждению о том, что все коэффициенты регрессии должны быть небольшими числами, в идеале — многие малозначимые коэффициенты должны быть нулями. В этом случае, метод называется L2-регуляризованной логистической регрессией. Если использовать распределение Лапласа, как априорное, вместо нормального, то данная вариация логистической регрессии называется Ll-регуляризованной.
Результаты работы метода логистической регрессии зависят от выбора нормы регуляризации (L1 или L2) и параметра регуляризации. В качестве параметра регуляризации выступает плотность регуляризации С: чем меньше значение параметра С, тем сильнее регуляризация [Википедия, Логистическая регрессия].
2.3 Сравнение работы L1- и Ь2-регуляризованной логистической регрессии
В качестве первого исследования было произведено сравнение результатов работы методов L1- и Ь2-регуляризованной логистической регрессии при равных значениях плотности регуляризации.
На рис. 10 приведены кривые Precision-Recall, кривые Fl-меры и ROC-кривые для L1- и Ь2-регуляризованных логистических регрессий со значением плотности регуляризации равным С= 1.
Рис. 10 Кривые Precision-Recall, F1-Recall и ROC-кривая для L1- и L2-регуляризованных логистических регрессий
Для L1- и Ь2-регуляризованной регрессии значения показателя AUC на тестовой выборке получились равны 0.91217 и 0.9313 соответственно.
Получившиеся результаты не дают возможности сделать однозначный выбор в пользу одного из методов, поэтому необходимо провести исследование зависимости значения показателя A UC от значения плотности регуляризации логистической регрессии.
Плотность регуляризации С в данном исследовании принимала значения из ряда геометрической прогрессии от 2~10 до 215 со знаменателем прогрессии 20Л, т.е. [2"10, 2"9-9,... ,214-9,215].
Вся выборка делилась на обучающие и тестовые данные в соотношении 70/30. Для каждого параметра путем перекрестной проверки (cross-validation) с количеством блоков равным 10 на обучающей выборке высчи-тывалось среднее значение показателя AUC (среднее от всех значений показателя A UC полученных на каждом из 10 проходов перекрестной проверки). Происходил поиск параметров логистической регрессии: вида нормы регуляризации и плотности регуляризации, дающее максимальное среднее значение показателя A UC. На рис. 11 представлена зависимость среднего значения показателя AUC и разброса значений показателей AUC полученных на всех проходах перекрестной проверки от значения плотности регуляризации для L1- и Ь2-регуляризованной логистической регрессии.
— Avg. AUC for L1
— Avg. AUC for L2
GL50
2е Z1 Z4 Z3 ^ j1 24 2я 2е 2й1 2й 2м С {negulHrizBtlDn parameter)
Рис. 11. Зависимость показателя A UC от плотности регуляризации для L1- и L2-регуляризованной логистической регрессии
Оптимальные значения плотности регрессии С для каждой из норм регуляризации логистической регрессии, среднее значение показателя A UC полученное при перекрестной проверке на обучающей выборке (70%) (Avg. AUC) и значения показателя AUC полученные на тестовой выборке (30%) при оптимальных параметрах плотности регрессии С (Test AUC) представлены в таблице 1.
Таблица 4. Значение показателя A UC для оптимальных параметров логистической
регрессии каждого вида нормы регуляризации
Норма С Avg. AUC Test AUC
L1 1024 0.93445 0.93445
L2 2-5.1 0.93395 0.93395
3 Изменение пространства признаков
3.1 Изменение способов вычисления признаков
В предыдущих исследованиях признаками выступали все слова из корпуса текстов, а значениями признаков - количество употребления слова в тексте.
Было проведено исследование работы метода Ь2-регуляризованной логистической регрессии на пространстве признаков, значения которых были вычислены следующими способами:
• частотный {freq) - количество употреблений слова в тексте (используемый в предыдущих исследованиях);
• бинарный (binary) - 1 - если слово присутствует в тексте, 0 -если слово отсутствует;
• логарифм частоты (logfreq) - вычисляемое по формуле:
log freq = to (freq + l)y (4)
где freq - количество употреблений слова в тексте;
• tf-idf- значение признака вычисляется по формуле:
nw ]Д]
tf - idf = TF * IDF = ■ log (5)
Zfe»fe
где - количество употреблений слова в тексте, ¿¿k ^к
- общее
количествос слов в тексте, \В \ - количество текстов в корпусе, \di с w| - количество текстов, содержащих слово w.
На рис. 12 показаны кривые, отражающие результаты проведенного исследования.
Рис. 12 Кривые Precision-Recall, F1-Recall и ROC-кривая работы Ь2-регуляризованной логистической регрессии для различных способов вычисления значений признаков
Значения показателя AUC для различных способов вычисления значений признаков приведены в таблице 2.
Таблица 5. Значения показателя A UC для разных типов значений признаков
Способ вычисления значений признаков AUC
Freq 0.93395
Binary 0.94535
Logfreq 0.94387
tf-idf 0.87628
По полученным результатам можно сделать вывод, что способы подсчета значений признаков binary и logfreq позволили улучшить результаты работы метода Ь2-регуляризованной логистической регрессии, а использование меры tf-idf не принесло положительных результатов.
3.2 Уменьшение пространства признаков
Модель bag of words выделяет большое количество признаков. Например, в работе с корпусом из 2000 небольших текстов было выделено почти 40000 признаков. Большое количество признаков, особенно редко встречающихся, создают для классификатора "шум". Также большое количество признаков приводит к значительному замедлению работы большинства методов машинного обучения.
3.2.1 Выбор наиболее частотных признаков
Значениями признаков является количество употреблений слова в тексте, т.е. его частотность. Самым простым способом сократить пространство признаков, в данном случае, является использование наиболее частотных слов корпуса в качестве признаков.
На рис. 13 и в таблице 3 приведена зависимость значения показателя AUC от количества признаков, выбранных как самых частотных слов корпуса, для L1- и Ь2-регуляризованной логистической регрессии. Количество признаков менялось от 500 до 30000 с шагом 500.
0L94 0.92
а» о.вя
ам авг
DLBO
О 5000 U300D L50ÜD Z300D 2500D 3Q00D
Number of fEütms
Рис. 13. Зависимость значения показателя AUC от количества признаков
П-1-■-1-■--—■-п
Logistic: Regression (L2-regularization)
Logistic Regression (Ll-mgularization)
■ ■ ■ ■
Исследование методов машинного обучения в задаче автоматического определения
тональности текстов на естественном языке_
Таблица 6. Значения показателя А17С для разного количества признаков
Количество признаков LI L2
5000 0.92785 0.93085
13000 0.93838 0.93373
10000 0.93230 0.93379
15000 0.93489 0.93373
20000 0.93845 0.93391
25000 0.92780 0.93397
29000 0.93991 0.93390
Таблица 7. Значения показателя А11С для разных типов пространства признаков
Тип пространства признаков AUC
All 0.93395
without stop-words 0.92099
Stemming 0.92297
stemming without stop-words 0.90917
Как можно судить по результатам, приведенным в таблице 2 и Рис. 13, Ь2-регуляризованная логистическая регрессия дает более предсказуемые результаты при увеличении числа признаков и не так чувствительна к значению плотности регуляризации. Эти факты являлись основанием для выбора метода Ь2-регуляризованной логистической регрессии как основного в дальнейших исследованиях.
3.2.2 Стемминг и удаление стоп-слов
Одними из частых способов уменьшения пространства признаков являются удаление стоп-слов и/или взятие в качестве признака основы слова путем стемминга или лемматизации. Стоп-слова - это слова, которые самостоятельно не несут смысловой нагрузки, это предлоги, причастия, междометия, цифры, частицы и т.п. В качестве определения основы слова применялся стемминг, основанный на алгоритме Портера.
На рис. 14 представлены результаты работы Ь2-регуляризованной логистической регрессии на всех словах (all), на словах за исключением стоп-слов (w/o stop-words), на основах слов (w/ stemming) и на основах слов за исключением стоп-слов (w/stemming w/o stop-words).
аЗ
00
dl
w/o stop-words
w/ stemming
w/ stemming w/o stop-words
oo аз 04 ае о.в lo
Recall
аз
aoi
dl
w/o stop-words
w/ stemming
w/ stemming w/o stop-words
oo аз а4 об ов lo
Recall
d I
w/o stop-words
w/ stemming
w/ stemming w/o stop-words
~ао аз 04 ae ав lo
False Positive
Рис. 14 Кривые Precision-Recall, F1-Recall и ROC-кривая для разных типов
пространства признаков
Как видно из таблицы 4, метод Ь2-регуляризованной регрессии показал лучшие результаты при использовании всех оригинальных слов в качестве признаков, а удаление стоп-слов, стемминг, их комбинация лишь ухудшили результаты работы метода.
3.2.3 Выбор наиболее значимых признаков по результатам обучения логистической регрессии
Логистическая регрессия, как видно из формулы (3), задает каждому признаку вес - значимость признака для модели. Данная особенность позволяет легко интерпретировать результаты логистической регрессии: чем больше модуль веса признака, тем значимее данный признак для модели. Стоит отметить что деревья решений также имеют данную особенность. В таблице 5 представлен список 20 важных признаков выявленных Ь2-логистической регрессии.
Выдвинем гипотезу, что для анализа тональности текста важны не все признаки, а лишь значимые, значимость которых можно выявить построением Ь2-регуляризованной логистической регрессии.
Для проверки данной гипотезы было проведено исследование: по обучающей выборке строилась Ь2-регуляризованная логистическая регрессия и выделялось ограниченное число признаков, значимых для данной модели. Следующим шагом было построение Ь2-регуляризованной регрессии на уменыпеном пространстве признаков. Проверка построенной модели на тестовой выборке давала возможность оценить качество построенного классификатора.
Из рис. 15 видно, что уменьшение пространства признаков до 1000 данным методом не ухудшает результаты работы, но и не улучшает их. Данный подход по уменьшению пространства признаков может применяться перед любым методом машинного обучения, что особенно
Исследование методов машинного обучения в задаче автоматического определения
тональности текстов на естественном языке_
актуально для методов, которые сильно чувствительны к количеству признаков.
Таблица 8. Наиболее значимые признаки, выделенные после обучения Ь2-
регуляризованной логистической регрессией
Значимые слова с положительным значением Значимые слова с отрицательным значением
Слово Bee Слово Bee
Fun 0.22772 bad -0.34578
Great 0.20050 worst -0.23972
Well 0.17918 unfortunately -0.22826
american 0.15442 plot -0.20347
Jackie 0.14424 only -0.20172
Job 0.13945 nothing -0.19425
movies 0.13638 script -0.18455
excellent 0.13114 boring -0.16792
Mulan 0.13064 director -0.15444
memorable 0.12936 have -0.15028
0.95
ОВД
GLBA
0.В0
GL75
- - Lng.Regr (L2) with variable N features
— Lng.Regr (L2) on all features
23 Z* i1 21 ^ ^ 2й1 2й 2й 213 2м 2й 2й
Number of fEfltaiES
Рис. 15. Зависимость показателя AUC от количества признаков, выбранных после обучения Ь2-регуляризованной логистической регрессией для нового обучения
3.3 Увеличение пространства признаков 3.3.1 N-граммы
В описанных выше экспериментах признаками для методов машинного обучения являлись слова. В задачах обработки текста на естественном языке также популярно представление документов в виде набора слов и N-грамм, где N-граммы — фиксированные последовательности слов длины N. Для N = 2 такая последовательность называется биграммой, для N = 3 - триграммой. Например, для фразы "Почём опиум для народа" биграммами будут: "Почём опиум", "опиум для", "для народа" и триграммы: "Почём опиум для", "опиум для народа".
Было проведено исследование результатов работы метода L2-регуляризованной логистической регрессии в зависимости от выбора длины N-грамм в качестве признаков. В первом случае в качестве признаков выступали униграммы и биграммы (words and bigrams). Во втором случае - униграммы, биграммы и триграммы (words, bigrams and trigrams). Для первого случая количество признаков было около 540000, а для второго - около 1570000. Заметим, что в случае использования униграмм в качестве признаков, их количество было около 40000. Таким образом, использование N-грамм значительно увеличивает размерность пространства задачи. В первом случае среднее значение показателя AUC работы метода Ь2-регуляризованной логистической регрессии было равно 0.93668, при втором - 0.93446.
По аналогии с пунктом 3.2.1 было проведено сокращение размерности пространства признаков по принципу выбора наиболее частотных слов корпуса. На рис. 16 представлены зависимости значения показателя A UC от количества признаков, оставшихся после сокращения размерности для первого {words, bigrams) и второго {words, bigrams and trigrams) случаев соответственно. Красным цветом отмечено значение показателя AUC при работе метода Ь2-регуляризованной логистической регрессии без сокращения размерности. В таблице 6 приведены оптимальные значения количества признаков и соответствуюзие значения показателя AUC для разных наборов N-грамм.
0.95
а»
0.85
0.80
GL75
0.70
Lag.Regr.. (L2) w/ variable N features (wards and bigrams)
Lag.Regr. (L2) on all features (words and bigrams)
? ? 2т ? ^u 2й
Number of fEflbiGS
¿17 J15
0.95
а»
0.85
0.80
GL75
0.70
Lag.Regr- (L2) w/variable N features (words, bigrams arid trigrams)
Lug.Regr. (L2) on all features (words, bigrams and trigrams)
23 i1 21 ^ 2й 2й Number of fEflbiGS
¿17 ¿15
Рис. 16. Зависимость показателя А иС от количества признаков при различных наборах
]ЧГ-грам? взятых в качестве признаков
Таблица 9. Оптимальное количество признаков и значение показателя А иС для разных
наборов №грам
Набор N-грам Количество признаков AUC
words, bigrams 46340 0.93805
words, bigrams and trigrams 65536 0.93810
Как можно судить по полученным результатам, расширение пространства признаков с помощью N-грамм позволило лишь незначительно улучшить результаты работы метода Ь2-регуляризованной логистической регрессии.
4 Другие методы машинного обучения
Для каждого из исследуемых методов машинного обучения выполнялось сравнение результатов работы и поиск оптимальных параметров по следующей методологии: вся выборка текстов делилась на обучающие и тестовые данные в соотношении 70/30; для каждого значения параметра путем перекрестной проверки (cross-validation) с количеством блоков равным 10, на обучающей выборке высчитывалось среднее значение показателя AUC (среднее от всех значений показателей AUC полученных на каждом из 10 проходов перекрестной проверки); происходил поиск параметров каждого из методов, дающих максимальное среднее значение показателя AUC; каждый из методов с полученными выше оптимальными параметрами, обучался на 70% выборки текстов, и вычислялось значение показателя A UC на тестовой выборке.
4.1 Дерево принятия решений (Decision Tree)
Данный метод основан на деревьях принятия решений, т.е деревьях, в листьях которого стоят значения целевой функции, а в остальных узлах — условия перехода, определяющие по какому из ребер идти. Для данного метода подбиралось оптимальное значение максимальной глубины дерева принятия решений {Max depth). На рис. 17 представлена зависимость значения показателя A UC от максимальной глубины дерева.
GL75 0.70
В"» 0.60
0.55
О 5 1Д 15 2D
Мох depth
Рис. 17. Зависимость значения показателя A UC от максимальной глубины дерева в
методе дерева принятия решения
Оптимальное значение максимальной глубины дерева получилось равным 3. При этом значении максимальной глубины дерева среднее значение показателя AUC на обучающей выборке было равно 0.68204, а на тестовой выборке - 0.6500.
4.2 Random Forest
Основная идея метода Random Forest заключается в использовании ансамбля решающих деревьев. Метод основывается на основных подходах бэггинга и выбора случайных подмножеств признаков. Деревья в ансамбле строятся друг от друга независимо. Финальная классификация текстов проводится с помощью «голосования», т.е. итоговым классом текста объявляется тот класс, за который проголосовало наибольшее количество деревьев [Чусовлянов, 2014]. Для данного метода подбиралось оптимальное число деревьев в ансамбле (Number of trees in the forest). Ha рис. 18 представлена зависимость значения показателя AUC от числа деревьев в ансамбле.
О-во
0L75
0.70 -1-1-1-1-
О 1000 2000 3000 4000 5000
Number of trees in tfie fbredt
Рис. 18. Зависимость значения показателя AUC в методе Random Forest от числа
деревьев в ансамбле
Оптимальное значение числа деревьев в ансамбле получилось равным 1000. При этом количестве деревьев среднее значение показателя AUC на обучающей выборке было равно 0.90799, а на тестовой выборке - 0.84000.
4.3 Метод опорных векторов (SVM, Support Vector Machines)
Метод опорных векторов основан на идее разделения пространства на подпространства, соответствующие классам. В случае бинарной классификации, обучение метода сводится к поиску гиперплоскости с некоторой толщиной, которая разделяет объекты разных классов обучающей выборки. Отнесение текста к тому или иному классу тональности производится исходя из того, в какую часть пространства относительно найденной гиперплоскости попадает данный объект (текст) [Лебедева, 2014]. Данный метод имеет управляющий параметр (Penalty parameter of the error term), который позволяет находить компромисс между максимизацией разделяющей толщины гиперплоскости и минимизацией суммарной ошибки. На рис. 19 представлена зависимость значения показателя A UC от значения управляющего параметра.
а» 0.0& i аво
0.75 070
0.651-1-1-1-
О 50 100 150 200
Penalty parameter of the error term
Рис. 19. Зависимость значения показателя A UC в методе опорных векторов от значения
управляющего параметра
Оптимальное значение управляющего параметра получилось равным 50. При этом значении управляющего параметра среднее значение показателя AUC на обучающей выборке было равно 0.89416, а на тестовой выборке - 0.86167.
4.4 К-ближайших соседей (k-Nearest Neighbor, kNN)
При использованиии метода k-ближайших соседей, для определения класса тональности текста, необходимо определить расстояние от вектора, описывающего данный текст до векторов текстов из обучающей выборки. Затем находятся к текстов обучающей выборки, расстояние до которых минимально (к задается экспертом или выбирается согласно оценкам эффективности). Класс входного текста определяется как класс, которому принадлежат больше половины из соседних к векторов. В качестве функции расстояния могут использоваться разные меры [Вишневская, 2013]. Была выбрана самая распространенная - Евклидово расстояние:
d(xry) =
Схк ~УкУ
(6)
к=1
где х = и у = (ylf - две точки в Евклидовом
пространстве.
На рис. 20 приведена зависимость значения показателя AUC от числа соседей (к, Number of neighbor).
0L75
0.70
0.65
0.60
0.Б5
0150
2П0 ЗАО
Number of neighbor*
5ЕЗО
Рис. 20. Зависимость значения показателя А11С от числа соседей в методе к-
ближайших соседей
Оптимальное значение числа соседей получилось равным 100. При этом числе соседей среднее значение показателя А иС на обучающей выборке было равно 0.69855, а на тестовой выборке - 0.66833.
5 Заключение
Исследования показывают, что наилучшие результаты получены при использовании метода логистической регрессии для представления
Исследование методов машинного обучения в задаче автоматического определения
тональности текстов на естественном языке_
пространства признаков в бинарном виде. Также исследования демонстрируют возможность уменьшения пространства признаков без потери точности при удалении малочастотных слов или при выборе наиболее значимых признаков, выделенных после обучения логистической регрессии. Кроме того, в задаче определения тональности текстов результаты исследования демонстрируют, что удаление стоп-слов и взятие основы слова уменьшают точность работы методов машинного обучения, а использование биграмм и триграмм не сказываются на ней.
За рамки статьи вышли исследования методов уменьшения пространства признаков, таких как: латентно-семантический анализ (.LSA), метод главных компонент (PCÄ), метод рекурсивного исключения переменных (RFE), метод определения релевантной частоты {Relevance Frequency, RF). Также в статью из-за большого объема не вошли исследования метода Наивного байесовского классификатора и исследования других второстепенных параметров методов машинного обучения, описанных в разделе 4.
6 Благодарности
Авторы выражают искреннюю благодарность Клышинскому Эдуарду Станиславовичу и Данщину Георгию Андреевичу за помощь в подготовки статьи.
7 Список литературы
[Воронцов, 2011] Воронцов К.В. Машинное обучение, курс лекций URL:
http://www.machineleaming.ru/wiM/index.php?title=MaiifflHHoe_
К.В.Воронцов) (дата обращения: 05.04.2015)
[Википедия, Логистическая регрессия] URL:
https://m.wikipedia.org/wiki/JIorHCTH4ecKaH_perpecciM (дата обращения: 01.04.2015)
[Лебедева, 2014] Лебедева Е.А. Анализ эмоциональной окраски сообщений в микроблогах с помощью вероятностных моделей, 2014. 35 с.
[Чусовлянов, 2014] Чусовлянов Д.С. Машинное обучение для определения тональности и классификации текстов на несколько классов, 2014. 71 с.
[Вишневская, 2013] Вишневская Н.И. Программа анализа тональности текстов на основе методов машинного обучения, 2013. 25 с.
[Sivic et al., 2008] Sivic J., Zisserman A. Efficient visual search of videos cast as text retrieval, 2008.
К задаче определения функционального стиля документа на естественном языке
Волкова Л. Л.
Научно-исследовательский университет «Высшая школа экономики», Московский институт электроники и математики 1Шуауо1коуа@Иаз. тг'ет. ес1и. ги
Аннотация. Рассмотрены проблемы определения функционального стиля текста на естественном языке. Приведена классификация и описаны некоторые причины её вариации. Подробно описаны характерные особенности разных функциональных стилей на лексическом и синтаксическом уровнях представления языка, представляющие собой почву для классификации текстов по функциональному стилю на основе вектора маркеров стиля.
Ключевые слова: машинная лингвистика, обработка естественного языка, функциональный стиль, установление стиля, автоматическая обработка текстов.
1 Введение
Данная статья посвящена определению стиля текста на естественном языке. Будет проведено детальное рассмотрение функциональных стилей и их характеристик, которые могут быть использованы как маркеры при классификации текста по признаку стиля. Задача определения стилистики не является краеугольной, но это не отменяет ее важности, в частности, в вопросах поиска. Когда пользователь ищет информацию определенного рода, при сортировке результатов поисковой системой представляется полезной для повышения релевантности их категоризация в зависимости от стиля. Также фактор стиля документа применим при анализе авторского стиля, выявлении плагиата (если подвергнуть анализу различные фрагменты исследуемого документа), реферировании (с соблюдением стиля), аннотировании текстов на естественном языке.
2 Функциональные стили
Функциональные стили русского литературного языка - это разновидности языка, определяемые сферами деятельности человека и имеющие свои нормы отбора и сочетания языковых средств в зависимости от целей и задач текста. Каждый функциональный стиль (далее ФС) отличается от других следующими признаками: сферой использования, целью общения; формами, в которых он существует; набором языковых средств. Функциональный аспект стиля предполагает единство формы и содержания, а также экстралингвистическую обусловленность текста: «наряду с видами деятельности и формами общественного сознания -функции языка; типовое содержание, характерное для соответствующей