Научная статья на тему 'Методы построения классификатора технической документации'

Методы построения классификатора технической документации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
260
37
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
классификация / текстовый документ / машинное обучение / индексация документов. / classification / text document / machine learning / document indexing

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Мальков А. А.

Приводится постановка задачи классификации применительно для построения системы автоматической классификации текстовых документов. Рассматриваются методы решения задачи автоматической классификации текстовых документов. Приводится подход к построению системы автоматической классификации.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

METHODS FOR CONSTRUCTING CLASSIFIER TECHNICAL DOCUMENTATIONS

The formulation of the classification problem for the construction of the system of automatic classification of text documents is given. Methods of solving the problem of automatic classification of text documents are considered. An approach to the construction of an automatic classification system is given .

Текст научной работы на тему «Методы построения классификатора технической документации»

TECHNICAL SCIENCE

УДК 004.912

Мальков А. А.

Тверской государственный технический университет DOI: 10.24411/2520-6990-2019-10113 МЕТОДЫ ПОСТРОЕНИЯ КЛАССИФИКАТОРА ТЕХНИЧЕСКОЙ ДОКУМЕНТАЦИИ

Malkov A. A.

Tver state technical University

METHODS FOR CONSTRUCTING CLASSIFIER TECHNICAL DOCUMENTATIONS

Аннотация.

Приводится постановка задачи классификации применительно для построения системы автоматической классификации текстовых документов. Рассматриваются методы решения задачи автоматической классификации текстовых документов. Приводится подход к построению системы автоматической классификации.

Abstract.

The formulation of the classification problem for the construction of the system of automatic classification of text documents is given. Methods of solving the problem of automatic classification of text documents are considered. An approach to the construction of an automatic classification system is given .

тов.

Ключевые слова: классификация, текстовый документ, машинное обучение, индексация докумен-Key words: classification, text document, machine learning, document indexing.

Постановка задачи классификации по заданной категории ct для i=1,..., |C|. В таком

Классификация документов является задачей

определения некоторого булева значения для каж- случае классификатором для ct является функция

дои пары й, с,) е Б х С , где D - множество классифицируемых документов, а

С ~ {с1,---, с|с|} является множеством пред-

Ф : Б ^ {Т, Р}, аппроксимирующая неизвестную целевую функцию Ф. : Б ^ {Т, Б} . Значение Т, относительно (й ■, сг) , означает решение о определенных категории. В случае, когда каждому соответствии документа категории с1, в то документу е Б должна быть присвоена лишь время как, значение F означает решение о несоот-

одна категория, относят к одиночной классифика- ветствии документа категории Сг. ции. Если любое количество категорий может при- ' '

сваиваться каждому й. е Б, то говорят о множественной классификации. Особым случаем одиночной классификации является двоичная

В то время как полная автоматизация задачи классификации требует принятия решения относи-

тельно T и F для каждой пары

Оd,, С, )

частичная

классификация, при которой каждому элементу автоматизация этого процесса может накладывать

й, е Б должна быть присвоена категория С1, либо раз™ые требования. С одной сторону для данного документа й е Б система может просто

ее дополнение С.

Двоичный случай является более общим, нежели множественный, поскольку можно преобразовать задачу множественной классификации по

ранжировать категории множества

C = {с1,..., С|С|}

в соответствии с оценкой

принадлежности к документу d. без принятия какого-либо строгого решения. С другой - для задан-д^ ной категории ct G C система может ранжировать документы D в соответствии с оценкой принадлежности к категории c [1].

Задача классификации документов находится ^ на пересечении дисциплин машинного обучения и

|С| удем рассматривать как 1 1 информационного поиска, является родственной независимых задач классификации документов D таким задачам как, например, анализ текстов (text

{c1v-5 С|с|} в |С| независимых задач двоичной

классификации по {Су, Су} для i =1, ..., |C|

этого требуется, чтобы категории были стохастически независимы друг от друга [1].

В итоге задачу классификации

C = {ci,..., c|Ci}

30

TECHNICAL SCIENCE /

mining) [1, 2], а потому существуют различные подходы к задаче классификации документов. Методы машинного обучения Подход машинного обучения основан на наличии исходного набора документов

Q = {dx,..., d,Q,} С D

по

C = {с1,..., с,с,}.

классифицированного

1,..., } . Это значит, что значения полной функции Ф: О X С ^ {Т, К} известны для каждой пары (й,, с) еОх С. Документ

d.

является положительным примером Сг, если

если это условие не выполняется, то полученные результаты будут неправдоподобно хорошими и не носят научного характера.

В условиях практического использования, после вычисления эффективности, классификатор, как правило, переобучают на полном наборе подготовленных документов, с целью увеличения эффективности. В этом случае результаты предыдущего вычисления эффективности становятся пессимистической оценкой реальной производительности, поскольку в итоге классификатор будет обучен на большем наборе данных, нежели изначально.

Нейронные сети

Нейронные сети с прямой связью позволяют аппроксимировать функции, что позволяет их использовать в решении задач классификации. Топология такой сети характеризуется тем, что количество нейронов в выходном слое, как правило, равно количеству определяемых категорий

С

С

С

&(dj, с,) = Т, и негативным, если

Ф(dj, с,) = F .

В условиях исследования для построенного классификатора Ф желательно вычислить его эффективность. В данном случае, до построения классификатора, исходный набор документов разбивается на два набора:

• тренировочный набор

TV = [dlt... , d|TV|} . На основе этого набора

строится классификатор Ф;

• тестовый набор Te = (d|rF|+р..., d|Q |}, используемый для тестирования эффективности классификатора. Для каждого документа d. £ Te , обработанного классификатором, решение классификатора Ф(dj'с,) сравнивается с экспертным

решением , с,) . Количественное измере-

ние эффективности основано на величине совпадений Ф^.,, Cf) и Ф(dj, Ct) .

Документы из набора Te не участвуют в индуктивном процессе построения классификатора;

nd

P(dj\Cl) = P(tl, t2,..,\c1) = P(tx\Cl) • P(t2\c1 )...P(tnd |C ) =Y[P(tk\Cl)

У\С\> , что устанавливает соответствие между выходом нейронной сети и категорией С, которую он представляет. Таким образом, в

сети с одним скрытым слоем вектор, соответствующий входному образцу, преобразуется скрытым слоем в некоторое новое пространство, которое может иметь другую размерность, а затем гиперплоскости, соответствующие нейронам выходного слоя, разделяют его на классы [2].

Наивная байесовская модель Цель классификации - найти самый подходящий класс для данного документа. В наивной байесовской классификации задача состоит в нахождении наиболее вероятного класса

cm = argmax P(ci \dj ), где P( ci | dj ) - вероят-

ceC

ность того, что документ d. попадёт в класс С •

Допуская упрощающие предположения об условной независимости термов и о независимости позиций термов и используя правило умножения вероятностей независимых событий, можно записать

k=1

Оценка вероятностей P(t \ с) с помощью обу чающего множества будет

P (t|c) = T-,

где

Т- - количество вхождений терма / во всех документах класса с; Тс - общее количество термов в документах класса с. После того, как классификатор

"обучен", то есть, найдены величины Р| с) и Р(с) , можно отыскать класс документа [1]:

= argmax P (dj | ct )P (сг ) = argmax P (ct )fjP(*k I С )

ceC

ceC

k=1

Кластеризация

Кластеризация - задача машинного обучения, в которой требуется разбить заданную выборку документов на непересекающиеся подмножества, назы-

ваемые кластерами, так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров существенно отличались. Решение задачи кластеризации принципиально неоднозначно, поскольку не существует однозначно наилучшего

С

m

критерия качества кластеризации, а также результат кластеризации существенно зависит от метрики [3]. На практике часто используют модификацию алгоритма к-средних и с-средних [4]. Индексация документов Документы не могут быть напрямую интерпретированы классификатором. Как правило, документ й представляют в виде вектора весов термов

где T - множество термов,

=(,-, ™\Т\' входящих, по меньшей мере, один раз в один документ, а 0 < < 1 представляет собой меру того,

на сколько терм ^ определяет семантику документа й . В случае использования недвоичной индексации, для определения веса wkj терма ^ документа й может быть использован любой метод извлечения знаний, основанный на представлении документа в виде вектора взвешенных термов. В большинстве случаев используется метрика tfidf. Однако в классической ее формулировке, документ представляется лексической семантикой термов, его составляющих, в то время как, составная семантика не учитывается. Для решения этой проблемы веса, полученные от функции tfidf, нормализуют. В

зависимости от практического применения, процедуре индексации может подвергаться полный текст документа, либо части документа.

Таким образом, при построении классифицирующих информационных систем, применение классического алгоритма классификации может быть оправдано в случаях, когда обучающие данные наилучшим образом описывают те классы, по которым проводилось обучение. Решение проблемы некачественных обучающих данных может быть достигнуто, проведением предварительного разбиения данных алгоритмом кластеризации. В результате кластеризации может быть снижено влияние шума в обучающей выборке на результат обучения и, в конечном итоге, построенный классификатор.

Список литературы.

1. F. Sebastiani. Machine learning in automated text categorisation. ACM Computing Surveys, Vol. 34, No. 1., March 2002.

2. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze An Introduction to Information Retrieval Draft. Online edition. Cambridge University Press., 2009.

3. Stuart Russell, Peter Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall, 2009.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4. David Arthur & Sergei Vassilvitskii. "How Slow is the k-means Method?". Proceedings of the 2006 Symposium on Computational Geometry (SoCG). -2006.

УДК 631.618 : 631.41: 631.48 + 633.3: 631.5

Бойко Т.Г.,

Национальный университет «Львовская политехника», ORCID: https://orcid. org/0000-0002-048 7-3293

Паславский М.М., Национальный лесотехнический университет Украины, ORCID: https://orcid. org/0000-0003-1635-4340

Руда М.В.,

Национальный университет «Львовская политехника», ORCID: https: /orcid.org/0000-0003-0590-4589 РР!: 10.24411/2520-6990-2019-10114 МОДЕЛЬ ОПРЕДЕЛЕНИЯ НАДЕЖНОСТИ ЛЕСНОГО КОМПАРТМЕНТА СЛОЖНОГО ЛАНДШАФТНОГО КОМПЛЕКСА В ДНЕСТРОВСКОМ ПРИКАРПАТЬЕ

Boyko T.,

National University "Lviv Polytechnic", ORCID: https://orcid. org/0000-0002-048 7-3293

Paslavskyi M., Ukrainian National Forestry University, ORCID: https://orcid. org/0000-0003-1635-4340

Ruda M.,

National University "Lviv Polytechnic", ORCID: https: /orcid.org/0000-0003-0590-4589

MODEL FOR DETERMINING THE RELIABILITY OF THE FOREST COMPARTMENT OF COMPOSITE LANDSCAPE COMPLEX OF THE DNIESTER'S PRECARPATHIA

Аннотация.

В статье рассмотрено понятие надежности биологических систем, в частности сложных ландшафтных комплексов (СЛК). В СЛК выделено компартменты и описано их природные компоненты и антропогенные факторы. Важнейшей характеристикой природоохранных объектов, позволяющей опреде-

i Надоели баннеры? Вы всегда можете отключить рекламу.