УДК 025.4.03
А. В. Максаков
ОБ ОДНОМ МЕТОДЕ ПОВЫШЕНИЯ КАЧЕСТВА ПЕРИОДИЧЕСКОГО ТЕМАТИЧЕСКОГО ПОИСКА В WEB
(кафедра автоматизации систем вычислительных комплексов факультета ВМиК, e-mail: [email protected])
1. Введение. На данный момент Web является широко используемым источником информации. Большой объем представленных в Web сведений и высокая динамичность их изменения обусловливают потребность в средствах поиска для возможности эффективного использования этого источника.
При осуществлении профессиональной деятельности, проведении исследований и обучении, в связи с высокой скоростью появления новой информации возникает потребность не только в нахождении сведений, соответствующих одной или нескольким темам, но и в постоянном получении новых данных. В этом случае одним из возможных вариантов доставки релевантной информации является периодическая доставка по аналогии с подпиской на тематические издания.
Для обеспечения такого рода доставки информации из Web необходимо решить задачу периодического тематического поиска, т.е. такого поиска, при котором множество новых документов, относящихся к заданной теме, предоставляется не сразу, а через определенные заранее промежутки времени. При этом следует отметить, что сервис периодической доставки релевантных документов имеет практический смысл только в том случае, если тематическая потребность остается актуальной и неизменной в течение большого промежутка времени. Рассматриваемая задача обладает рядом особенностей, которые можно использовать для повышения качества поиска.
В данной работе представлен метод периодического тематического поиска, представляющий собой комбинацию метода поиска по ключевым словам и тематической фильтрации с использованием классификаторов текстов. Используемые при решении задачи алгоритмы классификации рассмотрены с точки зрения их соответствия требованиям, предъявляемым задачей. Также приведены результаты практической апробации предложенного метода, позволяющие говорить о том, что этот метод может успешно применяться для обеспечения качественного периодического тематического поиска.
2. Описание и особенности задачи периодического тематического поиска. Процесс поиска с точки зрения пользователя показан на рис. 1.
Рис. 1. Процесс периодического тематического поиска
При работе с системой периодического тематического поиска пользователь осуществляет подписку на заданную тему. Задачей системы является предоставление пользователю через определенные периоды времени новых документов, соответствующих этой теме.
Отличительными особенностями задачи периодического поиска в контексте данной работы является следующее:
• высокая динамичность пространства поиска;
• неизменность информационной потребности пользователя в течение большого промежутка вре-
• отсутствие немедленного предоставления результатов поиска, однако существуют временные
ограничения на время поиска.
Данные особенности позволяют ослабить требования, предъявляемые к методам периодического тематического поиска по сравнению с традиционными методами информационного поиска. В частности, можно использовать методы, обладающие большей вычислительной сложностью поиска, поскольку нет необходимости в немедленной выдаче результатов. Условие статичности информационной потребности пользователя делает оправданным с практической точки зрения более подробное описание этой потребности.
2.1. Описание предложенного метода. В данной работе предлагается метод решения задачи периодического тематического поиска в Web, основанный на комбинации поиска по ключевым словам и тематической фильтрации с использованием классификаторов текстов, применяемой в ограниченных по объему коллекциях документов.
Информационная потребность пользователя представляется в виде пары {q,D}, где q — запрос по ключевым словам (запрос по КС), использующийся для первичного отбора документов из Web; D = {D+,D~} — обучающая выборка, описывающая тему, интересующую пользователя. Данная обучающая выборка содержит примеры релевантных теме документов (D+) и нерелевантных документов (D~).
Процесс поиска разделяется на два этапа.
1. Отбор документов из Web, соответствующих запросу по ключевым словам q, с помощью внешних систем поиска по ключевым словам. Данный этап позволяет, с одной стороны, обеспечить высокую полноту поиска, а с другой — существенно сократить объем обрабатываемой на следующем этапе информации.
2. Уточнение результатов поиска с помощью классификатора, обученного на предоставленной пользователем обучающей выборке D. Этот этап позволяет обеспечить высокую точность результатов поиска.
Отбор документов при помощи поиска по ключевым словам позволяет на порядки сократить множество анализируемых классификатором документов, что приводит к уменьшению вычислительной сложности метода в целом по сравнению с методом тематической фильтрации и как следствие применимости полученного метода на больших объемах данных, характерных для Web.
Ряд исследований [1, 2] показал, что классификация результатов поиска позволяет существенно сократить время поиска нужной информации. Таким образом, введение дополнительной классификации на получаемые пользователем документы позволяет повысить удобство использования поисковой системы и позволяет быстрее ориентироваться в полученных результатах.
Для реализации классификации результатов поиска пользователю необходимо в обучающей выборке множество релевантных документов D+ разбить на подмножества, описывающие интересующие пользователя подтемы. В этом случае обучающая выборка будет представлять собой множество
Таким образом, в этом случае классификатор будет решать две задачи: задачу тематической фильтрации (бинарной классификации) и задачу разбиения множества релевантных теме документов на подтемы (задачу классификации с большим количеством классов в обучающей выборке).
2.2. Типовые показатели качества поиска. Традиционными показателями качества поиска являются полнота и точность. Определим эти показатели. Предположим, Dc — множество документов, соответствующих заданной теме С, s(q, М) — множество документов, найденных с помощью метода М. При этом тема описана некоторым запросом q.
Определение полноты тематического поиска. Полнота (recall) тематического поиска определяется как отношение количества документов, правильно отнесенных к теме, к общему количеству документов, относящихся к данной теме:
мени;
Определение точности тематического поиска. Точность (precision) тематического поиска определяется как отношение количества документов, правильно отнесенных к теме, к общему количеству найденных документов:
\s(q,M)nDc\ Д(5(^М))= \s(q, М) | •
Для того чтобы сравнивать качество различных методов информационного поиска, необходимо ввести интегральный показатель качества. В 1979 г. Рийсбергеном была предложена такая мера (F-мера), имеющая в условиях равнозначности полноты и точности поиска вид [3]
Следует отметить, что большой объем доступной информации в Web и ее изменчивость обусловливают невозможность точной оценки качества поиска. Как правило, для оценки качества поиска в Web используют оценки качества поиска по первым N документам из списка результатов поиска.
2.3. Оценка качества поиска. Выразим качество поиска с помощью предложенного гибридного метода (обозначим его Мгибр) через качество поиска по ключевым словам Мкс и качество тематической фильтрации МТф. Обозначим общее количество релевантных документов как Np, количество отобранных на первом этапе — N0, количество релевантных из отобранных — Npo и количество релевантных документов из итогового списка найденных — NpH. Точность предложенного метода будет равна точности тематической фильтрации Мтф, используемой на втором этапе поиска. Полнота же будет определяться произведением полноты отбора документов Web по ключевым словам q' и полноты тематической фильтрации:
р(мгибр) = = Р(МТ ф), (1)
Д(мгибр) = ^ = ^ • ^ = R(q', Мкс) • R(MTф). (2)
Поскольку качество поиска напрямую зависит от качества используемого классификатора, то алгоритм классификации должен обеспечивать высокую полноту и точность тематической фильтрации и классификации. Наличие ограничений на время обработки анализируемого множества документов обусловливает важность низкой вычислительной сложности классификации документов. Пользователь осуществляет обратную связь с системой периодического тематического поиска путем внесения изменений в обучающую выборку, что приводит к дообучению или полному переобучению классификатора. Это в свою очередь определяет важность низкой вычислительной сложности обучения классификатора.
2.4. Обоснование предложенного метода. В качестве альтернативы предложенному методу можно рассматривать периодический поиск по ключевым словам и периодическую тематическую фильтрацию.
Тематическая фильтрация с использованием классификаторов обладает более высокой вычислительной сложностью по сравнению с фильтрацией на основе запроса по ключевым словам: 0(|У|) против 0(|д|) на документ, где \V\ — размерность словаря, используемого при классификации; |д| — количество термов в запросе по ключевым словам, при этом на практике \V\ |д|. Такая высокая вычислительная сложность приводит к практической неприменимости тематической фильтрации на основе классификаторов в условиях, когда только для индексирования появившихся новых страниц необходимо иметь канал, способный обеспечить скачивание не менее чем 10 мегабайт текста в секунДУ М-
Современные системы поиска по ключевым словам позволяют получить результаты за очень короткое время (обычно в пределах секунд и долей секунды). Однако с точки зрения качества поиска у такого подхода есть недостатки. Если рассматривать три показателя: полноту поиска, точность поиска и время на составление запроса, то на практике можно достичь хороших результатов только для двух показателей [5].
Покажем, что при выполнении определенных условий предложенный метод будет превосходить по качеству поиска, выраженному мерой F\, метод поиска по ключевым словам.
Запрос по КС, результаты поиска по которому обладают наилучшим среди данного множества запросов Q показателем меры F\, будем называть ^-оптимальным запросом на этом множестве:
q = arg max F\ (q). qEQ
Полноту поиска с помощью i7!-оптимального запроса обозначим R(q), точность — P(l)-Определим следующие условия.
1. Применяемый классификатор превосходит по полноте ^-оптимальный запрос на множестве запросов Q, которые может предложить пользователь, т.е.
За > 1 : Д(Мтф) ^ а • R(q). (3)
2. ^-оптимальный запрос обладает полнотой меньше единицы:
R(q) < 1. (4)
3. Возможно подобрать запрос по КС q', уменьшающий ошибку, связанную с полнотой, в произвольное количество раз:
3q' : R(q') > R(q). (5)
Лемма. Предположим, что выполняются условия (3)-(5), причем
R(q') ^R(q)+b-(l-R(q)).
Тогда Va > 1 3b < 1 : Д(Мгибр) = R(q') • Д(Мтф) ^ R(q).
Доказательство. Получим оценку значений параметра Ь, при которых выполняется условие Д(Мгибр) = R(q') ■ R(MTф) ^ R(q), т.е.
1/а - R(q)
а ■ R(q) ■ (R(q) + b ■ (1 - R(q))) ^ R{q), R{q) + b ■ (1 - R(q)) ^ 1/a, b ^
l/a - R(q)
i -ад
Поскольку a > 1, то
1 In, - R(n\
< 1- (6)
i - ад
Обозначим A = ■
Таким образом, требуемое условие выполняется при b G [А, 1). Так как данное множество непустое, то при выполнении условия (5)
Va > 1 3b< 1 : Д(Мгибр) = R(q') ■ Д(Мтф) ^ R(q),
что и требовалось доказать.
Следствие. При выполнении указанных условий можно подобрать такой запрос по ключевым словам, что полнота гибридного подхода будет превосходить полноту поиска по F\-оптимальному запросу.
Множество Q может быть составлено двумя способами:
• путем включения множества ad-hoc запросов, предложенных пользователями для описания заданной темы;
• путем получения запроса с помощью алгоритма индукции правил, обученного на представленной пользователем обучающей выборке.
Согласно [6-8], для запросов, полученных с помощью алгоритмов индукции правил, условие (3) выполняется на практике в большинстве случаев. При этом рассматриваемые алгоритмы превосходят алгоритмы индукции правил и по точности классификации. Результаты апробации, приведенные в разделе 5, подтверждают выполнение условия (3) и для множества представленных пользователями запросов по ключевым словам. Таким образом, если используемый классификатор превосходит по точности ^-оптимальный запрос, качество результатов гибридного подхода, выраженное мерой F\, в среднем будет выше, чем качество поиска по ключевым словам, при условии подбора для отбора документов из Web запроса по КС, обладающего достаточно высокой полнотой. Теоретически возможно составление запроса, обладающего полнотой, равной единице, путем включения в него всех
слов, которые могут встречаться в текстах, относящихся к заданной теме (таким образом, условие (5) выполнимо).
С практической точки зрения преимущество предложенного метода состоит в том, что для получения высокого качества поиска необходимо составить запрос по ключевым словам, обеспечивающий высокую полноту поиска, в отличие от исходного метода поиска по ключевым словам, в котором требуется составление запроса, обеспечивающего одновременно высокую полноту и точность.
Более подробно экспериментальное сравнение качества предложенного подхода и поиска по ключевым словам будет рассмотрено в разделе 5.
3. Решение задачи классификации. Исходя из (1) и (2) качество предложенного метода поиска напрямую зависит от качества используемого классификатора. Рассмотрим более подробно проблему решения задачи классификации с учетом указанных в разделе 2.3 требований.
Формальная постановка задачи классификации текстов выглядит следующим образом.
Предполагается, что алгоритм классификации работает на некотором множестве документов
Задачей классификации является определение класса, к которому относится данный документ.
3.1. Алгоритмы классификации, используемые на этапе уточнения результатов поиска. Основным выводом из нескольких независимых публикаций [8, 9] является преимущество одного из алгоритмов классификации — ЭУМ [10] (метода опорных векторов) над другими алгоритмами.
Основным недостатком этого алгоритма остается относительно высокая вычислительная сложность обучения (0(ЛГ°) [11], где а > 1,7, N — количество документов в обучающей выборке).
В работе предложены два масштабируемых алгоритма классификации, обладающие линейной (О(А^)) вычислительной сложностью обучения.
1. Модифицированный алгоритм Байеса для решения задачи классификации с большим количеством классов в обучающей выборке.
2. Алгоритм построения нескольких разделяющих гиперплоскостей (Мос^зЬег) для решения задачи бинарной классификации.
3.2. Модификация алгоритма Байеса. Экспериментальные исследования поведения алгоритма Байеса позволили обнаружить два систематических недостатка, сильно понижающих качество классификации:
• предпочтение классификатором классов, содержащих большее количество примеров в обучающей
выборке;
• предпочтение классификатором классов, в которых содержится большее количество взаимно зависимых признаков (не выполняется предположение о независимости признаков).
Для борьбы с некорректным определением параметров, в случае неравномощных обучающих выборок, предлагается использовать парадигму класса-дополнения. В этом случае вместо вероятности принадлежности признака классу оценивается вероятность принадлежности признака классу-дополнению С (следует учесть, что чем меньше вероятность принадлежности документа классу-дополнению р{й\С'), тем больше вероятность его принадлежности исходному классу р{й\С)). Используя принцип сглаживания параметров по Лапласу, получаем следующее правило определения метки класса:
количество вхождений всех признаков в класс-дополнение; \У\ — размерность словаря признаков.
С = {сг}, и ¿ = Д Сг П С, = 0 (при г ^ Я-
¿¡ее,-
С(<0 = ащтах к^(р(С)) - ^ ,
ги£с1
количество вхождений признака во все классы, кроме данного; N с — общее
Для частичной компенсации использования принципа независимости признаков производится нормализация весов признаков
тС С
В результате при решении задачи классификации в случае наличия большого количества классов (|С| 2) предложенный алгоритм близок по качеству классификации к алгоритму ЭУМ и существенно превосходит базовый алгоритм.
3.3. Метод построения нескольких разделяющих гиперплоскостей. Для задачи бинарной классификации внесенные модификации не позволяют приблизить метод Байеса по качеству к лучшим показателям (парадигма классов-дополнений не вносит никаких изменений), поэтому для данного случая предлагается использовать алгоритм с условным названием Мос^зЬег. Идея алгоритма состоит в последовательном нахождении направлений (как правило, не более 3-4), соответствующих дискриминанту Фишера [11, 12], максимизирующему так называемый индекс Фишера
(я 5,(ж'а)_ А
, , \ хех уеУ /
■На) =-2-2"
Я £ ^а)2" (я £ + А £ &а)2 - (н £ &а))
1 1 хех У хех / уеУ У уеУ /
Вдоль такого направления можно эффективно разделить часть обучающих экземпляров. В дальнейшем возможны два сценария: либо спроецировать все экземпляры на полученное малоразмерное пространство и использовать внешний алгоритм, например С4.5 [13], либо использовать точки отсечения для положительных и отрицательных экземпляров вдоль каждого направления. В ходе экспериментов второй вариант показал более точные результаты.
Схема обучения алгоритма выглядит следующим образом.
1. Методом градиентного спуска находим локальный максимум ,1(а).
2. Проецируем все обучающие экземпляры на полученное направление и запоминаем точку оптимального разделения классов, а также полупрямые, содержащие только положительные и отрицательные экземпляры.
3. Отбрасываем корректно классифицированные экземпляры на данном направлении и повторяем шаги 1-3 до достижения пустого множества экземпляров или фиксированного числа итераций.
Классификация экземпляра производится по следующему алгоритму.
Начало цикла: г = 1К, где К — количество направлений. Анализ ¿-го направления:
если документ находится на полупрямой положительных или отрицательных документов, выдаем соответствующую метку и выходим из цикла;
если данное направление последнее, определяем метку экземпляра с помощью точки оптимального разделения классов.
Конец цикла.
3.4. Сопоставление весов признакам для метода опорных векторов. Качество классификации зависит не только от используемого алгоритма классификации, но и от способа выбора множества анализируемых признаков, а также от способа оценки веса признака. Так, в работе [14] исследовались различные способы сопоставления весов признакам для метода опорных векторов. В частности, при оценке веса признака в форме Wi = In(T.F) • IDF были получены лучшие оценки качества классификации среди остальных подходов. В данной формуле TF — количество вхождений признака в документ, IDF — инверсная частота признака в коллекции.
Модификатор IDF оценивает важность слова для всей коллекции, однако он не учитывает особенностей распределения слов по документам рассматриваемых классов. Для алгоритмов классификации, оперирующих векторно-пространственной моделью, предложенный способ определения веса признака имеет следующий недостаток: предположим, есть два признака с одинаковой инверсной частотой,
встречающиеся в 10 документах. При этом первый признак встречается только в документах одного класса, а второй — во всех классах поровну. С точки зрения решения задачи классификации эти признаки должны иметь разный вес, однако оценка IDF для этих двух признаков будет одинаковой. Для устранения этой проблемы был предложен следующий способ определения веса признака, учитывающий распределение признака по классам в обучающей выборке:
Wi = ln(TF) • IDFn
(7)
где IDFn
определяется согласно формуле IDFnew = /max T.F(w, С)
у с çc
■IDF',
IDF' =
\
\D\
TF(w,C' )
E TF(w',C" cec wr^y
E
4. Экспериментальное сравнение алгоритмов классификации. Основным способом экспериментальной оценки качества классификации текстов является проверка качества классификации на типовых тестовых коллекциях. Для обеспечения адекватности полученных сравнительных оценок методов эксперименты были проведены на нескольких различных типовых коллекциях документов.
Оценка качества алгоритмов классификации проводилась на общедоступных и широко используемых тестовых коллекциях Reuters-21578, Newsgroup-20, OHSUMED и РОМИП-Legal. Коллекции Reuters-21578 [15] и OHSUMED [16] в разное время применялись в рамках конференции TREC для оценки качества алгоритмов классификации. Коллекция обсуждений Newsgroup-20 также часто используется исследователями для оценки качества алгоритмов классификации [6, 17, 18]. Коллекция нормативно-правовых документов РОМИП-Legal используется для оценки алгоритмов классификации на Российском семинаре по оценке методов информационного поиска [19]. При проведении экспериментов были поставлены следующие цели:
• получение оценки качества классификации предложенных алгоритмов при решении задачи классификации с большим количеством классов в обучающей выборке и сравнение этих алгоритмов по качеству классификации с широко используемыми алгоритмами;
• получение сравнительной оценки качества классификации предложенных алгоритмов при решении задачи бинарной классификации.
На рис. 2, 3 использовались следующие условные обозначения алгоритмов классификации: Bayes — метод Байеса;
ModBayes — модифицированный метод Байеса (описанный в разделе 3.2); SVM — метод опорных векторов с использованием линейного ядра;
ModSVM — метод опорных векторов с использованием предложенного способа сопоставления весов признакам (описанного в разделе 3.4);
ModFisher — предложенный алгоритм построения нескольких разделяющих гиперплоскостей (описанный в разделе 3.3).
Общие результаты приведены на рис. 2, 3.
По результатам экспериментов можно сделать следующие выводы.
При решении задачи бинарной классификации качество результатов предложенного алгоритма построения нескольких разделяющих гиперплоскостей сопоставимо с качеством алгоритма SVM.
Модифицированный метод Байеса при решении задачи бинарной классификации существенно проигрывает по качеству и алгоритму SVM и алгоритму ModFisher (что ожидаемо, так как парадигма класса-дополнения не влияет на качество классификации при решении задачи бинарной классификации).
При решении задачи классификации с большим количеством классов модифицированный метод Байеса превосходит алгоритм ModFisher по качеству классификации, а также и алгоритм SVM без применения модификатора весов (7) на большинстве тестовых коллекций.
На всех тестовых наборах метод опорных векторов с примененной оценкой веса (7) превосходит по качеству классификации все рассмотренные алгоритмы.
точность
Newsgroup- РОМИП- Reuters- OHSUMED 20 Legal 21578
BBayes ¡SModBayes BModFisher 0SVM HModSVM
Рис. 2. Общее сравнение качества алгоритмов классификации
^-мера 0,9 -
В Bayes В ModBayes В ModFisher В SVM В ModSVM
Рис. 3. Сравнение качества решения задачи бинарной классификации на коллекции Newsgroup-20
Принимая за критерий оптимальности алгоритма соотношение качества классификации и временных затрат на обучение (эти алгоритмы обладают сравнимой вычислительной сложностью классификации), можно сделать следующие рекомендации.
В случае малого объема обучающей выборки предпочтительно использование метода опорных векторов с предложенной в разделе 3.4 схемой оценки весов признаков. Для решения задачи классификации в случае наличия в обучающей выборке большого количества классов рекомендуется применять модифицированный метод Байеса. Алгоритм ModFisher предпочтителен для решения задачи бинарной классификации при больших объемах обучающих выборок.
5. Результаты апробации предложенного метода. Апробация предложенного метода проводилась на реальных данных Web. Производилась оценка показателей точности поиска и меры F\ на первых пятидесяти результатах поиска. Обучающая выборка составлялась с привлечением пользователей, которыми было предоставлено 30 примеров релевантных документов и 15 примеров нерелевантных документов. Множество примеров нерелевантных документов было расширено документами из нерелевантных рассматриваемым темам классов в коллекции Newsgroup-20.
Пользователями также для каждой из тем было представлено три описывающих интересующую их тему запроса по ключевым словам, из которых был выбран лучший с точки зрения качества поиска. Также был сформирован второй вариант запроса по ключевым словам путем изменения запроса по ключевым словам, автоматически сгенерированного на основе обучающей выборки.
Результаты апробации приведены на рис. 4, а, б.
точность 1 -
Тема 1 Тема 2 Тема 3 Тема 4 Тема 5
и ad-hoc запросы по КС ш модифицированный запрос по КС в предлагаемый подход
а
Рис. 4. Сравнение качества
^-мера 1 -
Тема 1 Тема 2 Тема 3 Тема 4 Тема 5
□ ad-hoc запросы по КС dd модифицированный запрос по КС и предлагаемый подход
б
по точности (а) и мере F\ (б)
Полученные результаты позволяют говорить о том, что наблюдается значительное улучшение точности поиска (примерно на 16%) и существенное улучшение качества поиска, выраженное мерой F\ (примерно на 7,5%) по сравнению с обычным поиском по ключевым словам.
Благодаря использованию этапа отбора документов из Web с помощью запроса по ключевым словам в среднем удалось сократить множество анализируемых классификатором документов в среднем более чем в 10 ООО раз, что позволило обеспечить приемлемое время поиска.
6. Заключение. В данной статье описывается метод периодического тематического поиска, представляющий собой композицию поиска по ключевым словам и тематической фильтрации с использованием классификаторов текстов. Исходя из требований, предъявляемых к алгоритмам классификации в рамках рассматриваемой задачи, были предложены алгоритмы классификации для решения задач бинарной классификации и задачи классификации с большим количеством классов в обучающей выборке.
Для оценки качества классификации предложенных алгоритмов было проведено сравнение с методом опорных векторов (SVM) и методом Байеса на ряде тестовых коллекций. Результаты экспериментов говорят о сопоставимости качества классификации предложенных алгоритмов и SVM, при этом предложенные алгоритмы обладают меньшей вычислительной сложностью обучения.
Также в статье приведены результаты апробации предложенного метода периодического тематического поиска на реальных данных. Полученные результаты позволяют говорить о возможности существенно улучшить качество поиска по сравнению с методом поиска по ключевым словам.
СПИСОК ЛИТЕРАТУРЫ
1. ChenH., DumaisS. Bringing order to the Web: automatically categorizing search // Proc. of ACM SIGCHI Conf. on Human Factors in Computing Systems. V. 1. N. Y.: ACM Press, 2000. P. 145-152.
2. Driori O., Ar on N. Using documents classification for displaying search results list //J. of Inform. Sei. 2. N 29. L.: Chartered Institute of Library and Information Professionals, 2003. P. 97-106.
3. Rijsbergen C. van. Information retrieval. L.: Butterworth's and Co., 1979.
4. Barfourosh A., Nezhad H., Anderson M., Perlis D. Information retrieval on the World Wide Web and active logic: a survey and problem definition // Technical report CS-TR-429. College Park: University of Maryland, 2002. P. 1-45.
5. Kobayashi M., T a ke d a K. Information retrieval on the Web / / ACM Computing Surveys. 32. N 2. N. Y.: ACM Press, 2000. P. 144-173.
6. FurnkranzJ.A study using n-gram features for text categorization // Technical report OEFAI-TR-98-30. Vienna: Austrian Institute for Artificial Intelligence, 1998. P. 1-10.
7. Provost J. Naive-Bayes vs. rule-learning in classification of Email // Technical Report AI-TR-99-284. Austin: The University of Texas, Department of Computer Sciences, 1999. P. 1-4.
8. Sebastiani F. Machine learning in automated text categorization // ACM Computing Surveys. 1. N. Y.: ACM Press, 2002. P. 1-47.
9. Yang Y., Liu X. A re-examination of text categorization methods // Proc. of Intern. ACM Conf. on Research and Development in Information Retrieval (SIGIR-99). N. Y.: ACM Press, 1999. P. 42-49.
10. Joachims T. Making large-scale SVM learning practical // Advances in kernel methods: support vector learning. Cambridge: MIT-Press, 1999. P. 169-184.
11. Chakrabarti S. Mining the Web discovering knowledge from hypertext data. San Francisco: Morgan Kaufmann Publishers, 2004.
12. Fisher R. The use of multiple measurements in taxonomic problems // Annals of Eugenics. 7. L.: Galton Laboratory, 1936. P. 179-188.
13. Quinlan R. C4.5: Programs for machine learning. San Francisco: Morgan Kaufmann Publishers, 1993.
14. Liao C., Alpha S., Dixon P. Feature preparation in text categorization // Proc. of Australian Data Mining Workshop. Sydney: University of Technology, 2003. P. 23-34.
15. Hersh W., Buckley C., Leone Т., Hie к am D. OHSUMED: An interactive retrieval evaluation and new large test collection for research // Proc. of the 17th Annual International ACM SIGIR Conf. on Research and Development in Information Retrieval. N. Y.: Springer-Verlag, 1994. P. 192-201.
16. http://www.daviddlewis.com/resources/testcollections/reuters21578/readme.txt
17. Nigam K., McCallum A., Thrun S., Mitchell T. Learning to classify text from labeled and unlabeled documents // Proc. of the 15th National Conf. on Artificial Intelligence. Menlo Park: AAAI Press, 1998. P. 729-799.
18. Joachims. A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization // Proc. of Int. Conf. on Machine Learning (ICML). San Francisco: Morgan Kaufmann Publishers, 1997. P. 143-151.
19. Труды 4-го Российского семинара РОМИП'2006. СПб.: НУ ЦСИ, 2006.
Поступила в редакцию 16.11.06
УДК 519.6
М. Г. Мальковский, П. П. Жалыбин
СРЕДСТВА ФОРМАЛЬНОГО ОПИСАНИЯ ЕСТЕСТВЕННОГО ЯЗЫКА В ИНСТРУМЕНТАЛЬНОЙ СРЕДЕ ОБРАБОТКИ ЯПОНСКИХ ТЕКСТОВ
(кафедра алгоритмических языков факультета ВМиК, e-mail: [email protected])
Введение. Инструментальная среда "NIHONGO" [1] ориентирована на работу с японоязычным лингвистическим материалом. Система предоставляет пользователю инструменты для редактирования и лингвистического анализа японского текста, а также позволяет получать различную справочную информацию о японском языке. Система может также выполнять функции автоматизированного рабочего места лингвиста-япониста. В этом случае конечным пользователем системы будет исследователь японского языка, сталкивающийся с проблемой лингвистической обработки японского текста, которому требуется понятное формальное средство для описания различных лингвистических феноменов. Работа над созданием среды "NIHONGO" ведется на факультете ВМиК МГУ в сотрудничестве с Институтом востоковедения РАН.
В свое время в Институте востоковедения РАН ведущим специалистом в области компьютерной обработки японского языка З.М. Шаляпиной был предложен так называемый сущностный подход к языку [2]. В рамках этого подхода единицы языка рассматриваются как сущности, являющиеся совокупностью присущих им свойств. Свойством сущности может быть любая значимая информация о