РЕШЕНИЕ ЗАДАЧ ТЕМАТИЧЕСКОЙ КАТЕГОРИЗАЦИИ
ИНТЕРНЕТ-РЕСУРСОВ
С. В. Свечников, н.с. Отдела программного обеспечения Интернет-систем Государственный научно-исследовательский институт информационных технологий и телекоммуникаций (ФГУ ГНИИ ИТТ «Информика») Тел: (495)612-39-43, E-mail: [email protected] http://www.informika.ru
The article deals with approaches to generation of algorithms of search, analysis and categorization of web-sites. There is introduced a solution for indexing and automatic categorization of internet resources by means of extraction of terms and assignment of weighting coefficient to them, what allows quickly and efficiently assess a web-site content.
В настоящее время в России существует необходимость в применении систем тематической категоризации, а вместе с ними и систем для управления доступом к Интернет-ресурсам.
Открытое информационное пространство содержит большое количество сайтов различного содержания, и наряду с полезной информацией Интернет содержит ресурсы, объективно опасные для нравственного здоровья общества, оказывающие негативное воздействие, в первую очередь, на подрастающее поколение. Российский сегмент сети - один из самых быстроразвивающихся, количество пользователей Интернета в России, по различным данным, достигает 25 миллионов человек, из них 2 миллиона детей [1]. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к сети Интернет может привести к серьезным угрозам для детей и учащихся. Также Интернет бесконтрольно используется в личных целях работниками умственного труда, имеющими доступ к глобальной сети, что снижает эффективность их работы и производительность корпоративной сети [2]. При этом методы прямого регулирования (цензуры) неэффективны, встречают протест пользователей и юридически несостоятельны, поскольку противоречат естественным правам граждан на свободу высказываний и волеизъявления.
В связи с этим решение проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты от нежелательного контента, который пользователи могут использовать по своей воле и по своему усмотрению [3]. Таким инструментом является
разрабатываемая система тематической категоризации Интернет-ресурсов.
Реализация системы тематической категоризации Интернет-ресурсов предполагает решение следующих задач:
• индексация Интернет-ресурсов (преобразование Интернет-ресурсов к единому формату);
• автоматическая категоризация Интернет-ресурсов, обучение системы и отнесение текстовой информации к заранее определенной категории;
• оценка качества категоризации с использованием метрик из информационного поиска.
Представленные подзадачи связаны, в первую очередь, с анализом текстовой информации веб-страницы, т.е. ее содержанием (контентом).
Пусть дано множество Интернет-ресурсов В, разделенное на два непересекающихся подмножества Тг и Т, называемых обучающей и тестовой выборкой. На основании обучающей выборки строится классификатор категорий, а на тестовой выборке проверяется качество категоризации. Пусть также дано соответствие между Интернет-ресурсами и некоторой категорией с в виде Ф : В ^ {0,1}, устанавливающее для каждого Интернет-ресурса значение 1, в случае принадлежности Интернет-ресурса категории, и 0 - в противном случае [3, 4, 5, 6].
Необходимо построить, используя только информацию из обучающей выборки
Тг, функцию Ф : О ^ {0,1}, аппроксимирующую Ф, чтобы число ошибок Е на тестовой выборке Т было наименьшим.
В = У. \Ф - min
(1)
Пусть Т - множество терминов, каким-либо образом выделенное из Интернет-ресурсов категории с. Тогда Интернет-ресурс можно представить в виде терминологического вектора:
di = (wij>-w\ T]f>
(2)
где wi]■ - вес термина ti в Интернет-ресурсе dj.
Описания каждой из категорий представим в виде векторов той же размерности, что и вектора Интернет-ресурсов:
С = ,
О)
где с! - вес термина ti в описании категории с .
При таком подходе существуют два ограничения:
■ нет дополнительной информации о категориях, к которым прикрепляются Интернет-ресурсы;
■ нет никакой внешней информации об Интернет-ресурсе, кроме той информации, которая содержится в нем.
Каждый Интернет-ресурс - это вектор, где номера терминов (слов) - его координаты, а веса терминов - значения координат, размерность вектора - это количество терминов, встречающихся в Интернет-ресурсе. Так как учитываются все термины, вектора получаются большого размера, что затрудняет процесс индексации, поэтому необходимо уменьшить размерность вектора. Для уменьшения размерности вектора в качестве терминов используем не слова, а устойчивые словосочетания, не учитываем редкие слова, которые не несут полезной информации, не рассматриваем часто встречающиеся слова.
Процесс индексации представим следующим образом (рис. 1):
■ очистка страницы;
■ выделение терминов;
■ исключение терминов, не несущих смысловой нагрузки;
■ замена общих и специфичных терминов;
■ присваивание терминам весовых коэффициентов. Сначала проводится очистка
страницы Интернет-ресурса, т.е. удаляется навигационная часть, теги html, скрипты, стоп-слова - частотные слова языка, не несущие смысловой нагрузки (предлоги, союзы, частицы, местоимения, некоторые глаголы), за счет этого уменьшается объем поисковой базы и повышается производительность поиска [7, 8, 9]. После этого в тексте с помощью функции анализа контента Интернет-ресурса выделяются термины - логические выражения, состоящие из слов и словосочетаний, связанные операторами AND, OR, NOT.
Рис. 1. Индексация Интернет-ресурсов
Для исключения терминов, не несущих смысловой нагрузки, используется пометка «исключение», которая показывает, что термин не относится к теме. Оставшиеся термины могут также обладать недостатками: существуют термины, которые слишком специфичны или, наоборот - значение которых слишком обще, поэтому их необходимо заменить более подходящими. Это увеличивает полноту индексирования. Для замены специфичных терминов используется тезаурус ЯСО, который представляет собой словарь общей лексики с семантическими отношениями между словами [10]. Использование тезауруса повышает качество анализа текста и полноту поиска информации, позволяя расширять запрос синонимичными, более общими и более частными понятиями. Общие термины заменяются сочетаниями терминов или несколькими связанными терминами, имеющими более определенное
значение. После того как были определены термины, необходимо провести лемматиза-цию - приведение терминов к нормальной форме (мужской род, единственное число). Тем самым уменьшается словарь терминов и повышается скорость работы индексации.
Заключительным этапом является присваивание терминам весовых коэффициентов. Исходное представление Интернет-ресурса выглядит следующим образом: Ин-
тернет-ресурс = коллекция слов (терминов) Т. Каждый термин ti е Т имеет определенный вес wij по отношению к Интернет-ресурсу dj е В (рис. 2), т.е. встречаемость
этого слова на странице Интернет-ресурса. Порядок слов учитывать не будем. На основании этих признаков каждому слову сопоставляется его вес.
Рис. 2. Интернет-ресурсы,
Таким образом, каждый ресурс можно представить в виде вектора весов его терминов dj = {w1j,...wщj} . Веса документов
нормируем так, чтобы wi]- > 0 и wi]- < 1, где
г е (0,\Т\) и у е (0,\В\).
Для вычисления веса термина на странице Интернет-ресурса используем классический частотный метод вычисления степени соответствия Интернет-ресурса. Этот метод относительно прост и имеет несложный алгоритм, что принципиально при обработке больших объемов документов.
Вычисляем вес термина следующим образом:
=
(4)
где tfi■ (частота термина) - отношение числа терминов ti в Интернет-ресурсе dj к
общему количеству терминов в этом Интернет-ресурсе. Таким образом, оценивается важность термина ti в пределах одного Ин-
тернет-ресурса:
Л КГ
(5)
где у = 1,..., Т, г = 1,..., В; Ту - число терминов ti в Интернет-ресурсе dj;
Ti - общее число терминов в Интернет-ресурсе dj.
dfj (частота Интернет-ресурса) - отношение количества Интернет-ресурсов категории, в которых встретился термин ti, к
содержащие термины
общему количеству Интернет-ресурсов категории:
#1 =
И
(6)
где у = 1,...,Т;
Ву - число Интернет-ресурсов, в которых встретился термин ti;
В - общее количество Интернет-ресурсов категории.
Таким образом, чем чаще термин встречается на странице Интернет-ресурса, но реже встречается во всех Интернет-ресурсах, тем выше будет его вес в данном Интернет-ресурсе.
Наиболее трудоемкой частью реализации системы является разработка процесса, отвечающего за автоматическую категоризацию Интернет-ресурсов, обучение системы на уже категоризированных Интернет-ресурсах и определение соответствия категории.
Алгоритм автоматической категоризации Интернет-ресурсов заключается в следующем:
■ вычисляется мера близости страницы Интернет-ресурса и категории - степень соответствия ресурса категории;
■ для каждой страницы выбирается категория наиболее близкая к ресурсу;
■ в случае если значение степени соответствия ресурса превышает некоторое пороговое значение категории, ресурс добавляется в категорию;
■ в случае если значение степени соответствия ресурса не превысило порогового значения категории, ресурс не добавляется в категорию, и решение о принадлежности его
к категории определяет эксперт.
Степень соответствия (CSV) между категорией c и Интернет-ресурсом dj определяем как скалярное произведение между их векторными представлениями:
!
Будем принимать решение о принадлежности Интернет-ресурса к категории, если степень соответствия достигнет заданного порога т . Таким образом, получаем:
После того как вычислена степень соответствия между категорией и Интернет-ресурсом, а также пороговое значение категории, необходимо провести обучение. Цель обучения - настройка весовых коэффициентов и порогового значения таким образом, чтобы процедура категоризации относила положительные примеры к категории, а отрицательные примеры - не относила, т.е. чтобы суммы весовых коэффициентов всех положительных примеров были равны либо превышали пороговое значение, а суммы для отрицательных примеров были ниже порога.
Для оценки качества категоризации Интернет-ресурсов применяем метрики из информационного поиска, такие как полнота, точность, F-мера [11].
Пусть
- множество Интернет-
Оа - множество Интернет-ресурсов, кате-
горизированных автоматически.
Полнота категоризации Интернет-ресурсов по категории вычисляется как отношение количества правильно категоризи-рованных Интернет-ресурсов системой к общему числу Интернет-ресурсов, относящихся к этой категории.
Точность категоризации Интернет-ресурсов по категории вычисляется как отношение количества правильно категоризи-рованных Интернет-ресурсов системой к общему числу Интернет-ресурсов, автоматически категоризированных системой.
(Ю)
Для идеального алгоритма полнота и точность должны быть равны 100%.
Б-мера, т.е. сводная оценка качества категоризации определяется как гармонически среднее полноты и точности:
Алгоритм осуществления сбора и обработки данных Интернет-ресурсов выглядит следующим образом (рис. 3).
ресурсов, категоризированных экспертами, а
Рис. 3. Сбор и обработка данных Интернет-ресурсов
Блок поиска информации в Интернете получает от блока тематической категоризации поисковые профили и преобразует их в поисковые выражения для внешних поисковиков. Внешний поисковик передает результаты поиска обратно, далее выделяются доменные адреса информационных ресурсов, которые передаются блоку тематической категоризации.
Блок тематической категоризации запрашивает контент информационных ресурсов, адреса которых были добавлены в базу, но еще не были категоризированы, или те, для которых пришло время повторной категоризации.
Блок сканирования Интернета получает от систем контентной фильтрации списки доменных адресов для категоризации и передает обратно списки категоризированных ресурсов.
Блок сканирования Интернета по полученным адресам скачивает контент информационных ресурсов Интернета и возвращает этот контент для проведения категоризации.
Для решения задач обработки информации Интернет-ресурсов используются следующие два алгоритма:
1. Поступление и обработка нового ресурса.
2. Актуализация существующих Интернет-ресурсов.
Первый алгоритм работает по следующему сценарию: находится новый ресурс, проверяется, есть ли он в каталоге, после чего проводится обход сайта (загрузка некоторого количества страниц), анализ этих страниц и присвоение категории сайту, если этого количества страниц недостаточно для присвоения категории, то проводится расширенный обход сайта (загружается большее количество страниц).
Актуализация существующих Интернет-ресурсов проходит следующим образом: проводится новый обход сайта, проверяется изменилась ли страница с момента последнего обхода, если изменилась, то проводится классификация загруженных страниц, если их достаточно, то проводится классификация сайта, одновременно с этим уточняется принадлежность категориям.
Основная структура разрабатываемой системы тематической категоризации Интернет-ресурсов и взаимодействие ее подсистем выглядит следующим образом (рис. 4):
ПС «Поиск новых сайтов»
Новые адр еса сайтов
_Неопознанные адреса
Обновление базы
-Изменения-
Данные о работе
Страницы для классификации
ПС «Каталогизация сайтов»
-Настройка-
ПС «Контроль и настройка процедуры классификации»
Рис. 4. Структура системы и взаимодействие ее подсистем
Подсистема «Поиск новых сайтов» предназначена для поиска новых Интернет-ресурсов. Результатом ее деятельности является набор новых адресов сайтов, попол-
няющих базу тематической категоризации. На этом этапе информация о ресурсе является базовой, т.е. не содержит данных о категориях, к которым отнесен ресурс.
Далее вся информация о новых ресурсах поступает в подсистему «Ведение информационных ресурсов», где в результате классификации сайты получают соответствие категориям.
После этого в работу включается подсистема «Обход сайтов», в рамках которой осуществляеются обход сайта и получение набора страниц для анализа тематики.
Следующей является подсистема каталогизации сайтов, которая анализирует тексты страниц, составляет их профиль и на основании этого решает вопрос об отнесении сайта к той или иной тематической категории.
Процессом, контролирующим качество классификации, управляет подсистема «Контроль и настройка процедуры классификации».
Дополнительно ведется специализированный журнал отслеживания изменений о сайтах и категориях, который используется подсистемой «Обмен с локальными системами контентной фильтрации (СКФ)» для обновления данных в базах СКФ и получения от них новых неизвестных адресов для анализа.
Подсистема «Ведение пользователей и управление правами доступа» позволяет ис-
пользовать систему в многопользовательском режиме, с разграничением прав доступа между пользователями и контролем действий, выполняемых пользователем.
Подсистема «Отчеты и статистика» собирает информацию от всех модулей и предоставляет ее для анализа.
Разрабатываемые средства тематической категоризации Интернет-ресурсов позволяют:
■ составлять тематический каталог Интернет-ресурсов за счет поиска веб-сайтов и поступления их от локальных систем кон-тентной фильтрации при посещении пользователями веб-страниц;
■ обеспечивать высокую точность категоризации Интернет-ресурсов за счет составления тематических профилей при описании категорий;
■ проводить актуализацию существующих Интернет-ресурсов, т.е. заново осуществлять обход сайта, проверять изменения страниц, уточнять принадлежность сайта категориям;
■ осуществлять обмен данными с локальными системами контентной фильтрации для защиты от нежелательного контента.
Литература
1. Фонд «Общественное мнение», http://www.fom.ru/.
2. Абсалямов А. Борьба с киберслэкингом. Windows 2000 Magazine. - 2000. - № 3.
3. Плешко В.В., Ермаков А.Е., Голенков В.П. RCO на РОМИП 2004//Российский семинар по оценке методов информационного поиска (РОМИП 2004) . - Пущино, 2004. - С. 43-61.
4. Плешко В.В., Ермаков А.Е., Митюхин В. А. RCO на РОМИП 2003: Отчет об участии в семинаре по оценке методов информационного поиска //Труды первого российского семинара по оценке методов информационного поиска/Под ред. И.С. Некрестьянова. - СПб: НИИ Химии СПбГУ, 2003. - С. 42-51.
5. Поляков И.Е. Опыт создания системы фильтрации агрессивного web-контента //Труды XII Всеросс. научн. метод. конф. «Телематика 2005», 6-9 июня 2005г. - СПб, 2005.
6. Sebastiani F. Machine Learning in Automated Text Categorization, http://nmis.isti.cnr.it/sebastiani/.
7. Некрестьянов И.С., Павлова Е.Ю. Обнаружение структурного подобия HTML-документов // Труды Четвертой всеросс. конф. RCDL'2002 . - Дубна, 2002. - С 38-54.
8. Ziv Bar-Yossef, Sridhar Rajagopalan Template Detection via Data Mining and its Applications // In Proceedings of WWW2002, May 7-11, 2002, Honolulu, Hawaii, USA.
9. Gupta S., Kaiser G., Grimm P., Chiang M., Starren J. Automating Content Extraction of HTML Documents // World Wide Web Journal, January 2005.
10. Russian Context Optimizer. Технологии анализа и поиска текстовой информации, http://www.rco.ru/.
11. Поляков П.Ю., Плешко В.В. RCO на РОМИП 2006 // Труды Четвертого росс. сем. по оценке методов информационного поиска. - СПб.: НИИ Химии СпбГУ, 2003 - С. 72-79.
*