УДК 004.738.52
ИСПОЛЬЗОВАНИЕ АЛГОРИТМОВ ПОИСКА И АНАЛИЗА ИНФОРМАЦИИ ДЛЯ КАТЕГОРИЗАЦИИ ВЕБ-САЙТОВ
С.В. Свечников
Федеральное государственное учреждение «Государственный научно-исследовательский институт информационных технологий и телекоммуникаций» (ФГУ ГНИИ ИТТ «Информика»), г. Москва
Представлена членом редколлегии профессором В.И. Коноваловым
Ключевые слова и фразы: анализ текста; категоризация веб-сайтов; контентная фильтрация; обработка информации; поиск сайтов; система тематической категоризации.
Аннотация: Предложен подход к созданию алгоритмов поиска, анализа и категоризации веб-сайтов. Представлено решение задач индексации и автоматической категоризации веб-сайтов Интернета за счет выделения терминов и присвоения им весовых коэффициентов, что позволяет достаточно быстро и эффективно оценить содержимое веб-сайта. Рассмотрены вопросы, связанные с оценкой качества категоризации, а также задачами сбора и обработки данных веб-сайта.
Объем информации, содержащейся в Интернете, является причиной возрастающей трудности организации документов в виде структурированных по смыслу каталогов. Большое количество источников информации, резко возрастающий объем данных в сети Интернет и необходимость их быстрой обработки вызывают потребность в создании специализированных систем для тематической категоризации веб-сайтов.
В настоящее время необходимость в системах тематической категоризации, а вместе с ними и в системах для управления доступом к веб-сайтам не вызывает сомнений. Открытое информационное пространство содержит большое количество сайтов различного содержания, и наряду с полезной информацией Интернет содержит ресурсы, объективно опасные для нравственного здоровья общества, оказывающие негативное воздействие, в первую очередь, на подрастающее поколение. Российский сегмент сети - один из самых быстроразвивающихся, количество пользователей Интернета в России по различным данным достигает 25 млн человек, из них 2 млн - дети [6]. Обеспечение учебных заведений и публичных библиотек доступом к сети Интернет увеличивает количество учащихся, пользующихся различными сервисами и информационными источниками, предоставляемыми глобальной сетью. Такой бесконтрольный доступ к сети Интернет может привести к серьезным угрозам для детей и учащихся. Также Интернет бесконтрольно используется в личных целях работниками умственного труда, имеющими доступ к глобальной сети, что снижает эффективность их работы и снижает производительность корпоративной сети [1]. При этом методы прямого регулирования (цензуры) неэффективны, встречают протест пользователей и юридически несостоятельны, поскольку противоречат естественным правам граждан на свободу высказываний и волеизъявления.
В связи с этим решение этой проблемы надо искать не в цензуре, а в предоставлении инструмента для защиты от нежелательного контента, который пользователи могут использовать по своей воле и по своему усмотрению [2].
Основные представленные на российском рынке программные продукты в области тематической категоризации веб-сайтов, принадлежат следующим компаниям.
Производитель Страна Программный продукт
Secure computing США Sentian
Surfcontrol США Surfcontrol web-filter
Websense США Websense Enterprise
Cobion Г ермания Proventia Web Filter
Другие системы или не поддерживают фильтрацию русскоязычных веб-сайтов, или являются не пригодными для корпоративной эксплуатации.
Перечисленные решения представляют собой программы, которые устанавливаются в локальной сети организации и работают на принципе анализа и тематической категоризации веб-сайтов.
Эти программные продукты позволяют:
- повысить эффективность работы сотрудников;
- оптимизировать пропускную способность сети;
- усилить безопасность сети;
- предотвратить появление неэтичных материалов;
- снизить расходы на доступ в Интернет.
К достоинствам представленных программных продуктов можно отнести:
- обеспечение защиты от основных угроз безопасности;
- высокий уровень настраиваемости;
- поддержку большой и постоянно обновляемой базы данных ИКЬ;
- простоту использования.
Все вышеуказанные системы прекрасно фильтруют, в первую очередь, англоязычное содержимое (контент) сайта. При работе с русскоязычным наполнением эти продукты демонстрируют:
- некорректную работу с содержимым по причине отсутствия специальных инструментов работы с информацией на русском языке;
- бедность базы данных русскоязычных ресурсов по причине, указанной выше, а также, потому что Рунет составляет 5 % от мировой сети Интернет и, вероятно, не является зоной первоочередных интересов иностранных компаний;
- неучет национальных особенностей при категоризации русскоязычных ресурсов, потому что иностранные компании не всегда адекватно учитывают специфику и политические реалии;
- систематическую погрешность категорирования сайтов, связанную, как правило, с полностью автоматическим определением категорий русскоязычных сайтов;
- низкую оперативность обновления;
- слабое сопровождение программного продукта;
- отсутствие возможности объединения данных от разных организаций с целью консолидации отчетности, потому что существующие системы рассчитаны на локальное использование в коммерческих, по большей части, организациях.
В связи с представленными недостатками существует необходимость создания системы для тематической категоризации, адаптируемой для русскоязычных веб-сайтов.
Реализация системы тематической категоризации веб-сайтов предполагает решение следующих задач:
- индексация сайтов (преобразование Интернет-ресурсов к единому формату);
- автоматическая категоризация сайтов, обучение системы и отнесение текстовой информации к заранее определенной категории;
- оценка качества категоризации с использованием метрик из информационного поиска.
Представленные подзадачи связаны, в первую очередь, с анализом текстовой информации веб-страницы, т.е. ее содержанием.
Пусть дано множество Интернет-ресурсов Б, разделенное на два непересе-кающихся подмножества Тг и Т8, называемых обучающей и тестовой выборкой. На основании обучающей выборки строится классификатор категорий, а на тестовой выборке проверяется качество категоризации. Пусть также дано соответствие между Интернет-ресурсами и некоторой категорией с в виде Ф : Б ® {0,1}, устанавливающее для каждого веб-сайта значение 1, в случае принадлежности его категории, и 0 - в противном случае [2 - 4, 7].
Необходимо построить, используя только информацию из обучающей выборки Тг, функцию Ф': Б ® {0,1}, аппроксимирующую Ф, чтобы число ошибок Е на тестовой выборке Тв было наименьшим
Е=XI ф-ф,1 ® шт. (1)
Т
Пусть Т - множество терминов, каким-либо образом, выделенное из Интернет-ресурсов категории с. Тогда Интернет-ресурс можно представить в виде тер-
минологического вектора
Т
= (^1} ,...^|т|у ) , (2)
где wij - вес термина в Интернет-ресурсе dj.
Описания каждой из категорий представим в виде векторов той же размерности, что и вектора Интернет-ресурсов
с = (С1,..., с|т|)Т , (3)
где с1 - вес термина ^ в описании категории с .
При таком подходе существуют два ограничения:
- нет дополнительной информации о категориях, к которым прикрепляются Интернет-ресурсы;
- нет никакой внешней информации об Интернет-ресурсе, кроме той информации, которая содержится в нем.
Каждый Интернет-ресурс - это вектор, где номера терминов (слов) - его координаты, а вес терминов - значения координат, размерность вектора - это количество терминов, встречающихся в Интернет-ресурсе. Так как учитываются все термины, векторы получаются большого размера, что затрудняет процесс индексации, поэтому необходимо уменьшить размерность вектора. Для уменьшения размерности вектора в качестве терминов используем не слова, а устойчивые словосочетания, не учитываем редкие слова, которые не несут полезной информации, не рассматриваем часто встречающиеся слова.
Процесс индексации представлен на рис. 1.
Сначала проводится очистка страницы веб-сайта, т.е. удаляется навигационная часть, теги Ыш1, скрипты, топ-слова - частотные слова языка, не несущие смысловой нагрузки (предлоги, союзы, частицы, местоимения, некоторые глаголы), за счет этого уменьшается объем поисковой базы и повышается производительность поиска [9 - 11]. После этого в тексте с помощью функции анализа
Рис. 1. Индексация сайтов
контента Интернет-ресурса выделяются термины - логические выражения, состоящие из слов и словосочетаний, связанные операторами AND, OR, NOT. Для исключения терминов, не несущих смысловой нагрузки используется пометка «исключение», которая показывает, что термин не относится к теме. Оставшиеся термины могут также обладать недостатками: существуют термины, которые слишком специфичны или наоборот - значение которых слишком общее, поэтому их необходимо заменить более подходящими. Это увеличивает полноту индексирования. Для замены специфичных терминов используется тезаурус RCO, который представляет собой словарь общей лексики с семантическими отношениями между словами [8]. Использование тезауруса повышает качество анализа текста и полноту поиска информации, позволяя расширять запрос синонимичными, более общими и более частными понятиями. Общие термины заменяются сочетаниями терминов или несколькими связанными терминами, имеющими более определенное значение. После того как были определены термины, необходимо провести лемматизацию - приведение терминов к нормальной форме (мужской род, единственное число). Тем самым уменьшается словарь терминов, и повышается скорость работы индексации.
Заключительным этапом является присвоение терминам весовых коэффициентов. Исходное представление Интернет-ресурса выглядит следующим образом: Интернет-ресурс - коллекция слов (терминов) T. Каждый термин ti е T имеет определенный вес Wj по отношению к Интернет-ресурсу dj е D (рис. 2), т.е.
встречаемость этого слова на странице Интернет-ресурса. На основании этих признаков каждому слову сопоставляется его вес.
Таким образом, каждый сайт можно представить в виде вектора весов его терминов dj = {W1 j,...'W|T|j}. Веса веб-сайтов нормируем так, чтобы wiJ- > 0 и
Wj < 1, где i е (0, |т|) и j е (0, |d|).
Для вычисления веса термина на странице Интернет-ресурса, используем классический частотный метод вычисления степени соответствия Интернет-ресурса, так как этот метод относительно прост и имеет несложный алгоритм, что принципиально при обработке больших объемов документов.
Вычисляем вес термина следующим образом
Wj =tfij-^. (4)
j j df
Рис. 2. Интернет-ресурсы, содержащие термины
где (частота термина) - это отношение числа терминов Ц в Интернет-ресурсе
й] к общему количеству терминов в нем, таким образом, оценивается важность термина Ц в пределах одного Интернет-ресурса
T tfj = Tl,
т,
(5)
где ] = 1,..., Т, I = 1,..., В ; Ту - число терминов Ц в Интернет-ресурсе й] ; Ti -общее число терминов в Интернет-ресурсе й ] .
Частота Интернет-ресурса - это отношение количества Интернет-ресурсов категории, в которых встретился термин ti к общему количеству Интернет-ресурсов категории
ы
dfj =-
D
(6)
где j = 1,..., T ; Dj - число Интернет-ресурсов, в которых встретился термин tt;
D - общее количество Интернет-ресурсов категории.
Таким образом, чем чаще термин встречается на странице Интернет-ресурса, но реже встречается во всех Интернет-ресурсах, тем выше будет его вес в данном Интернет-ресурсе.
Наиболее трудоемкой частью реализации системы является разработка процесса, отвечающего за автоматическую категоризацию веб-сайтов, обучение системы на уже категоризированных сайтах и определение соответствия категории.
Алгоритм автоматической категоризации веб-сайтов изображен на рис. 3 и заключается в следующем:
- вычисляется мера близости страницы Интернет-ресурса и категории - степень соответствия ресурса категории;
- для каждой страницы выбирается категория наиболее близкая к ресурсу;
- в случае, если значение степени соответствия ресурса превышает некоторое пороговое значение категории, ресурс добавляется в категорию;
- в случае, если значение степени соответствия ресурса не превысило порогового значение категории, ресурс не добавляется в категорию и решение о принадлежности его к категории определяет эксперт.
Степень соответствия CSV между категорией с и Интернет-ресурсом dj определяется как скалярное произведение между их векторными представлениями
CSV(c, dj) = cdj = ^ Cjdjj.
(7)
Будем принимать решение о принадлежности Интернет-ресурса к категории, если степень соответствия достигнет заданного порога т . Таким образом, получаем
ф'(с, dj) =
[1, CSV(c, dj) >t [0, CSV(c, dj) <t.
(8)
После того как вычислена степень соответствия между категорией и Интернет-ресурсом, а также пороговое значение категории необходимо провести обучение. Цель обучения - настройка весовых коэффициентов и порогового значения таким образом, чтобы процедура категоризации относила положительные примеры к категории, а отрицательные примеры - не относила, то есть чтобы суммы весовых коэффициентов всех положительных примеров были равны либо превышали пороговое значение, а суммы для отрицательных примеров были ниже порога.
Для оценки качества категоризации Интернет-ресурсов применяем метрики из информационного поиска, такие как полнота, точность, ^-мера [5].
Пусть Бг - множество Интернет-ресурсов, категоризированных
экспертами, а Ва - множество Интернет-ресурсов, категоризированных автоматически.
Полнота категоризации Интернет-ресурсов по категории вычисляется как отношение количества правильно категоризированных Интернет-ресурсов системой к общему числу Интернет-ресурсов, относящихся к этой категории
|£>а П А-1
r=
\D„
(9)
Добавление ресурса к Ресурс не принадлежит
1 1 \ Г
Рис. 3. Алгоритм автоматической категоризации Интернет-ресурсов
Точность категоризации Интернет-ресурсов по категории вычисляется как отношение количества правильно категоризированных Интернет-ресурсов системой к общему числу Интернет-ресурсов, автоматически категоризированных системой
\Da П Dr \Da\
(lO)
Для идеального алгоритма полнота и точность должны быть равны 100 %. ^-мера, т.е. сводная оценка качества категоризации определяется как гармонически среднее полноты и точности
2гр
F=
r + p
(іі)
Для решения задач обработки информации Интернет-ресурсов используются следующие два алгоритма (рис. 4):
Доменные имена
Проверка страницы
База данных СТК 4 База данных СТК 4 Обновление перечня
изменении
Рис. 4. Алгоритмы сбора и обработки информации
1) поступление и обработка нового ресурса;
2) актуализация существующих Интернет-ресурсов.
Первый алгоритм работает по следующему сценарию: находится новый ресурс, проверяется есть ли он в каталоге, после чего проводится обход сайта (загрузка некоторого количества страниц), анализ этих страниц и присвоение категории сайту, если этого количества страниц недостаточно для присвоения категории, проводится расширенный обход сайта (загружается большее количество страниц).
Актуализация существующих Интернет-ресурсов проходит следующим образом: проводится новый обход сайта, проверяется изменилась ли страница с момента последнего обхода, если изменилась, то проводится классификация загруженных страниц, если их достаточно, проводится классификация сайта, одновременно с этим уточняется принадлежность категориям.
Основная структура разрабатываемой системы тематической категоризации веб-сайтов и взаимодействие ее подсистем представлена на рис. 5.
Подсистема «Поиск новых сайтов» предназначена для поиска новых Интернет-ресурсов. Результатом ее деятельности является набор новых адресов сайтов, пополняющих базу тематической категоризации. На этом этапе информация о ресурсе является базовой, т. е. не содержит данных о категориях, к которым отнесен ресурс.
Далее вся информация о новых ресурсах поступает в подсистему «Ведение информационных ресурсов», где в результате классификации сайты получают соответствие категориям.
После этого в работу включается подсистема «Обход сайтов», в рамках которой осуществляется обход сайта и получение набора страниц для анализа тематики.
Следующей является подсистема каталогизации сайтов, которая анализирует тексты страниц, составляет их профиль и на основании этого решает вопрос об отнесении сайта к той или иной тематической категории.
Процессом, контролирующим качество классификации, управляет подсистема «Контроль и настройка процедуры классификации».
ПС «Поиск новых сайтов»
Новые адреса сайтов
Обновление базы
Соответствия сайтов категориям
Страницы для классификации
-Настройка-
Рис. 5. Структура системы и взаимодействие ее подсистем
Дополнительно ведется специализированный журнал отслеживания изменений о сайтах и категориях, который используется подсистемой «Обмен с локальными системами контентной фильтрации (СКФ)» для обновления данных в базах СКФ и получения от них новых неизвестных адресов для анализа.
Подсистема «Ведение пользователей и управление правами доступа» позволяет использовать систему в многопользовательском режиме, с разграничением прав доступа между пользователями и контролем действий, выполняемых пользователем.
Подсистема «Отчеты и статистика» собирает информацию от всех модулей и предоставляет ее для анализа.
Достоинствами предлагаемых алгоритмов являются:
- адаптация к российским условиям при категоризации русскоязычных ресурсов;
- широкий охват русскоязычных ресурсов;
- высокая оперативность обновления.
Разрабатываемое решение позволит:
- составить тематический каталог Интернет-ресурсов, за счет поиска вебсайтов и поступления их от локальных СКФ при посещении пользователями вебстраниц;
- обеспечивать высокую точность категоризации Интернет-ресурсов за счет составления тематических профилей при описании категорий;
- проводить актуализацию существующих Интернет-ресурсов, т.е. заново осуществлять обход сайта, проверять изменения страниц, уточнять принадлежность сайта категориям;
- осуществлять обмен данными с локальными СКФ для защиты от нежелательного содержимого сайта.
1. Абсалямов, А. Борьба с киберслэкингом / А. Абсалямов // (http://www. surfcontrol.ru/company/articles/3/).
2. Плешко, В.В. RCO на РОМИП 2004 / В.В. Плешко, А.Е. Ермаков, В.П. Голенков // Российский семинар по оценке методов информационного поиска (РОМИП 2004). - Пущино, 2004. - С. 43-61.
3. Плешко, В.В. RCO на РОМИП 2003 : отчет об участии в семинаре по оценке методов информационного поиска / В. В. Плешко, А. Е. Ермаков, В. А. Ми-тюхин // Труды первого российского семинара по оценке методов информационного поиска / под ред. И.С. Некрестьянова. - СПб., 2003. - С. 42-51.
4. Поляков, И.Е. Опыт создания системы фильтрации агрессивного web-контента / И.Е. Поляков // Труды XII Всероссийской научно-методической конференции «Телематика 2005», 6-9 июня 2005 г. - СПб., 2003. - С. 42-51.
5. Поляков, П.Ю. RCO на РОМИП 2006 / П.Ю. Поляков, В.В. Плешко // Труды четвертого российского семинара по оценке методов информационного поиска. - СПб., 2003. - С. 72-79.
6. Фонд «Общественное мнение» // (http://www.fom.ru/).
7. Sebastiani, F. Machine Learning in Automated Text Categorization / F. Sebastiani // (http://nmis.isti.cnr.it/sebastiani/).
8. Russian Context Optimizer. Технологии анализа и поиска текстовой информации // (http://www.rco.ru/).
9. Некрестьянов, И. С. Обнаружение структурного подобия HTML-документов / И.С. Некрестьянов, Е.Ю. Павлова // Труды четвертой всероссийской конференции RCDL'2002, 38-54, Дубна, Россия, 2002. - С. 38-54.
10. Ziv Bar-Yossef, Sridhar Rajagopalan Template Detection via Data Mining and its Applications // In Proceedings of WWW2002, May 7-11, 2002, Honolulu, Hawaii, USA. - Р. 580-591.
11. Automating Content Extraction of HTML Documents / S. Gupta, G. Kaiser, P. Grimm, M. Chiang, J. Starren // World Wide Web Journal. - 2005. - January. -Р. 179-224.
Application of Algorithms for Search and Analysis of Information for Websites Categorization
C.V. Svechnikov
Federal State Institution “National Research Institute of Information Technologies and Telecommunications ” (“Informika”), Moscow
Key words and phrases: content filtration; information processing; text analysis; thematic categorization system; websites categorization; websites search.
Abstract: The approach to creating algorithms of search, analysis and categorization of websied is proposed. The solution to the task of indexation and automated categorization of Internet websites through terms individualization and giving weight coefficients to them is presented; thus enabling to evaluate the content of the website quickly and efficiently. Matters associated with the evaluation of categorization quality as well as tasks of selecting and processing websites data are considered.
Benutzung der Algorithmen der Suche und der Analyse der Information fur die Kategorisation von Web-Seiten
Zusammenfassung: Es ist das Herangehen zur der Algorithmen der Suche, der Analyse und der Kategorisation von Web-Seiten angeboten. Es ist die Losung der Aufgaben der Indexbezeichnung und der automatischen Kategorisation der Web-Seiten des Internets aufgrund der Absonderung der Termini und der Aneignung fur sie die Gewichtskoeffizienten vorgelegt. Das ermoglicht den Inhalt der Web-Seite schnell und effektiv zu bewerten. Es sind die Fragen, die mit der Einschatzung der Qualitat der Kategorisation und auch mit den Aufgaben der Sammel- und Datenverarbeitung der Web-Seite verbunden sind, untersucht.
Utilisation des algorithmes de la recherche et de l’analyse de l’information pour la categorisation des Web-sites
Resume: Est proposee une approche pour la creation des algorithmes de la recherche et de l’analyse de l’information pour la categorisation des Web-sites. Est presentee la solution des problemes de l’indexage et de la categorisation automatique des Web-sites de l’Internet compte tenu du relevement des termes et de l’attribution des coefficients solides pour ceux-ci ce qui permet d’evaluer assez vite et effectivement le contenu du Web-site. Sont examinees les questions liees a revaluation de la qualite et la categorisation ainsi qu’aux taches de la collecte et du traitement des donnees des Websites.