Перспективы использования жанровой классификации Веб документов в поисковых системах
Ю.А. Киселев Введение
С момента создания цифровых документов автоматическая классификация текста всегда была важнейшей темой для исследований. Учитывая огромные размеры текстовой информации, ставшей доступной через Интернет, количество электронной почты, размеры корпоративных баз данных, электронных библиотек и т.п., практическая значимость текстовой классификации также очень важна.
Алгоритмы текстовой классификации давно стали объектами многочисленных исследований. Они применяются для автоматической классификации новостных статей [1], Веб документов [2], автоматического определения предпочтений пользователей на основе данных из прочитанных ими статей [3] и т.д.
Текстовую классификацию можно определить, как задачу классификации текста по заранее определенным категориям. Более формально, если di - это документ из множества документов D, и имеется множество всех категорий (с1з с2, сп}, то текстовая
классификация - это назначение категории с документу d i. При этом документ может быть отнесен сразу к нескольким категориям (в случае ранжирующей категоризации) или только к одному классу.
Классификация Веб страниц отличается от типичной текстовой классификации. В отличие от простого текста, Веб страницы содержат не только текстовое содержимое, но и HTML тэги, различные метаданные (например, метаописание страницы), изображения, а также входящие и исходящие ссылки. Классификаторы Веб страниц, которые используют эту информацию, превосходят по качеству классификаторы, основанные только на текстовых признаках [4]. С другой стороны, содержимое Веб страницы содержит не только основную информацию, но также и рекламу, блоки меню, навигации и т.п. Наличие этого второстепенного контента ухудшает качество Веб классификаторов.
Современные методы машинного обучения успешно применяются для решения задачи категоризации текстовой информации и Веб страниц. К таким методам относятся алгоритмы кластерного анализа, метод опорных векторов, искусственные нейронные сети, решающие деревья и леса и другие. Подробный обзор подходов и алгоритмов жанровой классификации документов содержится в [5].
Одна из проблем, с которыми сталкиваются поисковые системы - это неоднозначные запросы пользователей. Неоднозначность во многом связана с небольшой длиной запроса. Так длина среднего запроса к поисковой системе Яндекс (www.yandex.ru) составляет всего три слова, а в августе 2008 года эта длина была ещё меньше: 2,5 слова [6].
Рассмотрим запрос [монополия]. По одному такому запросу просто невозможно однозначно определить информационную потребность пользователя - это может быть:
• студент, который ищет определение экономического термина, возможно, он хочет скачать реферат на эту тему;
• человек, который хочет купить настольную игру «Монополия» в Интернет магазине;
• юрист, который ищет законодательную и нормативно-правовую информацию по интересующей его теме.
Как видно из данного примера, проблем здесь несколько: во-первых, это недостаток информации о потребностях пользователя, во-вторых, это неоднозначность, связанная с пользователем. Разнообразная выдача могла бы компенсировать недостаток информации о потребностях пользователя включением документов, которые
рассматривают тему на разном уровне. Разнообразие результатов поиска имеет множество аспектов [7], которые связаны с неполнотой имеющейся информации.
В работе [8] рассматривается задача обеспечения разнообразия для запросов, связанных с «классическим» ассортиментом интернет-магазинов. Однако авторы не рассматривают механизм обеспечения разнообразия, а только создают предпосылки для него: решается задача классификации документов на некоторые классы. В настоящей статье рассматриваются именно методы использования жанровой классификации Веб документов в поисковых системах.
Применения в ранжировании
Поисковым системам приходится бороться с монотематичностью поисковой выдачи. Одним из возможных способов решения этой проблемы является использование результатов классификации Веб страниц.
Коммерческие поисковые системы начали использовать методы машинного обучения в ранжировании с 2000-х годов. Поисковая система Bing использует алгоритм RankNet [9], разработанный в компании Microsoft. Этот алгоритм реализован на основе нейронный сетей. В ноябре 2009 года российская поисковая машина Яндекс стала использовать алгоритм машинного обучения собственной разработки, MatrixNet, что существенно позволило повысить качество поиска.
Добавление бинарного фактора принадлежности документа к классу (или вещественного в случае определения вероятности принадлежности к классу) может дать новый сигнал для функции ранжирования, что обеспечит большую разнообразность результатов и повысит качество поиска в целом. Существуют убедительные доказательства того, что кластеризация результатов поиска обогащает опыт пользователей и повышает качество результатов [10].
Поисковые системы так же сталкиваются с необходимостью в «расширении» запроса: к словам из запроса добавляются синонимы, расшифровки аббревиатур, часто встречающиеся варианты транслитерации и т.п. Это приходится делать с целью повышения качества поиска, а именно для увеличения полноты результатов.
Однако эту проблему можно решать и с другой стороны: если поисковая машина понимает, что запрос тесно связан с некоторой тематикой, то Веб документы из этого класса могут ранжироваться более высоко. При этом такой подход имеет некоторые преимущества перед методом расширения запросов. Например, запрос [автоматическая коробка передач] относится, в том числе, к категории «автомобили», хотя ни это слово, ни его синонимы не встречаются в запросе. Традиционные методы поиска исключат из рассмотрения существенную часть документов, являющуюся релевантной, в то время как подмешивание документов из определенного класса может существенно разнообразить выдачу.
Главным недостатком использования этой методики является необходимость разрабатывать классификаторы не только для Веб страниц, но и для запросов. Учитывая то, что их средняя длина составляет всего 3 слова, задача их категоризации с хорошей точностью является достаточно сложной.
Фильтрация результатов и вертикальные поиски
Результаты классификации Веб страниц так же могут быть использованы для уточнения запросов пользователей. Часто возникает необходимость искать документы среди заданного класса: это могут быть новости, биографии, форумы и т.п. Результаты поиска могут быть уточнены с помощью переформулирования запроса. Например, если пользователь ввёл запрос [телевизоры Samsung] и понял, что его больше интересуют страницы с различных форумов, то он может перефразировать свой запрос следующим образом [телевизоры Samsung форум]. Этот метод позволяет увеличить долю документов из заданного класса, но не исключает результаты из других категорий, то есть информационная потребность пользователя решается лишь частично.
Знание о том, к каким классам принадлежат различные Веб страницы, может помочь решить данную проблему. Например, в интерфейсе можно предусмотреть возможность фильтровать полученные документы по заранее определенным классам: энциклопедии, отзывы, магазины и т.д. Такие фильтры должны удалять найденные результаты, которые не принадлежат выбранной категории.
Описанную фильтрацию можно применять, когда показатели качества классификации имеют высокие значения. Главной метрикой в данном случае выступает точность (precision) категоризации, так как именно она напрямую влияет на качество работы фильтров.
В настоящее время существует много специализированных сервисов, позволяющих осуществлять поиск по определенной тематике. Вертикальный поиск — общее название для тематических систем поиска в сети Интернет. Системы вертикального поиска ориентированы на конкретную область. Например, существуют системы поиска недвижимости, mp3 файлов, новостей, вакансий и т.п. Посещаемость таких специализированных систем нельзя сравнивать с посещаемостью общепоисковых систем, но, тем не менее, такие сервисы всегда пользуются спросом.
Во многом именно из-за этого коммерческим поисковым системам приходится развивать внутри традиционного поиска свои тематические вертикали. Однако, сервисы, которые занимаются тематическим поиском, имеют некоторые преимущества. Так, во-первых, они часто сами генерируют содержимое, по которому осуществляется поиск, то есть они предоставляют уникальный контент. И, во-вторых, они могут использовать специализированные поисковые алгоритмы, оптимизированные под конкретный вид данных и информации.
Поисковые системы общего назначения не генерируют новый контент, а агрегируют уже имеющийся, размещенный в сети Интернет. Поэтому для поиска информации из заданного класса они предварительно должны составить базу документов интересующей категории. Такие базы могут быть составлены, например, с использованием партнерских программ, то есть с привлечением определенных поставщиков данных, предоставляющих информацию на возмездной основе. Например, для класса «правовые документы» таким партнёром может быть сервис, который содержит информацию о различных законодательных документах. Помимо неизбежных финансовых затрат в такой схеме присутствует существенный недостаток - это уменьшение полноты базы, так как партнёрами могут быть только некоторое ограниченное число поставщиков. Этот же недостаток присущ схеме с использованием экспертов для ручного наполнения содержимого.
Одним из возможных решений является использование жанровых классификаторов для создания узкоспециализированных баз поиска. При этом документы, относящиеся к заданным классам, не исключаются из основного поиска, а просто используются для формирования отдельной базы. Это даёт возможность искать документы, как в обычном поиске, так и в вертикальном.
Стоит отметить, что при кажущейся похожести фильтрация документов и поиск по специализированной базе существенно отличаются друг от друга. Фильтрация документов по их принадлежности к классу означает использование общей формулы ранжирования с последующим исключением результатов. Введение новой поисковой вертикали означает создание отдельной поисковой базы, содержащей только документы из заданного класса. В этом случае для осуществления поиска по такой базе можно использовать другие, нежели в основном поиске, формулы ранжирования. Второй вариант требует большей усилий при реализации, но и обеспечивает больше возможностей для поиска, улучшая его качество.
Заключение
Знание о том, к каким классам принадлежат Веб документы, может представлять собой ценную информацию для поисковой системы. В данной статье были рассмотрены следующие варианты использования результатов категоризации Веб страниц по жанрам:
• Использование принадлежности Веб документа к некоторым классам в функциях ранжирования с целью повышения разнообразия поисковой выдачи.
• Определение категории запроса пользователя с целью более высокого ранжирования документов из этого же класса.
• Обеспечение интерфейсной возможности фильтровать найденные результаты по определённым классам.
• Создание отдельных поисковых вертикалей, позволяющих осуществлять более глубокий поиск по заданной тематике.
Некоторые описанные в статье методики использования жанровой классификации применяются в поисковых системах уже сейчас. В то время как другие можно будет использовать, когда будут созданы достаточные для этого предпосылки. Применение этих методов позволит повысить качество работы поисковых систем.
Литература
1. David D. Lewis, William A. Gale. A sequential algorithm for training text classifiers // 17th Int. ACM SIGIR conf. on Research and development in information retrieval, Jul. 3-6, 1994, Dublin, Ireland. / Springer-Verlag New York, NY, USA, 1994. P. 3-12.
2. Craven M., DiPasquo D., Freitag D., McCallum A., Mitchell T., Nigam K., Slattery S. Learning to construct knowledge bases from the World Wide Web / J. Artificial Intelligence. 2000. Vol. 118, issue 2. P. 69-113.
3. Michael P., Muramatsu J., Billsus D. Syskill & webert: Identifying interesting web sites // 13 th national conf. on Artificial intelligence, Aug. 4-8, 1996, Portland, Oregon. / AAAI Press, California, USA. 1996. P. 54-61.
4. Xiaoguang Qi, Brian D. Davison. Web page classification: Features and algorithms / J. ACM Computing Surveys (CSUR). 2009. Vol. 41, issue 2. P. 1-31.
5. Santini M. State-of-the-Art on Automatic Genre Identification // Technical Report ITRI-04-03. 2004. University of Brighton (UK).
6. Аналитическая группа департамента маркетинга компании «Яндекс». Поиск в
Интернете: что и как ищут пользователи. Режим доступа:
[http://download.yandex.ru/company/yandex_search_autumn_2008_ru.pdf].
7. Radlinski F., Paul N. Bennett, Carterette B., Joachims T. Redundancy, diversity and interdependent document relevance // Newsletter ACM SIGIR Forum. 2009. Vol. 43, issue 2. New York, USA: ACM, 2009. P. 46-52.
8. Braslavskii P. I., Kiselev Yu. A. 2011. To find out or to buy? Product review vs. web shop classifier // 17-я Междунар. конф. "Диалог", 25-29 мая 2011 г., Бекасово, Моск. обл. / М.: Изд. центр РГГУ, 2011. С. 160-168.
9. Burges C., Shaked T., Renshaw E., Lazier A., Deeds M., Hamilton N., Hullender G. Learning to rank using gradient descent // 22nd int. conf. on Machine learning, August 7-11, 2005, University of Bonn, Germany. / New York, USA: ACM, 2005. P. 89-96.
10.Toda H., Kataoka R. A search result clustering method using informatively named entities // 7th annual ACM int. workshop on Web information and data management, Oct. 31 -Nov. 5, 2005, Bremen, Germany. / New York, USA: ACM, 2005. P. 81-86.