Текущее состояние проблемы скрытого веба и подходы к ее решению

Корабельников Д.М.

Корабельников Д.М., ЦНИИС

Скрытый веб/паутина (невидимая паутина, глубокий веб) — это множество страниц сети Интернет и их содержимого, которое не может быть индексировано в полном объеме поисковыми системами [1].

Согласно исследованию [2], число документов в скрытом вебе в 550 раз превышал число таковых, доступных для поисковых систем. Несмотря на то, что результаты исследования оспариваются [3], исследователи сходятся в том, что объемы данных, недоступных поисковым системам, а значит и большинству конечных пользователей, а также качество таких документов существенно превышает объемы данных, находящихся "на поверхности" [4].

Скрытый веб может быть разделен на различные категории, в зависимости от причин, следствием которых является недоступность содержимого страниц для поисковых систем, а также общей специфики категории. К скрытому вебу принято относить [1,2] следующие, представленные ниже, виды информационного наполнения сети Интернет.

Несвязанные страницы. Страницы сети Интернет, не связанные гиперссылками с другими страницами сети, известными поисковым системам. Характерно, что такие страницы могут образовывать отдельные сети страниц, связанных ссылками и неизвестных поисковым системам в связи с изолированностью.

СтраницыI, требующие авторизации. К этой категории относятся страницы, требующие предварительной аутентификации и авторизации для получения доступа к содержимому. К этой категории могут быть отнесены как отдельные ресурсы, направленные на пользователей, так и корпоративные ресурсы, участвующие в бизнес-процессах компании, которые требуют участия сотрудников и партнеров, находящихся вне корпоративной сети.

Содержание, зависящее от контекста. В данном случае содержание страниц изменяется в зависимости от контекста пользователя, получающего доступ к информации. Объем данных, способ их подачи, допустимые возможности по работе с ними могут изменяться в зависимости от таких элементов контекста пользователя как диапазон, в котором находится его IP-адрес, страница или набор страниц с которых он совершил переход на целевой ресурс, используемая операционная система, программа-браузер и др.

Содержание, доступ к которому поисковых систем ограничен техническим образом, ограничивающим возможности поисковых пауков по просмотру и индексации таких страниц. Это может быть реализовано с использованием протокола исключения роботов (robots.txt), систем, имитирующих тесты Тьюринга и др.

Содержание, основанное на скриптах. Страницы, которые доступны только по ссылкам, предоставляемым JavaScript или информационное наполнение, которое передается пользователю с использованием решений, основанных на Flash или технологий AJAX.

Содержание вида, отличного от html. В частности, видео, аудио данные, различные файлы, включая выходные данные текстовых ре-

дакторов, исполняемые файлы и архивы, не обрабатываемые поисковыми системами.

Динамическое информационное наполнение. К этой категории относится информационное содержание, которое может быть получено только в качестве результата выполнения запроса, сформулированного со знанием предметной области. В наиболее распространенном варианте подразумевает заполнение формы, в т.ч. набора текстовых полей, для получения какой-либо информации, содержащейся в базе данных

Некоторые исследователи также относят к скрытому вебу страницы, которые могут быть охарактеризованы, как спам [1]. Существенным отличием спама от перечисленных категорий является то, что поисковые системы игнорируют такие страницы не по причине технических ограничений различного рода, а вследствие распознавания и сознательного исключения таких страниц с целью повышения общего качества выполнения поисковых запросов.

Следует отметить, что состояние проблемы скрытого веба не является статичным. В настоящее время поисковые системы уделяют все большее внимание этой проблеме. В частности, наиболее крупные поисковые системы уже обрабатывают и индексируют текстовые файлы, доступные через сеть Интернет (.pdf, .doc, .rtf), на основе косвенных данных производится индексация графических изображений. Следует отметить тестовый проект Google Audio Indexing (Gaudi) [5], назначением которого является распознавание аудио-записей и индексирование распознанных текстовых строк с тем, чтобы позволить пользователям находить интересующие их записи.

Страницы, требующие авторизации, в особенности частные, корпоративные сегменты, принято относить к категориям, не требующим на настоящий момент,

Категорией, представляющей наибольшую сложность для автоматического индексирования поисковыми системами, является динамическое информационное наполнение. В первую очередь это связано с высокой зависимостью от семантических данных, знание которых необходимо для осмысленного заполнения форм. Модули поисковых систем (пауки), обеспечивающие перебор html-страниц и их индексирование, не предназначены для семантической интерпретации обрабатываемых данных.

Характерным примером ресурса, относящегося к этой категории, является сайт www.auto.ru, предоставляющий посетителям возможности по поиску предлагаемых к продаже б/у автомобилей и выставления личных транспортных средств на продажу. По поисковому запросу "site:www.auto.ru" поисковая система Google содержит 3110 индексированных страниц (по состоянию на январь 2001 года). При этом:

— 204 страницы содержат различные разделы сайта, включая главную страницу, страницы поиска торговых предложений, ограниченных по марке автомобиля (разделы доступные с главной страницы сайта), страницы обратной связи;

— 40 страниц являются сообщениями об ошибке "Сообщение не найдено";

— 2866 страниц являются сообщением об ошибке "Страница не найдена".

Следует отметить, что поисковая система www.yandex.ru позволяет получить отдельные торговые предложения с сайта www.auto.ru, однако в первую очередь это является следствием сотрудничества с порталом и реализации специального проекта сайта. В случае если предметом исследования является зарубежная база данных контактной информации коммерческих компаний и частных лиц http://www.anywho.com/, созданная компанией AT&T, поисковая система www.yandex.ru содержит 16 страниц.

Характерным примером ресурса скрытого веба, требующего авторизации, является популярный сайт "одноклассники" (http://wwwodnoklassniki.iui/). Так, невозможно обнаружить зарегистрированного в базе данных ресурса человека с использованием каких-либо поисковых систем, кроме средств поиска самого ресурса.

Известен ряд методик и технологических решений, обеспечивающих частичное распознание форм, предназначенных для запроса баз данных, отдельных полей форм, требующих те или иные типы данных. Среди них наиболее распространенными являются два основных подхода к решению такого рода задач [6]:

— первый подход предполагает совершение множества запросов к базе данных с использованием заранее определенных наборов входных данных с последующим сохранением полученных html-страниц в собственном репозитории и их индексацией. При совершении запросов пользователем, поиск производится уже в рамках репозитория;

— при использовании второго подхода поисковая система обращается к форме запроса данных в момент выполнения пользовательского запроса. Выбирая базу данных, необходимую пользователю в соответствии с запросом и заполняя формы запроса данными, присутствующими в запросе.

Некоторые из подходов игнорируют поля формы, задаваемые текстом, ограничиваясь полями, допускающими ограниченный набор значений (выпадающие списки, check-box, radiobutton). Другие подходы предполагают введение предварительно определенных текстовых строк, однако это возможно только по отношению к полям, для которых возможно определить домен вводимых данных на основе имеющейся на странице информации. Как правило, такая информация достаточно ограничена и не позволяет точно определить домен большинства текстовых полей. Для некоторых полей такой домен может быть не ограничен. Тем не менее, общей проблемой всех подходов остается нахождение семантически корректной текстовой строки для соответствующих полей формы.

Особенностью многих предлагаемых решения является также необходимость первоначальной настройки используемых средств под конкретный ресурс или предметную область, путем задания дополнительных параметров, установления соответствий поле-сущность, формирования собственной базы данных сведений о предметной области, что снижает универсальность предлагаемых решений и требует участия оператора.

Дополнительным аспектом информации, хранимой в базах данных, является ее специфический характер. В отличие от текстовых

страниц, состоящих из логически связанных текстовых абзацев, базы данных, как правило, содержат достаточно краткие строки информации, в некоторых случаях ограниченные менее чем десятью символами. В условиях ограниченного набора текстовых данных поисковая система, поисковая система, получившая тем или иным образом результат запроса к базе данных, должна индексировать полученные данные таким образом, чтобы они могли быть доступны пользователю. Следует учитывать, что часть полученных в результате выполнения запроса данных состоит из элементов, повторяющихся для различных запросов, а собственно результаты запроса могут представлять собой нетекстовые данные (числовые массивы; графические иллюстрации) или состоять из строк, не обеспечивающих достаточной для релевантности, уникальности и длины. В этом случае пользователь должен очень точно и правильно (в соответствии с используемым на сайте) образом формулировать запрос, делая его максимально точным, что возможно не во всех случаях.

Типичным подходом при решения такой задачи на сегодняшний момент является сотрудничество компаний-разработчиков поисковых систем с наиболее популярными ресурсами тематики, представляющей интерес для большого числа пользователей (напр. покупка/продажа автомобилей). В этом случае создаются специализированные ресурсы, ориентированные на конкретную предметную область, в рамках которых пользователь получает возможность так или иначе подробно осуществлять поиск.

В заключение отметим, что несмотря на то, что обеспечение доступа к отдельным категориям скрытого веба является решаемой задачей, в некоторых случаях исключительно технического или организационного характера, сегмент динамических страниц, относящийся к специализированным базам данных, содержащим востребованную информацию по-прежнему остается в основе своей недоступным для автоматизированных алгоритмов поиска и индексации информации сети Интернет. Необходима разработка технологических решений, направленных как на повышение доступности средств запроса информации для автоматизированных средств, так и создание решений по обеспечению индексирования полученной информации таким образом, чтобы она была доступна при формулировке запроса средним пользователем сети Интернет.

Литература

1. Shaman C, Plioe G. The Inv'sible Web: Uncovering Information Sources Search Engines Can't See//Information Today, Medford, NJ. — 2001. — 481 p.

2 Bergman M.K. The Deep Web: Surfacing Hidden Value // J. Electronic Publishing. — 2001. — V7, №1. — www.press.umich.edu/jep/07-01/bergman.html.

3 Lewandowski D., Mayr P. Exploring the academic inv'sible web // Library

hi tech. — 2006. — V 24, №4. — 529-539.

4 Шестаков Д, Воронцова Н. Структура русскоязычной части глубинного Веба//В сб. статей "Интернет-математика 2005. Автоматическая обработка веб-данных", 2005. — С. 320-341.

5 Google Audio Indexing http://labs.google.com/gaudi

6 Ru. Y., Horowitz E Indexing the inv'sible web: a survey // Online Information Revew. — 2005. — V29, №3. — рp. 249-265.

Текущее состояние проблемы скрытого веба и подходы к ее решению Текст научной статьи по специальности «Компьютерные и информационные науки»

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Корабельников Д. М.

Текст научной работы на тему «Текущее состояние проблемы скрытого веба и подходы к ее решению»