Научная статья на тему 'Поисковые роботы'

Поисковые роботы Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1359
253
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Поисковые роботы»

Маркова Т.И., Захарова К. В.

ПОИСКОВЫЕ РОБОТЫ

Алгоритм работы поисковых роботов

Трудно представить сегодня Интернет без информационно-поисковых систем (ИПС). ИПС это стартовая точка для всех пользователей Интернет. Когда пользователю нужно найти сайт определенной тематики, можно зайти на web-сайт ИПС ввести несколько ключевых слов, и через сотые доли секунды поисковая система выдаст результаты, которые будут подходить запросу пользователя.

Одной из основных частей классической ИПС является поисковый робот («вебпаук», паук, спайдер, краулер) - специальная программа, которая является составной частью поисковой системы и предназначается для обхода страниц Интернета, чтобы занести информацию о них (ключевые слова) в базу поисковика.

По своей сути сам поисковый робот, в наибольшей степени, напоминает обычный браузер. Он сканирует содержимое web-страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Владельцы поисковых машин обычно ограничивают глубину проникновения паука внутрь сайта и максимальный размер сканируемого текста, поэтому чересчур большие сайты могут оказаться не полностью проиндексированными поисковой машиной. Кроме обычных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, чтобы определить, что он подключен к Интернету.

Порядок обхода страниц, частота визитов, защита от зацикливания, а также критерии выделения ключевых слов определяется алгоритмами поисковой машины.

В большинстве случаев переход от одной страницы к другой осуществляется по ссылкам, содержащимся на первой и последующих страницах.

Роботы не понимают фреймов, Flash-анимаций, изображений или JavaScript-ов. Они не могут зайти в разделы, защищенные паролем, и не могут нажимать на кнопочки, которые есть на сайте. В процессе индексирования динамических адресов URL они могут работать очень медленно, вплоть до полной остановки и бессильны перед JavaScript-навигацией.

Также многие поисковые системы предоставляют пользователю возможность самостоятельно добавить сайт в очередь для индексирования. Обычно это существенно ускоряет индексирование сайта, а в случаях, когда никакие внешние ссылки не ведут на сайт, вообще оказывается единственной возможностью заявить о его существовании.

Иногда web-мастер хочет скрыть содержание некоторых страниц и сделать их недоступными для индексации. Ограничить индексацию сайта можно с помощью файла robots.txt (это файл, который указывает поисковому роботу, какие файлы и папки можно индексировать, а какие нет), однако некоторые поисковые системы могут игнорировать наличие этого файла. Полная защита от индексации обеспечивается механизмами, обойти которые пока паукам не под силу. Обычно — установкой пароля на странице, либо требованием заполнить регистрационную форму перед тем, как получить доступ к содержимому страницы.

Пример:

User-agent:*

Disallow: /cgi/ # запрет индексации папки cgi

Большинство пользователей интернет ищут информацию о нужных товарах и услугах, прибегая к помощи ведущих поисковых систем, таких как Yandex, Rambler, Google, Aport. Эти поисковики дают сайту 60%, 17%, 15%, 2% посетителей -соответственно. При этом почти 90% всех пользователей довольствуются результатами выдачи первой «десятки» по заданным запросам, и только 10% пользователей идут на

вторую страницу и менее 3% далее. Именно поэтому владельцам сайта так важна оптимизация их сайта для попадания его в «десятку» выдачи по запросу, и особенно Яндекса.

Перед тем как представить алгоритм работы поисковой системы, рассмотрим виды поисковых роботов (таблица 1).

Таблица 1 - Виды поисковых роботов

Название Назначение Примечание

Национальный поисковый робот (главный поисковый робот) Сбор информации с одного национального домена и web-ресурсов, принятых к индексации в базу данных поисковой системы (пример: .ru, .su). В локальных поисковых системах.

Глобальный поисковый робот Сбор информации с национальных web-ресурсов. Может быть один или несколько. В глобальных поисковых системах.

Индексатор картинок Отвечает за индексацию графики. Наблюдает *

Индексатор аудио- и видеофайлов Отвечает за индексацию аудио-и видеофайлов. Наблюдает *

Робот-зеркальщик Определяет зеркала web-ресурсов.

Ссылочный робот Отвечает за подсчет числа ссылок на ресурсе. PageRank, Индекс цитирования и т.д.

Робот-оформитель Отвечает за оформление результатов, выдаваемых поисковой системой. Например, обращающийся к web-странице по ссылке «Найденные слова» и выделяющий слова запроса в ее тексте. У Yandex - робот-подсветчик.

Проверяющий робот Проверяет наличие web-ресурса в базе данных поисковой системы и количество проиндексированных документов.

Робот-стукач Один или несколько роботов, определяющих, доступен ли в данный момент ресурс, на который стоит ссылка в соответствующем сервисе. Если не доступен в течение некоторого времени, то он удаляется из базы данных. ** Иначе - «агент стукач» ***

Робот-шпион Ищет ссылки на web-ресурсы, которых нет в базе данных поисковой системы. Поисковая система стремится увеличивать свою базу данных автоматически.

Быстрый робот Проверяет дату последнего обновления. Работает в автоматическом режиме.

Робот-исследователь Предназначен для отладки алгоритма работы поисковой Запускается в ручном режиме. Может быть

Название Назначение Примечание

системы или исследования конкретных web-ресурсов. объединен с роботом-смотрителем.

Робот-смотритель Предназначен для перепроверки полученных результатов. Запускается в ручном режиме. Может быть объединении с роботом-исследователем.

* Графику, аудио- и видеофайлы поисковые роботы не распознают. Могут определить количество, размер, дату создания и тип файла. Поэтому просто наблюдают за файлами таких типов.

** Некоторые поисковые системы через какое-то время перепроверяют доступен ли web-ресурс. Как только ресурс начинает отвечать, он автоматически появляется в результатах поиска. А некоторые поисковые системы, при недоступности web-ресурса, исключают его.

*** Существует целый ряд роботов, основная задача которых - периодическая автоматическая проверка определенных web-ресурсов с последующим сбором информации.

Как работают роботы поисковой машины?

Поисковые роботы стоит воспринимать, как программы автоматизированного получения данных, путешествующие по сети в поисках информации и ссылок на информацию.

Когда регистрируется очередная web-страница в поисковике, в очередь для просмотра сайтов роботом добавляется новый URL. Даже если не регистрировать страницу, множество роботов найдут сайт, поскольку существуют ссылки из других сайтов, ссылающиеся на эту страницу. Вот одна из причин, почему важно строить ссылочную популярность и размещать ссылки на других тематических ресурсах.

Приходя на сайт, роботы сначала проверяют, есть ли файл robots.txt. Этот файл сообщает роботам, какие разделы вашего сайта не подлежат индексации. Обычно это могут быть директории, содержащие файлы, которыми робот не интересуется или ему не следовало бы знать.

Роботы хранят и собирают ссылки с каждой страницы, которую они посещают, а позже проходят по этим ссылкам на другие страницы. Вся всемирная сеть построена из ссылок. Начальная идея создания Интернет сети была в том, что бы была возможность перемещаться по ссылкам от одного места к другому. Вот так перемещаются и роботы.

"Остроумность" в отношении индексирования страниц в реальном режиме времени зависит от инженеров поисковых машин, которые изобрели методы, используемые для оценки информации, получаемой роботами поисковика. Будучи внедрена в базу данных поисковой машины, информация доступна пользователям, которые осуществляют поиск. Когда пользователь поисковой машины вводит поисковый запрос, производится ряд быстрых вычислений для уверенности в том, что выдается действительно правильный набор сайтов для наиболее релевантного ответа.

Также есть возможность просмотреть, какие страницы сайта уже посетил поисковый робот, руководствуясь лог-файлами сервера, или результатами статистической обработки лог-файла. Лог-файл - это файл, содержащий системную информацию о работе сервера и информацию о действиях пользователя. Эта информация используется для анализа и оценки сайтов и их посетителей. Идентифицируя роботов, будет видно, когда они посетили сайт, какие страницы и как часто. Некоторые роботы легко идентифицируются по своим именам, как Google's "Googlebot". Другие более скрытые, как, например, Inktomi's "Slurp". Другие роботы так же могут встречаться в логах, и не исключено, что нельзя будет их сразу идентифицировать; некоторые из них могут даже оказаться браузерами, которыми управляют люди.

Помимо идентификации уникальных поисковых роботов и подсчета количества их визитов, статистика также может показать агрессивных, поглощающих ширину катала пропускания роботов или роботов, нежелательных для посещения вашего сайта.

Как они читают страницы web-сайта?

Когда поисковой робот посещает страницу, он просматривает ее видимый текст, содержание различных тегов в исходном коде страницы (title tag, meta tags, и т.д.), а так же гиперссылки на странице. Судя по словам ссылок, поисковая машина решает, о чем страница. Есть много факторов, используемых для вычисления ключевых моментов страницы «играющих роль». Каждая поисковая машина имеет свой собственный алгоритм для оценки и обработки информации. В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базу данных поисковой системы.

После этого, информация, доставленная в индексные базы данных поисковой системы, становится частью поисковика и процесса ранжирования в базе. Когда посетитель осуществляет запрос, поисковик просматривает всю базу данных для выдачи конечного списка, релевантного поисковому запросу.

Базы данных поисковых систем подвергаются тщательной обработке и приведению в соответствие. Если попасть в базу данных, роботы будут навещать периодически сайт для сбора любых изменений на страницах и уверенности в том, что обладают самой последней информацией. Количество посещений зависит от установок поисковой машины, которые могут варьироваться от ее вида и назначения.

Иногда поисковые роботы не в состоянии проиндексировать web-сайт. Если сайт "упал" или на сайт идет большое количество посетителей, робот может быть бессилен в попытках его индексации. Когда такое происходит, сайт не может быть переиндексирован. В большинстве случаев, роботы, которые не смогли достичь страниц, попытаются сделать это позже, в надежде на то, что сайт в ближайшее время будет доступен.

Многие поисковые роботы не могут быть идентифицированы, когда владельцы сайта просматривают «логи». Они могут посещать страницы, но «логи» утверждают, что кто-то использует Microsoft браузер и т.д. Некоторые роботы идентифицируют себя использованием имени поисковика (googlebot) или его клона (Scooter = AltaVista).

В зависимости от того, как робот настроен, информация индексируется, а затем доставляется в базы данных поисковой машины.

Базы данных поисковых машин подвергаются модификации в различные сроки. Даже директории, имеющие вторичные поисковые результаты используют данные роботов как содержание своего web-сайта.

Существуют роботы, которые проверяют баз данных на наличие нового содержания; проверяют старое содержимое базы; проверяют, не изменились ли ссылки; загружают целые сайты для просмотра и так далее.

По этой причине чтение лог-файлов и слежение за выдачей поисковой системы помогает вам наблюдать за индексацией ваших проектов.

В заключение можно отметить, что:

- алгоритм любой поисковой системы создают люди, следовательно, в нем могут быть ошибки как технические, так и обусловленные субъективностью ранжирования результатов;

- можно разработать сколько угодно специализированных поисковых роботов, но конечную оценку качества результатов запросов поисковой системы дают ее пользователи;

- технически невозможно гарантировать занятие web-ресурсом конкретного рейтинга в поисковых системах по нескольким ключевым словам или фразам. Можно лишь прогнозировать усредненный рейтинг для широкого круга ключевых слов или фраз, соответствующих предлагаемым web-ресурсом товарам и услугам, или достаточно близких по тематике.

i Надоели баннеры? Вы всегда можете отключить рекламу.