Поисковые системы
и информационные
технологии
ь
>
ю.г. липкин,
к.м.н., доцент кафедры медицинской кибернетики и информатики РГМУ им. Н.И. Пирогова, г. Москва, mc7@rsmu.ru
ОБЗОР СОВРЕМЕННЫХ ПОИСКОВЫХ СИСТЕМ: АРХИТЕКТУРА, ИНСТРУМЕНТЫ ПОИСКА
УДК 025.4.03
Липкин Ю.Г. Обзор современных поисковых систем: архитектура, инструменты поиска (Кафедра медицинской кибернетики и информатики РГМУ им. Н.И. Пирогова)
Аннотация: В статье рассматриваются современные средства поиска информации, представленные в сети Internet. Принципиально излагается архитектура и особенности работы поисковых ресурсов. Акцентируется внимание на мета-поисковые системы, необходимость использования языка запросов и учета стилистических особенностей языка разыскиваемого информационного контента
Ключевые слова: поисковые системы, архитектура поисковых систем, инструменты поиска, мета-поиск, поисковые каталоги, поисковый агент, поисковые утилиты UDC 025.4.03
Lipkin Yury G. The browse of modern search engines: the architecture, searching tools (Chair of medical cybernetics and computer science of Pirogov Russian State Medical University)
Abstract: The modern means of information search presented to networks Internet are considered. Feature of work and architecture of search resources is essentially stated. The attention to meta-search systems, necessity of use of language of inquiries and the account of stylistic features of language of searched information content is paid Keywords: search engines, the architecture of search engines, searching tools, meta-search, retrieval directories, the retrieval agent, retrieval utilities
Непрерывно растущие объемы доступной в сети Internet информации, в том числе оперативной, делают задачу поиска необходимых сведений весьма актуальной. Оперативный поиск востребован наиболее остро. Профессионализм современного врача-исследователя все больше зависит от скорости поиска нужной информации. Для облегчения процедуры поиска требуемых данных существуют многочисленные, как зарубежные, так и отечественные, системы поиска, представляющие собой специализированные WEB-серверы. Однако, несмотря на наличие
многочисленных средств автоматизации поиска, эта задача остается достаточно трудоемкой, требующей от пользователя опреде-
I
I
ленного опыта, интуиции, знания терминологии, используемой в его предметной области. Дополнительной трудностью для поиска может стать и тот факт, что современные поисковые ресурсы пока не обладают возможностью уточнения поставленных запросов и вынуждены довольствоваться только той информацией, которая предоставлена в вопросе. При использовании любого поискового Internet-ресурса следует достаточно точно формулировать свои вопросы, иначе системы вернут неадекватные ответы.
Основой любого поискового Internet-ресурса является взаимодействие между запросом пользователя (ключевым словом или словосочетанием) и некоторой библиотекой знаний или базой данных. Зачастую информационное хранилище может располагаться не только на
© Ю.Г. Липкин, 2009 г.
40 ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ ■
Поисковые системы
данном поисковом ресурсе, но и на многих других серверах и поисковых системах. По способу организации поиска и по предоставляемым возможностям все средства поиска могут быть условно разбиты на следующие группы:
1. Поисковые системы (поисковые машины, поисковые серверы, поисковые роботы).
2. Каталоги (могут называться поисковыми директориями или поисковыми базами данных).
3. Мета-поисковые системы (или метакраулеры, мультипоточные поисковые системы).
I. Классические поисковые системы обычно состоят из трех компонентов:
— агент (паук или краулер), специализированное программное обеспечение, которое анализирует содержимое Internet-сайтов и собирает информацию;
— база данных, которая содержит всю информацию, собираемую поисковым агентом;
— поисковый механизм, который используется как интерфейс для взаимодействия с базой данных поисковой системы.
Принципиально механизм работы поисковой системы можно представить в виде циклического алгоритма собственного поиска информации, накопления информации в базе данных и предоставления ее пользователю по мере запросов. Поисковые агенты в рамках определенного диапазона адресов поиска, исходя из предоставляемых прав, просматривают гипертекстовое содержимое сайтов, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию. Алгоритм просмотра, как и само разрешение на просмотр, лимитируется исключительно администраторами этих сайтов. В качестве альтернативы описанному алгоритму заполнения базы данных может служить активная индексация своего сайта путем заполнения соответствующих регистрационных форм. Когда пользователь хочет найти информацию, доступную в Internet, он посещает страницу поисковой системы (интерфейс пользователя поисковой системы) и заполняет форму (строку поиска). В качест-
www.idmz.ru S009, №5
ве поискового запроса могут использоваться ключевые слова, даты и другие критерии. База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае документы, наиболее релевантные пользовательскому запросу, будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности (степень соответствия ответа вопросу) зависят от количества, местоположения и удельного веса слов запроса в найденных документах, как долго хранятся в базе данных возвращенные запросу страницы, как много ссылок на данные страницы ведут с других страниц, зарегистрированных в базе поисковика. Когда пользователь кликает мышкой на ссылке к одному из документов, который его интересует, этот документ запрашивается с того сервера, на котором он физически находится.
II. Поисковые каталоги представляют собой совокупность ссылок на сайты по тематическим рубрикам.
Принципиальное отличие поисковых каталогов от поисковых систем заключается в том, что база данных формируется администратором, а не поисковым агентом. Для регистрации в базе данных поискового каталога необходимо подать соответствующую заявку, где определенным образом описывается индексируемый сайт: наименование, ключевые слова, содержание, рубрика, в которую желательно попасть, URL и т.д.
Работа с поисковой страницей каталога схожа с обычным поисковым сайтом, но поиск здесь ведется по базе данных ключевых слов и описаниям, которые предоставили их владельцы.
■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■ ■ ■■■ ■ !5 ■■ ■ ■ ■■■ ■■ ■■ ■ ■ ■ ■■■ ■■ ■ ■ ■ ■ ■ ■ ■■ ■■ ■ ■
Поисковые системы
технологии
Рис. 1. Архитектура мета-поисковой системы
Принимая во внимание очевидные достоинства и недостатки обоих подходов в формировании базы данных, в настоящее время разработчики поисковых сайтов (в широком понимании этого термина) используют обе идеологии одновременно. Пользователю предоставляется возможность сразу найти ответ или сузить область разведки средствами каталогизирования, а затем вести «классический» поиск. Могут быть и иные варианты содружества этих подходов.
В настоящее время растет количество поисковых систем и каталогов. Так как разные поисковики используют разные алгоритмы поиска и уделяют «особое» внимание разным участкам сети Internet, в то же время увеличивается и доля непроиндексированного для каждой поисковой системы. Логично во многих случаях искать сразу несколькими поисковыми машинами. Сколько существует поисковых систем (каталогов) в современной мировой паутине? На этот вопрос затруднительно ответить даже специалисту. На слуху обычного пользователя Internet не больше десятка поисковых сайтов (например, Google, Япс^х,
AltaVista, Yahoo!, Lycos, Рамблер, Апорт, а из медицинских — MEDLINE, PubMeC). Поиск информации настолько важен, что логически закономерным стало возникновение так называемых мета-поисковых систем.
III. Мета -поисковые системы — это поисковый инструмент, посылающий запрос пользователя одновременно на несколько поисковых Internet-ресурсов.
В отличие от поисковых систем, мета-по-исковые системы не имеют ни своих роботов-пауков, ни базы данных. Они берут результаты поиска исключительно от нескольких других поисковых серверов.
В основу работы мета-поисковой системы заложен следующий принцип: из запроса пользователя генерируются запросы, отформатированные в синтаксисе и логических конструкциях каждого конкретного поискового ресурса. В качестве поисковых ресурсов для мета-поисковых систем могут служить поисковые системы, каталоги и даже некоторая информация, не проиндексированная традиционными поисковыми системами. Таким образом, из одного запроса мета-поисковая
42 ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ ■
Поисковые системы
машина делает множество запросов, которые затем рассылаются широкому кругу поисковых машин и/или каталогов. Собрав результаты, мета-поисковая система удаляет дублированные ссылки и, в соответствии со своим алгоритмом, ранжирует результаты.
Схематически архитектуру мета-поисковой системы можно представить на рис. 1.
Пользователь, исходя из своей информационной потребности и предлагаемых стратегий, генерирует запрос. В соответствии с принятыми на каждой поисковой системе требованиями мета-поисковая система преобразовывает запрос и ретранслирует его мета-по-исковым агентом соответствующей поисковой системе или каталогу. После обработки полученного запроса каждая система возвращает мета-поисковому агенту множество описаний и ссылок на документы, которые считает релевантными данному запросу. Дождавшись ответа от поисковых систем, мета-поисковый агент передает результаты в саму мета-по-исковую систему для анализа. В соответствии с различными подходами к анализу переданных данных мета-поисковые системы бывают четырех типов.
1. Классические мета-поисковые системы, которые ранжируют результаты на одной странице.
2. «Псевдо»-мета-поисковые системы первого типа, которые группируют результаты по поисковым системам на одной странице.
3. «Псевдо»-мета-поисковые системы второго типа, которые открывают для каждой используемой поисковой системы свое окно в браузере.
4. Поисковые утилиты — программные поисковые средства (также называемые поисковыми приложениями рабочего стола).
Отдельно необходимо несколько слов уделить поисковым утилитам. Это программное обеспечение, которое устанавливается на персональный компьютер самого пользователя. Такие поисковые утилиты несут в себе всю технологию, свойственную мета-поисковым
www.idmz.ru S009, №5
системам. Помимо этого, они интегрируются в браузеры и превращают их в мощные поисковые средства, преобразовывают результаты в широко известные форматы MS Office и MS Outlook, осуществляют поиск в более чем тысяча поисковых систем и каталогах по тематике, региону и т.п. Для наглядной аналогии можно отметить, что на сколько какая-либо профессиональная издательская система отличается от MS Office, на столько отличаются «настольные» мета-поисковые системы от их «он-лайн-собратьев». В качестве примера профессиональной поисковой утилиты можно привести программный пакет Copernic Agent Pro (http://www.copernic.com).
Определившись с поисковыми системами, пользователи зачастую недостаточно времени уделяют инструментам поиска: языку запросов поисковиков, лингвистическим особенностям языка разыскиваемых документов. Каждый поисковый ресурс имеет свои синтаксические особенности запросов, которые решаются в обязательном порядке мета-по-исковыми системами. Разбирать все варианты в данном обзоре не представляется возможным. Необходимо пояснить некоторые схожие моменты для большинства систем «вопрос о ответ».
1. Обычная фраза воспринимается как набор слов, в котором символ «пробел» = логическому «ИЛИ». Поисковая система будет искать документы, в которых встречаются эти слова: от точной фразы до одного из слов.
2. Для каждого отдельного слова поисковая система возвратит результаты со всеми словарными формами этого слова с учетом индивидуальных словарей поисковых систем.
3. Игнорируются союзы, предлоги.
4. Учитывается регистр букв, то есть если пользователь начнет запрос с прописной буквы, то разыскиваться вначале будут документы со схожим начертанием.
Конечно, среди всех найденных документов будут и те, которые содержат необходимую фразу, но будет много и других. Но как
■ ■ ■ ■ ■ ■■ ■ ■ ■ ■■■ ■ ■ ■ ■■ ■ ■ ■■■ ■ ■ ■ ■ 43 ■
Поисковые системы
и информационные
технологии
>быть, если нужны документы именно с такой фразой и больше никакие? Как добиться, чтобы поисковые системы находили документы в наибольшей степени, соответствующие исследовательской необходимости? На эти вопросы отвечают правила составления запросов или, иначе говоря, синтаксис запросов. Синтаксис запросов — это набор правил, по которым поисковые системы трактуют все, что записано в поле ввода текста. Для составления запросов с учетом синтаксиса можно воспользоваться операторами языка или формой расширенного поиска, специфичного для каждого поискового ресурса. Примеры некоторых наиболее часто встречающихся операторов:
1. Восклицательный знак (!) — игнорирование иных словарных форм слова (например, запрос !гастрит найдет страницы, где слово гастрит встречается только в такой форме);
2. Кавычки («...») — поиск только точной фразы, заключенной в кавычки (например, «хронический гастрит»);
3. Знак минус (—) — исключение слова из результатов поиска (например, хронический гастрит -язва);
4. Знак (| ) — логическое «ИЛИ»; в результатах будут ссылки на страницы, в которых встречается хотя бы одно из слов запроса (например, хронический гастрит | язва);
5. Оператор (~) — слово встречалось на странице, но нельзя, чтобы оно встретилось в том же предложении;
6. Оператор (~~) — аналогично предыдущему случаю, но в пределах документа.
Воспользовавшись альтернативным способом, то есть формой расширенного поиска, можно отметить, что при этом строка запроса автоматически форматируется с использованием операторов языка запросов.
Наконец, необходимо отметить лингвистические особенности русских поисковых систем.
Большинство языков можно разделить на две большие морфологические подгруппы: синтетические и аналитические. Аналитические языки для выражения падежей используют служебные части речи (предлоги, частицы, союзы), в то время как в синтетических языках принадлежность к определенному падежу передается окончанием. Русский же язык, в котором словоформы образуются с помощью как служебных слов, так и флексий, относят к аналитико-синтетическим. При индексации, например, англоязычной части сети Internet, поисковый агент выделяет основной абзац текста, отбрасывает ненужные ему второстепенные члены предложения и индексирует оставшиеся значимые части речи. В русском же варианте, проиндексировав слово «бронхит», он обязан внести в базу данных и другие формы этого слова: «бронхита», «бронхиту», «бронхитом» и т.д. Не отличается русский язык и строгими правилами порядка слов при образовании предложений. Русские предложения «Врач пациенту выписал рецепт» и «Врач рецепт выписал пациенту» представляют собой, по сути, одинаковые смысловые отрезки, хотя имеют различное логическое ударение. На сегодня достаточно адекватных алгоритмов распознавания типов предложений в русском языке пока не разработано. Приведенные примеры для агента поисковой машины являются набором слов, которые имеют возможность вольно чередоваться внутри предложения. Все перечисленные особенности должны учитываться как администраторами поисковых систем и каталогов, так и пользователями при заполнении строки запроса.
44