Научная статья на тему 'Проблемы и алгоритмы поиска информации в глобальных компьютерных сетях'

Проблемы и алгоритмы поиска информации в глобальных компьютерных сетях Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
2264
221
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АЛГОРИТМЫ ПОИСКОВЫХ МАШИН / ГЛОБАЛЬНАЯ СЕТЬ / ИНЖЕНЕРИЯ ЗНАНИЙ / ИНДЕКСАЦИЯ / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / ПОИСКОВЫЕ РОБОТЫ / ПОИСК ИНФОРМАЦИИ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Иванова О. В., Иванов П. В., Смелов М. Н.

Представление знаний как методология моделирования и формализации концептуальных знаний, ориентированная на компьютерную обработку, является одной из основных тем, относящихcя к инженерии знаний. В основе методов представления знаний лежат математическая формализация и логическая полнота. Для реализации мощной системы, основанной на знаниях, необходимо соответствующее представление знаний, при этом следует учитывать характер и сложность решаемых задач и избегать ненужного усложнения системы. Функция решения задач с помощью логических выводов реализуется на основании знаний, хранящихся в базе, в которой они представлены в конкретной форме, что позволяет их легко определять и модифицировать.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проблемы и алгоритмы поиска информации в глобальных компьютерных сетях»

4 декабря 2011 г, 0:59

ТЕХНОЛОГИИ

Проблемы и алгоритмы поиска информации в глобальных компьютерных сетях

алгоритмы поисковых машин, глоба/ъная сеть, инженерия знаний, индексация, искусственный интеллект, поисковые роботы.поиск информации

Представление знаний как методология моделирования и формализации концептуальных знаний, ориенпфоеанная на компьютерную обработку, является одной из основных тем, относящихся к инженерии знаний. В основе методов федставления знаний лежат математическая формализация и логическая полнота. Для реализации мощной системы, основанной на знаниях, необходимо соответствующее представление знаний, при этом следует учитывать характер и сложность решаемых задач и избегать ненужного усложнения системы. Функция решения задач с помощью логических выводов реализуется на основании знант, хранящихся в базе, в которой они представлены в конкретной форме, что позволяет их легко определять И модифицировать

Иванова О. в.,

Заместитель начальника учебного отдела МТУСИ, [email protected]

Иванов П. В.,

Соискатель МТУСИ

Смелое МН,

Инженер-программист МТУСИ

По мере развития цифровой техники и расширения сфер ее использования роль нечисловых задач непрерывно увели^вается. Особенно важное значение они приобретают в связи с исследованием и применением концепций искусственного интеллекта, таких, как представление и обработка знаний. Системы работающие с большими объема дли данных должны обеспечивать достаточную согласованность данных и реакцию в реальном масштабе времени. Возможность системы поддерживать одну или несколько моделей данных и иметь набор инструкций на машинном языке удовлетворяющих общим требованиям, предъявляемым в управлении база али данных. К этим требованиям относятся: определение и хранение данных, поиск, манипулирование и специальные функции.

Россматриюя развитие событий, в которых возникает множество проблем, связанных с разработкой, реализацией и эксплуатацией баз данных, которые серьезно изменят жизнь пользователя в течение ближайших десяти лет можно выделить ряд ключевых поправлений, среди которых, с одной стороны,

предоставление удаленных вычислительных мощностей, дискового пространства и каналов связи заказчику, с другой — бурное развитие интерфейса "человек-машина" и эволюция вычислительных систем, что позволит сократить количество сбоев в работе, а интерфейс станет значительно более интуитивным.

Важное место займет использование устройств, сохраняоц»1х всю информацию, которую человек получоет при жизни благодаря встроенным технологиям распознавания речи и видео. Такое устройство запомнит все за вас. Проблемы хранения больших объемов данных и их обработка требует разработки алгоритмов, позволяющих их использовать с максимальной эффективностью.

В глобальной сети Интернет существуют миллионы страниц содержащих материалы абсолютно любого содержание, и каждая из них может оказаться полезной. Важное место в этом процессе занимают поисковые интернет-машины.

По мере развития Интернета (увеличения пользователей и хост-компьютеров) количество информации росло в геометрической прогрессии. Найти что-то в сети, полагаясь только на интуицию стало невыполнимой задачей. Именно сильное увеличение информации послужило главной причиной возникновения поисковых интернет-машин.

Все мы знаем, что собой представляют поисковые интернет-машины в отношении взаимодействия с ними человека. Это специальные интернет-сайты, которые готовы предоставить всю доступную информацию в глобальной сети по нашему запросу. Устройство каждой такой машины различно, но есть несколько общих функций:

* поиск в интернете по заданным ключевым словам;

* индексация найденной информации и места ее расположения;

* допуск пользователей к проиндекс^ю-ванной информации для поиска необходимых слое или целых фраз.

С развитием технологий и доступности интернета количество обрабатываемых поисковыми машинами запросов возросло с тысячи до десятков миллионов в день (к примеру, по донным компании Соод1е, которая с 10 000 запросов в день в 1998 г. уже к концу 2000 г. достигла цифры в 100 млн. запросов, обрабатьваемых ежедневно) по сравнению с первыми поисковиками. Давайте попробуем разобраться, как они помогают нам находить то, что нужно.

Любой файл или документ перед тем, как система вам скажет где его искать, должен быть ранее уже когда-либо найден самой системой. По данным компании "Яндекс" этой поисковой системой в интернете на первый кв. 2010 г. проиндексировано более 8 млрд страниц и их число с каждым днем все увеличивается. Для такой задачи, чтобы справиться с многомиллионным числом у/еЬ-страниц, поисковая машина использует специальную программу-робот под названием "Брн^ет" или паук. Она служит для построения списка слов, найденных на странице. Сам процесс построения списка называется чуеЬ-сга^пд. Дня построения и закрепления "полезного" списка слое, спайдер должен просмотреть массу других страниц

Как правило, паук начинает сбор информации с самых крупных порталов (новостные сайты, различные тематические блоги и дру-

Т-Сотт #3-2010

23

гие постоянно обновляемые порталы, посещаемость которых составляет десятки тысяч пользователей в день) и популярных web-страниц, Он индексирует всю информацию на них, и идет дальше, используя для перехода ссылки, встречающиеся на этих страницах В результате так охватывоется большая часть глобальной сети. Один из крупне йішх поисковиков на сегодняшний день, Google.com начинался с академического поисковика. Обычно поиск начинается с использованием сразу трех пауков. Каждый паук поддерживает до 300 одновременно открытых соединений с web-страницами — html документами, написанными на языке программирования, например РНР, которые доступны в глобальной сети для просмотра посетителям. В результате обработка достигает 100 страниц в секунду.

Для обеспечения пауков необходимыми для обработки данными Google использовал специальный сервер, выделенный только для подачи паукам все новых URL Чтобы не зависеть от интернет-провайдеров в области серверов доменных имен (DNS), транслирующих URL в ІР-адрес, Google установил собственный DNS-cepeep, уменьшив тем самым временны* затраты на индексацию страниц

Важнейшими для Google-робота вещами на странице являются сами слова (текст, видимый пользователем в окне браузера после обработки страницы, в результате которой скрываются все служебные фразы, теги и команды) и их местоположение (в какой части body они находятся).

Для пользовательских запросов особо важными считались слова, расположенные в служебных разделах fide, subtitles, meta tags и др. (заголовки страниц мега-теги, используемые для указания описания страницы, ключевых слое и других данных, заголовки текстовых блоков). К примеру, если бы мы искали слово "Правда", то страница с заголовком "Правда жизни" была бы более подходящей, чем страница, у которой слово "Правда" встречалось только где-то внутри обычного текста. Google-паук индексировал каждое подобное слово, кроме междометий типа "а", "ап" и "the". Друже поисковики используют

ИНОЙ ПОДХОД

Все подходы и алгоритмы поисковых машин предназначены для того, чтобы роботы-пауки работали максимально быстро и эффективно. К примеру, некоторые поисковые

роботы отслеживают при индексации слова в title, ссылках и до 100 наиболее часто используемых на странице слов и даже каждое из слов первых 20 строк текстового содержания страницы.

Другие поисковши индекс^зуют каждое отдельное слово страницы, например "а," "an," “the" и другие неинформационные слова.

Мета-теш (Meta Tags) дают возможность владельцу web-страницы определять ключевые слова и понятия, определяошие её содержание. Такой инструмент очень полезен в случое, если ключевые слова повторяются в тесте по нескольку раз. Мета-теги помогают поисковому роботу выбрал» ключевые слова для индексации страницы.

Некоторые сайты используют мета-теги для раскрутки сайтов за счет популярных запросов, никак не связанных с содержимым их страниц Но поисковые роботы сейчас прекрасно с этим справляются путем анализа корреляции мега-тегов и содержимого страницы, отбросывая мета-теги, не соответствующие тексту web-страницы.

По завершении работы пауков с новыми web-страницами, поисковые маимны должны разместить всю новую полученную информацию так, чтобы ей было удобно пользоваться. Д ва основных кодмпонента:

• информация, сохраненная вместе с данными;

• метод индексации этой информации.

Конечно, можно просто выводить слово и

ссылку на адрес (запись в документе, указывающую на другую часть этого документа или на другой документ), где оно находится. Но из-за отсутствия информации о том, относится ли это слово к мега-тегам или к обычному тексту, часто ли оно повторяется и встречается ли в ссыпках на другие ресурсы, поисковик стал бы совершенно примитивным инструментом и не дал бы практически никакой полезной информации пользователям.

Помимо URL-адреса и информации из слова, поисковая машина может сохранять данные о количестве повторений слова в тексте страницы, присвоить слову определенны* "вес", что повлияет на результаты ранжирования по данному запросу.

Каждая коммерческая поисковая машина использует свою формулу для вычисления "веса" ключевых слов при индексации. Поэтому при вводе идентичных запросов

разные поисковики выдают различные результаты.

Очень важно занимать минимальный объем памяти на д иске при хранении найденной информации, для этого ее кодируют. В Google для хранения весовых данных слов используется 2 байта, при этом учитывается вид слова, размер самих букв, и другая информация, влияощая на расположение сайта в листинге результатов. Каждый такой элемент информации требует 2-3 бита данных в полном 2-байтном наборе. В результате большой объем информации удается сохранять в очень компактном виде. После кодирования машина приступает к индексации.

Индексация — процесс добавления сведений о сайте роботом поисковой мошжы в базу данных, впоследствии использующуюся для поиска информации на проиндексированных сайтах, — необходима для быстрого поиска нужной ^формации. Самый эффективный способ построения индексов — построение хеш-таблиц (hash table). При хешировании используется определенная формула (в каждой поисковой системе своя собственная формула, которую держат в секрете), в результате применения которой каждому слову присваивается некоторое численное значение.

Хеширование (англ. hashing) — преобразование входного массива данных произвольной длины в выходную битовую строку фиксированной дп^ы, — уравниеоет разницу во времени при поиске слов, состоящих из букв разного уровня популярности. Хеш-таблица содержит хеш-значения вместе с указателем на данные, соответствующие этому значению. При эффективных индексации и размещении можно обеспечить высокую скорость поиска даже при достаточно сложных поисковых запросах

Символьный поиск, то есть поиск исключительно на основе совпадения символов (букв и цифр) в словах, имеет сильный недостаток — он получает слова именно ток, как они были введены. Например, слово "Ключ" может означать как инструмент для открывания замка, так и пресноводный источник. Если вас интересует только одно значение слова, значит, результаты по остальным значениям вам будут не нужны. Было бы прекрасно, если бы поисковая машина могла сама отсеять лишние результаты, и вам не пришлось бы строить сложных буквенных запро-

24

T-Comm #3-2010

сое, чтобы избежать двойного значения.

Концептуальный поиск информации — алгоритм поиска информации в интернете, который предполагает использование не только так называемых "ключевых слое", но и слое и словосочетаний, связанных с донной тематикой (терминология, синонимия), то есть концепцией, — это одна из областей исследований в области алгоритмов будущих поисковых машин. Такие алгоритмы осноео-ны на применении статистического анализа страниц содержащих поисковое ключевое слово.

Такой "концептуальной поисковой машине", системе, которая будет реализовывать концептуальный поиск в сети Интернет, явно потребуется больше места для хранения донных о каждой странице и больше времени для обработки каждого запроса. Сейчас многие исследователи заняты этой проблемой.

Также интенсивно ведутся работы в области поисковых алгоритмов на основе запросов с использованием естественного языка (Natural-Language query — возможность ввести запрос в поисковой системе в виде обычного вопроса и получить на него исчерпывающий ответ).

Идея естественных запросов заключается в том, что вы можете не просто написать запрос, а скорее спросить систему, как вашего реального знакомого. Не нужно думать о булевых операторах и мучиться со сложным запросом Од ним из популярных на сегодня поисковых сайтов на основе языка естественных запросов является AslJeeves.com.

Он преобразует запрос в ключевые слова — слова в тексте, способные в совокупности представлять весь текст, которые затем использует при индексации сайтов. Правда, этот подход работает только в случое простых запросов. Но прогресс не стоит на месте, и вполне возможно, что скоро мы будем разговаривать с поисковыми машинами на человеческом языке.

Поисковых интернет-машин в глобальной сети порядочное множество, и все они отличаются друг от друга, используют разные алгоритмы поиска и индексирования, различаются по возможностям и предлагаемым сервисам Но у всех у них одна схожая проблема: они доступны вам только тогда, когда вы подключены к Интернету. Нет соединения — нет возможности поиска информации. Это становится большой проблемой, когда нужно срочно найти какую-то информацию без до-

ступа в Интернет, и даже зная, где она находится, вы не в состоянии этого сделать.

Персональная автономная поисковая система (ПАПС), разрабатываемая нами, способна решить эту проблему максимально удобно и просто, предоставив при этом полноценный релевантны* поиск информации на заданных вами порталах, сайтах и страницах.

Система делает возможным поиск информации и материалов в Интернете без постойного подключения к нему. Важно лишь в начале дать системе скачать все необходимые материалы, а дальше она сама их обработает, проиндексирует и разместит на вашем жестком доске. В дальнейшем, подключение к Интернету является необязательным, но если оно будет присутствовать, это поможет поддерживать информацию, предоставляемую системой, всегда актуальной.

Получив основной список целевых сайтов, система производит сканирование, сбор данных, и индексацию полученной информации в пределах сайтов, указанных в списке. В дальнейшем, составив полный список всех ссылок, она будет по возможности обновлять данные, расположенные по этим адресам, что обеспечит вое всегда актуальной информацией.

Персональная автономная поисковая система будет предоставлять полноценный релевантный поиск по тем сайтам, которые указал пользователь. Она будет использовать сходные алгоритмы для расчета релевантности результатов, что и доугие поисковые системы. Это обеспечит высокую вероятность того, что найденное системой будет удовлетворять запросу в полной мере.

Поскольку всю информацию система будет хранить на накопителе персонального компьютера пользователя, будет разумным сделать возможность доступа к этой инфор-мацж пользователю напрямую. То есть, сайты, указанные в основном списке, вы сможете просматривать в своем браузере так же, как если бы вы просто зашли на них через интернет-соединение. Вся разница в том, что в данном случае соединение с Интернетом может отсутствовать, а сайт все равно будет возможно просмотреть Иначе говоря, порталы и сайты будут доступны вам в автономном режиме.

Такой подход может сократить количество трафика, когда вы часто обращаетесь к одному и тому же сайту через Интернет.

Также эта система будет полезна тем, кто постоянно в разьездох, но должен всегда под рукой иметь ноутбук с последней информацией по определенной тематике, при этом, не обладая постоянным подключением к Интернет. Это решение способно помочь тем, кто использует Интернет с очень медленным соединением. Поскольку просмотр страниц происходит в автономном режиме, они грузятся значительно быстрее, чем при непосредственном скачивании из Интернета. Конечно, для этого их нужно сначала скопировать на накопитель компьютера. Но когда использование Интернета ограничивается буквально парой десятков сайтов, потраченное вначале время окупается сэкономленным в дальнейшем

Рассмотрев основные вопросы поиска документов (текстов) и выявляя основные понятия и описывая способы согласования различных аспектов нечисловой обработки, следует обратить внимание на неформализованные базы данных, так как информационные системы в значительной степени зависят от интеграции СУБД и средств информационного (документального) поиска.

Литература

1 Афонуен АА, Крайнее М.Г. Кластеризация текстовых коллекций помощь при содержательном поиске и аналитический инструмент // В сб науч. ст. "Интернет-портал*: содержаще и технологии". Выпуск 4 / Редкой.: А.Н Тихонов (пред) и др.; ФГУ ГНИИ ИТТ "Информика". — М. Просвещение. 2007. — С. 510-537,

2 Буяко ВЦ Человек — интерфейс — компьютер Учебные материалы к лекциям по спецкурсу "Интеллектуальные интерфейсы". — Воронеж: Изд-воВГУ. 2003.-74 с

3 Кфсдоав Д 6*S-дизайн: книга Дмитрия Кирсанова. — СПб: Симвал-Плос, 2006ю — 376 с.

4 Эрик Ныскамвр. Вебхервисы Ш1, WSDI, SOAP и UD0I - СПб.: Питер, 2003. - 256 с

5. Лсоб Нкъсвн и Хоа Лсрааар Web-диэайн: удобство иегкхълоеа^я Web-сайтов / Пер, с англ. - М.: ООО "ИД Вигъямс", 2007. - 368 с

6. COMPUTER WORLD, http:// www.cornpufer-woHd.ru

7. CRN. ИТ-бизнес hlp://www envru

8. PCWEEK. hip;// wwwpcweek.ru

T-Comm #3-2010

25

i Надоели баннеры? Вы всегда можете отключить рекламу.