Научная статья на тему 'Использование нейросетевых технологий для построения метапоисковых систем'

Использование нейросетевых технологий для построения метапоисковых систем Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
103
33
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Использование нейросетевых технологий для построения метапоисковых систем»

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Кошляков Н.С., Глинер Э.Б., Смирнов М.М. Уравнения в частных производных математической физики. - М.: Высшая школа, 1970. - 712 с.

2. Меркин Д.Р. Введение в механику гибкой нити. - М.: Наука, главная редакция физикоматематической литературы, 1980. - 240 с.

3. Культербаев Х.П.,Исламова О.В. Численное моделирование колебаний тяжёлой струны. Математическое моделирование и краевые задачи. - Нальчик: Каб.-Балк. университет, 2006. - С. 8-17.

4. Самарский А.А. Теория разностных схем. - М.: Наука, 1983. - 616 с.

Ю.Ю. Воеводин

ИСПОЛЬЗОВАНИЕ ИЕЙРОСЕТЕВЫХ ТЕХНОЛОГИЙ ДЛЯ ПОСТРОЕНИЯ МЕТАПОИСКОВЫХ СИСТЕМ

.

(по некоторым оценкам по экспоненциальному закону) порождает проблему поиска релевантной информации по запросу пользователя. Классические методы поис-

( ).

представляет собой сложную систему, состоящую из следующих компонентов:

♦ системы автоматического анализа (индексации) Интернет - страниц;

♦ базы данных для хранения и нформации об этих страницах;

♦ Web интерфейса, с помощью которого пользователь вводит поисковый

;

♦ системы анализа запроса и поиска соответствующего запросу (релевант-

) ;

♦ системы ранжирования найденных документов с учетом пользовательских оценок.

Как правило, большинство пользователей просматривает не более 15-20 первых найденных поисковой системой документов. Поэтому крайне важно, чтобы в это число попали документы, релевантные его запросу. Системы ранжирования различных поисковых систем могут значительно различаться и строятся таким , -, -, -ских методов добиться неоправданно высокой оценки своих Интернет ресурсов.

Объединить достоинства нескольких поисковых систем позволяют метапоис-ковые системы. Обычно, эти системы не имеют собственных индексных баз данных, поэтому перенаправляют запросы пользователей другим поисковым системам, в том , . :

♦ Обработка запроса пользователя с целью приведения его к соответствующей для поисковых систем форме. При этом возможно как приведение запроса к нормальной морфологической форме, так расширение за, -

ческих форм термов запроса.

♦ Отправка запросов в различные поисковые системы. В этом случае пользователю предлагается задать поисковую стратегию, т.е. указать, в каких

, , -левантных документов.

♦ Обработка результатов поиска и приведение их к единому виду. Многие системы на данном этапе осуществляют фильтрацию полученных ссылок

, , -

тельными.

♦ Кластеризация документов. Некоторые поисковые системы производят разбиение документов на группы на основе их содержания.

♦ Ранжирование итогового списка до кументов и предоставление его пользователю.

Каждая поисковая система выдает список найденных документов, отсортированный в порядке убывания релевантности. Списки документов, полученные от различных поисковых систем, могут пересекаться, поскольку некоторый документ может быть найден одновременно несколькими системами, и наиболее важная задача метапоисковой системы - объединение этих списков и сортировка их по .

документов и присвоения рангов пользователем, либо на основе рангов, присвоенных данному документу в исходных поисковых системах.

В случае оценки на основе ранжирования поисковых систем возможно как прямое суммирование рангов, так и их взвешивание в зависимости от ранга самой . :

, ( -), . , поисковой системе Nigma для ранжирования документов применяется нейронная сеть, обученная на основе оценок работы поисковых машин группой экспертов [1].

Однако интересы каждого пользователя индивидуальны. Существует группа , , только в узкоспециализированных поисковых системах. При оценке ранга такой системой на основе усреднения оценок различных пользователей полученные документы окажутся в конце списка и могут быть не проанализированы. Поэтому необ-

ходима разработка метапоисковой системы, ориентированной на пользователя, которая позволит ему самостоятельно оценить ранг каждой из поисковых систем.

, -

кацией для правильного распределения рангов поисковых систем. Как правило, за, -

кретного запроса. Кроме того, даже у одного пользователя круг интересов со временем может значительно меняться. Поэтому целесообразно применение адаптивной

,

документов будет изменять ранг поисковых систем. Если пользователь оценивает документ как релевантный, то ранг всех поисковых систем, которые его предостави-, ; , системы, которые его нашли, штрафуются. В настоящее время наиболее перспективным подходом к созданию адаптивных интеллектуальных систем является использование нейросетевой технологии и генетических алгоритмов.

Принципы функционирования метапоисковой системы на основе ней. -вая база знаний, состоящая из двух типов нейронных сетей (НС), моделирующих два типа памяти человека: долговременную (НС-Д), ориентированную на постоянные запросы пользователей и кратковременную (НС-К), учитывающую изменяющиеся запросы.

На основе методики синтеза НС, разработанной в [4,5], определены парамет-( - - ): ( : 12-20-8 ), -

лученная с использованием алгоритма динамического наращивания узлов [3] алгоритм обучения: для сети НС-К - алгоритм обратного распространения на основе градиентного спуска, для сети НС-Д - двухэтапный комбинированный алгоритм: на первом этапе поиска экстремума ошибки обучения используется генетический алгоритм, а на втором - для более точного определения минимума - метод Дэви-дона, Флетчера, Пауэла [2]; коэффициент обучаемости: 0.35; логистическая функция: суммирование; активацион ная функция: сигмо идная.

Входной вектор состоит из следующих компонент: первые восемь - ранги , , , количество символов в запросе, время суток, время обработки последнего запроса.

НС обрабатывают входные данные и выдают обобщенные для данного пользователя оценки ранга поисковых систем. Общий ранг вычисляется как среднее , . -временно направляется в различные поисковые системы. Из результатов, полученных от поисковых систем, формируется список из 100 уникальных документов. Количество документов от каждой системы, которое включается в окончательный список, предъявляемый пользователю, пропорционально ее рангу, но не менее 3. На основе рангов, которые документ имел в обнаружившей его поисковой систе-,

списке. Если документ был найден несколькими поисковыми системами, то ранги, полученные от каждой из них, суммируются.

Пользователь производит анализ полученных документов и оценивает их релевантность по 10-бадьной шкале. На основе оценок пользователя и ранга систем производится формирование обучающей выборки для обучения НС. Все целевые вектора пользователя сохраняются в архиве «долговременной» сети и служат для обучения сети НС-Д в фоновом режиме. Сеть НС-К обучается на текущих векторах.

, - -ционные потребности пользователя, а сеть НС-Д долговременные. Сеть НС-К ориентирована на поощрение поисковых машин, предоставивших документы, релевантные последним нескольким запросам. Сеть НС-Д за счет обучения на всей выборке целевых векторов присвоит более высокий ранг системе, предоставлявшей релевантные документы на протяжении всего времени работы данного поль.

рангов двух типов систем.

Анализ результатов экспериментов. Эксперименты проводились группой из 8 независимых экспертов, работающих в различных прикладных областях. В .1

. , -

руются к предпочтениям отдельных пользователей, и поисковые системы, которые чаще других находят релевантные документы, имеют больший ранг, а системы, не предоставляющие оцененных документов или предоставляющие нерелевантные -меньший. Часть систем (Яндекс и Google) были эффективны для большинства пользователей, другие системы, такие как MSN, Yahoo, система оценила как не, , , -зычную часть сети Интернет.

Распределение средних оценок документов представлено на рис.1. Из приведенного графика видно, что средняя оценка документов, даваемая различными пользователями в процессе эксплуатации системы, росла, что свидетельствует об эффективности работы системы.

Таблица 1

Итоговое распределение рангов поисковых систем

Пользователь A B C D E F G H

Кол-во запросов 1S 2З 59 144 15б 189 1Q3 438

Минимальная оценка l З 1 1 4 З Q Q

Средний бал 4.9 б.1 б.8 l.l З.1 8.1 б.4 б.1

Максимальная оценка 1Q.Q 1Q.Q S.QQ 9.Q 1Q. 1Q.Q 1Q. 1Q.Q

Среднее кол-во термов в запросе З.4б 2.1б З.11 1.8 l.l 1.44 1.1 1.5б

Среднее кол-во термов в запросе 22.4 lS.l 41.1 15. 18. 30.1 Зб. 35.1

Среднее время 15. 11.5 1З:2 14. 11. 19.1 18: 14:1

Яндекс 14. 15.1 18.З 1Q. 11. Зб.1 34. 41.1

Рамблер 9.2 11.4 IQ.l 4.1 З.1 l.49 3.1 5.б8

Google S.б ll.l 11.4 1З. 18. 15.1 48. 14.1

Mail.ru 15. 5.1б 8.11 1.1 З.1 ll.Q 1.1 1.58

Yahoo 11Q 11.1 1.11 4.Q 15. Q.Q8 1.5 l4.l

Апорт ll.Q 15.1 Q.15 З8. 11. Q.33 4.1 5.89

MSN l9.l 1Q.5 ll.Q 8.1 б.1 5.1б 3.8 1.39

Altavista ll.l 1Q.Q 18.Q 8.Q 9.9 14. б 1. 4 11. 5

Рис.1. Распределение средних оценок документов в экспериментах

Заключение. Проведенное исследование показало, что предложенный подход к поиску релевантной информации в сети Интернет является эффективным таже и для адаптивной автоматизации настроек поисковых запросов с учетом

.

информации и повысить уровень сервисного обслуживания пользователя в сети.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Научный проект "Интеллектуальная поисковая система Nigma.ru",- М.: Информационные технологии, вып. 2, 2004.

2. Рекпейтис Г., Рейвиндран А., Рэгсдел К., Оптимизация в технике. В 2-х книгах. - М.: Мир, 1986.

3. Ash T. Dynamic Node Creation in Back Propagation Network // II Connection Science, V.1, 1989.

4. . ., . .

// . III -

- « -

ния в искусственном интеллекте». - М.: Физматлит, 2005. - С. 306-308.

5. Комарцова Л Г., Максимов А.В. Нейрокомпьютеры. - М.: Изд-во МГТУ им. Н. Э. Бау-

, 2004. - 400 .

2і2

i Надоели баннеры? Вы всегда можете отключить рекламу.