Научная статья на тему 'Использование внешних статистических данных при персонализации сайта'

Использование внешних статистических данных при персонализации сайта Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
151
32
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Шереметьев К. П., Царев А. Г.

В данной статье рассматривается возможность использования внешних источников статистических данных для персонализации сайта. Вводится новый источник поисковая система Яндекс и описывается метод пер-сонализации, который учитывает статистические данные указанной поисковой системы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

USING OF EXTERNAL STATISTICAL DATA FOR PERSONIFICATION OF A SITE

This article examines the opportunity of using of external sources of statistical data for site-personification. In the article are described: the new source search system "Yandex"and method of personification which considers statistical data of the specified search system.

Текст научной работы на тему «Использование внешних статистических данных при персонализации сайта»

ИСПОЛЬЗОВАНИЕ ВНЕШНИХ СТАТИСТИЧЕСКИХ ДАННЫХ ПРИ ПЕРСОНАЛИЗАЦИИ САЙТА

К.П. ШЕРЕМЕТЬЕВ, доц. каф. автоматизации и управления МГУЛ, канд. техн. наук, А.Г. ЦАРЕВ, асп. факультета ЭСТМГУЛ

Интернет предоставляет большие возможности по сбору и анализу статистических данных сайта. Сбор и анализ статистической информации является неотъемлемой частью стратегии развития сайта и позволяет проводить полноценные исследования рынка покупателей, дает оценку коммерческим действиям и таким образом дает возможность планировать бизнес и претворять в жизнь наиболее удачные решения [5].

Постановка задачи

Целью данной статьи является исследование возможности использования статистических данных поисковых систем для пер-сонализации сайта.

Средства сбора статистических данных

В сети Интернет статистика приобретает статус основного исследовательского инструмента [5].

Существует три общепринятых способа сбора статистических данных.

Внешний счетчик (ВС). Представляет собой специальный скрипт, который загружается у пользователя одновременно с загрузкой странички веб-сайта и передает на сервер статистики информацию об этой загрузке [5]. Услуги пользования внешними счетчиками предоставляют такие статистические сервисы, как Spylog, TopMail, Hotlog и т.д. Большинство внешних счетчиков распространяется на бесплатной основе.

Программа - анализатор лог-файлов (ДА). Программы, которые по специальным алгоритмам обрабатывают лог-файл - файл сервера, в котором фиксируются все действия посетителей. JIA распространяются на платной основе. Наиболее популярные из них - это Webtrends, Analog, Netpromouter.

Внутренний счетчик. Представляет собой скрипт, который сохраняет сведения о загрузке страницы в отдельный файл или соб-

ственную базу данных сайта. Недостатки внутренних систем зависят от квалификации разработчиков и выделенными на нее средствами. По сравнению с ВС и ЛА внутренние счетчики имеют ряд неоспоримых преимуществ:

1) конфиденциальность собранных статистических данных;

2) практически неограниченное время хранения собранных данных;

3) возможность защиты от полной потери собранных данных;

4) возможность учета полной информации о просмотренной странице;

5) возможность применения полученных статистических данных при персонали-зации сайта.

Разработанная авторами система пер-сонализации сайта www.aldera.ru [3] основана на внутреннем счетчике. Посредством этого счетчика осуществляется сбор следующих данных:

1) 1Р - адрес посетителя;

2) идентификатор сеанса;

3) иКЬ-адрес предыдущей страницы (реферер);

4) наименование площадки, с которой осуществлялся переход на страницу; площадка (ПП) - это специальное место на странице сайта, которое отведено под ссылки: прайс товаров, рекламные площадки, персонализированные рекламные площадки;

5) тип содержимого просмотренной страницы: новость, описание товара, статья;

6) заголовок просмотренной страницы (товара, статьи, новости);

7) дата и время перехода на страницу;

8) количество показов страницы в момент перехода;

9) количество переходов на страницу в момент перехода;

10) количество показов страницы в момент обращения к статистической информации;

лчлч 1

Количество посещений

□ Яндекс ; в Рамблер

□ Гугл

□ Апорт

Рис. I. Посещаемость сайта www.aldera.ru из поисковых систем с 24.03.2005 по 27.01.2006

11) программное обеспечение, которое использовал посетитель при просмотре страницы.

Эти данные используются для анализа поведения пользователя на сайте.

Метод персонализации, основанный на внешней статистике

Существующие программные продукты в области персонализации используют статистику, собранную и локализованную посредством только своих собственных средств. Такой подход не позволяют учесть общую модель поведения пользователей в Интернете. Для построения такой модели необходимо использовать внешние источники. Так как основная часть посетителей большинства сайтов приходит при помощи поисковых систем (ПС) [1], именно они являются наиболее важными источниками. Для использования данных ПС предлагается:

1) выбрать ПС, данные которой будут использованы;

2) выявить список соответствующих запросу товаров (ССЗТ) из поискового запроса посетителя;

3) определить рыночную заинтересованность товаров (Л);

3.1) определить спрос на товары из

ССЗТ;

3.2) определить количество конкурирующих сайтов;

3.3) рассчитать рыночную заинтересованность товаров по формуле

где 5 - спрос на товар;

Ык - количество конкурирующих сайтов

по товару;

4) рекомендовать товары из ССЗТ, ранжированные по убыванию рыночной заинтересованности.

После перехода на интересуемый товар алгоритм рекомендации не изменяется за исключением второго пункта: для выявления ССЗТ вместо поискового запроса будет использоваться наименование текущего товара.

Выбор используемой поисковой системы

Для выбора ПС рассмотрим статистику сайта www.aldera.ru:

Из рис. 1 видно, что посещения с Яндекса являются наиболее частыми. Поэтому под внешним источником статистических данных будем понимать поисковую систему Яндекс.

Выявление искомых товаров из поискового запроса

Посещение из поисковой системы несет в себе формализованный пользователем поисковый запрос (ПЗ). Посредством сравнения ПЗ с представленными на сайте товарами предлагается определить список искомых товаров.

Алгоритм определения списка искомых товаров.

1. Выделяем ПЗ из реферера.

2. Сравниваем каждое слово из ПЗ, кроме общеупотребительных и стоп-символов, со словами из наименования товаров. Просматриваемый товар в сравнении не участвует.

Поисковый запрос в ПС:

«дистиллятор дэ»

Функция поиска СИТ

V

Неструктурированный список товаров сайта

1) К1 ультрафиолетовая

2) автоклав vitale 12

3) дистиллятор дэ 10

4) рентгенаппарат timex 70

5) дистиллятор дэ 4

6) дистиллятор дэ 25

7) компрессор msv 6/30

V

Вывод результатов в ПС

1= =0

1=

1= =1

1= =0

1= =1

1= =1

1= =0

Посещение страницы:

дистиллятор дэ 60

с>

о

Наименование ССЗТ:

дистиллятор дэ

-7\

Ассортимент искомых товаров:

дистиллятор дэ 10 дистиллятор дэ 4 дистиллятор дэ 25

\ 7

Сохраняем данные в БД

Рис. 2. Схема определения списка искомых товаров

0,5 0,45 0,4 0,35

Частота 0,3 переходов на 0,25 сайт 0,2

0,15 0,1 0,05 0

ыэ_

О

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

Индекс совпадающих слов в запросе и товаре

Рис. 3. Гистограмма частоты переходов на сайт в зависимости от количества совпадающих слов в запросе с наименованием товара (данные с 27.10.2005 по 27.01.2006)

4. Для каждого товара рассчитывается индекс совпадающих слов (I)

/ - Ег/КЧ,

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

где Ег - количество слов в запросе, которые

совпадают с наименованием товара;

М - количество слов в запросе.

5. Товары, у которых Индекс совпадающих слов максимален, заносятся в ССЗТ.

6. Совокупность совпадающих слов принимается за название ССЗТ.

Необходимость использования предложенного метода подтверждается обработкой статистических данных.

Из рис. 3 видно, что пик переходов на сайт достигается при полном вхождении запроса в наименование товара. Поэтому предлагается сузить список предлагаемых товаров до товаров, наиболее схожих с запросом.

Определение рыночной заинтересованности предлагаемых товаров

Для определения рыночной заинтересованности на товары необходимо определить их спрос и количество конкурентов. Спрос на товар определяется количеством запросов к ПС Яндекс, а количество конкурентов - количеством сайтов, которые предлагают товар.

Поисковая система Яндекс посредством сервиса «Яндекс.Директ» отображает количество запросов по словам и фразам.

ЯпНиг статиста запросов

тлжм ошвдым САШ)

| ПкиЧрлг* ] мнсмм*«якптм1.р д»»—КМ ™

ошш* ттл

Рис. 4. Страница «Яндекс.Директ» с запросом «дистиллятор дэ»

Запрос в Яндекс.Директ с наименованием ССЗТ:

V

Поиск товаров из ССЗТ на странице Яндекс.Директ

V

Спрос на товары ССЗТ за месяц:

1) дистиллятор дэ 10-26 показов

2) дистиллятор дэ 4 - 23 показов

3) дистиллятор дэ 25 - 16 показов

V

Сохраняем данные в БД

Рис. 5. Схема определения спроса на предлагаемые

товары

Таким образом, определение спроса на товары сводится к загрузке их наименования ССЗТ в сервис «Яндекс.Директ» и обработке загруженной страницы.

Алгоритм определения спроса на то-, вары из ССЗТ:

1. Загружаем страницу «Яндекс.Директ» с наименованием ССЗТ.

2. В загруженной странице ищем строки с наименованием товаров из ССЗТ.

3. Определяем количество запросов каждого товара.

4. Сохраняем данные в базе данных (БД).

Таким образом получаем спрос на предлагаемые товары. На величину спроса влияют такие факторы, как знание посетителя о модельном ряде искомого товара, его популярность в близком посетителю обществе и т.д., поэтому нулевое значение спроса в «Яндекс.Директ» не означает отсутствие необходимости в данном товаре. Если у всех товаров из ССЗТ значение спроса равно нулю, то для последующей сортировки приравниваем спрос одной второй.

В результате поискового запроса посетителю выдаются страницы с ссылками, заголовками и аннотациями найденных документов. Однако наибольший интерес представляет первая страница результатов.

1 М^о л»'«"» <***• Cv-

И О » г * . « * • ■ - "

V / /

S*U* } X

ZaimmvpAb-i t? г

ДкммипуДЭ»»!;

, лъ \ А> <<г* /с, « ! < X4 »К—->«

дом«-« * детм-ги»..?^

"¿Л " 4«. «А* к

¡.¿к.г. (д

бнгпнмчтврДЗ 'Зг^дд.1 Д^ямгадДЭи.О.^,»

Рис. 6. Страница ПС Яндекс с результатами запроса «дистиллятор дэ»

Запрос в Яндекс с запросом посетителя: «дистиллятор дэ»

V

Поиск товаров из ССЗТ на странице Яндекс.Директ

\ /

Количество конкурентов по товарам в ПС Яндекс: Дистиллятор дэ 10 - 2 сайта Дистиллятор дэ 4 - 4 сайта Дистиллятор дэ 25 - 2 сайта Дистиллятор дэ 60 - 1 сайт

\ /

Сохраняем данные в БД

Рис. 7. Схема определения количества конкурентов на товары из ССЗТ

По данным исследовательской компании СуЬегАЙаэ, на вторую страницу переходит лишь 24 % посетителей [8]. Поэтому определять количество конкурентов будем по первой странице результатов ПЗ.

Алгоритм определения количества конкурентов на товары из ССЗТ.

1. Загружаем страницу «Яндекс» с ПЗ.

2. В загруженной странице ищем строки с наименованием товаров из ССЗТ.

3. Определяем количество сайтов для каждого товара.

4. Сохраняем данные в БД.

После того как определены спрос и количество конкурентов, определяется рыночная заинтересованность на товары. Высокий спрос и небольшое количество конкурентов повышают вероятность благоприятного для владельца сайта, посещения страницы с описанием товара. Поэтому предлагается рекомендовать товары в порядке убывания рыночной заинтересованности.

Выводы

Приведенный в статье метод позволяет учесть общую модель поведения пользователей в Интернете.

На основании полученных данных подтверждается возможность использования статистических данных внешних источников при персонализации сайта, а также необходимость осуществления дальнейших исследований по данному направлению.

Библиографический список

1. Робин Ноблес Эффективный Web-сайт: учеб. пособие / Робин Ноблес, Керри-Лэй Греди.. - М.: Изд-во ТРИУМФ, 2004, 560с.

2. Шереметьев, К.П. Система персонализации данных для сайтов электронной коммерции / К.П. Шереметьев, А.Г. Царев // Вестн. Моск. гос. ун-та леса - Лесной вестник. - 2005. - №6(42). - С. 172-175.

3. Царев А.Г. «Интернет-магазин для стоматолога. Медицинский алфавит» //Медицинский алфавит. Стоматология. - 2005 - № 3(46). - С. 16-17.

4. Комплексный метод оценки эффективности Интернет-рекламы в коммерческих организациях. www.dis.ru 01/12/2002.

5. Место статистики в онлайн-продвижении URL: http://www.startpromo.ru/ modules/ sections/ index. php?op=viewarticle&artid=50 16/12/2005

6. Программа Site Statistics - объективная Интернет-статистика URL: http://netpromoter.ru/ bulkpromot-ег/ 16/12/2005

7. Статистика web-сайта, подходы и выбор. URL: http:// www.codenet.ru/webmast/html/stat.php22/12/2005

8. Зачем Вашему корпоративному сайту высокий рейтинг в поисковых системах? URL: http://www. marketlist.ru/why.php 21/01/2006.

i Надоели баннеры? Вы всегда можете отключить рекламу.