Арженовский С.В.
СТАТИСТИЧЕСКИЕ МОДЕЛИ ИСПОЛЬЗОВАНИЯ УСЛУГ ИНТЕРНЕТ
В настоящее время в информационном пространстве активно используются электронные ресурсы, в частности, услуги сети Интернет. Поведение потребителей таких специфических услуг не следует классической теории потребительского выбора, а подчиняется конкретным побудительным мотивам, адаптивно и изменчиво и зависит от социально-экономической ситуации. Тем не менее, потребители услуг Интернет обладают и относительно стабильными характеристиками и действуют в определенной степени рационально.
По данным ВЦИОМ аудитория Интернет пользователей в России составляет 32% населения, причем пользуются ежедневно 15%. Чаще всего Интернет служит расширению кругозора (41%) и для общения (38% пользователей). Причем электронная почта (79%) и социальные сети (76% опрошенных) наиболее распространенные формы общения. Ежедневный пользователь сети Интернет, как правило, житель Северо-Западного округа (27%), Москвы и Санкт-Петербурга и крупных городов (22-25%), мужчина (17%), в возрасте от 18 до 24 лет (36%), высокообразованный и материально обеспеченный (28 и 22% соответственно), а также учащийся (47%) (по [2]).
Научных публикаций, посвященных исследованию поведения потребителей Интернет услуг, выполненных в постсоветских странах, немного. Так в [3] показано, что навыки пользования компьютером, количество знакомых, пользующихся Интернетом, наличие домашнего компьютера, пол и социальный статус определяют портрет потребителя
услуг сети Интернет. В работе [4] оценена экономическая отдача от умения работать на компьютере с позиций теории человеческого капитала. Получен вывод, что владение компьютерными технологиями способствует повышению вероятности занятости и повышает заработную плату. Экономисты [6] считают пользователей Интернета, склонных к включению в свою жизнь инноваций, дающих ощущение принадлежности к слою более социально успешных людей. В исследовании [5] использование Интернета считается инновационной практикой, которая создает принципиально иной спектр возможностей, включая поиск работы и проведение досуга.
Целью настоящей работы является выявление детерминант использования индивидами услуг Интернет в своей рабочей или досуговой деятельности.
Информационную базу составили данные по индивидам Российского мониторинга экономического положения и здоровья населения (РМЭЗ) за 2005 год. В обследование включен вопрос об использовании в течение последних 12 месяцев Интернет, а также ряд вопросов, о месте использования Интернет (на работе, дома, в Интернет-кафе) и о цели использования. Из включенных в выборочную совокупность индивидов 42% пользовались услугами Интернет, причем 70% только в одном месте, 23% и дома, и по месту работы или учебы, 6% и в Интернет-кафе, и на работе. Основные цели использования Интернет — для получения справок (73,8%), для работы (67% пользователей), для получения информации (59,5%), для развлечений (50%). Покупки в Интернет совершали лишь 14,4%
пользователей. По отраслевой принадлежности предприятия, на которых заняты пользователи Интернет, принадлежат отраслям строительства, транспорта и связи, образования, торговли и бытового обслуживания. Причем 61,7% пользователей услуг Интернет заняты на частных предприятиях.
Для выявления по выборке факторов, определяющих принадлежность индивида к пользователю Интернет, сформулируем математическую модель дискретного выбора как логит модель
7 = 1|Х) = -+1г > 1 + е
где у — бинарная переменная, принимающая значение 1, если индивид использовал в течение последних 12 месяцев Интернет и 0 — иначе, X — вектор объясняющих переменных.
Использование потребителями Интернет услуг, как следует из описательной статистики, зависит от индивидуальных характеристик (возраст, пол, образование, профессия), дохода индивида, его социального статуса, а также от поселенческого фактора. В табл. 1 приведены результаты оценивания параметров логит моделей потребления Интернет услуг. Модели отличаются включенными фиктивными переменными по категориям индивидов. Все построенные модели оказались значимыми по критерию отношения правдоподобия. Коэффициент детерминации скорректированный счетный [7], составил около 24%. Модели корректно классифицируют индивидов по принадлежности к Интернет пользователям (около 67% корректно классифицированных наблюдений). Согласно результатам модели 1 (табл. 1, колонка 2) вероятность выбора использования Интернета для средних значений объясняющих переменных (36-ти летний женатый мужчина с начальным профессиональным образованием, работающий в сфере услуг, проживающий в городе) составляет 0,26.
Интерпретация параметров логистических моделей дается в терминах отношения шансов, которое показывает, во сколько раз вероятность выбора одной альтернативы больше (меньше), чем выбора другой альтер-
нативы. Получено, что логарифм дохода индивида (включая заработную плату по основному и дополнительному месту работы, выплаты в натуральном виде, пенсию) положительно влияет на вероятность использования Интернет услуг, увеличивая шансы в 1,6 раза. Женщины менее склонны к использованию Интернета на 32%. Отношение шансов для возрастных категорий потребителей наглядно показывает, что шансы использования Интернет молодежью от 16 до 25 лет в 4,7 раза больше, чем индивидов возраста от 46 до 60 лет. Причем шансы уменьшаются с увеличением возрастной категории пользователей компьютеров. У индивидов с высшим профессиональным или послевузовским образованием в 2,9 раза и средним образованием в 1,7 раза шансы использования Интернет услуг выше по сравнению с индивидами с незаконченным средним (модель 4).
Анализ по профессиональным категориям показывает, что в 2 раза чаще используют Интернет специалисты по сравнению с неквалифицированными рабочими (модель 5). Работники сферы услуг и операторы машин потребляют Интернет услуги на 38% реже, чем неквалифицированная рабочая сила. Это связано с тем, что последняя категория индивидов активно использует Интернет для развлечений и получения информации. Отметим, что незначимы коэффициенты регрессий для категорий служащих и законодателей, чиновников и менеджеров. Поселенческий фактор показывает, что жители областных городов пользуются Интернет в 3,7 раза чаще, чем жители сел. Факторы семейного положения и занятости на рынке труда оказались не значимыми во всех спецификациях модели.
Таким образом, выявлены основные факторные показатели, влияющие на применение Интернета в России. Выводы могут помочь при проведении маркетинговой деятельности компаний, предоставляющих услуги доступа к Интернету.
Следующим шагом статистического моделирования являлось выделение однородных групп потребителей Интернет услуг по направлениям использования этих услуг, месту выхода в Интернет, а также переменным, характеризующим индивидов.
Факторы Модель 1 Модель 2 Модель 3 Модель 4 Модель 5
Логарифм дохода индивида 1,634*** (0,116) 1,633*** (0,116) 1,687*** (0,123) 1,622*** (0,116) 1,641*** (0,118)
Пол (1 - женский) 0,677*** (0,077) 0,677*** (0,077) 0,677*** (0,077) 0,696*** (0,079) 0,673*** (0,082)
Возраст, лет (базисная - 46-60 лет) 0,957*** (0,005) 0,957*** (0,005) 0,958*** (0,005) 0,954*** (0,005)
16-25 4,659*** (0,861)
26-35 2,206*** (0,316)
36-45 1,553*** (0,243)
Уровень образования, лет (базисный -незаконченное среднее) 1,139*** (0,032) 1,141*** (0,033) 1,142*** (0,033) 1,114*** (0,033)
Среднее 1,963* (0,777)
Начальное профессиональное 1,471 (0,594)
Среднее профессиональное 1,482 (0,584)
Высшее профессиональное и послевузовское 2,894*** (1,138)
Профессиональная принадлежность (базисная - без квалификации) 0,871*** (0,022) 0,874*** (0,022) 0,869*** (0,022) 0,874*** (0,022)
Законодатели, менеджеры, чиновники 1,511 (0,458)
Специалисты 2,026*** (0,549)
Технические специалисты 1,538* (0,400)
Служащие 1,021 (0,308)
Работники сферы услуг 0,623* (0,180)
Ремесленники 0,782 (0,216)
Операторы машин и оборудования 0,616* (0,179)
Военнослужащие 0,705 (0,374)
Тип поселения (базисная - село) 0,626*** (0,036) 0,628*** (0,036) 0,628*** (0,036) 0,625*** (0,036)
Областной центр 3,679*** (0,702)
Город 1,822*** (0,374)
Поселок городского типа 1,629* (0,487)
Супружеский статус 0,927 (0,055) 0,926 (0,056) 0,941 (0,057) 0,939 (0,056) 0,928 (0,056)
Занятость (1 - занят на рынке труда) 0,847 (0,295) 0,832 (0,291) 0,791 (0,278) 0,804 (0,283) 0,888 (0,313)
Число наблюдений 1946 1946 1946 1946 1946
Отношение правдоподобия 310,03 315,39 316,34 322,64 332,28
Коэффициент детерминации Nagelkerke 0,147 0,150 0,150 0,153 0,157
Коэффициент детерминации скорректированный счетный 0,226 0,233 0,258 0,238 0,243
Примечание. В таблице приведены отношения шансов. В круглых скобках стандартные ошибки. Значимость *** -1%, ** - 5%, * - 10%.
Имеющаяся выборка содержит переменные, измеренные как в метрической, так и в порядковой шкале. В этом случае для построения классификации индивидов адекватным является применение двухшагового метода кластерного анализа, который представляет масштабируемую процедуру кластерного анализа, позволяющую работать с данными различных типов. На первом этапе работы алгоритма наблюдения предварительно кластеризуются в большое количество подкла-стеров. На втором этапе полученные подкла-стеры группируются в необходимое количе -ство кластеров. Если необходимое количество кластеров неизвестно, процедура его определяет на основе байесовского информационного критерия. Для классификации используется алгоритм Birch (Balanced Iterative Reducing and Clustering using Hierarchies), предложенный Т.Зангом и его коллегами [1]. Сначала формируется предварительный набор кластеров, а затем к этому набору для выявления «истинных кластеров» применяются другие -пригодные для работы в оперативной памяти - алгоритмы кластеризации. В некотором смысле кластер соответствует области повышенной плотности объектов. В Birch эта идея нашла отражение в выделении обобщенного представления совокупности объектов, описываемое так называемой кластерной характеристикой (CF — cluster feature). Кластерная характеристика представляет собой тройку, состоящую из следующих компонентов: число точек в кластере, «центр тяжести» и радиус, где радиус кластера определяется как среднеквадратичное отклонение точек кластера от его центра тяжести. При добавлении новой точки в кластер новое значение CF можно вычислить на основе старого значения; нет необходимости учитывать параметры всех точек в кластере. Инкрементальный алгоритм Birch использует это свойство CF и поддерживает только характеристики кластеров, а не множества точек во время сканирования данных. Использование идеи кластерных характеристик оказывается эффективным по двум причинам. Они удобны для вычисления всех внутрикластерных и межкластерных параметров, которые используются при принятии решений относительно кластеров. Более того, эти вычисления выполняются значительно быстрее, чем при использовании всех объектов в кластере. Например, расстояние между кластерами, радиусы кластеров, кластерные характеристики (и, следовательно, другие свойства) объединенных кла-
стеров очень эффективно вычисляются по значениям CF для отдельных кластеров. П.Бредли и его коллеги [10] использовали идеи CF для разработки целого класса масштабируемых интерактивных алгоритмов кластеризации ^-средних. Стартуя с некоторого первоначального разбиения множества данных, в этих итерационных алгоритмах кластеризации точки многократно переносятся из одного кластера в другой, пока не будет найдено распределение, соответствующее оптимальному значению некоторого критерия. Функционирование данной модели основано на выделении множеств сокращаемых (discardable) точек, сжимаемых (compressible) точек и точек основной памяти. Реальная точка является сокращаемой, если ее вхождение в кластер может быть восстановлено; алгоритм удаляет реальные точки и вместо всех них сохраняет только значением CF. Точка является сжимаемой, если она не является сокращаемой, но принадлежит к так называемому компактному подкластеру (tight subcluster) — множеству точек, которые всегда делят членство в одном кластере. Такие точки могут перемещаться из одного кластера в другой, но при этом всегда перемещаются вместе. Такой подкластер подменяется своим значением CF [1]. Точка относится к точкам основной памяти, если она не является ни сокращаемой, ни сжимаемой. Как следует из названия, точки этого типа сохраняются в оперативной памяти. Итерационный алгоритм кластеризации перемещает только точки основной памяти из CF сжимаемых точек между кластерами до тех пор, пока не будет найдено оптимальное значение критериальной функции.
Нами использовано расстояние между кластерами, вычисляемое по правилу логарифма правдоподобия, что позволяет включить в классификацию категорированные переменные. Вычисления выполнялись в пакете прикладных программ SPSS17.
Исходные данные - 771 индивидов, которые являлись пользователями интернет. В результате классификации, описанным выше двухшаговым методом кластерного анализа, получено три кластера примерно одинаковой численности: 1-й кластер содержит 35,3% наблюдений, 2-й кластер — 35,4%, 3-й кластер — 29,3%. Для интерпретации типов кластеров проанализированы профили кластеров.
В кластере 1 семейные индивиды со средним возрастом 33,8 лет, смешанного по полу состава, с высшим и средним профес-
Группа Процент корректной Группа
классификации 1 (0,353) 2 (0,354) 3 (0,293)
1 97,4 265 2 5
2 87,2 20 238 15
3 87,2 11 18 197
Итого 90,8 296 258 217
сиональным образованием, профессиональной категории — специалисты. Средний месячный доход 10829 руб. Используют интернет дома, по месту работы, учебы, в интернет-кафе для работы, развлечений, общения, получения информации, расширения кругозора, получения справочной информации, совершения покупок.
Кластер 2 образуют индивиды со средним возрастом 29,6 лет, мужчины, с разным уровнем образования, профессиональной категории — операторы машин и оборудования, ремесленники, в основном, имеющие семью или никогда ее не имевшие. Средний месячный доход 6634 руб. Используют интернет дома, в интернет-кафе для учебы и развлечений.
В кластере 3 замужние женщины со средним возрастом 38,3 лет, с высшим и средним профессиональным образованием, профессиональной категории — специалисты. Средний месячный доход 7631 руб. Использование интернет по месту работы, учебы для учебы и работы.
Таким образом, выделены три группы пользователей интернет услуг - активные пользователи услуг интернет, попавшие в первый кластер; молодежь, использующая интернет для учебы и развлечений; женщины, использующие интернет для работы и учебы.
В целях проверки качества построенной типологии нами осуществлен дискрими-нантный анализ этих же индивидов по тем же самым переменным, причем в качестве переменной принадлежности к классу была использована полученная в результате кластерного анализа переменная классификатор. Получена таблица сопряженности, характеризующая качество дискриминации (табл. 2). В целом по выборке правильно классифицированы в кластеры около 90,8% наблюдений, что позволяет сделать вывод об адекватности разбиения на кластеры.
В скобках приведены апостериорные вероятности попадания в группы.
По строкам наблюдаемая классификация, по столбцам — предсказанная.
Полученное разбиение потребителей интернет на кластеры можно использовать как в целях прогнозирования класса для новых пользователей с имеющимся набором характеристик, так и в целях определения типов потребительского поведения индивидов, что, несомненно, важно для продвижения услуг интернет, включая развитие электронной коммерции.
Библиографический список
1. Ганти В., Герке Й., Рамакришнан Р. Добыча данных в сверхбольших базах данных/Открытые системы. — 1999. - №910. — С. 38-45.
2. Зачем россиянам интернет?// Пресс-выпуск ВЦИОМ №1317. [Электронный ресурс], 2009. - Режим доступа: http://wciom.ru/novosti/press-vypuski/press-vypusk/single/12441.html, свободный.
3. Родионов А.Ю. Экономико-статистический анализ поведения потребителей в сфере электронного бизнеса (на примере Казахстана)// Исследовано в России. [Электронный ресурс], 2002. - Режим доступа: http://zhurnal.ape.relarn.ru/articles/ 2002/024.pdf, свободный.
4. Рощин С.Ю. Влияние владения компьютерными технологиями на поиск работы, занятость и заработную плату. Препринт WP15/2007/04. - М. ГУ ВШЭ, 2007.
5. Средние классы в России: экономические и социальные стратегии/ Под ред. Т.Малевой; Моск. Центр Карнеги. — М.: Гендальф,2003.
6. Hammond K. A., Turner P., Bain M. Internet Users versus Non-users: Drivers in Internet Uptake // International Journal of Advertising. — 2000. — Vol. 19. — No. 5. pp. 665-681.
7. What are Pseudo R-Squareds?// UCLA: Academic Technology Services, Statistical Consulting. [Электронный ресурс], 2006 - Режим доступа:
http://www.ats.ucla.edu/stat/mult_pkg/faq/gener al/Psuedo_RSquareds.htm, свободный.