Вестник Томского государственного университета. Экономика. 2024. № 67. С. 300-321. Tomsk State University Journal of Economics. 2024. 67. рр. 300-321.
Отраслевая экономика
Научная статья
УДК 330.47, 517
doi: 10.17223/19988648/67/18
Статистический анализ данных цифрового сервиса электронных и аудиокниг ЛитРес через разработку программного обеспечения
Александра Андреевна Шарикова1, Анастасия Александровна Майкова2, Анна Юрьевна Вихрова3
12'3 Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Россия 1 ж$ка$Ьапко\а@%тай. сот 2 [email protected] 3 [email protected]
Аннотация. Обработка статистических данных отрасли посредством применения современных подходов и методов работы с данными способна решить множество задач для реализации прогноза и понимания текущей ситуации и является особенно актуальным инструментарием обработки больших данных в экономике. Важное значение в экономической и культурной составляющей развития любой страны выступает книжная отрасль. Книжный рынок вносит вклад в экономику, создавая рабочие места и стимулируя смежные отрасли, такие как дизайн, реклама, маркетинг, а также является частью культурного значения в виде сохранения и передачи знаний. Цель - проведение анализа данных цифрового сервиса электронных и аудиокниг ЛитРес. Результаты анализа будут полезны людям, чьи интересы тесно связаны с чтением; экспертам, уделяющим особое внимание рынку цифровых книг; аналитикам больших данных. Материалы и методы: статистический анализ, графические методы. В данной статье было разработано программное обеспечение, которое позволяет производить сбор и реализовывать решение ряда задач посредством проведения статистического анализа данных с сайта ЛитРес. В ходе исследования было решено более 10 аналитических задач в области аналитики жанров, расчете стоимости книг по жанрам, составления рейтинга самых популярных книг по мнению читателей, а также самых дорогих книг на портале. Приведен отдельный блок аналитики экономической литературы. По результатам проведения аналитики экономической литературы стоит отметить, что сервис ЛитРес имеет большой спектр научной и учебной литературы, которая представлена различными монографиями и учебными пособиями для бакалавров, магистров, аспирантов. Наиболее популярной книгой в выборке исследования является произведение В. Андерсон «Буря на американском рынке», рейтинг которой составляет 5.0, что демонстрирует позитивный отклик читателей. Составленный рейтинг «ТОП-3 самых оцениваемых книг в экономической области знаний» может быть рекомендован к прочтению людям, которых привлекает область эко-
© Шарикова А.А., Майкова А.А., Вихрова А.Ю., 2024
номики, бизнеса и финансов. Полученные с помощью разработанного программного обеспечения данные могут помочь при сборе статистики, дать ответы на поставленные задачи, провести аналитику, также на их основе могут быть построены модели для прогнозирования востребованности книг определенных жанров. Безусловно, диапазон задач анализа данных для сайта ЛитРес может быть расширен, что послужит основой будущего исследования.
Ключевые слова: анализ данных, большие данные, Big Data, ЛитРес, аналитика, программное обеспечение, информационные технологии, книжная отрасль
Для цитирования: Шарикова А.А., Майкова А.А., Вихрова А.Ю. Статистический анализ данных цифрового сервиса электронных и аудиокниг ЛитРес через разработку программного обеспечения // Вестник Томского государственного университета. Экономика. 2024. № 67. С. 300-321. doi: 10.17223/19988648/67/18
Branch economy
Original article
Statistical analysis of data from the digital service of electronic and audio books LitRes through software development
Alexandra A. Sharikova1, Anastasia A. Maykova2, Anna Yu. Vikhrova3
12'3 Peter the Great St. Petersburg Polytechnic University, St. Petersburg, Russian Federation 1 sashasharikova@gmail. com 2 [email protected] 3 [email protected]
Abstract. Processing of statistical data of an industry through the use of modern approaches and methods of working with data can solve many problems for forecasting and understanding of the current situation, and is a particularly relevant toolkit for processing big data in the economy. The book industry is of great importance in the economic and cultural component of any country's development. The book market contributes to the economy by creating jobs and stimulating related industries such as design, advertising, marketing, and is also part of the cultural significance in the form of knowledge preservation and transmission. The article aims to analyze data of the digital service of e-books and audiobooks LitRes. The results of the analysis will be useful for people whose interests are closely related to reading; experts who pay special attention to the digital book market; big data analysts. The research methods employed were statistical analysis and graphical methods. In this study, software was developed to collect and realize the solution of a number of problems through statistical analysis of data from the LitRes website. In the course of the study, more than 10 analytical tasks were solved in the field of genre analytics, calculating the cost of books by genre, making a rating of the most popular books according to readers' opinion, as well as the most expensive books on the portal. A separate block of economic literature analytics is given. According to the results of analytics of economic literature, it is worth noting that the LitRes service has a wide range of scientific and educational literature, which
is represented by various monographs and textbooks for bachelor, master, and graduate students. The most popular book in the study sample is Vladimir Anderson's book The Storm in the American Market, the rating of which is 5.0, which demonstrates the readers' positive response. The compiled rating TOP-3 Most Appreciated Books in the Economic Field of Knowledge can be recommended for reading to people whose interests are closely related to the field of economics, business and finance. The data obtained with the help of the developed software can help to collect statistics, analyze them, and give answers to the set tasks; on their basis, one can also build models to predict the demand for books of certain genres. Certainly, the range of data analysis tasks for the LitRes site can be extended, which can form the basis for further research. Keywords: data analysis, Big Data, LitRes, analytics, software, information technologies, book industry
For citation: Sharikova, A.A., Maykova, A.A. & Vikhrova, A.Yu. (2024) Statistical analysis of data from the digital service of electronic and audio books LitRes through software development. Vestnik Tomskogo gosudarstvennogo universiteta. Ekonomika -Tomsk State University Journal of Economics. 66. pp. 300-321. (In Russian). doi: 10.17223/19988648/67/18
Введение
Книга выступает ценным источником информации, новых знаний еще с давних времен. Она занимает особое место в жизни человека и издавна принимала на себя разные роли: хранилища информации, источника и средства ее передачи. Несмотря на то, что настал век информационных технологий, книга и по сей день остается надежным и ценным первоисточником. Наоборот, возможности, которые стали доступны с развитием информационных технологий, делают процесс чтения более увлекательным и удобным, а поиск нужной литературы - простым и доступным. Сегодня для чтения книг используются разные форматы: аудиокниги, электронные книги посредством гаджетов, традиционные бумажные версии, а поиск литературы может производиться на различных цифровых сервисах электронных и аудиокниг или электронных библиотеках. Так, в век информационных технологий чтение остается ключевым элементом образования и саморазвития [1, 21.
ЛитРес - популярный книжный цифровой сервис, на котором представлен большой выбор литературы различных жанров. ЛитРес является лидером на рынке электронных книг в России и странах СНГ. Ассортимент, представленный на данном цифровом сервисе, огромен и охватывает литературу как на русском языке, так и на иностранных языках. Возможности, которые предоставляет компания своим пользователям, тоже разнообразны и нацелены на обеспечение комфорта чтения или прослушивания любимого контента [3].
В России на сегодняшний день отрасль электронного книгоиздания является сформированной и хорошо развитой и вносит вклад в национальную экономику. Издательская отрасль способствует развитию различных сфер жизни общества, в том числе культурной, экономической, социальной, духовной [4]. В настоящее время сфера электронного книгоиздания в стране
представлена небольшим числом магазинов электронных книг (ЛитРес, Bookland, Библиоклуб), а также множеством бесплатных онлайн-библиотек (Альдебаран, Русская фантастика, Библиотека Максима Мошкова, Артефакт, Журнальный зал и др.).
Всероссийский центр изучения общественного мнения (ВЦИОМ) в 2022 г. проводил исследование посредством опроса граждан для выявления уровня читательского интереса. Результаты исследования показали, что 92% опрошенных читают книги. Несмотря на появление электронных форматов книг, традиционные печатные книги не утрачивают своей популярности. Этот факт подтверждает результат проведенного исследования. Стоит отметить, что электронные книги более пользуются спросом среди респондентов, которые имеют высшее образование, обладают высокими потребительскими возможностями, а также являются жителями Москвы и Санкт-Петербурга. На основе данного наблюдения исследователи предполагают, что есть формирование профиля «нового читателя», на который оказывает влияние урбанизированность, материальный статус и уровень образования. Важно отметить, что причина, по которой люди читают - интересное провождение свободного времени, т.е. большинство людей читают на досуге, а мотива к этому делу два: саморазвитие и удовольствие [5].
Наличие читательского интереса, новых возможностей в книжной индустрии, которые предоставляет активное развитие и внедрение информационных технологий, подтверждает актуальность выбранной предметной области.
Обработка статистических данных компании или отрасли посредством применения способов машинного обучения, искусственного интеллекта и нейростатистических технологий способна решить множество задач для реализации прогноза и понимания текущей ситуации и является особенно актуальным инструментарием обработки больших данных в экономике в настоящее время.
Литературный обзор аналогичных исследований
На Хабр опубликованы результаты исследования, задачей которого являлся анализ книжных предпочтений участников культурных сообществ ВКонтакте с целью получения актуальных данных о культурных трендах современного общества. Результаты проведенного исследования показали, что М. Булгаков, Достоевский, Стругацкие и Ремарк - авторы, которым свое предпочтение отдают участники культурных сообществ. Стоит отметить, что в списке любимых книг присутствует и классика, и книги современных авторов. Так, среди современных авторов первое место заняли В. Пелевин и П. Коэльо. «Мастер и Маргарита», «Сто лет одиночества», «Война и мир», «Три товарища», «Преступление и наказание» - ТОП-5 произведений, которые встречались в любимых книгах у участников культурных сообществ [6].
Marek Nahotko, Magdalena Zych, Aneta Januszko-Szakiel, Malgorzata Jaskowska провели исследование, в котором поставили задачу определить общенациональный уровень зрелости библиотеки RDS, используя при этом
инструменты обработки естественного языка (NLP), которые типичны для анализа больших данных. Авторы создали визуализацию с помощью инструмента Tableau Desktop в виде карты, на которой представлено расположение академических библиотек Польши, выбранных с помощью веб-скра-пинга. Авторы создали визуализацию распределения библиотек по количеству идентификаторов, а именно на графике по оси абсцисс расположены веб-сайты библиотек от больших к меньшим с точки зрения их объема и извлекаемых ключевых слов, визуализацию среднего размера веб-сайтов с исследовательскими данными, которые прямо указывают на их зрелость и полезность для пользователей; плотность контента веб-сайтов; облако тегов и ряд других визуализаций для решения аналитических задач исследования. Так, Marek Nahotko, Magdalena Zych, Aneta Januszko-Szakiel, Malgorzata Jaskowska пришли к выводу, что уровень зрелости библиотечной деятельности недостаточно высокий. Это означает, что необходимо вносить изменения и расширять свой функционал, не останавливаться только на традиционных функциях. Авторы подтвердили важность и ценность использования инструментов аналитики больших данных [7].
В других странах также актуальны исследования в области анализа данных литературы. Так, E.Y. Chang посвятил свою работу следующему вопросу: какие книги издает молодежь в Тайване. Исследование показало, что особо выделяются четыре темы, которые наиболее популярны, и они связаны с темой старости. Среди этих тем активно излагаются следующие вопросы: повышение умственной зрелости и силы, риск столкнуться с несчастьем в будущем, а также самомотивация и бдительность. Авторы данной статьи пришли к выводу, что это было вызвано желанием тайваньской молодежи показать свою зрелость, а не создавать «нестареющий» образ. Они подчеркивают важность позитивного отношения к старению и стараются избегать стереотипов о старости и дискриминации по возрасту. Поскольку в данном исследовании большинство молодежи имеет хорошее образование, в будущем авторы статьи хотят провести более подробное исследование, которое будет основываться на представителях разных социально-экономических статусов и семей, чтобы выяснить, совпадают ли их взгляды на старость с результатами данного исследования [8].
При этом следует заметить, что ранее также были проведены аналитические исследования данных о книгах применительно непосредственно к цифровому порталу ЛитРес. Целью обзорной работы Р. Гулова выступал анализ наиболее популярных электронных книг сервиса на предмет формата их издания, читательской аудитории, жанровой принадлежности, объема страниц и средней стоимости. Аналитическая база исследования была сформирована из 2536 произведений, включенных на сайте в раздел «Популярное» на момент выгрузки данных. Автором были получены следующие результаты [9]:
1. Три четверти наиболее популярных книг портала представлены в текстовом электронном формате, что может свидетельствовать как о преобла-
дающем интересе аудитории к данному формату, так и о значительном превосходстве объема текстовых публикаций над аудиоизданиями, размещенными на сайте.
2. Около 80% публикаций составляет литература с возрастными ограничениями 16+ и 18+. Однако данная информация не позволяет однозначно сформировать среднестатистический портрет читателя, в частности определить его возраст. Не установлено, руководствуются ли читатели указанным ограничением, а также насколько верно издатели установили упомянутые возрастные цензы.
3. Рейтинг популярности возглавляют произведения по тематике фантастики и психологии. Высокий интерес у аудитории также вызывают книги о культуре, личностном росте и истории. При этом автор отмечает, что работы по тематике IT не вошли в сформированный ТОП-10 наиболее популярных жанров.
4. По среднему объему книги (т.е. среднему числу страниц на одну книгу) в рамках категорий преобладают публикации из разделов «Информация», «Сетевые технологии». Однако к каждой из этих категорий отнесено всего 2 книги, а высокий средний показатель можно объяснить спецификой разделов, поскольку они преимущественно включают в себя словари и справочники.
5. Наиболее дорогой категорией, исходя из средней стоимости включенных в нее книг, является «Информация». Цена составила 22,63$, что в 19 раз выше, чем средняя стоимость книги наименее дорогого жанра, который автором в исследовании не называется. Гулов отмечает, что наиболее дорогостоящие категории представлены в основном технической литературой. Среди аудиокниг наибольшая средняя цена установлена на произведения об этикете, экологии и самосовершенствовании, а также на романы.
Материалы и методы
Описание набора данных. Датасет сформирован вручную с помощью скрипта, написанного на языке программирования Python, и последующим сохранением данных в хранилище. По результатам проведения процедуры получения данных с сайта ЛитРес итоговый датасет содержит 226 тыс. книг, указать объем полученных сырых данных затруднительно. Обработанные данные представляют собой массив JSON-объектов. Общее время выгрузки данных составило порядка 8 часов, скорость выгрузки была равна примерно 400-500 книгам в минуту. Полученный набор данных сформирован из русскоязычной и иностранной литературы и включает как электронные версии книг, так и аудиоверсии. Обработка данных была проведена в соответствии с парадигмой ETL. Данные очищались и обрабатывались сразу после скачивания и до сохранения в хранилище. В процессе очистки из исходного набора полей были оставлены только необходимые для последующего решения аналитических задач. Для обработки данных использовался скрипт,
написанный на языке программирования Python. В результате обработки данных объем выборки составил 1,5 Гб.
Структура данных. Опираясь на рейтинг жанровых и иных предпочтений пользователя портала, можно определить, какие книги будут выбираться чаще. На основе алгоритмов, анализирующих книги и поведение конкретного пользователя, строятся рекомендательные системы. Согласно исследованию Л.Л. Волковой, М.М. Токаревой, А.А. Ланко, каждую книгу можно разделить на определенные маркеры или параметры, которые могут быть использованы для сужения поискового запроса. Благодаря такому анализу книги, не вышедшие в верхние строки рейтинга, будут попадать к читателям, которым они будут интересны по описанию их содержимого. В то же время исследователи считают, что следует выделять некоторые свойства книг. К их числу можно отнести автора и название книги, жанр, время написания, страну, популярность книги и другие свойства. Так, в данной работе для анализа книжного цифрового сервиса ЛитРес целесообразно использовать рекомендации авторов при формировании датасета и учитывать их предложения на разбиение базы данных о произведениях по свойствам [10].
Структура данных в работе формируется из следующих параметров:
- ФИО автора;
- название книги;
- цены на книги: полная, бонусная, цена по скидке (с указанием валюты);
- минимальный возраст и наличие контента 18+;
- количество символов в книге;
- язык книги;
- рейтинг;
- вхождение книги в серию;
- жанры и тэги;
- дата издания.
Для хранения обработанных данных, произведения поиска, анализа и визуализации использован такой инструмент, как Elasticsearch.
Ограничения при работе с данными
Следует отметить, что на сайте ЛитРес отсутствует четкая и однозначно признанная классификация книг по жанрам. Данная специфика требовала особого внимания, поскольку большая часть предполагаемой аналитики планировалась производиться исходя из жанровой принадлежности книг. Разрешение проблемы сортировки жанров в данной работе произведено на основе взглядов исследователей на данный вопрос. Так, жанры книгам были присвоены на основе позиций в разделе «Каталог» на главной странице сервиса ЛитРес и вкладки «Жанры и теги» непосредственно в карточках анализируемой книги.
Удобство использования сервиса ЛитРес заключается в наличии открытого API для получения данных о книгах с официальной документацией [11]. Однако на момент работы с данными представленная документация
устарела и более не является актуальной, поэтому пришлось искать другие способы получения информации о книгах. Источниками информации о структуре API стали open-source библиотеки, доступные на веб-хостинге Github [12].
Еще одним ограничением стало наличие специальной защиты сервиса от излишне частых запросов к системе. Была предпринята попытка решить данную проблему за счет добавления временных интервалов между запросами к сервису, однако данное решение помогло лишь частично. Таким образом, в результате была приобретена информация о 226 тыс. книг. Данное количество позволяет получить объективные ответы на вопросы исследования, поэтому было принято решение остановиться на текущем объеме данных.
Инфраструктура разработки
Разработка сервисов велась на языке Python с использованием дополнительных библиотек для работы с Kafka и Elasticsearch. Для хранения кода и организации совместной работы над кодовой базой был использован веб-сервис GitHub и инструмент Git. Для управления процессом выполнения проекта применен встроенный функционал сервиса GitHub - Github Projects.
В качестве хранилища данных был выбран инструмент Elasticsearch, так как он предназначен для хранения и работы с неструктурированными данными, поддерживает горизонтальное масштабирование и предоставляет возможность интеграции с инструментом визуализации Kibana. Также в проекте был использован брокер сообщений Kafka для обеспечения связи между частями системы. Kafka обладает рядом преимуществ, в том числе отличается высокой производительностью и масштабируемостью [13].
Для запуска разработанной системы был использован инструмент Docker и его расширение docker-compose. С его помощью происходит управление порядком запуска необходимых сервисов и инструментов. Docker также был использован при разработке дистрибутива, что позволяет созданному ПО запускаться практически на любой операционной системе.
Программная реализация
Архитектура системы представлена на рис. 1. Она разработана в соответствии с ETL подходом: сервис BooksListFetcher небольшими частями загружает информацию о книгах в формате «название книги»: «ссылка на детальное описание» и передает эти данные в сервис BooksDetailsFetcher посредством брокера сообщений. Второй сервис использует полученную ссылку для загрузки детальной информации по книге, очищает данные, трансформирует и сохраняет в распределенное хранилище. Между частями системы данные передаются в формате JSON.
Рис. 1. Система визуализации данных с ЛитРес.
Источник: составлено авторами
Разработанное программное обеспечение обладает рядом особенностей, отличающих его от других подобных систем. Например, получение данных с сервера ЛитРес, отправка сообщений в брокер и считывание их оттуда реализовано асинхронным способом для увеличения скорости работы программы и обеспечения возможности распараллеливания процесса обработки данных. Также система поддерживает два режима работы: получение данных с сайта ЛитРес в режиме настоящего времени или использование заранее подготовленных данных.
Горизонтальная масштабируемость
Для обеспечения возможности горизонтального масштабирования проект был разбит на части, которые могут работать параллельно и независимо друг от друга. Общение между частями происходит посредством брокера сообщений Kafka. Распределенное хранилище данных Elasticsearch также поддерживает горизонтальное масштабирование.
На данный момент управлять количеством экземпляров сервиса BooksDetailsFetcher можно вручную, задав настройку при запуске проекта за счет возможностей инструментария docker-compose. Это отражено на рис. 2. В планах дальнейшего развития проекта - использовать инструмент Apache Spark для распараллеливания работ.
Рис. 2. Система визуализации данных с ЛитРес с указанием возможного горизонтального масштабирования. Источник: составлено авторами
Архитектура разработанной системы выполнена таким образом, чтобы при необходимости можно было легко провести горизонтальное масштабирование. Иными словами, можно увеличить производительность разработанного программного обеспечения при помощи добавления новых серверов и дата-центров, предварительно настроив их взаимодействия друг с другом [14].
Конечный вид дистрибутива
Дистрибутив сформирован в виде архива формата zip, содержащего внутри все необходимые файлы для работы созданной системы. Распакованный дистрибутив представляет собой набор файлов и папок, позволяющий пользователю запустить всю систему. Для обеспечения стабильной и надежной работы система запускается на базе Docker, что обеспечивает легкость распространения системы. Принцип работы дистрибутива позволяет запустить систему в двух режимах: демонстрационном и рабочем. В демонстрационном режиме возможно просмотреть результаты проведенной аналитики, статистику и результаты решения аналитических задач на уже готовых, предварительно выгруженных данных. Это позволяет быстро ознакомиться с возможностями системы, с метриками и показателями, которые она умеет подсчитывать, и с основными элементами управления системой. В рабочем режиме происходит выгрузка последних актуальных данных с сайта. В обоих режимах система позволяет просматривать текущую аналитику по имеющимся данным, производить базовые манипуляции с данными и аналитикой (фильтровать, исследовать).
Результаты
Разработанное ПО позволяет решить ряд аналитических задач. Спектр поставленных задач обширен, однако авторами делается акцент на аналитике ценовой политики ЛитРес и аналитике ассортимента книг по жанрам. Таким образом, в данном исследовании авторы стараются выявить тенденцию в предложении на цифровые издания. Принимая во внимание область интересов авторов, поставлены задачи в части анализа числа книг, которые обладают в своих названиях ключевыми словами, а именно: «BigData», «Большие данные», «ИТ», «Информационные технологии», «Цифровая экономика», и проведена аналитика произведений, относящихся к экономической области знаний.
Стоит отметить, на ЛитРес нет четкого разделения произведений на жанры. У большинства жанров, что представлены в разделе «Каталог» на сервисе, есть поджанры. Более того, существует такое понятие, как тег. Теги прописываются на ЛитРес отдельно по каждой конкретной книге и видны только при просмотре карточки произведения и указываются в общем разделе «Жанры и теги».
Подкаст
знания и навыки
зарубежная литература
о а Н I
3 м
и §
К о
ё н о >73
т
- к и В
психология, мотивация
Я ^ о га
спорт, здоровье, красота
№ н
е
Жанр не указан
И
га »
о со
е
§
N
I
Р
публицистика и периодические издания
легкое чтение
Основная сложность в работе с данными понятиями заключается в том, что нельзя однозначно определить, к какому жанру или поджанру относится книга. Во-первых, жанр и поджанр книги не указываются отдельно, лишь в общем списке наряду с тегами. Во-вторых, произведение может принадлежать нескольким поджанрам, а в некоторых случаях и жанрам одновременно. Так, для унифицированности при проведении аналитики понятий «жанр», «поджанр» и «тег» рассматриваются как равносильные.
Рассмотрим решение поставленных аналитических задач посредством построения визуализаций.
Расчет максимальной, минимальной и средней стоимости книги по жанрам
При проведении анализа по средней стоимости книг было принято медианное значение цены для каждого из жанров портала ЛитРес. Исходя из полученных данных (см. рис. 3), можно сделать вывод о примерно одинаковой средней стоимости книг для разных жанров, которая составила около 450 руб. Отличительной оказалась лишь категория подкастов, состоящая исключительно из аудиоизданий, для которой средняя стоимость составила 2734 руб., что в 6 раз выше, чем средняя цена других жанров. Максимальная цена книг в зависимости от жанра составляет от одной тысячи до десятков тысяч рублей. Минимальная же цена для некоторых жанров отсутствует, что говорит о возможности бесплатного прочтения или прослушивания некоторой доли книг на портале. Однако бесплатных изданий не предусмотрено для комиксов, подкастов, а также книг, жанр которых не был указан на портале. Из категории самых дешевых материалов, представленных на сайте, самыми дорогими являются подкасты. Минимальная стоимость подкаста составляет 234 руб.
Сравнение количества книг на портале по жанрам
Диаграмма процентного соотношения количества книг по жанрам представлена на рис. 4. Наиболее популярным жанром, исходя из количества представленных на ЛитРес книг, является современная литература. Ее общий процент равен всего 9,61%.
Обратившись к рис. 5, демонстрирующему уже конкретное количество книг определенного жанра, можно констатировать внушительный объем подобных изданий, составивший более 27 тыс. единиц, что говорит о их востребованности на рынке. Далее следуют современные любовные романы (5,94%), объем которых уже на треть меньше, любовное фэнтези (4,34%), мистика (4,22%). Ознакомившись со спецификой упомянутых жанров, можно отметить их некую схожесть и взаимосвязанность. При этом необходимо подчеркнуть, что почти треть книг (32,53%) относится к категории «Other». В ней содержатся все жанры, чье представительство в суммарном объеме книг портала составило менее 2%.
современные детективы (2.1%)
научная фантастика (2.23%)
саморазвитие / личностный рост (2.46%)
современная русская литература (9.63%)
современные любовные романы (5.94%)
любовное фзнтези (4.34%)
мистика (4.22%)
книги о приключениях (4.12%)
короткие любовные романы (3.55%) стихи и поэзия (3.34%) попаданцы (3.3%)
учебники и пособия для вузов (3.28%) триллеры (2.6%)
Рис. 4. Соотношение жанров по количеству книг (процентное соотношение). Источник: составлено авторами по результатам исследования
12.220 11.880
Рис. 5. Количество книг по жанрам.
Источник: составлено авторами по результатам исследования
Составление рейтинга ТОП-3 самых оцениваемых книг
Далее рассмотрим, какие конкретно книги являются наиболее оцениваемыми на портале и к каким жанрам они относятся (рис. 6).
Наиболее оцениваемым является произведение «Загадочная история Элизабет» за авторством Жд.К. Гейтсбери, представленное как в аудио, так и текстовом формате. Книга относится к жанру «остросюжетные любовные романы» и имеет более 24 тыс. оценок. Заметим, что данный жанр находится в топе популярных, а стоимость произведения достаточно невысока и на момент проведения исследования составляет 149 руб.
Количество
Название книги Название жанра оценок
Загадочная история Элизабет остросюжетные любовные романы 24,007
Женщина нового времени. Переворот. Как найти интересное дело и зарабатывать на этом много денег саморазвитие / личностный рост 13,879
Гомеостаз современная русская 12,428
литература
Рис. 6. ТОП-3 самых оцениваемых книг.
Источник: составлено авторами по результатам исследования
Книга имеет весьма высокий рейтинг (4.9/5.0) и насчитывает более 1,7 тыс. отзывов на портале. Следующей по числу оценок является книга «Женщина нового времени. Переворот. Как найти интересное дело и зарабатывать на этом много денег» с общим рейтингом 4.8/5.0. Данное произведение оценивали на треть реже (13 879 оценок). Книга относится к жанру «саморазвитие/личностный рост» и ввиду определенных современных тенденций популярность данной книги не вызывает вопросов. На третью по числу оцениваний книгу, принадлежащую жанру «современная русская литература», - «Гомеостаз» - оставили более 12 тыс. оценок, сформировав рейтинг 5.0/5.0. Тем не менее наличие при этом у произведения всего 18 отзывов, каждый из которых является исключительно положительным, позволяет усомниться в честности оценивания. Можно говорить о гипотетической накрутке высокого числа положительных оценок с целью повышения рейтинга книги и ее популярности на портале, что увеличивает вероятность рекомендации данной книги большему числу читателей со стороны ЛитРес.
Сравнение средней стоимости электронных текстовых изданий и аудиокниг по жанрам
Пожанровое сравнение средней стоимости электронных текстовых изданий и аудиокниг представлено на рис. 7.
• 400 ■ ■ * Дтоиокн"га
ф ^В^н ^Н^н ^Ж _ ______# Текстовая книга
tlilllUhuiii
Isiiiixili
i i | I I § 5 I I I i | I i I * l i i I
ocjgg X ф ф 2J
s 5 о g. Л с 4
i | I «
I I i
Жанр
Рис. 7. Средняя стоимость аудио- и текстовых книг по жанрам. Источник: составлено авторами по результатам исследования
Исходя из представленной диаграммы, можно сделать заключение о том, что для одних жанров большей средней стоимостью обладают аудиоверсии, для других средняя стоимость выше уже для текстовых вариантов. Притом наименьшая разница в стоимости наблюдается для книг жанра «психология, мотивация» и составляет всего 2%. Стоимость аудиокниги данного жанра дороже стоимости текстовой книги на 8 руб. Наибольшее различие в цене присуще категории зарубежной литературы, где текстовое издание в среднем обойдется на 45% дороже, чем аудиоверсия. Таким образом, можно сделать вывод об отсутствии на ЛитРес существенной разницы (70% и более) между средней ценой аудио- и текстовых книг.
Выявление зависимости цены книги от числа страниц
Исходя из полученного графика зависимости, представленного на рис. 8, нельзя сделать однозначный вывод о наличии взаимосвязи между стоимостью книги и ее объемом. Визуально корреляцию между рассматриваемыми факторами нельзя установить и при исключении значений-выбросов, т.е. книг, имеющих сверхвысокую цену относительно средней цены для книг с данным числом страниц.
30,000
г» С* MSVi tit If •■<''■' i Ум 1111« ii'nl l
irf-ii.';.»
Число страниц
Рис. 8. Средняя стоимость книг в зависимости от числа страниц. Источник: составлено авторами по результатам исследования
Количество и средняя стоимость книг, содержащих в своем названии «BigData», «Большие данные», «ИТ», «Информационные технологии»,
«Цифровая экономика»
Исходя из полученных значений (рис. 9), можно сделать вывод о присутствии на сайте ЛитРес относительно небольшого числа книг, относимых к рассматриваемой области знаний.
76
713.285
Количество книг по темам - В1д0а1а, Большие Средняя стоимость (руб) книг по темам - В1дОа1а, данные, ИТ, информационные технологии, цифровая большие данные, ИТ, информационые технологии, экономика цифровая экономика
Рис. 9. Количество и средняя стоимость книг, содержащих в своем названии заданные таргет слова. Источник: составлено авторами по результатам исследования
Результаты можно объяснить наличием контента, соответствующего данной области знаний, в других форматах - видеоролики на различных видеоресурсах, онлайн-курсы, материалы на специализированных порталах и прочее. Учитывая данные современные тенденции, соответствующая литература имеет меньший спрос, чем альтернативные формы. Однако, согласно результатам исследования, книги данной тематики имеют относительно высокую среднюю цену в более чем 700 руб., что в 1,5 раза выше средней стоимости книги на сайте ЛитРес.
Выявление наиболее часто встречающихся слов в описании книг
На рис. 10 в формате word cloud представлены слова, которые чаще всего упоминались при описании книг на портале ЛитРес.
мы
мои моя
руководство управление специапитет английский управления
Рис. 10. Наиболее часто встречающиеся слова в описании книг.
Источник: составлено авторами по результатам исследования
Отметим, что среди полученных слов отсутствуют ключевые слова ИТ-тематики, что в том числе подтверждает невысокую популярность на Лит-Рес рассматриваемых выше книг. Наиболее часто встречающимися существительными в описаниях являются слова «бакалавриат», «магистратура», «книга», «пособие». Это свидетельствует о наличии на портале очень большого количества учебной вузовской литературы, которая маркируется упомянутыми словами. Исключение союзов и предлогов перед проведением анализа - задача будущего исследования.
Помесячный анализ выхода книг на ЛитРес
Согласно результатам исследования (рис. 11), пик публикационной активности на портале приходится на декабрь, а также соседние с ним месяцы. Реже всего новые книги на ЛитРес появляются в летний период, а также апреле и мае. Разница в объеме выхода книг на портал составила максимально 100%.
Illlllllllll
• Число книг
Месяц выхода
Рис. 11. Динамика выхода книг на ЛитРес.
Источник: составлено авторами по результатам исследования
Составление рейтинга ТОП-10 самых дорогих книг
ТОП-10 самых дорогих книг представлен на рис. 12. Рейтинг содержит в себе преимущественно подкасты, что логично обосновывает достаточно высокую цену каждой из позиций. У подкаста большое количество выпусков, если в совокупности оценить стоимость всех выпусков подкаста, например «Страна Транзистория», то получится сумма 52 390 руб. - это самый дорогой подкаст по результатам анализа. ТОП-10 закрывает подкаст «Большой тест-драйв. Радиоверсия», у которого доступно 729 выпусков.
Принимая во внимание научный интерес авторов к экономике, был рассмотрен ряд аналитических задач в области анализа информации о книгах на ЛитРес, которые относятся к экономической области знаний.
Название книги
Страна Транзистория Ассамблея автомобилистов Мопйедгееп Роза ветров
Доброе утро, профсоюзы! Сергей Стиллавин и его друзья Дышите глубже Мастера спорта. Футбол Судьба дьякона
Большой тест-драйв. Радиоверсия
Цена, руб
52,390 44,304 40,000 37,154 25,844 25,090 24,492 21,164 20,000 18,954
Рис. 12. ТОП-10 самых дорогих книг. Источник: составлено авторами по результатам исследования
Выявление популярных жанров по количеству в них входящих книг по экономике
Для определения популярных жанров по количеству в них входящих книг, относящихся к экономической сфере, в общей выборке исследования, была построена столбчатая диаграмма, представленная на рис. 13.
Рис. 13. Доминирующие жанры по количеству в них входящих книг экономической области знаний.
Источник: составлено авторами по результатам исследования
На основе полученной диаграммы можно сделать вывод о том, что в области экономики доминирующими жанрами по количеству выпущенных книг (ТОП-5) являются «книги по экономике», «монографии», «мировая экономика», «общая экономическая теория», «личные финансы». Доминирующим жанром (тегом), в котором преобладает большее количество изданных книг по экономике, выступает «книги по экономике». Производя поиск по данному жанру (тегу), результаты поиска были более многочисленны.
Составление рейтинга ТОП-3 самых оцениваемых читателями книг
по экономике
ТОП-3 самых оцениваемых читателями книг в области экономики представлен на рис. 14.
Рис. 14. ТОП-3 самых оцениваемых книг в экономической области знаний.
Источник: составлено авторами по результатам исследования
Стоит отметить, что наиболее популярной книгой по числу оценок является В. Андерсон «Буря на американском рынке». Книга посвящена описанию рынка недвижимости и ипотечного кредитования США в условиях мирового финансового кризиса 2008-2010 гг. Это произведение имеет рейтинг 5.0, который сформирован исходя из 218 оценок на сервисе ЛитРес, что говорит о совокупном положительном отзыве читателей. Второе место в рейтинге заняла книга под названием «Популярная экономика» автора А. Зотова, рейтинг которой составил 4.8, сформированный на базе 138 оценок.
Произведение посвящено двум основным областям экономики: микроэкономике и макроэкономике. Третья позиция - у Л. Макаровой «Каждый инвестор желает знать...» с рейтингом от учителей 4,9, который сформирован на основе 124 оценок читателей. Стоит отметить, что данный рейтинг составлен среди тех произведений, которые содержат пункт «книги по экономике» в разделе «Жанры и теги» в своей карточке на сервисе ЛитРес.
Выявление наиболее часто встречающихся слов в названии книг по экономике
В ходе анализа были выявлены слова, которые чаще всего встречаются в названиях произведений в экономической сфере знаний. На рис. 15 в формате word cloud отражено визуальное представление ключевых слов.
Исходя из рис. 15, можно сделать вывод о том, что наиболее часто встречающимися словами в названиях книг по экономике являются «бакалавриат», «магистратура», «аспирантура», «монография». Это свидетельствует о том, что в анализируемой выборке преимущественно учебная экономическая литература, учебные пособия для вузов и монографии. Действительно, на сервисе ЛитРес достаточно большой выбор учебной и научной литературы. Более того, многие вузы сотрудничают с сервисом ЛитРес и в рамках подписки предоставляют доступ к большому спектру научной литературы.
организаций практикум методы учета
федерации перспективы организации конференции
экономического том проблемы экономики
актуальные ■ статей развитие экономических научнь1Х
основы монография и аспирантура ело бизнеса цифровой учебное баКЭЛаВрИаТ учебник ~я
фика™ россГТо магистратурав пособие — —
««витий условиях современные экономика гприияпитрт нз развития ' г
основе экономическая специалитет на экономике
технологии безопасности деятельности управление экономической
анализа nllol.ia ,„1QT - сфере методология
оценка учет xxi обеспечения
Рис. 15. Word cloud ключевых слов в названиях книг экономической области знаний.
Источник: составлено авторами по результатам исследования
Выводы
Обработка статистических данных отрасли посредством применения современных подходов, методов и инструментов работы с данными способна решить множество задач для реализации прогноза и понимания текущей ситуации и является особенно актуальным инструментарием обработки больших данных в экономике.
Так, авторами было разработано программное обеспечение, которое позволяет производить сбор данных с сайта ЛитРес и реализовывать их анализ.
Разработанное программное обеспечение обладает возможностью горизонтального масштабирования. При его разработке применялись различные инструменты: GitHub, Git, Elasticsearch, Kibana, Kafka, Docker.
Полученные с помощью разработанного ПО данные могут помочь при сборе статистики, дать ответы на поставленные задачи, провести аналитику, в том числе анализ предложения, также на их основе могут быть построены модели для прогнозирования востребованности книг определенных жанров. Безусловно, диапазон задач анализа данных для сайта ЛитРес может быть расширен, что ляжет в основу будущего исследования.
По результатам проведенной аналитики данных аудио- и текстовых книг с сайта ЛитРес с помощью построения визуализаций в инструменте Kibana можно сделать следующие ключевые выводы:
- портал включает обширную базу произведений всевозможных жанров, категорий и разделов знаний, при этом наибольшее предпочтение читатели отдают современной литературе;
- средняя стоимость книги на сайте составляет порядка 450 руб. и изменяется незначительно в зависимости от жанра;
- наиболее популярным жанром в данный момент является современная литература;
- явная зависимость стоимости книг на портале от их числа страниц отсутствует;
- в зависимости от жанровой принадлежности книги средняя стоимость ее аудиоиздания может быть как незначительно больше, так и меньше текстового варианта, за исключением зарубежной литературы, где текстовые книги в среднем в 1,5 раза дороже аудиокниг;
- книги, посвященные BigData и информационным технологиям, представлены на ЛитРес общим числом всего 76, однако относительно средней цены книги на портале стоимость такого издания в 1,5 раза выше;
- чаще всего новые публикации появляются на портале в зимние месяцы, реже - весной и летом; объем выпуска в пиковый месяц (декабрь) в 2 раза превосходит минимальный объем (май).
По результатам проведения аналитики экономической литературы стоит отметить, что сервис ЛитРес имеет большой спектр научной и учебной литературы, которая представлена различными монографиями и учебными пособиями для бакалавров, магистров и в том числе аспирантов. Наиболее популярной книгой в выборке исследования является произведение В. Андерсон «Буря на американском рынке», рейтинг которой составляет 5.0, что демонстрирует позитивный отклик читателей. Составленный рейтинг «ТОП-3 самых оцениваемых книг в экономической области знаний» может быть рекомендован к прочтению людям, чьи интересы тесно связаны с областью экономики, бизнеса и финансов.
Список источников
1. Метельков А. С., Степанов Е.А. Инновационный потенциал книжной индустрии региона: подходы, проблемы, перспективы // Библиосфера. 2022. № 4. С. 29-36.
2. Ипполитов С.С. Издательская отрасль творческих индустрий: инновационное развитие и вклад в национальную экономику // Вестник Московского государственного университета культуры и искусств. 2022. № 1 (105). С. 147-159.
3. О компании «ЛитРес» // ЛитРес : [сайт]. URL: https://www.litres.ru/o-kompanii/ (дата обращения: 26.03.2024).
4. Харитонов В.В. Особенности трансформации издательской индустрии // Текст. Книга. Книгоиздание. 2021. № 26. С. 117-128.
5. Книжная культура // ВЦИОМ : [сайт]. URL: https://wciom.ru/analytical-reviews/analiticheskii-obzor/knizhnaja-kultura-2022 (дата обращения: 26.03.2024).
6. Анализ Вконтакте на примере книжных предпочтений участников культурных сообществ // Хабр : [сайт]. URL: https://habr.com/ru/articles/246941/ (дата обращения: 28.03.2024).
7. Nahotko M. et al. Big data-driven investigation into the maturity of library research data services (RDS) // The Journal of Academic Librarianship. 2023. Т. 49, № 1. Р. 102646.
8. Chang E. Y. et al. New image of growing old: a content analysis of books written by baby boomers in Taiwan // International Journal of Qualitative Studies on Health and Well-being. 2023. Т. 18, № 1. С. 2207926.
9. Гулов Р. Что мы читаем и сколько это стоит? Анализ раздела популярных книг сайта Litres.ru // ALIFBO : [сайт]. URL: https://alifbo.media/chto-my-chitaem-i-skolko-eto-stoit-analiz-razdela-populyarnyh-knig-sajta-litres-ru/ (дата обращения: 06.04.2024).
10. Волкова Л.Л., Токарева М.М., Ланко А.А. О разработке рекомендательной системы, предлагающей книги по предпочтениям пользователя // Новые информационные технологии в автоматизированных системах. 2017. № 20. С. 239-244.
11. Барышев И. Public : API // ЛитРес : [сайт]. URL: https://docs.litres.ru/public/API_61998511.html (дата обращения: 10.04.2024).
12. litres-api // GitHub : [сайт]. URL: https://github.com/topics/litres-api (дата обращения: 10.04.2024).
13. Никифоров И.В. Методы, алгоритмы и архитектуры распределенной обработки больших данных : учеб. пособие. СПб. : ПОЛИТЕХ-ПРЕСС, 2023. 198 с.
14. Макаров А. Горизонтальное масштабирование. Что, зачем, когда и как? // Хабр : [сайт]. URL: https://habr.com/ru/companies/oleg-bunin/articles/319526/ (дата обращения: 18.04.2024).
References
1. Metel'kov, A.S. & Stepanov, E.A. (2022) Innovatsionnyy potentsial knizhnoy industrii regiona: podkhody, problemy, perspektivy [Innovative potential of the regional book industry: approaches, problems, prospects]. Bibliosfera. 4. pp. 29-36.
2. Ippolitov, S.S. (2022) Izdatel'skaya otrasl' tvorcheskikh industriy: innovatsionnoe razvitie i vklad v natsional'nuyu ekonomiku [Publishing industry of creative industries: innovative development and contribution to the national economy]. Vestnik Moskovskogo gosudarstvennogo universiteta kul'tury i iskusstv. 1 (105). pp. 147-159.
3. LitRes. (2024) O kompanii "LitRes" [About the LitRes company]. [Online] Available from: https://www.litres.ru/o-kompanii/ (Accessed: 26.03.2024).
4. Kharitonov, V.V. (2021) Features of the Publishing Industry Transformation. Tekst. Kniga. Knigoizdanie - Text. Book. Publishing. 26. pp. 117-128. (In Russian). doi: 10.17223/23062061/26/7
5. VtsIOM. (2024) Knizhnaya kul'tura [Book Culture]. [Online] Available from: https://wciom.ru/analytical-reviews/analiticheskii-obzor/knizhnaja-kultura-2022 (Accessed: 26.03.2024).
6. Habr. (2024) Analiz Vkontakte na primere knizhnykh predpochteniy uchastnikov kul 'turnykh soobshchestv [Analysis of VKontakte Using the Example of Book Preferences of Cultural Community Members]. [Online] Available from: https://habr.com/ru/articles/246941/ (Accessed: 28.03.2024).
7. Nahotko, M. et al. (2023) Big data-driven investigation into the maturity of library research data services (RDS). The Journal of Academic Librarianship. 49 (1). pp. 102646.
8. Chang, E.Y et al. (2023) New image of growing old: a content analysis of books written by baby boomers in Taiwan. International Journal of Qualitative Studies on Health and Well-being. 18 (1). p. 2207926.
9. Gulov, R. (2024) Chto my chitaem i skol'ko eto stoit? Analiz razdelapopulyarnykh knig sayta Litres.ru [What do we read and how much does it cost? Analysis of the popular books section of the Litres.ru website]. ALIFBO: [Online] Available from: https://alifbo.media/chto-my-chitaem-i-skolko-eto-stoit-analiz-razdela-populyarnyh-knig-sajta-litres-ru/ (Accessed: 06.04.2024).
10. Volkova, L.L., Tokareva, M.M. & Lanko, A.A. (2017) O razrabotke rekomendatel'noy sistemy, predlagayushchey knigi po predpochteniyam pol'zovatelya [On the development of a recommender system offering books according to user preferences]. Novye informatsionnye tekhnologii v avtomatizirovannykh sistemakh. 20. pp. 239-244.
11. Baryshev, I. (2024) Public: API. LitRes. [Online] Available from: https://docs.litres.ru/public/API_61998511.html (Accessed: 10.04.2024). (In Russian).
12. GitHub. (2024) litres-api. [Online] Available from: https://github.com/topics/litres-api (Accessed: 10.04.2024).
13. Nikiforov, I.V. (2023) Metody, algoritmy i arkhitektury raspredelennoy obrabotki bol'shikh dannykh: ucheb. posobie [Methods, algorithms, and architectures of distributed big data processing: a tutorial]. St. Petersburg: POLITEKh-PRESS.
14. Makarov, A. (2024) Gorizontal'noe masshtabirovanie. Chto, zachem, kogda i kak? [Horizontal scaling. What, why, when and how?]. Habr. [Online] Available from: https://habr.com/ru/companies/oleg-bunin/articles/319526/ (Accessed: 18.04.2024).
Информация об авторах:
Шарикова А.А. - магистрант, Санкт-Петербургский политехнический университет Петра Великого (Санкт-Петербург, Россия). E-mail: [email protected] Майкова А.А. - магистрант, Санкт-Петербургский политехнический университет Петра Великого (Санкт-Петербург, Россия). E-mail: [email protected] Вихрова А.Ю. - магистрант, Санкт-Петербургский политехнический университет Петра Великого (Санкт-Петербург, Россия). E-mail: [email protected]
Авторы заявляют об отсутствии конфликта интересов.
Information about the authors:
A.A. Sharikova, master's student, Peter the Great St. Petersburg Polytechnic University (St. Petersburg, Russian Federation). E-mail: [email protected] A.A. Maykova, master's student, Peter the Great St. Petersburg Polytechnic University (St. Petersburg, Russian Federation). E-mail: [email protected]
A.Yu. Vihrova, master's student, Peter the Great St. Petersburg Polytechnic University (St. Petersburg, Russian Federation). E-mail: [email protected]
The authors declare no conflicts of interests.
Статья поступила в редакцию 16.07.2024; одобрена после рецензирования 08.08.2024; принята к публикации 13.08.2024.
The article was submitted 16.07.2024; approved after reviewing 08.08.2024; accepted for publication 13.08.2024.