БИНАРНАЯ МОДЕЛЬ ОЦЕНКИ КАЧЕСТВА И ВОСТРЕБОВАННОСТИ ЭЛЕКТРОННОГО КОНТЕНТА И ЕЕ ВЕРОЯТНОСТНЫЙ ПРОГНОЗ

Мосин Владимир Геннадьевич; Козловский Владимир Николаевич; Благовещенский Дмитрий Иванович

12. Ковешников В.А., Трушин Н.Н. Программное обеспечение задач нелинейной оптимизации // Компьютерное и математическое моделирование в естественных и технических науках. Тамбов: ТамбГУ, 2001. Вып. 2. С. 30-32.

Фетисов Михаил Николаевич, заместитель исполнительного директора, [email protected], Российская Федерация, Московская область, Люберецкий район, поселок Томилино, НЦВ Миль и Камов

FORMALIZATION OF THE WORK PLANNING PROCESS OF A DESIGN AND CONSTRUCTION ORGANIZATION

M.N. Fetisov

The features of the multi-level structure of the domestic aircraft industry and the resulting problems of organizing joint work of development enterprises and manufacturing enterprises are considered. It is shown that in conditions of limited material resources and a shortage of qualified engineering personnel, one of the urgent tasks is the task of organizing rhythmic and effective design activities of the developer enterprise. Objective and subjective reasons for the irregular work of the development enterprise in the process of designing design documentation have been established and two levels ofplanning of design work related to the distribution of production tasks (projects) among groups of performers have been identified. A technique is proposed for formalizing the process of distributing design and construction work among groups ofperformers, based on solving the problem of optimal container loading and the principles of integer programming. A mathematical model is presented for a step-by-step solution to the problem of optimal distribution and planning of projects, developed using a gradient-random search method based on high-performance computing systems such as HEDT.

Key words: project, design activities, planning, distribution of work.

Fetisov Mikhail Nikolaevich, deputy executive director, [email protected], Russian Federation, Moscow region, Lyubertsy district, Tomilino village, NCV Mil and Kamov

УДК 005.6

DOI: 10.24412/2071-6168-2023-12-79-80

БИНАРНАЯ МОДЕЛЬ ОЦЕНКИ КАЧЕСТВА И ВОСТРЕБОВАННОСТИ ЭЛЕКТРОННОГО КОНТЕНТА

И ЕЕ ВЕРОЯТНОСТНЫЙ ПРОГНОЗ

В.Г. Мосин, В.Н. Козловский, Д.И. Благовещенский

В статье исследован показатель качества и востребованности электронного контента с точки зрения его бинарной классификации с разделением на класс с низкой долей востребованности и класс с высокой долей востребованности. Построена модель для прогноза классификации. Показано, что использование вероятностного прогноза принадлежности к классу позволяет повысить эффективность модели по сравнению с дефолтным бинарным прогнозом.

Ключевые слова: контент, оценка качества, анализ данных, бинарная классификация, scikit-learn,

pandas.

Прогнозирование востребованности контента на основе моделей машинного обучения имеет высокую актуальность в современных медиа, и этому есть несколько важных причин.

Прежде всего, это увеличение конкуренции [8]. С ростом количества контента, конкуренция за привлечение внимания аудитории становится все более жесткой. Точное прогнозирование востребованности контента позволяет создавать более привлекательный и интересный контент, который может более эффективно привлекать и удерживать пользователей.

Кроме того, прогнозирование востребованности контента позволяет оптимизировать бюджет и ресурсы, распределяя их наиболее эффективно. Зная, какой контент будет популярным, можно сосредоточиться на его производстве и продвижении, тем самым снизив затраты на контент, который может не найти достаточный отклик у аудитории.

Наконец, прогнозирование позволяет анализировать текущие тренды и предсказывать будущие. Это может быть полезным для создания нового контента, который будет актуальным в будущем, и для прогнозирования развития рынка контента в целом.

Все эти факторы делают задачу прогнозирования востребованности контента на основе моделей машинного обучения весьма важной для создателей контента, медиа- и развлекательных компаний, маркетологов и пользователей [2].

Теоретическая часть. Задача бинарной классификации в машинном обучении заключается в отнесении объектов к одной из двух возможных категорий [9, 10]. Это означает, что модель обучается разделить данные на два класса, условно 'положительные' и 'отрицательные'. В медиа-индустрии широкое распространение получила задача разделения позитивного или негативного отношения к тексту, комментарию, видеоролику и т. д.

Важной частью задачи бинарной классификации является оценка качества модели, которая может выполняться с помощью метрик, таких как точность, полнота, F-мера и мера AUC. Оценка позволяет измерить, насколько точно модель предсказывает классы и насколько хорошо она может обобщать на новые данные.

В нашей работе мы используем метрику AUC , которая является одной из самых важных и информативных метрик в задаче бинарной классификации [4, 5, 7].

Постановки задачи. Имеются данные об объектах, в качестве которых выступают видеоролики, размещенные на канале одного из ведущих хостингов.

Требуется: 1) построить бинарную модель классификации, прогнозирующую востребованность контента среди посетителей и зрителей канала; 2) пользуясь метрикой AUC, оценить эффективность модели; 3) повысить ее эффективность путем определения оптимального порога бинаризации.

Технологии. Для расчетов и визуализации результатов мы используем среду Jupyter Notebook, язык программирования Python и его библиотеки: pandas, sklearn, matplotlib.

Библиотека pandas — это мощный инструмент для анализа данных и манипуляций с ними, она предоставляет высокопроизводительные и простые в использовании структуры, которые позволяют эффективно работать с табличными данными [1].

Библиотека sklearn (также известная как scikit-learn) является одной из наиболее популярных библиотек машинного обучения в Python. Она предоставляет широкий спектр инструментов и алгоритмов для решения задач классификации, регрессии, кластеризации, снижения размерности и других задач обучения с учителем и без учителя, а ее модуль neighbors предоставляет инструменты для работы с алгоритмами ближайших соседей [3].

В библиотеке matplotlib имеется широкий набор функций и методов для создания графиков, диаграмм, изображений и других форм визуализации [3, 6].

Описание данных. Данные содержат 500 записей о видеороликах, расположенных на канале одного из ведущих хостингов за период с ноября 2022 г. по ноябрь 2023 г. Каждый ролик описан при помощи 18 числовых признаков, таких как 'Среднее число просмотров одним пользователем', 'Отметки "Нравится"', 'Время просмотра (часы) ', 'Средний процент просмотра (%)' и др.

Кроме того, отдельный девятнадцатый признак является бинарным строковым признаком и описывает востребованность конкретного ролика показателем 'Доля подписок' в формате 'Высокая'/Низкая'. Именно этот признак является предметом нашего исследования. Мы выбираем его в качестве целевой функции и строим классификационную модель для его прогнозирования.

Алгоритм

1.Чтение данных. Применяя метод read_csv библиотеки pandas, формируем дата-фрейм: Клики по Показы

элементам элементов CTR для

конечной конечной Показы Постоянные значков Доля

заставки заставки тизеров зрители ... Показы видео (%) подписок

0 9.0 792.0 54.0 325.0 8889.0 14.77 Высокая

1 7.0 467.0 56.0 211.0 3114.0 15.70 Высокая

2 8.0 372.0 27.0 138.0 3272.0 18.12 Высокая

497 1.0 45.0 2.0 24.0 251.0 9.16 Низкая

498 0.0 16.0 5.0 20.0 511.0 3.72 Низкая

499 0.0 4.0 5.0 9.0 208.0 3.85 Низкая

2. Разведочный анализ. При помощи метода describe библиотеки pandas выводим характеристики распределений числовых признаков: mean — среднее значение, std — среднее квадратичное отклонение, min и max — максимальные и минимальные значения.

mean std min max

Клики по элементам конечной заставки 0.508000 1.048874 0.0000 9.0000

Показы элементов конечной заставки 58.786000 79.566260 0.0000 792.0000

Показы тизеров 3.942000 7.925419 0.0000 56.0000

Постоянные зрители 45.594000 49.457591 2.0000 338.0000

Новые зрители 32.586000 94.640204 0.0000 1100.0000

Среднее число просмотров одним пользователем 1.241784 0.171804 1.0000 2.6000

Уникальные зрители 79.674000 133.822347 3.0000 1465.0000

Средний процент просмотра (%) 35.109640 13.616501 9.5200 74.5700

Отказались от подписки 0.010000 0.099598 0.0000 1.0000

Новые подписчики 0.360000 1.000200 0.0000 9.0000

Новые комментарии 0.056000 0.254939 0.0000 2.0000

Поделились 0.640000 1.811343 0.0000 17.0000

Отметки "Не нравится" 0.064000 0.322664 -1.0000 4.0000

Отметки "Нравится" 1.486000 3.079085 -2.0000 40.0000

Просмотры 100.530000 170.646446 5.0000 1880.0000

Время просмотра (часы) 4.023387 7.663491 0.3026 90.9871

Показы 621.738000 797.378602 39.0000 8889.0000

CTR для значков видео (%) 5.969620 3.318488 0.0000 21.2400

Характеристики распределения строкового признака 'Доля подписок' таковы: unique top freq

Доля подписок 2 Низкая 400

Здесь unique — количество уникальных значений, top —значение, обладающее максимальной частотой (модальное значение), freq — частота модального значения.

Мы видим, что числовые признаки имеют сильно различающийся разброс (на несколько порядков), а имеющиеся два класса строкового признака 'Доля подписок' не сбалансированы (представлены в отношении 4:1). Отметим, что несбалансированность классов является одной из причин, по которой мы среди прочих выбрали именно метрику AUC: эта метрика оценивает качество разделения на классы вне зависимости от пропорций, в которых состоят условно положительный и условно отрицательный классы.

3. Преобразование целевого признака в числовой формат. Целевая функция алгоритма классификации, который мы собираемся обучить и настроить — это признак 'Доля подписок', значения которого относятся к строковому типу: 'Низкая доля'/Ъысокая доля'. Но алгоритмы классификации, в том числе и KNeighborsClassifier библиотеки sklearn, могут работать только с числовыми данными, а любая попытка применить классификатор к строковым записям приедет к сообщению об ошибке. Поэтому, прежде чем приступать к построению классификатора, нам нужно перевести строковые данные в числовой формат.

Мы применяем метод loc библиотеки pandas и осуществляем так называемую замену по условию в столбце 'Доля подписок', а именно: каждое строковое значение 'Низкая доля' мы заменяем нулем, а каждое значение 'Высокая доля' — единицей. Теперь все данные имеют числовой формат, причем, 18 признаков относятся к типу float, а целевой признак 'Доля подписок' — к типу int, и он принимает значения 0 или 1.

4. Разбиение данных на обучающую и тестовую выборки. Еще один предварительный шаг моделирования состоит в разбиении данных на обучающую и тестовую выборки, что является важнейшей практикой в машинном обучении.

Следует отметить, что основная цель машинного обучения заключается в создании модели, которая может обобщать знания на новые, ранее не встречавшиеся данные. Разделение данных на обучающую и тестовую выборки позволяет оценить, насколько хорошо модель справляется с обобщением. Модель обучается на тренировочной выборке и затем тестируется на тестовой выборке. Если модель хорошо справляется с предсказанием на тестовой выборке, то это указывает на ее способность обобщать. В целом, разбиение данных на обучающую и тестовую выборки является необходимой практикой в машинном обучении для обеспечения надежной оценки модели и предотвращения переобучения.

Чтобы разбить данные на обучающую и тестовую выборки мы используем метод train_test_split из модуля model_selection библиотеки sklearn. Мы разбиваем данные в пропорции 8:2, при этом 80% записей приписываем к обучающей выборке, а оставшиеся 20% — к тестовой выборке.

5. Построение и обучение модели классификации. Формируем объект model, относящийся к типу KNeighborsClassifier, используя в качестве параметра модели 20 ближайших соседей, после чего, применяя к объекту model метод fit, обучаем модель на обучающей выборке, используя в качестве разметки значения признака 'Доля подписок'.

6. Прогноз на основе обученной модели. Классификатор KNeighborsClassifier способен возвращать два типа прогноза при помощи методов predict и predict_proba. А именно:

1. метод predict получает на вход объекты тестовой выборки и возвращает предсказанные метки классов, то есть 0 или 1, в зависимости от того, какой класс оказался в большинстве среди k ближайших соседей каждого из объектов;

2. метод predict_proba тоже получает на вход объекты тестовой выборки, но возвращает не метки классов, а вероятности p0 и p1, где p0 означает вероятность принадлежности объекта к классу 0, а p1 — к классу 1.

Нам требуется именно вероятностный прогноз принадлежности к классу 1. Поэтому в качестве прогнозируемых значений классификатора далее мы будем использовать массив вероятностей.

7. Построение ROC-кривой. Для построения ROC-кривой мы применяем метод roc_curve из модуля metrics библиотеки sklearn. Этот метод возвращает три массива:

1. массив p, который содержит все возникающие в классификаторе пороги бинаризации;

2. массив FPR, который содержит соответствующие порогам бинаризации величины False Positive Rate (подробнее о величине FPR см. [2]);

3. массив TPR, который содержит соответствующие порогам бинаризации величины True Positive Rate (подробнее см. [2]).

Затем при помощи модуля pyplot библиотеки matplotlib, строим ROC-кривую, используя массивы FPR и TPR, как горизонтальную и вертикальную переменные соответственно. Кроме того, мы используем метод roc_auc_score из модуля metrics библиотеки sklearn, который возвращает площадь под ROC-кривой, то есть, значение метрики AUC, и получаем кривую вместе с указанием ее меры (рис. 1 (a)).

8. Вычисление оптимального порога бинаризации. В случае бинарного прогноза ROC-кривая представляет собой ломаную линию из двух звеньев, которая характеризуется единственной точкой внутри единичного квадрата, а метрика AUC вычисляется как площадь под этой линией. То есть для каждого порога бинаризации получается своя бинарная ROC-кривая со своим значением метрики AUC.

Запуская цикл по всем значениям из массива p, получаем серию таких характеристик и выбираем тот порог бинаризации, который отвечает максимальному значению метрики AUC (рис. 1 (б)).

9. Повторный запуск. Напомним, что прежде чем начинать исследование, мы произвели случайное разбиение набора данных на обучающую и тестовую выборки. Эффект случайности неизбежно проявится, если мы заново разобьём данные: возникнут какие-то новые соотношения между представителями классов (особенно, если учесть, что классы не сбалансированы), получатся какие-то другие значения метрики AUC и порога бинаризации p.

Мы производим повторный запуск алгоритма и при новом случайном разбиении действительно получаем другой результат (рис. 2 (б)).

Мы видим, что при повторном запуске порог бинаризации принимает значение 0.15, а не 0.2, как это было первоначально, и кроме того, не приводя подробных иллюстраций, просто отметим, что при следующих повторных запусках порог бинаризации варьируется случайным образом в широком диапазоне от 0.1 до 0.35.

10. Усреднение ROC-кривой на множестве запусков. Чтобы избежать эффекта случайности, производим 250 запусков и усредняем все возникающие при каждом запуске характеристики (см. рис. 3):

1. ROC-кривую,

2. метрику AUC для вероятностного прогноза,

3. ROC-кривую, получающуюся в результате оптимальной бинаризации,

4. метрику AUC для бинарного прогноза,

порог вероятности p, на котором происходит оптимальная бинаризация.

1.0 ■ 0.8

0.4

о. г о.о ■

— AUC = 0.84

1-0 _J _ _

0-в

0 6

0.2

- AUC - 0.84

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

0.0 AUC . 0.78 р = 0 2

0.00 0,25 0.50 0.75

L 00

0,00 0,25 0,50 0.75 1.00

а б

Рис. 1. (a) ROC-кривая и ее метрика AUC, (b) подбор порога бинаризации

0.00 0.25 0 50 075 1.00

0.00 0.25 0 50 0.75 1.00

а б

Рис. 2. (а) Порог бинаризации при первом запуске 0.2, (Ь) при повторном запусе 0.15.

0.2 оо -

к — AUC -AUC - 0.82 0.72 р = 0.24

0.00 0.25 0.50 0 75 1.00

Рис. 3. Усреднение всех показателей в результате 250-и запусков.

После этого порог бинаризации стабилизируется примерно на уровне p=0.24.

11. Сравнение оптимизированного прогноза с дефолтным

Теперь у нас есть возможность сравнить прогноз, который получается после оптимальной бинаризации вероятностей, с дефолтным прогнозом, который получается прямым голосованием ближайших соседей.

Мы сравниваем по метрике AUC оптимизированный прогноз с дефолтным прогнозом метода predict классификатора KNeighborsClassifier, по следующей схеме:

1.запускаем случайное разбиение данных на обучающую и тестовую выборки;

2.вызываем метод predict и получаем дефолтный бинарный прогноз;

3.вызываем метод predict_proba и получаем вероятностный прогноз;

4.находим порог бинаризации вероятностного прогноза, который отвечает максимальному значению метрики AUC , так же, как это делалось на шаге 8;

5.выполняем бинаризацию вероятностного прогноза на найденном пороге;

6.пользуясь методом auc_score, находим значения метрики AUC для дефолтного и бинаризированного

прогнозов;

7.при помощи средств библиотеки matplotlib, строим все ROC-кривые, отмечаем все метрики AUC и выводим порог бинаризации p (рис. 4 (a)).

Мы видим, что метрика AUC для вероятностного прогноза (синяя линия) равна 0.81. Для бинарного прогноза, который получается после бинаризации вероятностного (желтая линия), метрика AUC равна 0.78. При этом оптимальный порог бинаризации p = 0.15. Для дефолтного бинарного прогноза (желтая пунктирная линия) метрика AUC равна 0.62.

Затем производим повторный запуск при новом случайном разбиении данных на обучающую и тестовую выборки (рис. 4 (б)).

Теперь для вероятностного прогноза метрика AUC равна 0.8, что дает незначительное отклонение от первого запуска. Для бинарного прогноза после бинаризации метрика AUC равна 0.75, и это тоже небольшое отклонение. Для дефолтного бинарного прогноза метрика AUC равна 0.7, то есть, отклонение опять оказывается незначи-

тельным. Вместе с тем, порог бинаризации р дает огромное отклонение: при повторном запуске его значение составляет 0.35 вместо бывшего при первом запуске значения 0.15.

1.0 0.8 0 6 0.1 0-2 0.0

0 00 0-25 0.50 0,75 1.00 0 00 0 35 0 50 0.75 1.00

а б

Рис. 4. Сравнение метрик (a) при первом запуске, (б) при повторном запусе

12. Сравнение оптимизированного прогноза с дефолтным на множестве запусков. Чтобы избежать эффекта случайности при разбиении данных, мы производим 250 запусков и усредняем все возникающие при этом показатели так же, как это было сделано на шаге 10 (см. рис. 5).

1.0

0.8 0.6 0.4 0.2 0.0

0.00 025 050 0.75 100

Рис. 5. Усреднение всех показателей в результате 250-и запусков.

При этом стабилизируются все показатели, а самое главное — стабилизируется разность между дефолт-ной и оптимизированной метриками AUC (примерно на уровне 0.81 - 0.66 = 0.15) и порог бинаризации (примерно на уровне 0.24).

Результаты. Напомним, что в качестве показателя востребованности контента мы взяли бинарный признак 'Доля подписок', принимающий два возможных значения: 'Низкая', 'Высокая'. Используя это признак в качестве целевой функции, мы построили модель классификации объектов (видеороликов канала), позволяющая прогнозировать востребованность объектов, то есть, относить новый, не имеющий априорной классификации объект к одному из двух типов: a) объект с низкой долей подписок, b) объект с высокой долей подписок.

Целью нашей работы было получение бинарного прогноза из вероятностного путем выбора оптимального порога бинаризации и сравнение оптимизированного прогноза с бинарным дефолтным прогнозом. В итоге мы продемонстрировали достоверный сдвиг в сторону увеличения метрики AUC при переходе от дефолтного к оптимизированному прогнозу.

Выводы. При изучении востребованности контента вероятностный прогноз классификации дает более тонкий инструментарий по сравнению с дефолтным бинарным прогнозом. Он позволяет проводить более детальное разделение объектов на классы и тем самым, точнее прогнозировать востребованность контента на информационном канале.

Вместе с тем следует отметить, что в качестве признаков для обучения модели мы использовали апостериорные характеристики контента, такие как ' Средний процент просмотра ', ' Отметки "Нравится"', и т. д., то есть, характеристики, полученные уже после его публикации. Гораздо интереснее прогнозировать востребованность контента по его априорным характеристикам, таким как 'Продолжительность ролика', 'Тематика ', 'Формат' и т. д [2]. Это тема для дальнейших исследований, которые мы планируем провести в рамках работы по изучению различных аспектов эффективности информационных каналов и управлению их качеством.

Список литературы

1. Хейдт М. Изучаем Pandas. Москва: ДМК Пресс, 2018. 438 с.

2. Бурков А. Машинное обучение без лишних слов. СПб: Питер, 2020. 192 с.

3. Николенко С. Глубокое обучение. Погружение в мир нейронных сетей / С. Николенко, А. Кадурин, Е. Архангельская; СПб: Питер, 2018. 481 с.

4. Лимановская О.В. Основы машинного обучения : учебное пособие / О.В. Лимановская, Т.И. Алферье-ва; Екатеринбург: Изд-во Урал. ун-та, 2020. 88 с.

5. Шолле Ф. Глубокое обучение на Python / Ф. Шолле. СПб.: Питер, 2018. 400 с.

6. Вьюгин В.В. Математические основы теории машинного обучения и прогнозирования. М.: МЦИМО. 2013. 387 с.

7. Бринк Х. Машинное обучение / Х. Бринк, Дж. Ричардс, М. Феверолф. СПб.: Питер, 2017. 336 с.

8. Дьяконов А. Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. Т. 1, № 27. С. 68-77.

9. Михеев А.В. Решение задач классификации методами машинного обучения // Молодой ученый. 2021. № 21 (363). С. 107-110.

10. Неделько В. М. Исследование эффективности некоторых линейных методов классификации на модельных распределениях // Машинное обучение и анализ данных. 2016. Т. 2, №3. С. 305-329.

Мосин Владимир Геннадьевич, канд. техн. наук, доцент, [email protected], Россия, Самара, Самарский государственный технический университет,

Козловский Владимир Николаевич, д-р техн. наук, профессор, заведующий кафедрой, [email protected], Россия, Самара, Самарский государственный технический университет,

Благовещенский Дмитрий Иванович, д-р техн. наук, профессор, [email protected], Россия, Тула, Государственный региональный центр стандартизации, метрологии и испытаний в Тульской и Орловской областях

BINARY MODEL FOR ASSESSING THE QUALITY AND DEMAND OF ELECTRONIC CONTENT AND ITS

PROBABILISTIC FORECAST

V.G. Mosin, V.N. Kozlovsky, D.I. Blagoveshchensky

The article examines the indicator of the demand for content from the point of view of its binary classification with a division into a class with a low rate of demand and a class with a high rate of demand. A model for classification prediction is constructed. It is shown that the use of probabilistic prediction of class membership makes it possible to increase the efficiency of the model in comparison with the default binary prediction.

Key words: content, quality assessment, data science, binary classification, scikit-learn, pandas.

Mosin Vladimir Gennadievich, candidate of technical sciences, docent, [email protected], Russia, Samara, Samara State Technical University,

Kozlovsky Vladimir Nikolaevich, doctor of technical sciences, professor, head of the department, [email protected], Russia, Samara, Samara State Technical University,

Blagoveshchensky Dmitry Ivanovich, doctor of technical sciences, professor, [email protected], Russia, Tula, State Regional Center for Standardization, Metrology and Testing in the Tula and Orel Regions

УДК 629.113

DOI: 10.24412/2071-6168-2023-12-84-85

АНАЛИЗ ВЛИЯНИЯ ДЕФИЦИТА НА ИЗМЕНЕНИЕ КОНКУРЕНТОСПОСОБНОСТИ ТОВАРОПРОВОДЯЩЕЙ СЕТИ КОМПАНИИ-ПРОИЗВОДИТЕЛЯ ЭЛЕКТРОИНСТРУМЕНТОВ

М.М. Васильев, В.Н. Козловский, Д.В. Айдаров

В статье представлены результаты исследования дефицита электроинструментов в торговой сети производителя на его конкурентоспособность.

Ключевые слова: конкурентоспособность, качество, дефицит, электроинструмент.

Оценка дефицита продукции проведена для одного из ведущих отечественных производителей электроинструментов в период с 6 по 52 недели 2020 года (на примере одного ключевого партнера - торгового предприятия).

Для проведения оценки дефицита выполнены следующие операции и получена исходная информация в электронном виде: от производителя были получены базы данных для предварительного анализа и апробации моделей управления дефицитом по одному из 40 ключевых клиентов, а также комментарии по наиболее важным вопросам обеспечения; на начальном этапе были выдвинуты гипотезы о том, что между дефицитом и потребностями клиентов имеются статистически значимые корреляции; уровень дефицита является значимым и завышенным; когда будет остановка производства, соответственно будет максимальный уровень дефицита [1].

В ходе математического анализа данных за 6 - 52 недели выдвинутые гипотезы подтвердились лишь частично. В частности, было выявлено, что: доля позиций, которых нет на складе, в потребности составляет в среднем 57,36% (рисунок 1); доля дефицитных позиций в позициях, которых нет на складе, составляет в среднем 91,41%; доля отгрузки в потребности составляет в среднем 29,21%; между суммами потребности, дефицитом и позициями «нет на складе» существует сильная положительная корреляционная зависимость [2]. Причем речь идет именно о связи по показателям в денежном выражении. В то же время уровень дефицита изменяется хаотично.

Получены следующие выводы: компания имеет размер завышенного дефицита за счет того, что клиент изначально может заказывать позиции, которых нет и не может быть на складе и по факту они ему не нужны; компания фактически имеет данные по размеру дефицита на текущую дату, но при этом не имеет реальных значений дефицита текущего периода, поскольку клиент в следующей заявке снова указывает неудовлетворенный в прошлом периоде спрос; наличие дефицита негативным образом отражается на финансовых показателях деятельности компании.

Расчеты по рассматриваемому клиенту показывают, что чистая упущенная выгода за 6 - 52 недели составляет порядка 500 тыс.руб. Предполагая, что клиент является типичным, и учитывая, что компания имеет 40 ключевых клиентов, размер упущенной выгоды составляет не менее 20 млн.руб. за год. Необходимо учитывать, что это данные по падающему рынку. На растущем рынке размер упущенной выгоды будет ощутимо больше [3].

84

BINARY MODEL FOR ASSESSING THE QUALITY AND DEMAND OF ELECTRONIC CONTENT AND ITS PROBABILISTIC FORECAST

Текст научной работы на тему «БИНАРНАЯ МОДЕЛЬ ОЦЕНКИ КАЧЕСТВА И ВОСТРЕБОВАННОСТИ ЭЛЕКТРОННОГО КОНТЕНТА И ЕЕ ВЕРОЯТНОСТНЫЙ ПРОГНОЗ»