4. Атабекова А.А. Сопоставительный анализ языкового оформления англо - и русскоязычных веб-страниц. Дис. ... д-ра филол. наук : 10.02.20 : Москва, 2004 356 с. РГБ ОД, 71:05-10/10 - 2003.
5. Burnett R., Marshall D. Web Theory: An Introduction, London-New York: Routledge, 2003.
6. Белинская Е.П. Интернет и идентификационные структуры личности. -2001. - Интернет-публикация: http://psynet.carfax.ru/texts/bel4.htm
7. Collot M., Belmore, N., Electronic Language: A New Varity of English // Communication: Linguistic, Social and Cross-Cultural Perspective. - Amsterdam: John Benjamins Publishing, 1996.
8. Crystal D., Language and the Internet. - Cambridge: Cambridge University Press, 2001.
9. Crystal D., The Language Revolution. - Cambridge: Poliy Press, 2004.
10. Danet, B., Text as Mask: Gender and Identity on the Internet. Paper presented at the conference, Masquerade and Gendered Identity, Venice, Italy. - 1996. -Available on: http://atar.mscc.huji.ac.il/~msdanet/mask.html.
11.Danet B., Herring S. The Multilingual Internet: Language, Culture, and Communication Online (Eds.) - New York: Oxford University Press, 2007.
УДК 004.9
Десятирикова Елена Николаевна,
профессор, д-р техн. наук, профессор,
Ходар Алмосана, аспирант, Алкади Усама, аспирант
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ ОБРАБОТКИ БОЛЬШИХ ДАННЫХ В ЦИФРОВОЙ ЭКОНОМИКЕ
Россия, г. Воронеж, Воронежский государственный технический
университет S [email protected]
Аннотация. Данная работа посвящена применению методов интеллектуального анализа данных для получения знаний из больших баз данных систем онлайн резервирования ресурсов, таких как авиаперевозки, почта, гостиницы, больницы и многие другие. Полученные знания использованы для прогнозирования поведения заказчика и оптимизации планирования ресурсов через усовершенствование управления овербукингом.
Ключевые слова: нейронные сети, интеллектуальный анализ данных, системы бронирования.
Elena N. Desyatirikova,
Professor, Doctor of Economic Sciences,
Almothana Khodar, PhD student, Osama Alkaadi, PhD student
BIG DATA TECHNOLOGIES IN THE DIGITAL ECONOMY
Russia, Voronezh, Voronezh State University S [email protected]
Abstract. This paper is devoted to the application of data mining techniques to obtain knowledge from large databases of online resource reservation systems such as air travel, post office, hotels, hospitals and many others. The knowledge gained is used to predict customer behavior and optimize resource planning through improved overbooking management.
Keywords: neural networks, Data Mining, overbooking.
Данная работа посвящена применению методов интеллектуального анализа данных для получения знаний из больших баз данных систем онлайн резервирования ресурсов, таких как авиаперевозки, почта, гостиницы, больницы и многие другие. Полученные знания использованы для прогнозирования поведения заказчика и оптимизации планирования ресурсов через усовершенствование управления овербукингом. Овербукинг является обычным приёмом, например, в туристическом или отельном бизнесе, где отказ потребителя от заказанных ранее услуг является вполне ожидаемым. В англо-язычной терминологии такие ситуации обозначаются термином «no-show».
В данной статье рассматриваются методы предсказания вероятностей no-show на основе интеллектуального анализа данных [1], включая деревья принятия решений, регрессионные модели и нейронные сети. Работа нацелена на сбор данных из различных источников, представляющих записи из множества полей, к которым можно будет применить метод анализа и редукции, основанный на дереве принятия решений (Decision Tree method). Целью является обнаружение отношений между данными и выделение паттернов. Это позволит выделить только те переменные, которые, как ожидается, имеют наибольшее влияние на конструируемую модель. Анализ на основе дерева принятия решений всегда будет давать результат, даже при наличии очень слабых отношений между входными и выходными переменными.
В случае слабых отношений или недостаточного количества данных может оказаться полезным построение случайного дополнения. В данном исследовании используется метод CHAID, предложенный в [2], как вариант метода дерева принятия решений. Модель Logit [3], являющаяся линейной регрессионной моделью, также хорошо подходит для оценки условных вероятностей.
Отметим, что построенная модель должна будет адаптироваться на следующих стадиях оценки и проверки. В связи с этим, привлекает вни-
мание моделирование на основе нейронных сетей, которое в приложения для интеллектуального анализа данных пришло из области машинного обучения (machine learning). В данной работе используются нейронные сети обратного распространения (BPNN) и общие регрессионные нейронные сети (GRNN) [4] для построения модели прогнозирования отказов заказчиков и улучшения прогнозов для снижения финансовых потерь.
Перспективным является использование специализированного программного обеспечения RapidMiner [5]. В программе RapidMiner все операторы получают определённые данные на входе, после чего происходят соответствующие действия над этими данными, и на выходе оператор выдаёт некоторый результат. Таким образом, в отношении операторов всегда интересны три вещи: входные данные, производящиеся над ними действия, выходные данные.
Действия, производящиеся над входными данными, у каждого алгоритма различаются, а вот то, что алгоритм получает и выдаёт на выходе можно обобщить. Строим модель и добавляем блоки линейной регрессии и нейронных сетей, после чего получаем численные значения параметров (см. рис.1) [6].
Рис. 1. Построение модели линейной регрессии и нейронных сетей
Результаты оценки риска овербукинга для одинакового массива данных отображают следующие значения:
- Методом взвешенного среднего прогнозируемое значение P = 0,883
- Методом нейронных сетей прогнозируемое значение равно P = 0,886
- Методом регрессионного анализа прогнозируемое значение P = 0,845
Высокую скорость вычисления при одинаковых аппаратных и программных исходных условий показал метод взвешенного среднего, а самую низкую - метод нейронных сетей. На рисунках 2 и 3 представлена
обработка массива значений с помощью линейной регрессии и нейронной сети.
В данной работе используются искусственные нейронные сети, а именно - нейронные сети обратного распространения (БРК) и общие регрессионные нейронные сети (вЯМК) для построения модели прогнозирования и улучшения прогнозов для снижения финансовых потерь.
Рис. 2. Результаты регрессивного анализа массива
Рис. 3. Результаты анализа массива
Самый известный вариант алгоритма обучения нейронной сети -так называемый алгоритм обратного распространения (ВР^. В алгоритме обратного распространения вычисляется вектор градиента поверхности ошибок. Этот вектор указывает направление кратчайшего спуска по поверхности из данной точки, поэтому если мы "немного" продвинемся по нему, ошибка уменьшится. Последовательность таких шагов в конце концов приведет к минимуму того или иного типа. Определенную трудность здесь представляет вопрос о том, какую нужно брать длину шагов.
Обобщенно-регрессионная нейронная сеть (GRNN) копирует внутрь себя все обучающие наблюдения и использует их для оценки отклика в произвольной точке. Окончательная выходная оценка сети получается как взвешенное среднее выходов по всем обучающим наблюдениям, где величины весов отражают расстояние от этих наблюдений до той точки, в которой производится оценивание (и, таким образом, более близкие точки вносят больший вклад в оценку). Первый промежуточный слой сети вЯМК состоит из радиальных элементов. Второй промежуточный слой содержит элементы, которые помогают оценить взвешенное среднее. Число элементов во втором промежуточном слое на единицу больше, чем в выходном слое. Как правило, в задачах регрессии требуется оценить одно выходное значение, и, соответственно, второй промежуточный слой содержит два элемента.
В данной работе используются данные резервирования для 14000 клиентов, взятые из базы данных сирийской авиалинии. Принимаются
во внимание девять потребительских переменных: день, месяц, год, возраст, пол, образование, семейное положение, история отмены, и последнее число отмены. В этом случае есть 9 нейронов входного слоя и один нейрон в выходном слое (выходные значения равны нулю или одному: 0 означает законченное резервирование, 1 означает отмену).
В работе проанализированы способности прогностической модели, а также идентификация ее возможностей в соответствии с чувствительностью, специфичностью и ROC-кривой. Кривая создается путем построения графика для true positive rate (TPR=TP/P) и false positive rate (FPR=FP/N) для различных точек параметра (см. табл. 1). True-positive rate это sensitivity или recall. False-positive rate или fall-out это (1 - specificity). ROC-кривая это sensitivity в зависимости от fall-out(выпадение).
Таблица 1
Матрица соответствий
TRUE CLASS
Predicted class p (positive) n (negative)
Yes True False
Positives Positives
No False True
Negatives Negatives
Total P N
ROC-кривая это график, позволяющий оценить качество разделения двух классов. Кроме визуальной составляющей, есть численная характеристика ROC это AUC (area under ROC curve), которая соответствует площади под ROC кривой: чем выше её значение, тем лучше качество разделения (см. рис. 4). Таким образом, кривая является графиком двух значений: соотношения количества правильно и неправильно классифицированных признаков при каком-то выбранном значении.
Исходные данные были разделены на две группы следующим образом: 70% для обучения (Training) и 30% или 4200 наборов данных для проверки точности моделей (Testing)[10]. Результаты для испытаний BPN и GRNN показаны в таблицах 2 и 3.
Рис. 4. ROC-кривая
Таблица 2
Результаты теста BPN
Actual Value 1 Actual Value 0 Total
Prediction Value1 560 880 1440
Prediction Value0 140 2620 2760
Total 700 3500 4200
Таблица 3
Результаты теста GRNN
Actual Value 1 Actual Value 0 Total
Prediction Value1 610 1070 1680
Prediction Value0 90 2430 2520
Total 700 3500 4200
Чувствительность, Специфичность, и Площадь под ROC кривой приведены в таблице 4 и показывают, что обе модели дают хорошие результаты для классификации.
Таблица 4
Результаты теста для B PN и GRNN
Sensitivity Specificity Square under curve
BPN 80% 75% 80.87%
GRNN 87.5% 69.5% 75.34%
1. Специфичность : BPN > GRNN;
2. Чувствительность : GRNN > BPN ;
3. Площадь под ROC кривой : BPN > GRNN.
Идеальный тест покажет точки в верхнем левом углу с 100% специфичностью и 100% чувствительностью. Данную задачу сеть выполняет очень хорошо. ROC-кривая, показанная на рис. 5, означает, что BPN имеет более точные результаты классификации, чем GRNN.
Рис. 5. ROC-кривая для обеих моделей ИНС
Таким образом, интеллектуальный анализ данных может улучшить прогнозирование и точность прогнозирования в овербукинге. Обе рассмотренные модели дают хорошие результаты классификации. Они могут помочь менеджерам при оценке, будут ли клиенты отменять бронирование, а также могут помочь в планировании динамического потенциала службы.
Список литературы
1. Shirley C., Andera S. A Practical Guide to Data Mining for Business and Industry, 1st edition. Pondicherry: Minion, 2014, 303 p.
2. Hilbe M. Practical Guide to Logistic Regression, 1st edition. London : CRC Press, 2015, 174 p.
3. Janakiram S., Shaler S., Conrad L. Airline Yield Management with Overbooking, Cancellations, and No-Shows // Journal Transportation Science. Maryland, USA, 1999, Vol. 33, Issue 2, pp. 147-167.
4. Hilbe M. Practical Guide to Logistic Regression, 1st edition. London : CRC Press, 2015, 174 p.
5. RapidMiner. Available at: https://rapidminer.com/. (accessed 7 October 2017).
6. Volkova V. N., Chernenkaya L. V., Desyatirikova E. N., Hajali Moussa, Khodar Almothana, Alkaadi Osama "Load Balancing in Cloud Computing" in Proc. of 2018 IEEE Conference of Russian Young Researchers in Electrical and Electronic Engineering (2018 ElConRus), St. Petersburg and Moscow, Russia on January 29 - February 1, 2018,Volume 2018-January, 14 March 2018, Pages 387-390. doi:10.1109/EIConRus.2018.8317113.
УДК 004.043
Манев Дмитрий Валерьевич1,
студент.
Сальников Вячеслав Юрьевич ,
канд. техн. наук, доцент
ИНФОРМАЦИОННАЯ СИСТЕМА ОБРАБОТКИ И ХРАНЕНИЯ БОЛЬШИХ ОБЪЕМОВ ИЗМЕРИТЕЛЬНЫХ ДАННЫХ
Россия, г. Санкт-Петербург, Санкт-Петербургский политехнический
университет Петра Великого
1 2 [email protected], [email protected]
Аннотация. В современном мире, когда любые технологии развиваются стремительно, а потоки информации ежедневно увеличиваются в объеме, появляется необходимость создания систем, обрабатывающих и хранящих полученные данные. В данной статье рассмотрены основные понятия методологии больших данных и