Научная статья на тему 'Эффективность методов интеллектуального анализа данных при решении задачи прогнозирования[3]'

Эффективность методов интеллектуального анализа данных при решении задачи прогнозирования[3] Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
564
132
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГНОЗИРОВАНИЕ ВРЕМЕННЫХ РЯДОВ / ОТБОР ИНФОРМАТИВНЫХ ПРИЗНАКОВ / ИСКУССТВЕННЫЕ НЕЙРОННЫЕ СЕТИ / ЛИНЕЙНАЯ РЕГРЕССИЯ / МЕТОД ОПОРНЫХ ВЕКТОРОВ / АЛГОРИТМ K-БЛИЖАЙШИХ СОСЕДЕЙ / TIME SERIES FORECASTING / FEATURE SELECTION / ARTIFICIAL NEURAL NETWORKS / LINEAR REGRESSION / SUPPORT VECTOR MACHINE / K-NEAREST NEIGHBOR ALGORITHM

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Полякова А. С.

Одной из основных задач в электроэнергетике является прогнозирование будущих значений электропотребления, краткосрочное прогнозирование свободной цены на электроэнергию и ее себестоимости. В данной работе рассматривается решение задачи краткосрочного прогнозирования цены на электроэнергию, и потребления в Сибирском Федеральном округе с помощью различных методов интеллектуального анализа данных с предварительным отбором информативных признаков с помощью самоконфигурируемого генетического алгоритма. В качестве методов ИАД рассматриваются искусственные нейронные сети (ANN), линейная регрессия (LR), метод опорных векторов (SVM) и алгоритм k-ближайших соседей (k NN).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Полякова А. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

ON Efficiency of data mining techniques FOR solving FORECASTINGproblems

One of the main tasks in the power industry is forecasting future values of power consumption, short-term forecasting free-of-control price of electricity and its cost. In this paper various data mining techniques with pre-selection of informative features by using self-configuring genetic algorithms (SelfCGA) for solving the problem of short-term forecasting of electricity prices and power consumption in Siberian Federal districtare described. The following methods of data mining are considered: artificial neural network (ANN), linear regression (LR), support vector machine (SVM) and k-nearest neighbor algorithm (k NN).

Текст научной работы на тему «Эффективность методов интеллектуального анализа данных при решении задачи прогнозирования[3]»

УДК 004.021

ЭФФЕКТИВНОСТЬ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ РЕШЕНИИ ЗАДАЧИ ПРОГНОЗИРОВАНИЯ3

А. С. Полякова Научный руководитель - Е. С. Семенкин

Сибирский государственный аэрокосмический университет имени академика М. Ф. Решетнева

Российская Федерация, 660037, г. Красноярск, просп. им. газ. «Красноярский рабочий», 31

Е-mail: [email protected]

Одной из основных задач в электроэнергетике является прогнозирование будущих значений электропотребления, краткосрочное прогнозирование свободной цены на электроэнергию и ее себестоимости. В данной работе рассматривается решение задачи краткосрочного прогнозирования цены на электроэнергию, и потребления в Сибирском Федеральном округе с помощью различных методов интеллектуального анализа данных с предварительным отбором информативных признаков с помощью самоконфигурируемого генетического алгоритма. В качестве методов ИАД рассматриваются искусственные нейронные сети (ANN), линейная регрессия (LR), метод опорных векторов (SVM) и алгоритм k-ближайших соседей (k - NN).

Ключевые слова: прогнозирование временных рядов, отбор информативных признаков, искусственные нейронные сети, линейная регрессия, метод опорных векторов, алгоритм к-ближайших соседей.

ON EFFICIENCY OF DATA MINING TECHNIQUES FOR SOLVING FORECASTINGPROBLEMS

A. S. Polyakova Scientific supervisor - E. S. Semenkin

Reshetnev Siberian State Aerospace University 31, Krasnoyarsky Rabochy Av., Krasnoyarsk, 660037, Russian Federation E-mail: [email protected]

One of the main tasks in the power industry is forecasting future values ofpower consumption, short-term forecasting free-of-control price of electricity and its cost. In this paper various data mining techniques with pre-selection of informative features by using self-configuring genetic algorithms (SelfCGA) for solving the problem of short-term forecasting of electricity prices and power consumption in Siberian Federal districtare described. The following methods of data mining are considered: artificial neural network (ANN), linear regression (LR), support vector machine (SVM) and k-nearest neighbor algorithm (k - NN).

Keywords: time series forecasting, feature selection, artificial neural networks, linear regression, support vector machine, k-nearest neighbor algorithm.

Энергетическая отрасль имеет двухуровневый рынок - оптовый и розничный. Оптовый рынок -сфера обращения двух товаров - электроэнергии и мощности, которые рассматриваются как два самостоятельных объекта. Мощность, как товар, представляет собой обязательство поддержания в состоянии готовности генерирующего оборудования для удовлетворения потребности данного потребителя в электроэнергии [1].

Для участников рынка необходимым условием нормальной работы является обеспечение краткосрочного прогнозирования почасового электропотребления (спроса), и краткосрочного прогнозирования равновесной цены «рынка на сутки вперед» (РСВ), так как спрос и цена являются важными компонентами для энергетического планирования, разработки стратегий и рекомендаций политики в области энергетики [2].

3 Работа выполнена в рамках проекта RFMEFI57414X0037.

Секция «Математические методы моделирования, управления и анализа данных»

В настоящее время действует важнейший принцип формирования надежной и эффективной работы Единой энергетической системы - обеспечение системного баланса производства и потребления электрической энергии. Планирование ожидаемого электропотребления является первоочередной задачей при управлении режимами работы электроэнергетических систем и энергокомпаний. Почасовые объемы «количества», указываемые в заявках на покупку, отражают величины желаемого спроса участников рынка. Процесс формирования прогноза планового почасового потребления является весьма непростой задачей, так как электропотребление представляет собой нестационарный случайный процесс, зависящий от различного рода факторов [3].

Сложность прогнозирования цен РСВ состоит в том, что расчетная модель рынка, которая определяет эти цены, часто меняется в ходе становления целевой модели оптового рынка электроэнергии и мощности (ОРЭМ). Стоит отметить, что модель ценообразования для Российской Федерации существенно отличается от ценообразования на европейских рынках EEX (European Energy Exchange) и Nord Pool, а потому модели прогнозирования рыночных цен, разработанные для данных рынков, неприемлемы на отечественном ОРЭМ.

Почасовые графики цен оптового рынка РСВ представляют собой сложный процесс, зависящий также от большого количества факторов: величины спроса на электроэнергию, качества подаваемых планов субъектами, времени года и резких изменений погодных условий, аварий в энергосистеме, внеплановых переключений и других факторов.

В данной работе краткосрочное прогнозирование электропотребления и цены производилось посредством различных методов интеллектуального анализа данных: искусственные нейронные сети [4], линейная регрессия [5], метод опорных векторов [6] и алгоритм k-ближайших соседей [7]. Нейронная сеть настраивалась генетическим алгоритмом [8].

База данных включает в себя энергетические показатели на примере реальных почасовых показателей РСВ оптового рынка СФО, взятых за период с 2009 по 2015 годы [9-11]. Количество исследуемых данных показателей каждого параметра равно количеству часов в каждом году: 8760 -в 2009-2011 и 2013-2015 годах, и 8784 - в 2012 году, так как год был високосным.

В качестве энергетических показателей использовалась следующая информация: значения равновесной цены РСВ (при прогнозировании потребления), цена мощности покупаемой на рынке, тариф на передачу, сбытовые надбавки, плановые и фактические значения генерации и потребления электроэнергии (при прогнозировании цены), температура окружающего воздуха энергетических систем, параметры работы ГЭС СФО и другие.

Следующим этапом был проведен предварительный отбор информативных признаков с помощью SelfCGA[12]. Кодирование хромосомы представлено на рисунке, где 0 - признак не используется, 1 - признак используется, длина хромосомы равна количеству признаков.

0 1 1 0 0 1 0 1 0 0 0 1 1

V_^_^

Кодирование хромосомы (SelfCGA)

Для тестирования 8е1ЮОА использовались следующие настройки: размер поколений - 100, размер популяции - 100, количество прогонов - 100, 5 типов селекций (пропорциональная, ранговая, турнирная с размерами турнира 3, 6, 9), 4 типа скрещивания (одноточечное, двухточечное, равномерное, равномерное по популяции), 3 типа мутации (слабая, средняя, сильная).

Критерием качества в задаче прогнозирования использовалась средняя абсолютная ошибка (САО). Если она равна нулю, то мы имеем совершенный прогноз. Результаты прогноза цены и потребления на электроэнергию на 24 часа вперед представлены в таблице.

Результаты краткосрочного прогнозирования на 24 часа вперед

Средняя абсолютная ошибка Отбор признаков Алгоритм

SVM, % ANN, % LR, % k-NN, %

Цена - 2,91 3,32 8,686 9,28

+ 2,623 2,273 7,74 6,542

Потребление - 7,45 6,87 11,31 8,74

+ 5,22 3,62 9,0 6,29

В рамках данного исследования лучшие результаты показали алгоритмы SVM и ANN. После отбора информативных признаков лучший результат всегда показывал алгоритм ANN. Точность прогнозирования потребления электроэнергии ниже по сравнению с прогнозированием цены, так как количество параметров, используемых в выборке больше. Предварительный отбор признаков способствовал увеличению точности прогнозирования энергетических показателей.

Одним из дальнейших перспективных направлений развития можно считать применение коллективов автоматически сформированных нейронных сетей, настраиваемых с помощью SelfCGA. Это позволит получить более точный прогноз по сравнению с другими методами.

Библиографические ссылки

1. Оптовый рынок [Электронный ресурс]. URL: http://encosts.ru/optoviy-rynok// (дата обращения: 18.03.2015).

2. Subhes C. Bhattacharyya, Govinda R. Timilsina Energy Demand Models for Policy Formulation. A Comparative Study of Energy Demand Models, Policy Research Working Paper, March 2009.

3. Дзюба А. П. Прогнозирование и учет показателей среды оптового рынка в процессе формирования прогнозных графиков электропотребления // Молодой ученый. 2013. № 8. С. 180-188.

4. Haykin S. S. et al. Neural networks and learning machines. Upper Saddle River : Pearson Education, 2009. Т. 3.

5. Pedhazur, Elazar J. Multiple regression in behavioral research: Explanation and prediction. New York : Holt, Rinehart and Winston, 1982.

6. Cortes C., Vapnik V. N. Support-Vector Networks. Machine Learning, 1995. 20.

7. Nigsch F., Bender A., van Buuren B., Tissen J., Nigsch E., Mitchell J. B. Melting point prediction employing k-nearest neighbor algorithms and genetic parameter optimization // Journal of Chemical Information and Modeling. 2006. № 46(6). Р. 2412-2422.

8. Полякова А. С., Семенкин Е. С. О настройке нейронных сетей при помощи генетического алгоритма // Актуальные проблемы авиации и космонавтики. 2014. Т. 1. № 10. С. 297-298.

9. ОАО «Администратор торговой системы оптового рынка электроэнергии и мощности» [Электронный ресурс]. URL: http://www.atsenergo.ru/ (дата обращения: 09.02.2015).

10. ОАО «Системный оператор Единой энергетической системы» [Электронный ресурс]. URL: http://www.so-ups.ru/ (дата обращения: 09.02.2015).

11. ОАО «РусГидро» [Электронный ресурс]. URL: http://www.rushydro.ru/ (дата обращения: 09.02.2015).

12. Semenkin E., Semenkina M. Self-configuring genetic algorithm with modified uniform crossover operator, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 7331 LNCS (PART 1). 2012. P. 414-421.

© Полякова А. С., 2015

i Надоели баннеры? Вы всегда можете отключить рекламу.