Научная статья на тему 'Прогнозирование налога на доходы физических лиц с ипользованием искусственных нейронных сетей'

Прогнозирование налога на доходы физических лиц с ипользованием искусственных нейронных сетей Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
130
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВРЕМЕННЫЕ РЯДЫ / TIME SERIES / НАЛОГОВОЕ ПРОГНОЗИРОВАНИЕ / TAX FORECASTING / ОТБОР ПРИЗНАКОВ / FEATURE SELECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Хандаров Федор Владимирович, Дондоков Зорикто Бато-дугарович

В статье излагается методика прогнозирования налога на доходы физических лиц с использованием аппарата искусственных нейронных сетей. Приводятся полученные результаты.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Хандаров Федор Владимирович, Дондоков Зорикто Бато-дугарович

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

PERSONAL INCOME TAX FORECASTING USING ARTIFICIAL NEURAL NETWORKS

The paper deals with methods of personal income tax forecasting using artificial neural networks. The results are described.

Текст научной работы на тему «Прогнозирование налога на доходы физических лиц с ипользованием искусственных нейронных сетей»

Хандаров Ф.В., Дондоков З.Б.-Д. Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей

3. Озеров С. Параллельное программирование. [Электронный ресурс] -2005. - Режим доступа к журн.: http://www.computerra.ru/242551/, свободный.

4. Пайтген Х.-О., Рихтер П.Х. Красота фракталов. - M.: Мир, 1989.

5. Мандельброт Б. Фрактальная геометрия природы. - М.: «Институт компьютерных исследований», 2002.

6. Кроновер Р. Фракталы и хаос в динамических системах. М.: Постмаркет, 2000. 352 с.

Танхасаев Аюр Васильевич - г. Улан-Удэ, Бурятский государственный университет, [email protected], 68-40-47.

Tankhasaev Ayur Vasilievich - Ulan-Ude, Buryat State University, [email protected], 68-40-47.

УДК 004+336.221 © Ф.В. Хандаров, З.Б.-Д. Дондоков

ПРОГНОЗИРОВАНИЕ НАЛОГА НА ДОХОДЫ ФИЗИЧЕСКИХ ЛИЦ С ИСПОЛЬЗОВАНИЕМ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ*

В статье излагается методика прогнозирования налога на доходы физических

лиц с использованием аппарата искусственных нейронных сетей. Приводятся

полученные результаты.

Ключевые слова: временные ряды, налоговое прогнозирование, отбор признаков.

F.V. Handarov, Z.B-D. Dondokov

PERSONAL INCOME TAX FORECASTING USING ARTIFICIAL NEURAL NETWORKS

The paper deals with methods of personal income tax forecasting using artificial

neural networks. The results are described.

Keywords: time series, tax forecasting, feature selection.

Введение

Одной из важных проблем в региональном экономическом планировании является прогнозирование налоговых поступлений; в частности, основного вида прямых налогов - налога на доходы физических лиц. Данный вид налога является третьим по величине отчислений в бюджет и отличается следующими важными особенностями:

• объектом обложения данным налогом служит именно доход, реально полученный налогоплательщиком;

• его плательщиками является практически все трудоспособное население страны;

* Работа выполнена при финансовой поддержке РГНФ. Проект №10-02-62206а/Т.

ВЕСТНИК БУРЯТСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2012/1

• при прочих равных условиях он легче других налогов контролируется налоговыми органами, от его уплаты сложнее уклониться недобросовестным налогоплательщикам.

При этом специфика и сложность прогнозирования НДФЛ обусловлена влиянием множества трудно формализуемых факторов, неполнотой и противоречивостью исторических данных. Трактовка полученных результатов также затруднена в силу чисто экономических причин, вроде: сокрытия доходов, неуплаты налогов, теневого оборота и т.п.

В работе описывается методика прогнозирования рассматриваемого вида налога на основе применения аппарата искусственных нейронных сетей, производится её сравнение с другими методами прогнозирования, приводится интерпретация полученных результатов: оценка качества полученных прогнозов.

Вычислительные эксперименты в работе производятся по данным налоговых поступлений по Республике Бурятия. Временной интервал исторических данных, используемых для построения системы прогнозирования, составляет 3 года с разбивкой по месяцам.

Описание методики

В ходе эксперимента рассматривались 10 экономических показателей, по одному из которых («Поступление НДФЛ в бюджет города Улан-Удэ») требовалось построить прогноз (табл. 1), остальные 9 показателей предположительно считаются влияющими. Кроме того, требовалось определить степень подобного влияния и построить модель прогнозирования «Поступлений НДФЛ».

Таблица 1

Экономические показатели

№ Показатель

1 Индексы промышленного производства

2 Добыча полезных ископаемых

3 Обрабатывающие производства

4 Производство и распределение электроэнергии, газа и воды

5 Продукция сельского хозяйства в хозяйствах всех категорий

6 Грузооборот всех видов транспорта на основе коммерческого грузооборота

7 Объем работ по виду деятельности «строительство» (в фактических ценах соответствующих лет)

8 Численность занятого в экономике населения

9 Среднемесячная номинальная начисленная заработная плата одного работника

10 Поступление НДФЛ в бюджет города Улан-Удэ

Хандаров Ф.В., Дондоков З.Б.-Д. Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей

Методика заключалась в переборе к-сочетаний показателей, для получаемого всякий раз к-мерного временного ряда строилась модель прогнозирования. В качестве аппарата прогнозирования использовались искусственные нейронные сети с применением метода «взвешенного скользящего окна» [1]. Стоит отметить, что в качестве непосредственного механизма прогнозирования, вообще говоря, возможно использование любого другого подходящего аппарата, однако такие преимущества искусственных нейронных сетей, как возможность обучения, решение задач при неизвестных закономерностях, устойчивость к шумам, адаптация к окружающим условиям и др., вполне определяют выбор авторов.

В качестве механизма настройки весов и подбора структуры нейронных сетей использовался эволюционный алгоритм. Особью для эволюционного алгоритма является искусственная нейронная сеть, в качестве хромосомы рассматривается вектор вещественных чисел -множество весов связей ИНС, содержащий также информацию о входном и выходном нейронах для каждой связи.

При скрещивании два графа ИНС сортировались топологически обходом в ширину, начиная с входных нейронов, с сохранением фиксированного количества и нумерации входных и выходных нейронов. Таким образом, для любых двух ИНС возможно было установить «одинаковые» и «различающиеся» элементы вектора представления -хромосомы. Так, например, рассмотрим две ИНС с одинаковым количеством и нумерацией входных и выходных нейронов (рис. 1).

Полученные в результате поиска в ширину векторы связей будут иметь следующие «совпадающие» связи ИНС (выделены подчеркиванием).

Рис. 1. Пример двух различных ИНС

ВЕСТНИК БУРЯТСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА 2012/1

1 2 3 6 6 7

6 6 7 4 7 5

1 2 3 6 7 7 8 8

6 7 7 8 8 5 4 5

Рис. 2. «Совпадающие» связи ИНС

Для особей были определены операции инициализации, оценивания, отбора для скрещивания, скрещивания, мутации, редукции и селекции.

Критерием остановки процесса настройки нейронной сети является достижение максимального количества итераций или сходимость популяции к заданной величине е. Таким образом, в описываемой методике критерием оценки качества отбора показателей и одновременно критерием качества полученной сетевой структуры и настройки весов сети является качество прогноза, совершаемого нейронной сетью.

Полученные результаты и сравнение со статистическими методами

В качестве альтернативных методов прогнозирования рассматривалось построение уравнения регрессии с предварительным проведением факторного анализа для отбора влияющих на величину НДФЛ показателей и без него.

В таблице представлены реальные величины НДФЛ в 2011 году («Ре-альн.»), а также результаты, полученные с использованием описанного подхода («ИНС-1» - «ИНС-5») и статистических методов («ФА+лин. регр.» и «Лин. регр.»). В последней строке приведено значение средне-квадратической ошибки для каждого метода.

Таблица 2

Результаты прогнозирования

2011 Реальн. Лин. регр. ИНС-1 ИНС-2 ИНС-3 ИНС-4 ФА + лин. регр. ИНС-5

янв. 80577,20 112408,17 62525,17 40799,76 84809,40 81870,70 105556,90 96864,45

фев. 134832,40 111914,02 190875,90 89956,75 141647,00 112591,00 113981,60 126348,70

мар. 141470,00 114581,22 28081,45 129005,50 148484,00 124892,00 111620,80 135448,20

апр. 137836,80 121028,18 106789,00 161947,20 156253,00 122315,00 117643,30 128649,60

май 133658,00 132445,69 136365,80 157509,50 161746,00 138494,00 117248,70 126345,50

июнь 140703,20 154515,17 169467,00 92763,04 161391,00 130602,00 141762,70 139456,10

июль 156179,20 160718,64 161393,60 77093,30 167851,00 125700,00 151421,50 152364,80

авг. 131707,20 153104,81 211523,90 154403,60 182898,00 146288,00 150584,70 149893,40

сен. 139998,40 175646,29 173326,50 137648,70 195255,00 171934,00 166908,70 151856,60

окт. 144439,60 169007,13 107076,60 148189,50 214217,00 195322,00 169008,60 156236,80

нояб. 140646,80 159922,04 85579,55 93093,49 232936,00 221782,00 160184,60 165864,40

дек. 265161,20 179164,74 85584,18 86919,60 252171,00 249613,00 183804,30 221872,30

ср.-кв. ошибка 32731,18 72057,46 63259,10 41867,42 32548,27 30734,53 17435,30

1 £

К а; о

2 § К 05 О Л

й $ £

й ^ 2 ^

о *

о

к

о «

о о

й о К

£ Я

Е

35 ®

о

К« и) -о к о ^ к о

К И

Е ё

V НН

* к

О О)

Й 53

О) ро

Кс 5 о

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

о

X

о Й Е

к 00 К Л о

о *

К

X

ВЕСТНИК БУРЯТСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2012/1

На рисунках 3а - 3в представлены графики, иллюстрирующие данные таблицы 2. Рис. 3а - лучшие (по ср.-кв. ошибке) прогнозы от нейронных сетей при к > 4, т.е. ИНС, построенные на 5 и более сочетаниях показателей, - налицо неадекватность поведения и большая ср.-кв. ошибка. Рис.3б - лучшие результаты прогнозов ИНС, построенных на 4-х сочетаниях -при сокращении размерности к-мерного временного ряда лучше угадывается тренд, однако по величине ср.-кв. ошибки ИНС все еще уступают статистическим методам (для представленных ИНС использовались следующие наборы показателей: 7-8-9, 6-7-9, 7-8-9 по табл.1). Рис.3в - лучшая ИНС, построенная на 3-х сочетаниях (7-9 по табл.1), а также регрессионные модели с предварительным снижением размерности и без него.

Хандаров Ф.В., Дондоков З.Б.-Д. Прогнозирование налога на доходы физических лиц с использованием искусственных нейронных сетей

300000 250000 200000 150000 100000 50000 0

■Реальн. -ФА+лин.регр. лин.регр.

---ИНС-5

1 2 3 4 5 6 7 8 9 10 11 12

Рис. 3в. Результаты прогнозирования

По результатам проведенных экспериментов можно сделать выводы о том, что применение искусственных нейронных сетей для прогнозирования НДФЛ позволяет добиваться прогноза как минимум не хуже результатов, получаемых статистическими методами, а также о том, что предварительное снижение размерности позволяет повысить качество прогноза.

Заключение

Таким образом, применение рассмотренной методики позволяет получать адекватный прогноз, который может быть использован в качестве одного из контрольных инструментов при построении прогноза, поскольку в качестве оснований для прогнозирования используются лишь исторические данные, что, впрочем, при сохранении трендов вполне уместно. Предсказание же изменения трендов остается привилегией макроэкономических методов.

Налицо такие преимущества методики, как способность к выявлению скрытых связей, универсальность подхода, широкие возможности повторного использования (reusability), естественные возможности распараллеливания.

Литература

1. Morantz B.H., Whalen T., Zhang P.G. A Weighted Window Approach to Neural Network Time Series Forecasting // Chapter 13 in P. Zhang (ed.) Neural Networks in Business Forecasting, IRM Press, 2004. - Р.251-265.

2. Eshelman L.J., Schaffer J.D. Real-coded genetic algorithms and interval-schemata // Foundation of Genetic Algorithms 2. - 1993. - P. 187-202.

3. Deb K., Kumar A. Realcoded genetic algorithms with simulated binary crossover: Studies on multimodal and multiobjective problems // Complex Systems. 9(6). - 1995. - P. 431-451.

ВЕСТНИК БУРЯТСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА

2012/1

4. Herrera F., Lozano M. Adaptation of genetic algorithm parameters based on fuzzy logic controllers // Genetic Algorithms and Soft Computing. - 1996. -P. 95-125.

Хандаров Федор Владимирович - научный сотрудник Научно-образовательного инновационного центра системных исследований и автоматизации Бурятского госуниверситета, 670000, г. Улан-Удэ, Смолина, 24а, тел. (3012) 221215, [email protected]

Дондоков Зорикто Бато-Дугарович - доктор экономических наук, доцент Восточно-Сибирского государственного технологического университета, [email protected]

Handarov Fedor Vladimirovich - Researcher of the Scientific and Educational Innovation Centre for System Studies and Automation in Buryat State University, 670000, г. Улан-Удэ, Смолина, 24а, тел. (3012) 221215, [email protected] Dondokov Zorikto BatoDugarovich - Doctor of economic sciences, associate professor of East Siberian State University of Technology, [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.