Научная статья на тему 'Проблемы чистоты используемых данных при малом объеме ретроспективных наблюдений'

Проблемы чистоты используемых данных при малом объеме ретроспективных наблюдений Текст научной статьи по специальности «Математика»

CC BY
223
28
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ВЕРИФИКАЦИЯ / VERIFICATION / ИСХОДНЫЕ ДАННЫЕ / INITIAL DATA / КОЭФФИЦИЕНТ ВАРИАЦИИ / COEFFICIENT OF VARIATION / РОБАСТНОЕ ОЦЕНИВАНИЕ / ROBUST EVALUATION / ВЫБРОС / EXHAUST

Аннотация научной статьи по математике, автор научной работы — Михайлов Владислав Сергеевич, Москаленко Кирилл Сергеевич

В статье изложены подходы к верификации данных, которые позволяют обрабатывать относительно большие объемы данных, выбирать из них наиболее адекватные для использования, выявлять выбросы.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article deals with approaches to data verification which allows us to process rather big volumes of data, to select the most relevant data for use and to identify exhausts.

Текст научной работы на тему «Проблемы чистоты используемых данных при малом объеме ретроспективных наблюдений»

В. С. Михайлов К. С. Москаленко

ПРОБЛЕМЫ ЧИСТОТЫ ИСПОЛЬЗУЕМЫХ ДАННЫХ ПРИ МАЛОМ ОБЪЕМЕ РЕТРОСПЕКТИВНЫХ НАБЛЮДЕНИЙ1

В статье изложены подходы к верификации данных, которые позволяют обрабатывать относительно большие объемы данных, выбирать из них наиболее адекватные для использования, выявлять выбросы.

Ключевые слова и словосочетания: верификация, исходные данные, коэффициент вариации, робастное оценивание, выброс.

В современных условиях увеличения объемов и вариации информации верификация данных способна помочь избежать проблем, связанных с использованием недостоверных или ошибочных исходных данных.

Проблема чистоты данных крайне остро стоит при дальнейшем использовании полученных результатов на основе некорректных или засоренных выбросами данных, а также при прогнозировании каких-либо экономических явлений. Непроверенная информация может привести к совершенно противоположным реальности заключениям и оценкам2. Статистические выбросы в проверенных и соответствующих действительности данных могут привести к неправильно выявленным закономерностям и прогнозным значениям. В связи с этим чистота данных является одним из ключевых качеств для ретроспективных значений.

Для решения описанной проблемы применяются различные методы ро-бастного оценивания. Остановимся поподробнее на этих методах.

Термин «робастный» стал популярным в России в 1970-е гг. Сначала он использовался фактически как сужение термина «устойчивый» на алгоритмы статистического анализа данных классического типа. Затем реальная сфера его применения сузилась.

Пусть исходные данные - это выборка, т. е. совокупность независимых, одинаково распределенных случайных величин с одной и той же функцией распределения F(x). Наиболее простая модель изучения устойчивости - это модель засорения Тьюки - Хубера:

F(x) = (1 - s)Fo(x) + sH(x). (1)

Модель (1) показывает, что с близкой к 1 вероятностью, а именно с вероятностью (1 - s), наблюдения берутся из совокупности с функцией распре-

1 Статья подготовлена по результатам проекта, реализуемого при финансовой поддержке Министерства образования и науки Российской Федерации (Постановление Правительства от 9 апреля 2010 г. № 218) в рамках договора № 13.G25.31.0065.

2 См.: Лайкам К. Э., Дорофеюк А. А., Дорофеюк Ю. А., Чернявский А. Л. Классификационные методы повышения достоверности статистических показателей в условиях нерепрезентативных выборок // Вопросы статистики. - 2011. - № 5.

деления F0(x), которая предполагается обладающей некоторыми хорошими свойствами. Например, она имеет известный с точностью до параметров вид, у нее существуют все моменты и т. д. Но с малой вероятностью s появляются наблюдения из совокупности с плохим распределением, например, не имеющие математического ожидания, резко выделяющиеся аномальные наблюдения, выбросы.

Актуальность модели (1) не вызывает сомнений. Наличие засорений (выбросов) может сильно исказить результаты эконометрического анализа данных. Если функция распределения элементов выборки имеет вид (1), где первое слагаемое соответствует случайной величине с конечным математическим ожиданием, а второе - такое, для которого математического ожидания не существует, то для итоговой функции распределения (1) также не существует математического ожидания. Исследователя обычно интересуют характеристики первого слагаемого, но найти их - весьма сложная задача.

Существуют различные способы борьбы с засорением. Эмпирическое правило борьбы с засорениями подразумевает отбрасывание наибольших и наименьших значений наблюдений. Ясно, что засорение окажется среди исключенных из рассмотрения данных.

Оценивать характеристики и параметры, проверять статистические гипотезы все чаще рекомендуют на основе эмпирических гипотез, отделенных от концов вариационного ряда. Речь идет об использовании статистик вида

ax(0,1n) + bx(0,3n) + cx(0,5n) + dx(0,7n) + ex(0,9n), (2)

где a, b, c, d, e - заданные числа;

x(0,1n), x(0,3n), x(0,5n), x(0,7n), x(0,9n) - члены вариационного ряда с номерами, наиболее близкими к числам, указанным в скобках.

Так, ценой небольшой потери в эффективности избавляемся от засоренности, описанной в модели (1).

Также можно перейти к сгруппированным данным. Отрезок прямой, содержащий основную часть наблюдений, разбивается на интервалы, и вместо количественных значений статистик подсчитывает, сколько наблюдений попало в соответствующие интервалы. Особое значение приобретают крайние интервалы - к ним относят все наблюдения, которые больше некоторого верхнего порога и меньше некоторого нижнего порога.

Построена достаточно обширная и развитая теория, посвященная разработке и изучению методов анализа данных в модели (1). К сожалению, в теории обычно предполагается известной степень засорения s, а на практике эта величина неизвестна. Кроме того, теория обычно направлена на защиту от воздействий, таких как отсутствие математического ожидания, а на самом деле реальные данные всегда конечны. Все это указывает на существенные недостатки модели.

Рассмотрим более сложную модель. Пусть наблюдаются реализации x1, x2, ..., xn независимых случайных величин с функциями распределения F1(x), F2(x), ..., Fn(x) соответственно. Эта модель соответствует гипотезе о том, что в процессе измерения условия несколько менялись. Естественной представляется модель малых отклонений функций распределений наблюдаемых случайных величин от некоторой базовой функции распределения F0(x). Мно-

жество возможных значений функций распределений наблюдаемых случайных величин описывается следующим соотношением:

E((Fi, F2, ..., F„); s) = {((Fi, F2, ..., Fn) : sup I F(x) - Fo(x) l)< s; i = 1, 2, ..., n}. (3)

Следующий тип моделей - это введение слабой зависимости между рассматриваемыми случайными величинами. Ограничения на взаимную зависимость можно задать разными способами. Пусть F(x1, x2, ., xn) - совместная функция распределения n-мерного случайного вектора, F1(x1), F2(x2), ..., Fn(xn) - функции распределения его координат. Если все координаты независимы, то F(x1, x2, ..., xn) = F1(x1), F2(x2), ..., Fn(xn). Пусть p(i, j) - коэффициент корреляции между i-й и j-й случайными величинами. Множество возможных совместных функций распределения описывается следующим образом: E((F1, F2, Fn); s) = { F(xb x2, xn) : P(x(w) < x) = F(x), I p(i, j) l< s, 1 < i <j < n}. (4)

Таким образом, фиксируются функции распределения координат, а коэффициенты корреляции предполагаются малыми (по абсолютной величине).

Есть еще целый ряд постановок задач робастности1. Если накладывать погрешности непосредственно на результаты наблюдений и предполагать лишь, что эти погрешности не превосходят (по абсолютной величине) заданных величин, то получится постановка задач статистики интервальных данных. При этом каждый результат наблюдения превращается в интервал.

На примере различных подходов к изучению робастности статистических процедур оценивания и проверки гипотез видны сложности, связанные с изучением устойчивости. Для каждой конкретной задачи можно самыми разными способами задать совокупность допустимых отклонений. Были кратко рассмотрены четыре такие совокупности, соответствующие модели засорения Тьюки - Хубера, модели малых отклонений функций распределения, модели слабых связей и модели интервальных данных.

В каждой из этих моделей общая схема устойчивости предлагает для решения целый спектр задач устойчивости. Кроме изучения свойств робаст-ности известных статистических процедур, можно в каждой из постановок находить оптимальные процедуры, но в других постановках оптимальными будут уже другие процедуры.

Теперь вернемся к конкретным задачам макроэкономического прогнозирования.

При прогнозировании значений с помощью модели макроэкономического развития РФ ориентиром для конечных данных были выбраны значения форм 2П. В качестве ретроспективных данных имелись три источника: Федеральная служба государственной статистики, данные которой в свою очередь подразделяются на Центральную базу статистических данных (ЦБСД), ежегодные статистические сборники и Главный межрегиональный центр обработки и распространения статистической информации (ГМЦ) (публикуемые данные имеют разные разрезы данных, поэтому используются данные с необ-

1 См.: Тихомиров Н. П., Тихомирова Т. М., Ушмаев О. С. Методы эконометрики и многомерного статистического анализа. - М. : Экономика, 2011.

ходимыми разделами); Минэкономразвития России; Главный информационно-вычислительный центр (ГИВЦ).

Выше были рассмотрены некоторые методы робастного оценивания, которые применяются к статистическим рядам довольно большого объема, но как быть, если необходимо работать с рядом всего в 6 значений? Данная проблема возникает при анализе всей информации, которая имеет разделение на виды экономической деятельности (ВЭД), так как данный классификатор был введен относительно недавно (в 2005 г.), заменив собой классификатор ОКОНХ (Общесоюзный классификатор отраслей народного хозяйства).

Допустим, необходим ряд данных для моделирования показателя «Отгружено товаров собственного производства, выполнено работ и услуг собственными силами» в номинальных ценах 2005 г. Имеется возможность отбирать данные из трех источников: Росстата, ГИВЦ и Минэкономразвития. Анализ не одного, а целых трех источников по одному и тому же показателю связан с небольшой длиной ряда, и наличие даже одного выброса в данных может сильно испортить качество прогнозирования. Таким образом, необходимо комбинировать данные из источников, чтобы на выходе получить наиболее чистый ряд. Исследования аналогичной проблемы авторами найдено не было, поэтому сравнительный анализ с другими вариантами решения не предусмотрен.

Пусть имеются три ряда данных за один и тот же период с 2005 по 2010 г. Необходимо сформировать новый ряд данных из имеющихся так, чтобы минимизировать коэффициент вариации (в качестве минимизации выбран коэффициент вариации, так как он является достаточно информативным простым показателем «стройности» ряда данных).

Коэффициент вариации - мера относительного разброса значений показателя. Он показывает, какую долю среднего значения этого показателя составляет его средний разброс (вычисляется только для количественных данных). В отличие от среднеквадратического или стандартного отклонения коэффициент вариации измеряет не абсолютную, а относительную меру разбро-

о

са значений признака в статистической совокупности V = —.

x

Итак, имеются следующие исходные данные:

X = (xi, x2, x3, x4, x5, x6),

Y = (yi, У2, Уз, У4, У5, Уб),

Z = (zh z2, z3, z4, z5, zб),

где Х - ряд данных 1-го источника;

Y - ряд данных 2-го источника;

Z - ряд данных 3-го источника.

Должен быть найден новый ряд W = (w1, w2, w3, w4, w5, w6), значениями которого являются значения, сформированные на основе трех исходных рядов за соответствующие периоды: wi = aixi + bixi + cx; i = 1, 2, ., 6; ai + bt + Ci = 1. о

При этом V = ~ ^ min.

x

Таким образом, решением оптимизационной задачи будет матрица параметров а, Ъ, с, с помощью которых будут найдены все Вектор Ж, являющийся решением задачи, будет взят в качестве исходных данных. Исходные данные, а также оптимальное решение представлено в табл. 1.

Т а б л и ц а 1

Статистические исходные данные

2005 2006 2007 2008 2009 2010 Коэффициент вариации

1-й источник 310,56 327,94 451,28 250,84 299,35 337,43 0,18519

2-й источник 305,34 330,67 340,98 220,84 310,93 360,11 0,14272

3-й источник 260,65 315,74 360,14 270,45 303,84 330,57 0,1109

Решение 310,56 315,74 340,98 270,45 310,93 330,57 0,07043

При формировании нового временного ряда был найден вектор (310,56; 315,74; 340,98; 270,45; 310,93; 330,57), коэффициент вариации которого меньше любого коэффициента исходного ряда. Таким образом, решение задачи позволяет построить ряд, наиболее подходящий для моделирования и прогнозирования.

Другой проблемой при использовании ретроспективных данных лишь одного источника могут быть сильно отклоняющиеся от основного массива значения. Они, как правило, называются выбросами или результатом пересчета статистической службой данного показателя. Выбросы искажают структуру совокупности, а также вносят смещения в интегральные параметры (среднее, дисперсия), что в свою очередь сказывается на прогнозируемых значениях. Пример засоренного временного ряда представлен на рис. 1.

Рис. 1. График временного ряда с выбросами

Первым шагом диагностики является выявление грубых ошибок. Для этого используются методы многомерного статистического анализа, а именно Т-критерий Смирнова - Граббса, критерий Граббса и критерий Титьена - Мура. Применение данных методов дает наилучшие результаты при объеме выборки от 20 значений и больше, однако их использование возможно от 34 наблюдений в зависимости от выбранного критерия. Рассмотрим выявление

выбросов на примере. На рис. 2 представлена динамика объема отгруженных товаров собственного производства в Республике Татарстан по разделу В «Рыболовство, рыбоводство» (ОКВЭД).

Рис. 2. Динамика объема отгруженных товаров в Республике Татарстан по разделу В, млн руб.

Очевидно, что значение в 2007 г. выделяется среди общей совокупности данных. Это может быть связано со спецификой данной отрасли, и данный всплеск отгруженной продукции вызван большим притоком занятых и возросшим объемом инвестиций в этом году. Проверим это значение на аномальность. Для проверки крайних значений выборки (в данном случае максимального значения) используется критерий Граббса. Предварительно необходимо привести значения показателя к сопоставимым ценам, используя индекс потребительских цен.

Так как объем отгруженной продукции изменяется во времени, имеет тенденции к росту или снижению и, очевидно, не может быть однородным, то целесообразно рассматривать значения темпов роста объема отгруженной продукции, причем темп роста за 2007 г. целесообразно исключить, так как в этот момент идет возвращение к первоначальному тренду. Значение статистики критерия рассчитывается по следующей формуле:

0 = Х= (Х1)2 , (5)

Х«-Х )2

где Х(г) - значения темпа роста за каждый год;

Х - выборочное среднее;

х1 - среднее значение при исключенном максимальном значении.

Проверяемое значение соответствует индексу п. Результаты расчетов приведены в табл. 2.

Статистика критерия равна 0,0168, что меньше критического значения ^о,о25 = 0,0248. Следовательно, значение за 2007 г. грубо нарушает однородность выборки и классифицируется как нетипичное. После выявления грубых ошибок есть два основных подхода к их обработке: исключить грубые ошибки из выборки или модифицировать их. В нашем случае устранение объекта неприемлемо, так как это сократит небольшой диапазон ретроспективных значе-

ний. Применение особых подходов к модификации данных нецелесообразно, так как это представляет собой сложную прикладную задачу, а считанное количество соседних от выброса значений не требует особых условий к его модификации. Поэтому для модификации достаточно применения метода сглаживания по соседним значениям.

Т а б л и ц а 2

Статистические данные и расчетные показатели определения однородности выборки

Объем отгруженной продукции, номинальные цены Объем отгруженной продукции, в ценах 2006 г. Темп роста Вариационный ряд темпа роста

26,4114 26,4114

33,9525 31,9583 1,2100 0,3981

99,2399 84,4431 2,6423 0,9263

43,6938 33,2222 0,3934 1,1295

44,4721 31,7532 0,9558 1,1547

55,2450 37,3004 1,1747 2,6349

Х = 1,4614 Х1 = 1,0702

п х(.} -Х)2 = 1,86775 /=1 п—1 £(Х(.} -Х')2 = 0,03135 /=1

Оп = 0,0168

В условиях недостатка данных, относительно небольшого ряда для моделирования анализ и обработка входной информации особо важны для успешного выявления закономерностей и трендов в исследуемых показателях.

Список литературы

1. Лайкам К. Э., Дорофеюк А. А., Дорофеюк Ю. А., Чернявский А. Л. Классификационные методы повышения достоверности статистических показателей в условиях нерепрезентативных выборок // Вопросы статистики. -

2011. - № 5.

2. Лемешко Б. Ю., Лемешко С. Б. Расширение области применения критериев типа Граббса, используемых при отбраковке аномальных измерений // Измерительная техника. - 2005. - № 6.

3. Мотричкин К. В., Сергеев А. Н. Построение систем прогнозирования с параметрами, оцениваемыми на выборках относительно малого объема // Вестник Российского экономического университета имени Г. В. Плеханова. -

2012. - № 10 (52).

i Надоели баннеры? Вы всегда можете отключить рекламу.