Научная статья на тему 'Проверка достоверности представляемой статистической информации'

Проверка достоверности представляемой статистической информации Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
573
116
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Абраменкова И. В., Круглов В. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проверка достоверности представляемой статистической информации»

Шаг 1. Устанавливаются переменные: k=1,

L1 ' L2 = 1 -L1 ' ak = xmin > bk = xmax ■ Вы-

числяются значения:

xk = ak + L1(bk - ak). xk = bk + L1(bk - ak)> F,k = f(xk),Fk2 = f(xk).

Шаг 2. Если F, < Fi2 , то a,+1 = a, , b,+1 = x, , xk +1 = ak +1 + L1(bk +1 - ak+1) , xk+1 = xk > Fl1+1 = f(xk+1) , Fl2+1 = FI1 , иначе ak +1 = xk > bk +1 = bk > xk+1 = xk > xk +1 = bk+1 + L1(bk+1 - ak+1), Fk+1 = Fk , Fk2+1 = f(xk+1). Шаг 3. Проверяется критерий останова b — a <A. Если указанный критерий не выполнен, то k = k +1 и переход к шагу 2. В противном случае останов, решением считается (a,+1 + b,+1)/2 .

Вычислительный эксперимент

Предположим, что объект имитируется зависимостью вида (1), при этом

П(Х) = q • [3. (1 — Х1)2 exp(—x? — (x2 +1)2) — — 10I Ix, — x

5

1 _A 1

■ ехр(-х2 - х2) - -ЗехрНх! +1)2 - х!>] +

+ (1 - q) ■ [х2 + х2], где q - постоянный параметр, q е [0, 1].

Аддитивная помеха е имеет нормальное распределение с математическим ожиданием Ме = 0 и среднеквадратичной ошибкой (СКО) Сте = 0.5 . Аппроксимация производится в области Дх : Х1 е [-3, 3]; Х2 е [-3, 3]. Обучающая выборка расположена в области Дх равномерно случайным образом и содержит 324 точки. Тестирующая выборка содержит 1600 точек, расположенных по равномерному закону в Дх •

На рисунке 2 показан график СКО моделей в зависимости от параметра q для различных методов

(полиномиальная МНК модель 2-го порядка (P) [4]; обобщенно-регрессионная нейронная сеть (GRNN) [3]; метод локальной аппроксимации с числом ближайших узлов M = 5 (LA5) [2]; многослойный пер-септрон со структурой 12-5-1 (MLP) [3]).

Для обучения HPRBFN используется базовый алгоритм, описанный выше.

Из приведенных на рисунке 2 зависимостей видно, что предложенная HPRBFN при малых значениях параметра q обеспечивает точность модели, близкую к полиномиальной МНК модели, при больших значениях q - близкую к точности GRNN, и в среднем дает наилучший из всех методов результат.

Рис. 2. Зависимость СКО аппроксимации от параметра q при СКО шума g£=0.5

Сложные объекты, имеющие существенную полиномиальную составляющую (см. (2)) достаточно широко распространены на практике в экономике, медицине, технике и т.п., вследствие чего предложенные полиномиально-радиальнобазисные нейронные сети могут найти широкое применение в системах моделирования и управления.

Список литературы

1. Катковник В.Я. Непараметрическая идентификация и сглаживание данных. - М.: Наука, 1985.

2. Дли М.И. Локально-аппроксимационные модели сложных объектов. - М.: Наука; Физматлит, 1999.

3. Круглов В .В., Борисов В.В. Искусственные нейронные сети. Теория и практика. - М.: Горячая линия - Телеком, 2001.

4. Дюк В., Самойленко А. Data Mining: Учебный курс. -СПб.: Питер, 2001.

5. Ивахненко А.Г. Самообучающиеся системы распознавания и автоматического управления. - К.: Техтка, 1969.

6. Банди Б. Методы оптимизации: Вводный курс. - М.: Радио и связь, 1988.

ПРОВЕРКА ДОСТОВЕРНОСТИ ПРЕДСТАВЛЯЕМОЙ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ

И.В. Абраменкова, В.В. Круглов

В статье рассмотрено решение задачи проверки корректности статистической информации, представляемой ее первичными источниками (учрежде-

ниями, предприятиями, отдельными юридическими и физическими лицами), для контроля тех или иных показателей, например, экономической или социоло-

7

гической ситуации в регионе. Метод решения основан на известных статистических процедурах, но является оригинальным, разработанным специально под условия данной задачи.

Имеется множество первичных источников информации, предоставляющих, например, ежеквартально информацию в соответствующий орган ее сбора и первичной обработки. Информация собирается и хранится в базах данных (БД). Предположим, что собраны массивы такой информации за несколько последних лет. Характер информации различный. Есть источники, данные от которых меняются в соответствии с некими трендами, есть источники, характеризующиеся чисто случайными данными.

Известно, что в системах сбора и обработки данных поступающая информация может быть искажена различного рода помехами.

Относительно поступающих данных можно принять следующие формальные предположения.

1. Данные по каждому источнику информации независимы друг от друга, во всяком случае на этапе предварительного анализа могут рассматриваться отдельно.

2. Данные имеют числовой характер, поступают к потребителю в последовательные моменты времени, следовательно, значения каждого показателя {x(t)} = {xt}, где t - моменты календарного времени, могут рассматриваться как временной ряд.

3. Каждый из таких рядов соответствует математической модели вида

x(t) = f(t) + e(t), (1)

где f(t) - детерминированная (трендовая) составляющая; e(t) - случайная составляющая типа белого шума (с независимыми случайными значениями), то есть модели с трендом (линейным, нелинейным, сезонным, циклическим и т.д.), либо математической модели вида

x(t) = m + e(t), (2)

где m = const, то есть модели без тренда.

4. Случайная составляющая e(t) предполагается стационарной, по крайней мере для нескольких последних наблюдений, имеющей нулевое математическое ожидание, конечную дисперсию и неизвестное, но непрерывное симметричное одномодальное распределение (при моде, совпадающей с математическим ожиданием, то есть равной нулю).

5. Для каждого источника вид и параметры моделей с течением времени могут изменяться, но в течение нескольких (5^11) последних наблюдений эти модели сохраняют стационарность по параметрам.

Известные математические подходы для решения поставленной задачи разработаны только для модели (2) - это методы выделения аномальных или резко выделяющихся наблюдений [1], предполагающие знание закона распределения составляющей е (обычно постулируется нормальный закон).

Предлагаемая методика проверки информации на достоверность включает в себя выполнение следующих этапов.

Этап 1. Отбор N последних имеющихся значений рассматриваемого показателя, то есть значений

хм, х1-2,..., Хцу (рекомендуемый диапазон значений: 5 < N < 11).

Этап 2. Проверка гипотезы о виде модели временного ряда - (1) или (2), то есть проверка гипотезы

0 наличии или отсутствии в данных временного тренда. Если принимается гипотеза о справедливости модели (1), то переход к этапу 4, в противном случае, к этапу 3.

Этап 3. Оценивание параметра т модели (2) и дисперсии случайной составляющей е. Переход к этапу 5.

Этап 4. С использованием модели тренда расчет прогнозируемого значения Х1 и нахождение оценки остаточной дисперсии.

Этап 5. Ввод очередного значения х^ В случае справедливости модели (1) - переход к этапу 7.

Этап 6. Проверка гипотезы об аномальности (недостоверности) нового значения х4. В случае принятия гипотезы - выдача соответствующего сообщения и ожидание реакции пользователя. При отвержении гипотезы - переход к этапу 1 (с подстановкой

1 = 1 + 1).

Этап 7. С учетом найденных на этапе 4 прогнозируемого значения Х1 и оценки остаточной дисперсии - проверка гипотезы аномальности (недостоверности) нового значения х^ В случае принятия гипотезы - выдача соответствующего сообщения и ожидание реакции пользователя. При отвержении гипотезы - переход к этапу 1 (с подстановкой 1=1+1).

Поясним некоторые этапы более детально.

Второй этап: проверка гипотезы о виде модели временного ряда.

1. Постулируется модель тренда в виде полинома второй степени:

1(1) = со + С11 + С212, (3)

где с0-с2 - коэффициенты модели.

2. Методом наименьших квадратов [2] определяется вектор с = (с0, с1; с2)т данных коэффициентов по отобранным данным:

с = (Рт-Р)-1 -Рт-У, (4)

где в данном случае

1 t - N (t - N)2' xt-N

F = 1 t - 2 (t - 2)2 , Y = xt-2

1 t-1 (t -1)2 . . Xt-1.

Замечание. В случае поквартального представления данных число N используемых наблюдений необходимо выбирать нечетным, чтобы не остались незамеченными сезонные изменения.

3. Проверяется гипотеза о наличии тренда, которая базируется на следующем утверждении. Достаточным условием для принятия гипотезы, что степень модели тренда не нулевая, является значимость коэффициентов при первой или второй степенях 1.

Поясним данное утверждение.

Казалось бы, достаточно ограничиться проверкой только коэффициента при 1, но он может быть нулевым, если тренд - четная функция относительно середины интервала наблюдений.

8

Для выяснения значимости г-го коэффициента модели (г = 1,2) сформулируем нуль-гипотезу Н0:

Сг=0, (6)

зададимся уровнем значимости а (например, а = 0.1, а = 0.05 и т.д.) и на основании неравенства Чебыше-ва для случайных величин с непрерывным симметричным одномодальным распределением [3] и с учетом (6) запишем неравенство:

- 4 ö2 P(lcr 1>8Г) <,

(7)

где оценка дисперсии аг находится с использованием стандартного подхода [2], по выражению

а2 = а2 ^

.2

где а - остаточная дисперсия модели,

мая по соотношению

2 1 N о2 --2 [xt-j

(8)

определяе-

cT • f(t - j)]2 ,

(9)

N - 3Д

а d„ - r-й диагональный элемент дисперсионной матрицы (r = 0,1,2)

1 ~ (10)

(11)

D = Ф-1 = (FTF)-1.

Полагая теперь а = — • , 9 82

й 5-2 ör

найдем: 8r = — • —f= .

3 Va

(12)

нуль-гипотезы: cr

|> 1 •1 3

Откуда получаем неравенство для проверки

, (13)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

л/а

при выполнении которого данная гипотеза отвергается (с уровнем значимости а).

Таким образом, если хотя бы один из коэффициентов (с1 или с2) признается значимым, принимается модель (1), в противном случае - модель (2).

Третий этап: оценивание параметра т модели (2) и дисперсии случайной составляющей е. Соответствующие оценки находятся по формулам [2-4]: 1 N

т = „ 2 Х1_ ,, (14)

Nj-1

1

1 N

xt- j- TT 2 xt- j j Nj-1 j

(15)

N-1М

Шестой этап: проверка гипотезы, что новое поступившее значение х1 является аномальным (недостоверным) при справедливости модели (2). Проверка данной гипотезы осуществляется на основе неравенства Чебышева (как отмечалось, такая форма данного неравенства справедлива при случайной составляющей модели с непрерывным симметричным одномодальным распределением):

4 а2

P(l xt - m l> 8) < - —- ,8>0.

9 82

(16)

Задаваясь уровнем значимости а (например, а=0.05), запишем P(l xt -m l> 8) < a , (17)

откуда с учетом (16) получаем неравенство

x - m| > 3 , (18)

3 Va

при выполнении которого гипотеза о недостоверности новой информации принимается, в противном случае данная гипотеза отвергается.

Четвертый этап: с использованием модели тренда расчет прогнозируемого значения х1 и нахождение оценки остаточной дисперсии при справедливости модели (1).

Предлагается комбинированная модель тренда, объединяющая модели Хольта-Винтерса и авторегрессии 2-го порядка [5].

Метод Хольта-Винтерса является усовершенствованием метода экспоненциального сглаживания временного ряда. При использовании метода необходимо последовательно вычислять сглаженные значения ряда и значение тренда, накопленное в любой точке ряда. Соответствующие формулы имеют вид: ( У11-1 = [а • х1_х + (1 - а) • (у11_2 + у21_21 (19) [у21_2J [Ь • (х1_! - х_2) + (1 _ Ь) • у21_2 х11 = у11-1 + у2ц, (20)

где через х11, у1 и у2 обозначены соответственно прогнозируемое значение ряда, сглаженное значение ряда и тренд, рассчитываемые по всем точкам ряда, а и Ь - константы сглаживания, относящиеся к оценкам уровня и тренда соответственно. Выбор значений этих констант является достаточно субъективным. Лучше всего начать моделирование с а=Ь=0.7, а затем по необходимости их несколько варьировать.

В первой точке ряда значения у11 и у21 не рассчитываются, для их расчета не существует предшествующих экспериментальных значений. Во второй точке ряда принимается, что сглаженное значение у12 в точности равно наблюдаемому х2, а микротренд за этот период считается линейным и рассчитывается как разность между текущим и прошлым значениями отклика у2 = х2 - х1. Начиная с третьей точки, можно пользоваться указанными выше формулами.

Модель авторегрессии 2-го порядка позволяет достаточно хорошо прогнозировать циклические (в том числе сезонные) тренды. В данном случае математическое описание авторегрессии имеет вид:

х21 = с0(1)-х1.1 + с1(1)-х1.2, (21)

где с0(1) и с1(1) - коэффициенты модели, которые определяют "скользящим" методом наименьших квадратов с использованием только М последних наблюдений (рекомендуемое значение: 4 < М < 7, при этом должно выполняться, естественно, М < N и в соответствии с соотношениями:

с(1) = (Р(1)т-Р(1))-1 -Р(1)т.У(1),

где e(t) = [cc(t), d(t)]1

(22)

(23)

Агрегирование двух частных моделей реализуется с помощью логической формулы: "Если (1х11-1 - х1-11 < 1х21-1 - х1-11), то хр1 = х11, иначе хр1 = х21", (24)

где через хр1= х1 обозначено прогнозируемое значение.

xt-M+1 xt-M xt-M+2

F(t) - xt-3 xt-4 , Y(t) - xt-2

xt-2 xt-3. . xt-1 .

2

9

Иначе говоря, если для предыдущего момента времени более точной оказывалась модель Хольта-Винтерса, при выполнении очередного прогноза необходимо использовать ее, в противном случае (если более точной была модель авторегрессии) необходимо использовать модель авторегрессии.

Пример 1. Приводимые ниже результаты (моделирование проводилось в среде МоНссё) демонстрируют работу такой гибридной модели, когда данные генерируются соотношением

х^т(0.и)+0.0112+еь х0=х1=0,1=2,3,... , (25) то есть содержат циклическую составляющую, нелинейный (квадратичный тренд) и случайную компоненту (е е (-0.1,0.1)). Результаты прогноза отражает рисунок 1. При расчетах принято М=6.

6 4 *-6-6> 2 0 -2

4 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 1 Рис. 1. Исходный временной ряд и его прогнозируемые с помощью комбинированной модели значения

Каждая из используемых частных моделей дает худший результат. Как показали вычислительные эксперименты, предложенная гибридная модель, вообще говоря, более устойчива по отношению к случайной составляющей временного ряда.

Рисунок 2 иллюстрирует то, как комбинированная модель прогнозирует значения циклического тренда с периодом в 4 временных интервала (квартала) при данных, генерируемых по выражению

х^т(2П/4). (26)

Как видно, комбинированная модель дает идеальное совпадение прогнозируемых и реальных значений. Реализация рассматриваемого четвертого эта-

ХР1

7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Рис. 2. Прогноз циклического тренда

па сводится к реализации следующей процедуры:

1) по N имеющимся последним значениям ряда хь х^,..., х^ с использованием формул (19-24) рассчитывается прогнозируемое значение хр4 = х(;

2) по нескольким (N1=5^9; N1^) предыдущим значениям ряда и его прогноза находится оценка остаточной дисперсии:

2 1 N1 „ 2

Ст2 =--Е (х._ I -х.о2 .

N1 1=1 ' 1 ' 1

(27)

Заметим, что данная оценка, скорее всего, является заниженной, но это только уменьшает вероятность пропуска недостоверного наблюдения.

Седьмой этап: с учетом найденных на этапе 4 прогнозируемого значения х( и оценки остаточной дисперсии с2 - проверка гипотезы о новом значении х4 , которое является недостоверным.

Проверка данной гипотезы осуществляется исходя практически из тех же соображений, что и на этапе 6, и сводится к проверке неравенства:

х - х,| > 3 , (28)

3 т/а

при выполнении которого гипотеза о недостоверности данных принимается (с уровнем значимости а), в противном случае отвергается.

Для иллюстрации приведенной методики рассмотрим следующий пример.

Пример 2. В среде МсйНсаЛ сгенерирована следующая последовательность из 8 независимых случайных чисел, равномерно распределенных в интервале (0, 10) и приведенных с точностью до двух знаков после запятой: 0.01, 1.93, 5.85, 3.50, 3.04, 1.74, 7.10, 8.23.

Этап 1. Используем первые 7 из них (N=7) для выяснения вопроса, не является ли восьмое значение недостоверным. Будем полагать, что данные представлены через единичные интервалы времени.

Этап 2.

1. Постулируем квадратичную модель тренда (3).

2. Запишем выражения для соответствующих матрицы и вектора, полагая, что первый момент времени - 0, а (1-1)-й равен 6, и методом наименьших квадратов по формуле (4) найдем вектор коэффициентов с=(1.07,1.01,-0.06)т:

F =

3. Далее, задаваясь уровнем значимости а= 0.05 и в соответствии с выражениями (8)-(12), находим: б1=3.40, б2=0.09.

Теперь, используя (13), делаем вывод, что данное неравенство не выполняется ни для первого, ни для второго коэффициента квадратичной модели тренда (3), то есть принимается гипотеза, что представленный временной ряд тренда не содержит и, следовательно, для него справедлива модель (2). В соответствии с разработанной методикой в этом случае осуществляется переход к третьему этапу.

Этап 3. По представленным значениям и по соотношениям (14), (15) находим: т=3.31, с2=6.03. Переходим к этапу 5.

Этап 5. Очередное значение х4=х7=8.23.

1 0 0' 0.01"

1 1 1 1.93

1 2 4 5.85

1 3 9 , У = 3.50

1 4 16 3.04

1 5 25 1.74

1 6 36 7.10

10

Этап 6 сводится к проверке неравенства (18), которое в данном случае имеет левую часть 1х4-ш!= =18.23-3.311=4.92 и (при уровне значимости а=0.05)

2 ° 7 32

правую часть---= =7.32.

3 л/а

Сопоставление левой и правой частей показывает, что неравенство (18) не выполняется, следовательно, значение х4=8.23 нельзя считать недостоверным (хотя оно и выделяется по сравнению с другими представленными значениями временного ряда). Полученный вывод является правильным.

Поставленная задача по выделению недостоверных данных представляется решенной.

Очевидные достоинства методики: минимум априорной информации, простота вычислений, воз-

можность вероятностной интерпретации результата (то есть гарантируется вероятность ошибки 1-го рода на уровне а).

Список литературы

1. Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных. Справочное изд. - М.: Финансы и статистика, 1983.

2. Хартман К., Лецкий Э., Шефер В. и др. Планирование эксперимента в исследовании технологических процессов. -М.: Мир, 1977.

3. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. - М.: Наука, 1974.

4. Гмурман В.Е. Теория вероятностей и математическая статистика. - М.: Высш. шк., 1977.

5. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. - М.: Мир, 1974. - Вып.1.

ТЕХНОЛОГИЧЕСКИЕ ПРИНЦИПЫ ДОСТИЖЕНИЯ КАЧЕСТВА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ОПТИКО-ЭЛЕКТРОННЫХ

СИСТЕМ КОНТРОЛЯ

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Е.А. Балыков, В.А. Царев

Разработка и применение автоматизированных оптико-электронных систем контроля (ОЭСК) [1], позволяющих повысить эффективность управления технологическими процессами, чрезвычайно востребованы в таких областях человеческой деятельности, как промышленное производство, транспортные перевозки, охранное наблюдение и т.п.

ОЭСК включает обеспечение: техническое, математическое и программное. Техническое обеспечение представлено оптико-электронной подсистемой, ЭВМ, телекоммуникационными соединениями, исполнительными механизмами и может быть успешно реализовано на базе большого числа разнообразных и доступных технических средств [2].

В основе математического обеспечения ОЭСК -технология обработки изображений и распознавания образов [3]. К основным этапам представления и обработки информативных сигналов, которые могут исполняться в ОЭСК, относятся: ввод и оцифровка видеосигнала, фильтрация, сегментация, классификация изображения и его фрагментов, распознавание графических образов, принятие решений на основании полученных результатов на каждом из этапов.

К программному обеспечению (ПО) ОЭСК с учетом условий их эксплуатации предъявляются жесткие требования. В этой связи важная проблема, решаемая в процессе создания ОЭСК, заключается в обеспечении высокого качества ее ПО. Сложность структуры ПО ОЭСК, предназначенного для выполнения нетривиальных процедур обработки данных, обусловливает необходимость решения новых научных задач в области проектирования, реализации и обеспечения качества программных средств (ПС).

Существующие стандарты и системы управления качеством (например TQM [4]), применяемые в

традиционных индустриях, не могут быть использованы для обеспечения качества программных систем (ПО ОЭСК в частности) в силу специфики процесса разработки ПС. С другой стороны, сформулированные в рамках известных моделей и систем обеспечения качества ПС (СММ, Р8Р, ТЭР, Оеапгоош, М8Б [5,6]) принципы и приемы управления и обеспечения качества носят, как правило, общий организационный характер, поэтому могут применяться в основном лишь в области менеджмента качества ПС.

Рассматриваемая в работе проблема обеспечения качества ПО ОЭСК является актуальной и обусловлена недостаточным развитием или низкой эффективностью известных теоретических основ и принципов конструирования высококачественного ПО.

Комплексная модель обеспечения качества, включающая современные подходы и методы обеспечения качества программных систем [7] и позволяющая гарантировать высокое качество конструирования и реализации ПО ОЭСК, схематично представлена на рисунке 1.

Профиль стандартов

( Технологичес] принципы I построения ЖЦ

Качество ^ ПО ОЭСК

Г

Качество процессов конструирования Качество разраба i

Средства автоматизации

Контроль

Ручной контроль Верификация Тестирование

Рис. 1. Комплексная модель обеспечения качества ПО ОЭСК

Качество ПО ОЭСК складывается из двух составляющих: качества фаз конструирования и качества разрабатываемого программного продукта (качества продуктов, получаемых на выходе каждой фа-

11

i Надоели баннеры? Вы всегда можете отключить рекламу.