Повышение адекватности уравнения регрессии при обработке ненормированных массивов данных в исследованиях систем методом планирования эксперимента

Алексеев Валерий Павлович; Ленхорова Инна Александровна

Научно-практический журнал «Новые исследования в разработке техники и технологий» № 2/2014

МЕТОДЫ МАТЕМАТИЧЕСКОГО МОДЕЛИРОВАНИЯ ДЛЯ ИССЛЕДОВАНИЯ СИСТЕМ

Алексеев В.П., Ленхорова И.А.

ПОВЫШЕНИЕ АДЕКВАТНОСТИ УРАВНЕНИЯ РЕГРЕССИИ ПРИ ОБРАБОТКЕ НЕНОРМИРОВАННЫХ МАССИВОВ ДАННЫХ В ИССЛЕДОВАНИЯХ СИСТЕМ МЕТОДОМ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА

При построении оптимального плана эксперимента по классической теории планирования эксперимента массив выходного параметра должен подчиняться нормальномузаконураспределения [1,2]. В нашем случае используетсяненормированный массив экспериментальных данных - массив, в котором вектор столбец представляет собой неограниченный поток данных, полученных в ходе исследований систем. В таком столбце не исключены грубые ошибки, как и в векторе-столбце выходного параметра, так как зачастую такие данные снимаются автоматизированными системами, не имеющими возможность исключать такие ошибки, а исследователи могут вводить заведомо некорректные или непроверенные данные.

Нами предложено обрабатывать исходный массив ненормированных данных правилом три сигма для каждого вектор-столбца, включая выходной параметр.

Из центральной предельной теоремы [3] мы знаем, что каковы бы ни были распределения величин £r , при некоторых весьма общих условиях, сумма £= £1+...+ £п асимптотически нормально, где m и о заданы соотношениями: m=m1 + m2 + ... + mn, о2 = о21 + о22 + ... + о2п.

Линдебергом и Леви было доказано, что если независимые случайные величины £1, £2, ... имеют все одно и то же нормальное распределение вероятностей и если каждое £п имеет среднее значение ml и стандартное отклонение о1, то сумма £= £1+.+ £п асимптотически нормальна [3]. В данной теореме предполагается, что каждая из случайных величин подчиняются нормальному закону распределения. В нашем случае конечная линейная математическая модель, уравнение регрессии, и есть не что иное, как сумма величин, распределенных асимптотически нормально, т. е. каждая случайная величина распределена асимптотически нормально. Практика показала, что такие случаи встречаются нередко. Так, например, в обработанном нами ранее массиве данных о результатах измерения температуры точки росы природного газа, транспортируемого в газопроводе, предоставленный компанией ООО «Ноябрьск-Газдобыча» [5], каждый фактор и выходной параметр представляли собой случайные величины, распределенные асимптотически нормально (рис. 1.5).

5

ISSN 2313-1160

Рисунок 1 - Распределение вероятностей случайной величины первого фактора

до обработки по правилу три сигма

Рисунок 2 - Распределение вероятностей случайной величины второго фактора

до обработки по правилу три сигма

Рисунок 3 - Распределение вероятностей случайной величины третьего фактора до обработки по правилу три сигма

6

Научно-практический журнал «Новые исследования в разработке техники и технологий» № 2/2014

Рисунок 4 - Распределение вероятностей случайной величины четвертого фактора до обработки по правилу три сигма

Рисунок 5 - Распределение вероятностей случайной величины выходного параметра до обработки по правилу три сигма

Как видно из рисунков 1.. .4, при распределении асимптотически нормально случайных величин факторов, также асимптотически нормально распределена и случайная величина выходного параметра. Таким образом, при обработке результатов, если как можно ближе подвезти распределение величин факторов к нормальному закону распределения, то распределение величины выходного параметра будет больше соответствовать нормальному закону распределения. Для этого необходимо обработать каждый столбец по правилу три сигма и тем самым исключить более грубые ошибки с большей вероятностью. На рисунках 6.10 изображены распределения вероятностей четырех факторов и выходного параметра после обработки по правилу три сигма.

7

ISSN 2313-1160

Рисунок 6 - Распределение вероятностей случайной величины первого фактора после обработки по правилу три сигма

Рисунок 7 - Распределение вероятностей случайной величины второго фактора после обработки по правилу три сигма

8

Научно-практический журнал «Новые исследования в разработке техники и технологий» № 2/2014

Рисунок 8 - Распределение вероятностей случайной величины третьего фактора после обработки по правилу три сигма

Рисунок 9 - Распределение вероятностей случайной величины четвертого фактора после обработки по правилу три сигма

9

ISSN 2313-1160

Рисунок 10 - Распределение вероятностей случайной величины выходного параметра после обработки по правилу три сигма

На полученных вероятностных гистограммах видно, что распределение случайной величины выходного параметра стало больше соответствовать нормальному закону распределения. Проверка полученного столбца вектора, с помощью пакета OriginPro 7.0, показала, что распределение случайной величины выходного параметра соответствует нормальному закону распределения на 82 %.

Обработка массива данных по правилу три сигма только по выходному параметру (вероятностная гистограмма распределения выходного параметра изображена на рисунке 11), при этом случайная величина выходного параметра соответствует нормальному закону распределения всего лишь на 69,4 %.

Рисунок 11 - Распределение вероятностей случайной величины выходного параметра после обработки только по выходному параметру

10

Научно-практический журнал «Новые исследования в разработке техники и технологий» № 2/2014

Обработав полученных два массива с помощью программы обработки массивов ненормированных данных методом планирования эксперимента [4], мы получили два уравнения регрессии:

где Y1 - уравнение регрессии, полученное после обработки массива данных по правилу три сигма только по выходному параметру,

Y2 - уравнение регрессии, полученное после обработки массива данных по правилу три сигма по всем столбцам векторам.

Из уравнений (1) и (2) видно, что качественная оценка влияния факторов на выходной параметр не изменилась, а количественная изменилась существенно. При этом, линейная модель второго уравнения регрессии более адекватна:

где Fрасч 1 - расчётное значение критерия Фишера для Y1,

Fрасч 2 - расчётное значение критерия Фишера для Y2.

При этом максимальная относительная погрешность первого уравнения составила 12,7 %, а второго уравнения составила 7,3 % .

Таким образом, показано, что случайная величина выходного параметра распределена асимптотически нормально и тогда, когда случайные величины факторов также распределены асимптотически нормально. Кроме того, предварительная обработка массива данных по правилу три сигма не только выходного параметра, но и всех факторов дает нам более адекватную модель, что позволяет повысить точность при оптимизации системы.

В практике статистической обработки данных значительное внимание уделяется определению при заданной вероятности попаданию значения полученных величин в интервал а < x < р. Это необходимо для исключения из ряда измерений грубых ошибок с заданной вероятностью. Для такого исключения существует известное правило трех сигм, в котором говорится, что с вероятностью, близкой единице (0,993), случайная величина, подчиняющаяся нормальному закону распределения, не выходит за пределы интервала [mx - 3о, mx + 3о] [1].

В нашем случае, при обработке ненормированных массивов данных, методом теории планирования эксперимента, количество тестовых значений величин может достигать десятков тысяч, вероятностное распределение такого массива изображено на рисунке 12.

Y1 = -19,531 -1,065-q1 -2,468*q2 + 2,007*q3 +1,713*q4, Y2 =-18,945 -0,823*q1 -2,661*q2 + 1,232*q3 +1,101*q4,

(1)

(2)

Fрасч 1 = 2,8; Fрасч 2 = 1,9,

(3)

(4)

11

ISSN 2313-1160

О 50 100 150 200

X Axis Title

Рисунок 12. Исходный массив данных

Математическое ожидание в этом случае принимает вид стандартного среднего арифметического:

Х„ M(X)

При использовании автоматических систем для снятия измерений, зачастую допускаются грубые ошибки - резкие выбросы за пределы нормального распределения (рис. 12). Такие ошибки задают значительное смещение математического ожидания относительно центральной точки нормального распределения. Следовательно, обработка массива по правилу трех сигм не применима для таких случаев.

Для такого случая необходимо ввести другую величину, которая определяла бы центральную точку нормального распределения случайной величины, тем самым охарактеризовать расположение значений случайной величины в данном распределении с помощью некоторого типичного значения этой величины. Наиболее важными характеристиками такого рода являются математическое ожидание, мода и медиана. При широком диапазоне данных математическое ожидание применять для нашего случая не целесообразно.

Мода - это есть точка максимума плотности вероятности f(x). Единственная мода существует только в случае, когда кривая плотности y = f(x) имеет один максимум, т. е. распределение является унимодальным. В нашем случае кривая плотности имеет три максимума, т.е. мультимодальна. Следовательно, мода также как и математическое ожидание не может определить точно центральную точку асимптотически нормального распределения оптимизируемого параметра

[3].

Медианой распределения ц называется такая точка x0, которая разделяет распределенную массу на две равные части, каждая из которых содержит массу 1/2. Таким образом, медиана есть любой корень уравнения F(x) = 1/2. Медиана

обладает следующим свойством: первый абсолютный момент e(|£, - с|) принимает минимальное значение, когда с есть медиана. Момент e(^ - с|) имеет

12

Научно-практический журнал «Новые исследования в разработке техники и технологий» № 2/2014

одинаковое значение при любом возможном значении медианы с [3]:

e(4 - c)

E^E,— ц|) + 2j(c — x)SF(x) i'Qe

Ц

e(^ — ц|) + 2j(x — c)SF(x) i'Qe

n > ц

n < ц

Следовательно, целесообразней будет взять за типичный параметр, характеризующий асимптотически нормальное распределение, медиану. Действительно, если взять асимптотически нормально распределенную случайную величину с резким выбросом (рис. 12), то медиана будет лежать наиболее близко к центральной точке нормального распределения (рис. 13).

Рисунок 13. Графическое представление различия математического ожидания

от медианы

Таким образом, чем больше по количеству и по качеству грубых ошибок, тем дальше значение среднего арифметического будет лежать от истинного.

После обработки по правилу трех сигм, с учетом медианы, данный массив стал соответствовать нормальному закону распределения на 78% (рис. 14), а с учетом математического ожидания на 71% (рис. 15).

13

ISSN 2313-1160

Рисунок 14. Распределение случайной величины после обработки с учетом

медианы

Рисунок 15. Распределение случайной величины, после обработки с учетом

математического ожидания

Выводы

1. Предложен способ обработки ненормированных статистических массивов данных, полученных в ходе автоматизированного тестирования при исследованиях образовательных систем с использованием теории планирования эксперимента, отличающийся повышенной точностью.

2. Предложенный способ отличается обработкой по правилу трёх сигма не только массива выходных параметров, но и массивов всех факторов, а также расчётом не среднего арифметического, а медианы массивов измеренных величин.

3. Применение данного способа позволяет повысить точность обработки до 10% в зависимости от однородности, протяжённости массива данных и количества грубых ошибок и промахов.

14

Научно-практический журнал «Новые исследования в разработке техники и технологий» № 2/2014

Литература

1. Кузнецов А. В., О. Ю. Зайцев. Исследование ингерентности измерителей влажности природного газа семейства «КОНГ - ПРИМА». // Научная сессия ТУСУР - 2005, часть 1.

2. Адлер Ю. П., Маркова Е. В., Грановский Ю.В. Планирование эксперимента при поиске оптимальных условий. М.: «Наука». 1976. 139 с.

3. Гаральд Крамер. Математические методы статистики. // Под редакцией академика А.Н. Колмогорова. М.: "Мир". 1975. 648 с.

4. Алексеев В.П., Кузнецов А.В. Алгоритм и программа обработки массивов непрерывных данных методом планирования эксперимента. // Вестник ТГПУ 07.2005. № 51.

15

INCREASE OF THE ADEQUACY OF THE REGRESSION EQUATION IN THE PROCESSING OF NON-NORMALIZED DATA SETS IN THE RESEARCH SYSTEMS USING METHOD OF PLANNING THE EXPERIMENT