Научная статья на тему 'Числовые характеристики распределения при обработке результатов эксперимента'

Числовые характеристики распределения при обработке результатов эксперимента Текст научной статьи по специальности «Строительство и архитектура»

CC BY
440
80
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ / КОЭФФИЦИЕНТ ВАРИАЦИИ / ПРЕДПОЧТЕНИЯ РЕСПОНДЕНТОВ / КРИТЕРИИ НОРМАЛЬНОСТИ / RESPONDENTS' PREFERENCES / EXPERIMENTAL RESULTS / VARIATION COEFFICIENT / NORMALITY CRITERION

Аннотация научной статьи по строительству и архитектуре, автор научной работы — Гараз Т. В., Пономарева Ю. Н., Тимошенко М. В.

Рассмотрены методы оценки и сравнения результатов, получаемых в ходе экспериментальных исследований условий работы на технологическом оборудовании; обоснована важность выбора методики обработки информации для получения объективных результатов.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The authors examine assessment and comparison methods for results obtained in experimental studies on working conditions in technological equipment. The study show the importance of choosing methods for data processing to obtain objective results.

Текст научной работы на тему «Числовые характеристики распределения при обработке результатов эксперимента»

УДК 64.012.2

Числовые характеристики распределения при обработке результатов эксперимента

Т. В. Гараз, преподаватель, e-mail: [email protected]

ФГОУ ВПО «Российский государственный университет туризма и сервиса», Москва Ю.Н. Пономарева, к.м.н., доцент каф. «Менеджмент»

ФГОУ ВПО «Московский государственный медико-стоматологический университет», Москва М. В. Тимошенко, соискатель каф. «Менеджмент»

ФГОУ ВПО «Московский экономический институт», Москва

Рассмотрены методы оценки и сравнения результатов, получаемых в ходе экспериментальных исследований условий работы на технологическом оборудовании; обоснована важность выбора методики обработки информации для получения объективных результатов.

The authors examine assessment and comparison methods for results obtained in experimental studies on working conditions in technological equipment. The study show the importance of choosing methods for data processing to obtain objective results.

Ключевые слова: экспериментальные результаты, коэффициент вариации, предпочтения респондентов, критерии нормальности.

Keywords: experimental results, variation coefficient, respondents’ preferences, normality criterion.

В работах по анализу экспериментальных результатов [1, 2, 3] отмечалось недостаточное внимание исследователей к устанавливаемым параметрам распределения - их числовым характеристикам, -несмотря на то, что они несут в себе полезную информацию. Во многих случаях при работе техники наблюдается нормальный закон распределения основных параметров. Однако отклонение кривой этого распределения от симметрии дает основания для выявления каких-то систематических факторов, действующих в наблюдаемой системе. В частности, к таким факторам можно отнести износ рабочих поверхностей деталей, который может привести к появлению систематической ошибки. Износ рабочего инструмента при изготовлении данной детали (или при обработке партии заготовок) ведет к определенному изменению размеров изделий. Например, износ режущих кромок сверла вызывает уменьшение диаметра обрабатываемого отверстия и т.п. Таким же образом влияет на параметры обрабатываемых изделий износ рабочих поверхностей измерительного инструмента, что является причиной возникновения систематических ошибок - отклонений в размерах обрабатываемых деталей.

Основными параметрами распределений являются математическое ожидание ц, дисперсия о2 и среднее квадратическое отклонение (СКО) о Кроме того, информативны следующие параметры распределения: коэффициент вариации, коэффициент асимметрии (Skewness) и эксцесс (Kurtosis).

Коэффициент вариации является относительной величиной, характеризующей колеблемость признака. Чаще всего коэффициент вариации определяют как процентное отношение среднего квадратического отклонения и к среднему арифметическому ц при условии ц Ф 0. Коэффициент асимметрии и эксцесс - показатели, характеризующие форму распределения. Первый измеряет симметричность распределения выборки, второй - его заостренность.

Сравнение параметров вариабельности позволяет судить о степени влияния классификационных признаков на изучаемую переменную или же о степени информативности различных признаков. Приведем пример, иллюстрирующий технику анализа условий работы в период эксплуатации старого оборудования. Это особенно актуально, так как большая часть оборудования имеет значительный износ и требует либо замены, либо проведения капитального ремонта. Периодически в процессе эксплуатации оборудования оснастка подвергается замене, так как имеет обычно срок службы, значительно уступающий сроку службы технологического оборудования.

В результате выполненных исследований было опрошено 4 425 респондентов с целью выявления предпочтений при выборе оснастки вырубных прессов перед ее заменой. Основные результаты опроса таковы: за полимерные вырубные плиты -47,4%, за металлические - 34,1%, за наборные из кожкартона и резины - по 3,3%, безразлично -6,6% опрошенных.

В табл. 1 приведена сводка числовых характеристик распределения результатов опроса для основных видов вырубных плит (включая предполагающих голосовать «не имеет значения») в зависимости от различных факторов: Mean (средние групповые невзвешенные), Minimum (минимальные) и Maximum (максимальные) значения, StdDev (стандартные отклонения). Первичная обработка данных проводилась с помощью программы SPSS 8.0 Base для Windows.

Таблица 1. Влияние основных факторов на распределение предпочтений

Из сравнения выборочных значений СКО следует, что наиболее значимыми, определяющими разброс электоральных предпочтений респондентов, являются следующие факторы:

полимерные плиты - профессиональная ориентация (СКО=22,4%); уровень образования и самооценка состояния здоровья (СКО около 12%); половозрастные различия (СКО=11,1%);

металлические плиты - профессиональная ориентация (СКО=29,7%); половозрастные различия (СкО=16,9%); уровень образования (СКО=15,4%); самооценка состояния здоровья (СКО=11,9%);

другие - половозрастные различия и место проживания (СКО=3,1%); семейное положение (СкО=3,0%); уровень образования (СКО=2,5%).

Поскольку доли респондентов, поддерживающих основные типы оснастки, различаются, приведенные показатели не в полной мере характеризуют влияние рассматриваемых факторов. Поэтому дополнительно были проанализированы также величины коэффициента вариации, рассчитанные как отношение СКО к соответствующим средним взвешенным по каждому кандидату, в процентах (вычисление данного показателя программой 8Р88 не предусмотрено; соответствующие значения выделены в табл. 1 курсивом).

Из сравнения относительных показателей вариабельности проектных предпочтений можно заключить, что наиболее стабильны результаты опроса по полимерным плитам: изменчивость доли респондентов различных квалификационных слоев, намеревающихся рекомендовать их, минимальна. Для наиболее значимого фактора (профессиональная ориентация) этот показатель равен 41,0%, а для наименее значимого (место жительства) всего 9,9%. Для сравнения: у основного конкурента полимерных плит - металлических - изменчивость доли респондентов различных профессиональных слоев значительно больше. Для наиболее значимого фактора (профессиональная ориентация) этот показатель равен 125,8%, а для наименее значимого (место жительства) 14,2%.

Таким образом, в результате анализа относительных характеристик изменчивости (коэффициента вариации) выявлено, что, вне зависимости от пола, возраста, уровня образования, места жительства и самооценки состояния здоровья, наиболее стабильными предпочтениями оказались полимерные плиты.

Два других показателя (коэффициент асимметрии и эксцесс), характеризующие форму распределения, важны при оценке степени близости эмпирического распределения к нормальному. Дело в том, что многие методы одномерной (и многомерной тоже) статистики применимы, строго говоря, лишь в случае нормального распределения соответствующей переменной (переменных, или компонент многомерного случайного вектора). Поэтому, прежде чем применять те или иные методы анализа данных, следует проверить гипотезу о возможности аппроксимации их распределения нормальным.

Факторы

Характеристики распределения Поли- мерные плиты Металли- ческие плиты Другие

Половозрастные различия

Mean 47,1 34,3 6,6

Minimum 27,8 14,8 1,6

Maximum 60,5 65,4 11,2

StdDev 11,1 16,9 3,1

Коэффициент вариации 23,6 49,3 47,0

Уровень квалис икации

Mean 49,2 33,1 6,8

Minimum 29,6 14,6 2,7

Maximum 62,3 59,6 9,9

StdDev 11,8 15,4 2,5

Коэффициент вариации 24,0 46,5 36,8

Место проживания

Mean 47,6 36,6 5,2

Minimum 43,2 31,0 2,2

Maximum 52,5 41,2 8,3

StdDev 4,7 5,2 3,1

Коэффициент вариации 9,9 14,2 59,6

Самооценка уровня доходов

Mean 54,9 26,3 6,6

Minimum 39,3 12,9 5,0

Maximum 66,7 41,0 8,3

StdDev 11,7 11,9 1,4

Коэффициент вариации 21,3 45,2 21,2

Профессиональная ориентация

Mean 54,6 23,6 7,7

Minimum 15,5 7,1 4,0

Maximum 71,3 76,3 11,7

StdDev 22,4 29,7 3,0

Коэффициент вариации 41,0 125,8 39,0

Критериями нормальности служат отношения значений коэффициента асимметрии и эксцесса к их стандартным ошибкам. Предположение о нормальности отклоняется, если эти отношения меньше -2 или больше 2. Большое положительное значение коэффициента асимметрии означает, что распределение имеет длинный хвост справа (при больших значениях переменной), а большое отрицательное значение свидетельствует о наличии хвоста слева, в области меньших ее значений. Соответственно, большое положительное значение эксцесса означает, что хвосты распределения длиннее, чем у нормального, а большое отрицательное значение указывает на короткие хвосты (при этом распределение становится все более похожим на равномерное, или прямоугольное).

Так, например, в гистограмме для переменной «Возраст» отмечено наличие правостороннего «хвоста». Средствами программы SPSS (процедура «Explore») получена таблица дескриптивной статистики для этой переменной (табл. 2), среди прочих содержащая также показатели формы распределения «Асимметрия» и «Эксцесс».

Воспользовавшись приведенным выше критерием, получаем, что отношения этих показателей к их стандартным ошибкам (см. последний столбец табл. 2) составляют

асимметрия / стандартная ошибка =

=0,261 / 0,078 = 3,35 > 2; эксцесс / стандартная ошибка =

= - 0,898 / 0,156 = - 5,76; 5,76 > 2,

т.е. нет основания полагать, что в результате аппроксимации эмпирическое распределение может быть нормальным. Поскольку коэффициент асим-

метрии положительный, это свидетельствует о наличии у распределения хвоста справа (правосторонняя асимметрия), а отрицательное значение эксцесса говорит о том, что хвосты короткие, т.е. распределение переменной «возраст» больше похоже на прямоугольное, чем на нормальное.

Более точную оценку соответствия распределения нормальному закону можно получить, воспользовавшись критериями нормальности Колмогорова-Смирнова с поправкой Лильефорса и Шапиро-Уилка. Средствами той же процедуры «Explore» программы SPSS получены следующие данные:

Статистика....................................0,065

Число степеней свободы........................977

Значимость критерия...........................0,000

Отсюда видно, что статистика Коломогорова-Смирнова с поправкой Лильефорса (последняя используется в случаях, когда среднее и дисперсия неизвестны, а используется их оценка по выборке, т.е. как раз в рассматриваемом случае), вычисленная для переменной «Возраст», статистически значима на высоком уровне - менее 0,0005, т. е. гипотеза нормальности распределения должна быть отвергнута (статистика Шапиро-Уилка вычисляется для выборок объемом менее 50).

Поясним смысл критерия Колмогорова-Смирнова. Чем больше его величина, тем больше эмпирическое распределение отличается от нормального. Несмотря на малую величину статистики (0,065), число степеней свободы (объем выборки) столь велико (977), что эта величина оказалась достаточной для того, чтобы значимость критерия составила менее 0,0005. Под этим понимается, что вероятность ошибки первого рода (т. е. вероятность отказа от нулевой гипотезы о нормальности распределения переменной «Возраст», когда она верна) меньше 0,0005, или 0,05%.

Часто исследователи предпочитают анализ распределений на нормальность проводить с помощью так называемых Q-Q графиков. Ниже на рис. 1 и 2 представлены два таких графика для переменной «Возраст».

На рис. 1 представлена зависимость между значениями переменной и соответствующими квантилями стандартного нормального распределения. Если распределение значений «в самом деле нормально», точки графика будут группироваться вокруг прямой. На рис. 2 точки в случае нормальности распределения должны группироваться относительно горизонтальной прямой. Хорошо видно, особенно по графику с удаленным трендом, что ги-

Таблица 2. Дескриптивные статистики переменной «Возраст»

Характеристики распределения Статистика Стандартная ошибка

Среднее 43,10 0,53

95%-ный доверительный интервал для среднего: нижняя граница 42,06

верхняя граница 44,15 -

5%-ное усеченное среднее 42,69 -

Медиана 42,00 -

Дисперсия 276,429 -

Стандартное отклонение 16,63 -

Минимум 7 -

Максимум 93 -

Размах 86 -

Межквартильный размах 28,00 -

Асимметрия 0,261 0,078

Эксцесс - 0,898 0,156

распределения возраста респондентов

потеза нормальности «не проходит». При изменении законов распределения и их отклонений от нормального распределения необходимо строить модели, учитывающие данный фактор.

Также в перечень факторов, определяющих выбор каких-либо проектных вариантов, введен образовательный уровень эксперта. С точки зрения физического восприятия условий работы данный фактор может не вызывать существенных предпочтений, однако этот уровень позволяет эксперту интуитивно оптимизировать свой выбор, так как данный индивидуум находится на более высоком интеллектуальном уровне. Поэтому сложившееся положение в экономике, когда при получении более высокого образовательного уровня работник получает и более высокую заработную плату на одной и той же должности, считается достаточно обоснованным. Это предполагает, что он может более качественно выполнять свои должностные обязанности и достигать более высокой производительности труда.

1,5

0<

>5 о

5 0 20 40 60 80 100

Наблюдаемое значение переменной „Возраст”

2. Нормальный Q-Q график с удаленным трендом про-ки на нормальность распределения возраста респондентов

При обработке экспериментальных значений сравнение параметров вариабельности позволяет судить о степени влияния классификационных признаков на изучаемую переменную или же о степени информативности различных признаков. Показаны возможности интерпретации результатов экспериментальных исследований, которые представляются в виде диаграммы, отражающей всю полученную информацию. Определены условия распределений на нормальность с помощью графического представления статистических данных и построения гистограммы распределения переменной, наиболее наглядно интерпретирующей получаемые результаты исследований.

ЛИТЕРАТУРА

1. Олдендерфер М. С., Блэшфилд Р. К. Кластерный анализ // Факторный, дискриминантный и кластерный анализ. М.: Финансы и статистика, 1989.

2. Шуметов В. Г. Анализ данных в управлении. Курс лекций. Т. 1: Введение в анализ данных. Орел: ОРАГС. 2004.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Доугерти К. Введение в эконометрику: Пер. с англ. М.: ИНФРА. 1999.

Поступила 12.03.2010г.

i Надоели баннеры? Вы всегда можете отключить рекламу.