УДК 519.22
К ОЦЕНКЕ ОДНОРОДНОСТИ КОЛИЧЕСТВЕННОЙ СТАТИСТИЧЕСКОЙ СОВОКУПНОСТИ И ИНФОРМАТИВНОСТИ ЕЁ СРЕДНЕГО ЗНАЧЕНИЯ
В. А. Долгов, кандидат физико-математических наук, профессор кафедры биохимии, биомеханики и естественнонаучных дисциплин,
Кубанский государственный университет физической культуры, спорта и туризма , г. Краснодар. Контактная информация для переписки: 350015, г. Краснодар, ул. Буденного, 161, e-mail: [email protected]
Во многих сферах деятельности человека, в том числе и в области физической культуры и спорта, при обработке экспериментальных данных исследователи стремятся использовать параметрические методы математической статистики, в основе которых лежит нормальное распределение случайных величин (распределение Гаусса). Параметрами этого распределения являются среднее арифметическое значение и стандартное отклонение. Для правомерности использования нормальных параметрических методов в анализе количественных статистических признаков необходимо, чтобы их результаты измерения являлись данными количественных статистических совокупностей, которые своим средним арифметическим значением и стандартным отклонением достоверно не отличались бы от соответствующих нормальных распределений с такими же значениями параметров.
Все выводы подобных исследований явно или неявно базируются на полученных средних арифметических значениях изучаемых признаков. При этом должна быть определённая уверенность, что эти средние значения действительно отражают средние уровни этих признаков, т. е. они являются информативными. Для этого необходимо, чтобы каждое из них было получено на однородной совокупности. Но до сих пор в математической и прикладной статистике нет строго обоснованных рекомендаций по определению её однородности.
В данной статье предлагается один из подходов определения однородности количественной статистической совокупности, информативности её среднего арифметического значения и их уровней
для нормально распределённых совокупностей, что может быть использовано и в процессе группировки количественных статистических данных. При этом дополнительно приводится сравнительно простой критерий Дэвида - Хартли - Пирсона для определения нормальности количественной статистической совокупности с иллюстрацией его применения на конкретном примере.
Ключевые слова: нормальное распределение; однородность статистической совокупности; приведённая совокупность; информативность среднего арифметического значения; вариативный интервал; приведённый коэффициент вариации; группировка статистических данных.
Введение. Во всех исследованиях при отборе объектов для разработки норм на основе средних арифметических значений (САЗ) и при комплектовании контрольных и экспериментальных групп необходимо оценивать репрезентативность этих объектов по отношению к изучаемому количественному признаку. Особенно это важно, если в дальнейшем для статистической обработки планируется применение параметрических методов математической статистики, основанных на нормальном распределении. Репрезентативность таких групп обычно отождествляется с однородностью совокупностей, данные которых являются результатами измерений признака у каждого объекта в шкалах интервалов или отношений. В настоящее время оценивают однородность этих совокупностей в основном по их коэффициентам вариации. При этом нет единого мнения, при какой его величине совокупность считать однородной. В данной работе предлага-
ется новый показатель однородности количественной статистической совокупности, информативности её САЗ и аргументация конкретной его оценки в случае нормальности совокупности.
Результаты исследования. Пусть имеем объём п статистическую совокупность количественных случайных данных х| (1=1, 2, ... п), каждое из которых - результат измерения изучаемого статистического признака х. Представим её в неубывающем виде значений, графически отложенных на прямой линии в определённом масштабе от точки отсчёта - начала координат О, совпадающим с х=0. Определим минимальное хт|п и максимальное хтах значения этой ранжированной совокупности и выделим в ней два интервала [0, хт|п) (1) и [хт|п, хтах] (2). Предположив, что за пределами интервала (2) значения признака и переменной х| либо невозможные, либо достоверные, можно утверждать, что х| варьирует только во втором - вариативном интервале, в котором находится САЗ - х=(!х|)/п (3) рассматриваемого признака и совокупности. Размахом этого интервала является К=хтах-хт|п (4). Так как в интервале (2) находятся все вариативные особенности совокупности, то есть смысл подвергать анализу в основном его. Выберем на графике новое начало координат О', совпадающее со значением хт|п - точкой приведения, и рассмотрим имеющуюся совокупность в новой, приведённой к хт|п, системе координат. В ней все координаты х', в отличие от координат х основной системы с центром О, уменьшены на хт|п. В связи с этим и данные совокупности будут уменьшены на хт|п. Поэтому совокупность и все её характеристики в основной системе можно назвать основными, а совокупность и все её характеристики в приведённой системе назвать приведёнными. Такое преобразование связывает данные приведённой совокупности с данными основной равенством х'=х-хт|п (5) и приведённое среднее арифметическое значение (ПСАЗ) - х' с основным САЗ - х равенством х'= х-хт|п (6). Главный смысл этого преобразования состоит в том, что оно отсекает интервал (1), но оставляет инвариантными основные вариационные характеристики: объём п, размах К, дисперсию о2, стандартное отклонение о, ошибку репрезентативности тх~ =тх. Такое преобразование системы координат используется во всех непараметрических критериях статистики, где результаты измерения переводятся в ранги одной системы координат с началом в точке, равной единице.
В связи с тем что невариационный интервал (1) находится в знаменателе общепринятого безразмерного показателя однородности совокупности, основного коэффициента вариации (ОКВ) в виде у=о/х (7) или V =о*100 %/ х (7'), то он неоправданно уменьшает в зависимости от значения х величину ОКВ. Это приво-
т|п ' ^
дит к тому, что явно неоднородная совокупность при относительно большой величине интервала (1) может быть признана однородной, а САЗ основной совокупности не будет объективно отражать средний уровень изучаемого признака, т. е. будет неинформативным. Под информативностью любой характеристики по-
нимается её свойство объективно отражать то, ради чего она вводится. В этом случае выводы, полученные с использованием такой совокупности, могут оказаться неадекватными действительности даже при формально хорошей их достоверности. Поэтому предлагается принимать в качестве показателя однородности количественной статистической совокупности приведённый коэффициент вариации (ПКВ) в виде v'=o/ х' (8) или v'=a*100%/ х' (8'). Он учитывает вариативность совокупности и в числителе, и в знаменателе и не зависит от интервала (1). По его величине можно объективно сравнивать однородности и информативности САЗ любых количественных статистических совокупностей как генеральных, так и выборочных, как нормально распределённых, так и не относящихся к нормальному распределению. В общем случае, при какой величине v' совокупность считать однородной, а её САЗ информативным, каждый исследователь оценивает самостоятельно.
В математической статистике краткое представление о статистической совокупности принято приводить в виде (х±тх-, n) (9). В связи с введением определений основных и приведённых характеристик предлагается такое представление приводить в виде (х, a, xmin, xmax, n) (10). В нём достаточно полно отражены основные особенности рассматриваемой совокупности и содержится достаточно информации об её вариативном интервале. Естественно, что при повторных измерениях изучаемого признака границы вариационного интервала будут меняться. Эти изменения вызовут изменение значений о, х', v', что отразится на информативности САЗ. При репрезентативности группы объектов измерения значительного изменения информативности САЗ не произойдёт.
В случае, когда имеющиеся совокупности нормально распределённые и к их анализу планируется применение соответствующих параметрических методов, можно через величину ПКВ стандартизировать их однородности и информативности САЗ, опираясь на свойства закона нормального распределения вероятностей случайных величин [1, 4]. На основании этого закона всегда можно рассчитать вероятность попадания конкретной случайной величины х нормально распределённой совокупности в любой выбранный интервал её значений из области (- х < +<») (рис.1).
Как видно из рисунка 1, вероятность попадания случайной величины в закрытый интервал [х-3о, х +3о] (11), где х - среднее арифметическое, о - стандартное отклонение распределения, равна 99,72 %. Если пренебречь «хвостами» значений (х < х - 3о) и (х +3о < х), выходящими слева и справа от х за пределы интервала (11) с суммарной вероятностью всего 0,28 % и считая их значения выбросами или артефактами (по правилу трёх сигм), то область (11) можно принять за основной вариационный интервал нормального распределения (ОВИНР). Определяя левую крайнюю точку этого интервала как x = х -3о (12), а правую - как x = х +3о
^ min v " г / max
(13), получим, что размах ОВИНР и основное его САЗ
Рисунок 1.
Вероятность попадания случайной величины х в соответствующие интервалы нормального распределения, обозначенные стрелками
Рисунок 2.
ОВИНР для х=24,3; а =1,5; Дх=0,5 (значения горизонтальной оси соответствуют центрам интервалов)
Рисунок 3.
ПВИНР для х'=4,5; а=1,5; Дх=0,5 (значения горизонтальной оси соответствуют центрам интервалов)
соответственно будут иметь вид: R=x -x =60 (14),
m max min v "
x=(xmax+xmin)/2 (15). Построим новую, приведённую систему координат х'о'у', начало которой совместим с x , оставив неизменными направления осей абсцисс
min
и ординат. Т. к. координаты системы хоу связаны с координатами системы х'о'у' соотношениями (у=у', x=x'+xmin) (16), то х7 - среднее значение приведённого вариационного интервала нормального распределения (ПВИНР) - примет вид х'= x-xmin=3o (17).
Аналогичным образом выбрано сравнительно легко табулируемое стандартное нормальное распределение с началом координат в точке х и o=1. Общий вариационный интервал этого распределения с точкой приведения О', совпадающей со значением х = -3o и приведённым САЗ х'=3, будет иметь вид [-3o, 3о].
В качестве иллюстрации рассмотрим пример 1 для конкретных значений параметров х и o нормального распределения, представленный на рисунке 2.
В данном случае получим, что все значения случайной переменной х, принадлежащие «хвостам», в зависимости от смысла рассматриваемого признака, чем больше - тем лучше или чем больше - тем хуже, соответственно являются либо достоверными, либо невозможными и не влияют на вариацию переменной в интервале [19,8; 28,8]. Переместив начало координат х=0 в точку хт.п=19,8=х'=0, из (17) получим х'=4,5 и график ПВИНР, изображённый на рисунке 3. Стандартное отклонение о=1,5 осталось прежним на основании своего свойства.
Графики функции у=1^х) и у=1^х'), соответственно изображённые на рис. 2 и рис. 3, при наложении совпадают в соответствии с особенностями нормальных распределений с одинаковыми стандартными отклонениями и разными средними значениями. Их можно назвать эквивалентными. В таких видах можно представить нормальное распределение для любой конкрет-
ной пары значений параметров х, о. По правилу трёх сигм в ПВИНР нет артефактов, а его ПКВ имеет вид у'=о/ х'=о/3о=1/3 (18) или у'=(1/3)*100%=33,3% (18'). Из этого следует, что стандартное отклонение основных вариационных интервалов всех нормальных распределений должно быть в три раза меньше их приведённых САЗ. Такое утверждение даёт возможность принять значение V' в виде (18) или (18') в качестве максимального для того, чтобы ПВИНР считать однородным. Перенося вышеизложенное на любую нормально распределенную статистическую совокупность со значениями х, о, можно и для её значения ПКВ в виде (18) или (18') взять предельными для того, чтобы эту совокупность считать однородной, а её САЗ информативным.
В итоге получаем: нормальную количественную статистическую совокупность можно считать однородной и её САЗ информативным, если для приведённого вариационного интервала совокупности выполняется условие: 0<^<1/3 (19) или 0%<^<33,3 % (19'). Исходя из (19) и (19'), предлагается следующая линейная четырёхбалльная градация однородности статистической совокупности и информативности её среднего значения:
1) если 0 %<^<11,1 % (20), т. е. 0<^<1/9 (20') - однородность совокупности и информативность её САЗ отличная;
2) если 11,1 %<^'<22,2 % (21), т. е. 1/9<^<2/9 (21') -однородность совокупности и информативность её САЗ хорошая;
3) если 22,2 %<^'<33,3 % (22), т. е. 2/9<^'<1/3 (22') -однородность совокупности и информативность её САЗ) удовлетворительная;
4) если v'<33,3%(23), т. е. v'<1/3 (23') - однородность совокупности и информативность её САЗ неудовлетворительная.
В последнем случае САЗ количественной совокупности определено формально и является неинформативным для оценки уровня её признака. Его самостоятельное использование или использование в любом
параметрическом методе математической статистики может привести к неадекватным выводам, т. к. взятая для анализа совокупность неоднородная, в ней использованы вариационные артефакты. Какому уровню однородности, т. е. величине V', придерживаться, исследователь решает сам в зависимости от особенностей своего эксперимента. Все официальные средние значения и нормы должны определяться на основе работы с однородными совокупностями.
Выбрав уровень однородности совокупности, исследователю необходимо, для возможности использования параметрических методов, убедиться в том, что данная совокупность является нормально распределённой. Часто исследователи не проводят эту проверку из-за убеждённости, что она трудоёмкая и априори предполагают это условие выполненным. Такая халатность может привести к тому, что полученные выводы не будут соответствовать действительности.
В арсенале математической статистики имеется много критериев согласия, с помощью которых определяют принадлежность выборки к нормальному распределению [1]. Одним из них является двусторонний критерий Дэвида - Хартли - Пирсона, который сравнительно простой в применении и достаточный по мощности [1, с. 258, с. 278; 2; 3]. В связи с незаслуженно редким практическим использованием этого критерия ниже приводится основная информация о нём. Статистика этого критерия имеет вид и=К/о (24). Гипотеза о принадлежности взятой совокупности к нормальному закону распределения принимается с определённым уровнем значимости а, если Ш(а)<и<и2(а) (25). В противном случае она отвергается с этим же а. Для оценки и можно использовать таблицу с уровнем значимости а = 0,05, где п - объём совокупности [1, с. 259; 3, с. 491].
Если принять изложенные выше рассуждения, то можно сделать следующий вывод: для определения принадлежности статистической совокупности к нормальному распределению по критерию Дэвида -
п и1 и2 п и1 и2 п и1 и2
3 1,758 1,999 16 3,010 4,240 65 4,010 5,570
4 1,980 2,429 17 3,060 4,310 70 4,060 5,630
5 2,150 2,753 18 3,100 4,370 75 4,130 5,68-
6 2,200 3,012 19 3,140 4,430 80 4,150 5,730
7 2,400 3,222 20 3,180 4,490 85 4,200 5,780
8 2,500 3,399 25 3,30 4,710 90 4,240 5,820
9 2,590 3,552 30 3,470 4,890 95 4,270 5,860
10 2,670 3,685 35 3,580 5,040 100 4,310 5,900
11 2,740 3,800 40 3,670 5,160 150 4,59 6,18
12 2,800 3,910 45 3,750 5,260 200 4,78 6,38
13 2,860 4,000 50 3,830 5,350 500 5,37 6,94
14 2,920 4,090 55 3,900 5,430 1000 5,79 7,33
15 2,970 4,170 60 3,960 5,510
Таблица
Критические границы У1(а ) и У2(а ) критерия Дэвида - Хартли - Пирсона с уровнем значимости а = 0,05
Хартли - Пирсона, уровня её однородности и информативности её среднего арифметического значения необходимо и достаточно знать характеристики этой совокупности в виде (10). Всё остальное определяется по соответствующим формулам и таблице.
В случае нормальности, но неоднородности основной совокупности, т. е. её v' 33,3 %, для продолжения анализа из неё выявляют вариационные артефакты и выделяют однородную, может быть и не одну, статистическую выборку, пользуясь выбранной градацией v'. Такая процедура относится к процессу группировки статистических данных. Для иллюстрации такого подхода рассмотрим конкретный пример.
Пример 1. Из десяти лучших результатов, показанных на чемпионате России по лёгкой атлетике в прыжках в высоту, выделить группу сильнейших прыгунов отличной однородности спортивного мастерства для их подготовки к чемпионату Европы, если 10 лучших результатов таковы: х|см : 230, 228, 227, 227, 221, 220, 218, 215, 210, 208 (26). '
Решение. Введём данные результаты в программу Microsoft Excel. Если бы они были в хаотическом порядке, то после введения в столбец таблицы их необходимо привести в любой из двух ранжированных видов. Выполняя в этой программе соответствующие действия с учётом формул (3, 4, 6, 7', 8', 24), найдём для основной совокупности (26): х=220 см; о=7,7 см; x ' =208 см; x =230 см; n=10; х'=12; v=3,5 %; v'=62 %;
min ' max ' ' ' ' ' '
U=2,86. Согласно критерию Дэвида - Хартли - Пирсона (26), с уверенностью в 95 % можно считать нормально распределённой и для неё применимы все параметрические методы. Если ориентироваться на v=3,5 %, то эту совокупность следует считать однородной. Но каждому специалисту по прыжкам в высоту ясно, что это не так в связи с разной подготовкой данных прыгунов, т. к. х=230 см соответствует нормативу мастера спорта международного класса, а х=208 см - нормативу кандидата в мастера спорта. Это и подтверждает приведённый коэффициент вариации v'=64 %. Значит, информативность среднего значения х=220 см и однородность всей группы прыгунов неудовлетворительная. Выделим из неё хотя бы удовлетворительно однородную выборку. Для этого в столбец A программы Excel введём данные основной совокупности. В столбце B определим приведённую совокупность, вычитая из каждого А' xmin=208. Вычислив х'=12,4, примем его за точку деления приведённой совокупности на две части: верхнюю из x'1-x'6 и нижнюю из x'7-x'10. Выделение однородной выборки следует начинать с наиболее однородной части. В данном случае ПКВ верхней части v'=23 %, а ПКВ нижней части v'=96 %. Значит, процесс группировки надо начинать с верхней части. Так как она уже удовлетворительно однородная, то ее объем можно увеличивать за счет следующих данных до тех пор, пока она будет оставаться однородной. Добавив к ней следующее данное x'7=10, получим v'=28 %<33,3 %. С последующим добавлением x'8=7 получим v'=36 % > 33,3 %, т. е. x8 уже является вариационным арте-
фактом для выборки x',-x'7. Очевидно, что x'9 и x'10 тоже для неё будут артефактами, и процесс увеличения объема выборки заканчивается на x'7=10. Таким образом, из десяти результатов только лучшие семь образуют удовлетворительно однородную совокупность в вариационном интервале [208 см, 230 см] и их САЗ=224 см является удовлетворительно информативным. Так как по условию задачи из основной совокупности нужно выделить выборку результатов с отличной однородностью, то, продолжая процесс группировки с целью выделения из удовлетворительно однородной выборки искомой выборки с отличной однородностью, получим: для лучших четырёх результатов v'4=7 % - отличная однородность, а для лучших пяти результатов v'5=18 % - хорошая однородность. В итоге имеем, что из неоднородной основной совокупности (26) с неинформативным САЗ в вариативном интервале [208, 230] выделены следующие варианты однородных выборок: x. : 230, 228, 227, 227, 221, 220, 218 - (х.=224; о.=4,6; x . =208;
' ' ' ' ' ' v j J min '
xmax=230; n.=7) с удовлетворительной однородностью и информативностью САЗ, с тремя артефакта ми: 21 5, 210, 208; xk : 230, 228, 227, 227 - (хк=228; ok=1,4; xmin=230; xmax=208; nk=4) с отличной однородностью и информативностью САЗ; x, : 230, 228, 227, 227, 221 - (х,=227; о,=3,4; xmin=208; xmax=230; n,=5) с хорошей однородностью и информативностью САЗ. Значит, на подготовку к выступлению на чемпионате Европы одинаково претендуют прыгуны с результатами: 230, 228, 227, 227 см.
При этом по критерию Дэвида - Хартли - Пирсона все полученные однородные выборки отвечают требованию нормальности с доверительной вероятностью в 95 %, т. е. к ним можно применять нормальные параметрические методы.
Заключение. Приведённый коэффициент вариации по сравнению с общим объективнее отражает однородность статистической совокупности и информативность её среднего значения. Для нормальной совокупности с его помощью можно определить, когда она становится неоднородной и её среднему значению доверять не следует. Сравниваемые группы исследуемых можно подвергать одинаковому воздействию только тогда, когда результаты их измерений по рассматриваемым признакам образуют однородные совокупности.
Отсутствие единого подхода к группировке статистических данных приводит к неоднозначным результатам и не позволяет объективно оценить различные её варианты. Во многих случаях исследователи делят массив данных на части субъективно или используют формулу Стерджеса [5], которая учитывает только объём данных без учёта их главной особенности - относительной вариации. Возможно, предложенная в работе четырёхбалльная градация информативности САЗ и подход к выделению однородных выборок, с учётом их основных вариативных интервалов и приведённых коэффициентов вариации, поможет устранить многие проблемы группировки в различных сферах деятельности человека.
ЛИТЕРАТУРА:
1. Кобзарь А. И. Прикладная математическая статистика: для инженеров и научных работников. - М.: Физ-матлит, 2006. - 816 с.
2. Лемешко Б. Ю., Рогожников А. П. Исследование особенностей и мощности некоторых критериев нормальности // Метрология. - 2009. - № 4. - С. 3-24.
3. David H. A., Hartley H. O. and Person E. S. The distribution of the ratio, in a single normal sample, of range to standard deviation // Biometrika. - Vol. 512, - No. 3/4 (Dec., 1964), pp. 484-487.
4. crypto.nut2.ru>normal.htmi
5. statanaliz.info>metody/gruppirovka. Простые способы группировки данных.
TO THE ASSESSMENT OF HOMOGENEITY OF QUANTITATIVE STATISTICAL TOTALITY AND INFORMATIVITY OF ITS AVERAGE VALUE
V. Dolgov, Candidate of Physical and Mathematical Sciences, Professor of the Biochemistry, Biomechanics and Natural Sciences Department,
Kuban State University of Physical Education, Sports and Tourism, Krasnodar.
Contact information for correspondence: 350015, Russia, Krasnodar, Budennogo str., 161;
e-mail: [email protected]
In many fields of human activity, including physical education and sports, researchers try to use parametric methods of mathematical statistics when processing experimental data, based on the normal distribution of random variables (Gaussian distribution). The parameters of this distribution are the arithmetic value and the standard deviation. For the legitimacy of using normal parametric methods in the analysis of quantitative statistical characteristics it is necessary for their measurement results to be data of quantitative statistical totality, which would not be significant different from the coherent normal distributions with the same parameter values by their average arithmetic value and standard deviation.
All the conclusions of such researches are explicitly or implicitly based on the obtained arithmetic values of the studied facts. At the same time, there must be some certainty that these average values really reflect the average levels of these signs, in other words, they are informative. To do this requires each of them must be obtained from a homogeneous totality. But up to now there are no sound recommendations for determination of its homogeneity in mathematical and applied statistics.
This article suggests one of the approaches to determine the homogeneity of a quantitative statistical totality, informativity of its mean value and their levels for normally distributed totalities, which can be used in the process of
grouping of quantitative statistical data. Herewith, in addition, a comparatively simple David-Hartley-Pearson test is given to determine the normality of a quantitative statistical total with an illustration of its application with specific reference.
Keywords: normal distribution; homogeneity of the statistical totality; adjusted totality; informativity of arithmetic value; alternate interval; adjusted coefficient of variation; grouping of statistical data.
References:
1. Kobzar' A. I. Prikladnaja matematicheskaja statistika. Dlja inzhenerov i nauchnyh rabotnikov [Application-oriented mathematical statistics. For engineers and scientists]. Moscow, Fizmatlit, 2006, 816 p.
2. Lemeshko B. Ju., Rogozhnikov A. P. Issledovanie osoben-nostej i moshhnosti nekotoryh kriteriev normal'nosti [Research of features and capacities of some criteria of a normality]. Metrologija, 2009, no. 4, pp. 3-24.
3. David H. A., Hartley H. O., Person E. S. The distribution of the ratio, in a single normal sample, of range to standard deviation. Biometrika, vol. 512, no. 3/4 (Dec., 1964), pp. 484-487.
4. crypto.nut2.ru>normal.htmi
5. statanaliz.info>metody/gruppirovka. Prostye sposoby gruppirovki dannyh.