ФИЗИКО-МАТЕМАТИЧЕСКИЕ НАУКИ
ПРИМЕНЕНИЕ СТАТИСТИЧЕСКИХ ГИПОТЕЗ В НАУЧНО-ПРАКТИЧЕСКИХ ИССЛЕДОВАНИЯХ Большакова Л.В.1, Яковлева Н.А.2 Email: [email protected]
'Большакова Людмила Валентиновна - кандидат физико-математических наук, доцент;
2Яковлева Наталья Александровна - кандидат психологических наук, кафедра математики и информатики, Санкт-Петербургский университет МВД России, г. Санкт-Петербург
Аннотация: в статье рассмотрен один из этапов математико-статистического исследования, связанный с проверкой статистических гипотез. Кратко даны общие понятия теории проверки статистических гипотез, приведена классификация гипотез, а также представлена общая схема проверки любой статистической гипотезы. Более подробно рассмотрены гипотезы о параметрах генеральной совокупности: их описание, схема проверки. Статья предназначена, в первую очередь, для аспирантов, студентов и слушателей, занимающихся проведением научных исследований, в которых появляется необходимость проверить правильность того или иного утверждения на основе статистического материала.
Ключевые слова: математико-статистическое исследование, статистическая гипотеза, параметры генеральной совокупности, нулевая и альтернативная гипотезы, статистический критерий, основной принцип проверки статистической гипотезы.
APPLICATION OF STATISTIC HYPOTHESES IN SCIENTIFIC AND PRACTICAL STUDIES Bolshakova L.V.1, Yakovleva NA.2
'Bolshakova Lyudmila Valentinovna - PhD in Physics and Mathematics;
2Yakovleva Natalia Alexandrovna — PhD in psychological, DEPARTMENT OF MATHEMATICS AND INFORMATICS, SAINT PETERSBURG UNIVERSITY OF MINISTRY OF INTERNAL AFFAIRS OF RUSSIAN FEDERATION,
ST. PETERSBURG
Abstract: in the article one of the stages of mathematical-statistical research related to testing of statistical hypotheses is considered. The general concepts of the theory of testing of statistical hypotheses are briefly given, the classification of hypotheses is given, and a general scheme for testing any statistical hypothesis is presented. The hypotheses about the parameters of the general population are discussed in more detail: their description, the verification scheme. The article is intended, first of all, for graduate students, students and students engaged in scientific research, in which there is a need to verify the correctness of a statement based on statistical material.
Keywords: mathematico-statistical research, statistical hypothesis, population parameters, zero and alternative hypotheses, statistical criterion, basic principle of check of a statistical hypothesis.
УДК 519.237.3
Для проведения научных исследований и решения различных психолого-педагогических проблем достаточно часто используют статистический материал. Но не всегда возможно собрать весь статистический материал по рассматриваемой проблематике. Неполный сбор информации может быть связан с недостатком времени или средств, с наличием определенных свойств исследуемых явлений или процессов, включающих случайности разного рода. Однако провести исследование на основе неполной информации возможно с помощью выборочного математико-статистического исследования.
Для получения результатов, наиболее соответствующих действительности, необходимо должным образом применять основные методы этого исследования, в частности, правильно не только формировать выборку и применять соответствующие проблематике методы анализа, но и корректно делать выводы и прогнозы на их основе, т.е. в строгом соответствии с теоретическими положениями математико-статистического анализа.
Исследование какой-либо проблемы, в том числе проблемы в области педагогики и психологии, с помощью математико-статистического анализа можно разделить на следующие условные этапы:
1. Постановка задачи.
2. Получение, представление и обработка выборочной информации.
3. Получение оценок параметров генеральной совокупности.
4. Проверка статистических гипотез.
5. Исследование однородности генеральной совокупности.
6. Исследование взаимосвязи признаков.
На первом этапе формулируются цели и задачи исследования, определяются конкретные признаки, типы данных, шкалы измерения и, при необходимости, ряд условий и характеристик, влияюшдх на результаты исследования.
На втором этапе занимаются сбором статистической информации и дальнейшей ее обработкой. При этом решаются три главные задачи. Первая заключается в правильном выборе статистических данных, т.е. в зависимости от постановленной задачи, формируется одна или несколько репрезентативных выборок из одной или нескольких генеральных совокупностей. Задача определения объема и состава выборочной совокупности, достаточно подробно рассмотрена, в работе [1]. Однако, необходимо отметить, что при анализе некоторых психолого-педагогических проблем могут появиться качественные признаки или признаки, значения которых можно определить только с помощью мнений и суждений специалистов-экспертов. В этом случае для формирования выборки и дальнейшего ее анализа может быть применен метод экспертных оценок [2].
Вторая задача рассматриваемого этапа заключается в представлении выборочных данных в виде, удобном для дальнейшего исследования. Аналитическое представление данных в виде дискретных и интервальных рядов распределения (матриц распределения), а также графическое - в виде полигона, кумуляты, гистограммы и т.д. рассмотрено во многих учебных пособиях по математической статистике, например, в [3], [4] и [5].
Третья задача данного этапа заключается в обработке полученной выборочной информации, т.е. здесь решается задача нахождения числовых характеристик выборки, называемых статистиками распределения. К основным статистикам распределения, имеющим очень важное значение для решения ряда практических задач, относятся средняя выборочная, мода, медиана, дисперсия, среднеквадратическое отклонение, коэффициенты асимметрии и эксцесса. При исследовании вопроса взаимосвязи выборочных совокупностей, а в дальнейшем и генеральных, к основным статистикам относят также коэффициент корреляции (парный, частный и множественный), коэффициент конкордации и другие коэффициенты, определяющие существование и тесноту различных зависимостей между двумя или несколькими признаками или совокупностями.
Третий и четвертый этапы связаны с распространением результатов и выводов, полученных на основе анализа выборочных данных, на всю генеральную совокупность.
На третьем этапе по выборочным данным (статистикам распределения) решаются задачи нахождения приближенных значений (оценок) неизвестных параметров генеральной совокупности: математического ожидания (генеральной средней), дисперсии, среднеквадратического отклонения и других. Методы нахождения оценок параметров, исследование свойств оценок составляют основное содержание одного из разделов математической статистики - теории оценивания [4]. Кроме приближенных значений параметров, т.е. точечных оценок, в теории оценивания находят так называемые интервальные оценки, которые существенно используются при проверке статистических гипотез.
На четвертом этапе проводится проверка определенных предположений (статистических гипотез), связанных с параметрами и свойствами генеральной совокупности [3], [4], [5], [6].
Пятый этап посвящен исследованию генеральной совокупности. На данном этапе решаются следующие задачи: проверка однородности статистической совокупности; разделение статистической совокупности на однородные группы (кластеры) в случае ее неоднородности; определение правила присоединения нового элемента совокупности к одной из образовавшихся групп. Методы решения перечисленных задач составляют основное содержание кластерного и дискриминантного анализов [7].
Основными задачами шестого этапа являются: выявление существования и силы зависимости между значениями признаков многомерной выборки или между различными признаками нескольких генеральных совокупностей; получение приближенного уравнения зависимости одного признака (фактора) от одного или нескольких других; выявление наиболее важных признаков (факторов), влияющих на рассматриваемый процесс или явление. Методы, применяемые при решении этих задач, относятся к методам парного и многомерного математико-статистического анализа: корреляционного, регрессионного, факторного и т. д. [4], [9].
Основное содержание предлагаемой статьи составляют общие положения пятого этапа математико-статистического исследования и более подробное описание проверки и применения статистических гипотез, связанных с параметрами генеральной совокупности.
Обращение именно к этому этапу связано с тем, что, с одной стороны, возможности теории проверки статистических гипотез достаточно велики, с ее помощью могут быть решены весьма серьезные проблемы. С другой стороны, положения и методы этой теории применяются крайне редко и, к сожалению, не всегда правильно.
Теория проверки статистических гипотез - это раздел математической статистики, который содержит правила и методы проверки каких-либо утверждений о параметрах и свойствах всей рассматриваемой генеральной совокупности по статистическим данным выборочной совокупности. Выборочные данные составляют лишь часть статистических данных всей генеральной совокупности, поэтому выдвигаемые для проверки утверждения называют предположениями или гипотезами.
Необходимо отметить, что в теории проверки статистических гипотез проверяются только те гипотезы, которые базируются и непосредственно связаны со статистическим материалом. Статистический материал должен быть представлен в виде репрезентативной выборки, т. е. выборки, наиболее полно отражающей основные свойства генеральной совокупности.
При исследовании педагогических проблем проверка гипотез может быть применена для подтверждения или опровержения эффективности новой методики преподавания. Предположим, например, что некий ученый-педагог изобрел новую методику изучения какого-либо предмета или его части и выдвинул предположение о том, что его методика значительно эффективнее старой. Для проверки этой гипотезы отбираются обучающиеся, которые разбиваются на две группы. Первая группа в течение какого-то времени занимается по старой методике, вторая - по новой. Затем происходит сравнение результатов обучения в этих группах, например, с помощью тестирования. Если результаты второй группы оказались чуть лучше, то теория проверки статистических гипотез позволит дать научно обоснованный ответ является ли это различие значимым, т.е. новая методика действительно дает лучшие результаты, или это различие - случайно и новая методика не лучше старой.
Задачей теории проверки статистических гипотез является проверка на основе выборочных данных выдвинутой гипотезы Н0, или иначе, установление противоречит ли выборочным данным или согласуется с ними гипотеза Н0, называемая основной или нулевой.
Проверка основной гипотезы производится с помощью различных статистических критериев. При этом необходимо подчеркнуть, что если в результате проверки основная гипотеза не отвергается, то это не означает ее полного подтверждения. Последнее свидетельствует лишь о совместимости с выборочными данными, т. е. основная гипотеза напоминает принцип «презумпции невиновности» из юриспруденции: обвиняемый считается невиновным до тех пор, пока его вина не доказана. Поэтому часто в качестве основной гипотезы выбирают утверждение, доказательство которого нежелательно для исследователя, а опровержение гипотезы дает возможность подтвердить полученные результаты.
Например, автор новой методики обучения может в качестве основной предложить гипотезу о равенстве средних баллов, т.е.
Н0:тн= тс,
где тН- средний балл, полученный в результате тестирования обучающихся по новой методике;
тс - средний балл, полученный в результате тестирования обучающихся по старой методике.
Если в результате проверки нулевая гипотеза будет опровергнута, то можно сделать вывод о различие рассматриваемых методик. Однако, очевидно, что различие методик не подтверждает того, что новая методика является лучше. Такое подтверждение возможно при определенном выборе так называемой альтернативной гипотезы.
Альтернативной или конкурирующей гипотезой называют гипотезу Нь которая противоречит основной. Если основная гипотеза говорит о равенстве каких-то параметров, то в альтернативной гипотезе указывается либо неравенство этих параметров, либо более строгое утверждение, что один параметр строго больше или строго меньше другого. Так в примере с представлением новой методики обучения, в качестве альтернативной рекомендуется взять следующую гипотезу
Н0:тн > тс.
Как было отмечено ранее, проверка статистической гипотезы, т.е. вывод о ее справедливости делается на основе выборочных данных. Так как выборка - это лишь часть генеральной совокупности, то существует риск принять ложное решение, т.е. совершить ошибку, которая может по смысловому содержанию принадлежать к одному из двух видов. Если гипотеза верна в действительности, а по результатам проверки ее необходимо отвергнуть, то при этом совершается ошибка первого рода. Если, наоборот, гипотеза является ложной, а в результате проверки не получено противоречия с выборочными данными, т.е. теория предлагает считать гипотезу справедливой, то совершается ошибка второго рода.
Особое значение имеет вероятность а совершения ошибки первого рода, которую задает исследователь при проверке. Эта вероятность называется уровнем значимости. По своей сути уровень значимости определяет вероятность того, что будут считаться существенными различия между
статистическими данными выборки и данными генеральной совокупности, несмотря на то что в действительности эти различия случайны и незначимы.
Последствия ошибок первого и второго рода неравнозначны, при этом считается, что одна из ошибок (первого рода) ведет к более консервативному или более осторожному решению, а вторая (второго рода), наоборот, ведет к риску, иногда неоправданному.
При выборочном исследовании полное исключение ошибок невозможно, однако, возникает вопрос об уменьшении вероятности их появления. Одновременное уменьшение этих вероятностей возможно только при увеличении, иногда очень существенном, объема выборки, что, конечно, не всегда возможно. При неизменном фиксированном объеме выборки уменьшение вероятности появления ошибки одного вида неизменно ведет к увеличению значения вероятности появления ошибки другого вида. Какая ошибка является более значимой, зависит от постановки задачи и цели исследования. В общей схеме проверки статистической гипотезы всегда задается вероятность совершения ошибки первого рода, т.е. уровень значимости. При этом считается, что исследователь, как правило, выдвигает «достаточно правдоподобную» гипотезу, для опровержения которой требуются весомые аргументы. Следовательно, уровень значимости выбирается достаточно малым - чаще всего, а = 0,05; реже а = 0,01; или даже а = 0,005.
Проверка гипотезы по своей сути представляет собой выявление попадания некой наблюдаемой величины, вычисленной по выборочным данным, в промежуток, определяемый значениями конкретной случайной величины, теоретически определенной для рассматриваемой гипотезы и называемой критерием К проверки основной гипотезы Н0. Необходимо отметить, что закон распределения критерия должен быть всегда известен.
Основными и наиболее часто применяемыми критериями являются:
- случайная величина, распределенная по нормальному закону и обозначаемая через П;
- случайная величина, распределенная по закону Стьюдента и обозначаемая через Т;
- случайная величина, распределенная по закону «хи-квадрат» и обозначаемая через х2;
- случайная величина, распределенная по закону Фишера и обозначаемая через Б.
Само понятие критерия в некоторых работах трактуется по-другому, а именно, критерием считают правило, по которому проверяется справедливость той или иной гипотезы. Авторы данной работы считают такую трактовку не совсем правильной исходя из следующего. Правило проверки (оно будет приведено ниже) остается одним и тем же для любой статистической гипотезы, а используемая для проверки случайная величина всегда меняется и является конкретной, теоретически обоснованной именно для рассматриваемой гипотезы. Однако, необходимо отметить, что случайная величина, которая используется для проверки гипотезы и само правило проверки достаточно тесно связаны друг с другом, поэтому критерием можно называть и то и другое.
В соответствии с выбранным критерием по фиксированной формуле, используя выборочные данные, находят наблюдаемое или выборочное значение критерия Кв, которое называют статистикой критерия.
Для получения вывода о верности или ложности рассматриваемой гипотезы необходимо проверить попадание статистики критерия в так называемую критическую область, определяемую также с помощью критерия, используя ниже приведенные соображения.
Из определения критерия ясно, что критерий является одномерной случайной величиной, следовательно, его значения расположены на вещественной прямой. Все множество значений критерия можно разделить на два непересекающихся подмножества:
У0 - область принятия гипотезы, т. е. множество значений критерия, для которых гипотеза Н0 не отвергается;
У - критическая область, т. е. множество значений критерия, для которых гипотеза Н0 отвергается.
Точки ккр, которые разделяют эти две области называются критическими и находятся по таблице распределения выбранного критерия.
Теоретически доказано, что критическая область может быть односторонней (левосторонней или правосторонней) или двусторонней. Правосторонняя и левосторонняя области определяются неравенствами К > ккр. и К <ккр. соответственно, двусторонняя двумя неравенствами: К < к[кр. и К > к2кр. При этом двусторонняя область может быть симметричной, если к2кр= - к>кр. Тогда она будет определяться неравенством \К\ >ккр .
Основное правило или основной принцип проверки любой статистической гипотезы формулируется следующим образом:
- основная гипотеза отвергается, если выборочное значение критерия попадает в критическую область;
- основная гипотеза не отвергается, если выборочное значение критерия не попадает в критическую область.
Нетрудно понять, что критическая область определяется видом и значениями критических точек. Значения критических точек, как было отмечено ранее, находят по таблице распределения заданного
9
критерия. Не приводя строго доказательства, нужно отметить, что критическая область обладает следующим свойством: если основная гипотеза справедлива, то вероятность попадания в критическую область значения критерия равна уровню значимости. Общая схема проверки статистической гипотезы:
1. Формулировка основной гипотезы Н0 и при необходимости альтернативнойНj.
2. Выбор уровня значимости а.
3. Подбор критерий К для проверки справедливости основной гипотезы.
4. Нахождение выборочного значения критерия Кв по статистическим данным выборки с использованием соответствующей формулы.
5. Определение вида критической области по виду альтернативной гипотезы и критических точек по соответствующей таблице распределения выбранного критерия.
6. Принятие статистического решения в соответствии с основным принципом проверки статистических гипотез:
Н0 отвергается, если Кв е V1, так как она противоречит результатам выборки; Н0 не отвергается, если Кв ^ V1, так как она не противоречит результатам выборки. Статистические гипотезы можно условно объединить в следующие группы:
Группа I включает в себя гипотезы, в которых предполагается возможное значение одного из основных параметров генеральной совокупности, при этом закон распределение самой генеральной совокупности должен быть известен.
Группа II включает в себя гипотезы, в которых предполагается равенство двух или нескольких значений параметров или признаков генеральных совокупностей.
Группа III включает в себя гипотезы, в которых предполагается конкретный вид закона распределения рассматриваемой генеральной совокупности, если он неизвестен.
Группа IV включает в себя гипотезы, в которых предполагается исследовать значимость некоторых коэффициентов, характеризующих возможную зависимость между двумя или несколькими признаками рассматриваемой генеральной совокупностью.
В данной работе мы рассмотрим статистические гипотезы I вида.
Предположим, что генеральная совокупность имеет нормальный закон распределения. Основными параметрами нормального закона являются генеральная средняя (математическое ожидание) и генеральная дисперсия (или генеральное среднеквадратическое отклонение). Отсюда ясно, что в этом случае основными гипотезами первого вида будут статистические гипотезы о возможных значениях генеральной средней и генеральной дисперсии [5], [6], [8].
Опишем более подробно общие схемы проверок для данных гипотез.
Необходимость проверки статистической гипотезы о генеральной средней появляется тогда, когда требуется подтвердить, опровергнуть или уточнить значение какого-то среднего норматива, либо какого-то среднего показателя или средней характеристики.
В основной гипотезе о генеральной средней содержится предположение о возможном значении этой средней, т.е. о равенстве генеральной средней хгнекоторому определенному числу а 0. Таким образом основная гипотеза имеет вид .
Выбор критерия проверки данной гипотезы зависит от того известно или нет среднеквадратическое отклонение генеральной совокупности.
Значение среднеквадратического отклонения <гг в некоторых задачах может быть найдено теоретически, либо может быть вычислено по выборкам достаточно большого объема, которые были ранее получены при рассмотрении аналогичной задачи. В этом случае в качестве критерия выбирается нормально распределенная случайная величина. Если значение <гг неизвестно, то применяют критерий Стьюдента.
Список литературы / References
1. Васильева Э.К., Юзбашев М.М. Выборочный метод в социально-экономической статистике: учебное пособие. М.: Финансы и статистика. ИНФРА-М, 2010. С. 256.
2. Большакова Л.В., Примакин А.И. Метод экспертных оценок в решении задач обеспечения экономической безопасности хозяйствующего субъекта / Вестник Санкт-Петербургского университета МВД России. № 1 (53), 2012. С. 191-200.
3. Большакова Л.В. Элементы математической статистики: учебное пособие. СПб.: Изд-во СПб ун-та МВД России, 2008. С. 96.
4. Гмурман В.Е. Теория вероятностей и математическая статистика. М. Высшая школа, 2009. С. 478.
5. Большакова Л.В., Примакин А.И., Яковлева Н.А. Математико-статистические методы обработки экспериментальных данных при проведении научных исследований: методические рекомендации: в 3-х частях. Часть 1. СПб.: Изд-во СПб ун-та МВД России, 2014. С. 92.
6. Большакова Л.В., Примакин А.И., Яковлева Н.А. Методы проверки статистических гипотез в процессе обработки и интерпретации статистических данных при обеспечении экономической и информационной безопасности хозяйствующего субъекта / Вестник Санкт-Петербургского университета МВД России. № 3 (63), 2014. С. 111-120.
7. Большакова Л.В., Примакин А.И., Яковлева Н.А. Применение кластерного и дискриминантного анализов в процессе обработки и интерпретации статистических данных при обеспечении экономической и информационной безопасности хозяйствующего субъекта. / Вестник Санкт-Петербургского университета МВД России. № 2 (62), 2014. С. 148-156.
8. Большакова Л.В., Яковлева Н.А. Современные математико-статистические методы обработки информации в научной и практической работе // Проблемы современной науки и образования, 2016. № 7. С. 49-52.
9. Большакова Л.В., Яковлева Н.А. Методы многокритериальной оптимизации для оценки систем защиты информации // Региональная информатика и информационная безопасность. Сборник трудов. СПИИРАН, 2016. С. 75-77.
МАШИНЫ БУДУЩЕГО - ЭЛЕКТРОМОБИЛИ. ПЕРСПЕКТИВЫ И ПРОБЛЕМЫ ВНЕДРЕНИЯ Бикметов Р.Р.1, Орлов А.В.2 Email: [email protected]
'Бикметов Руслан Рихатович — студент, факультет мехатронники и робототехники; 2Орлов Алексей Вениаминович — кандидат технических наук, доцент, кафедра естественно-научных и общепрофессиональных дисциплин, Уфимский государственный авиационный технический университет (филиал), г. Стерлитамак
Аннотация: в статье анализируются проблемы внедрения электромобилей, а также их отличие от автомобилей с ДВС. Данный вид транспорта уже давно входит в наш обиход, правда очень маленькими шажками. Сегодня, в нашу эпоху расцвета технологий, человек понимает, что машины с двигателем внутреннего сгорания (ДВС) находятся почти на краю своего существования. Нефть рано или поздно закончится, если раньше не испортится экология выхлопными газами. Учёные и конструкторы, понимая это проблему, пытаются решить её с помощью электромашин. Совершенно очевидное и правильное решение, поскольку автомобили с ДВС давно портят атмосферу нашей планеты. Решение, конечно, верное, но его реализация потребует огромных усилий и больших изменений в нашей инфраструктуре. Не менее важная проблема электромобилей - это маленький пробег при высокой скорости. Данный недостаток значительно понижает планку машины с электроприводом перед ДВС.
Ключевые слова: электродвигатель, разрядный ток, электромагнитная индукция, мощность.
MACHINES OF THE FUTURE - ELECTRIC MOVIES. PROSPECTS AND PROBLEMS OF IMPLEMENTATION Bikmetov R.R.1, Orlov A.V.2
'Bikmetov Ruslan Rikhatovich — Student, FACULTY OFMECHATRONICS AND ROBOTICS; 2Orlov Alexey Veniaminovich - Candidate of Technical Sciences, Associate Professor, DEPARTMENT OF NATURAL SCIENCES AND GENERAL PROFESSIONAL DISCIPLINES, UFA STATE AVIATION TECHNICAL UNIVERSITY (BRANCH), STERLITAMAK
Abstract: in the article problems of introduction of electromobiles, and also their difference from cars with DVS are analyzed. This type of transport has long been part of our everyday life, though very small steps. Today, in our heyday of technology, a person realizes that cars with an internal combustion engine (ICE) are almost at the edge of their existence. Oil will end sooner or later, if the ecology of exhaust gases does not