УДК 378
МАТЕМАТИЧЕСКИЕ МЕТОДЫ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ
© Ш. И. Цыганов*
Башкирский государственный университет Россия, Республика Башкортостан, 450074 г. Уфа, ул. Заки Валиди, 32.
Тел./факс: +7 (347) 273 6718.
Е-mail: [email protected]
В статье дается обзор математических методов педагогических измерений. Особый упор сделан на рассмотрении теории моделирования и параметризации тестов. Кроме того, описана система контроля качества обучения в Башкирском государственном университете.
Ключевые слова: IRT, теория моделирования и параметризации тестов, модели Раша, шкалирование, контроль качества обучения.
Теория педагогических измерений в настоящее время является бурно развивающейся областью знаний, включающей в себя как теоретические, так и прикладные аспекты и находящейся на стыке педагогики, философии, математики, логики и статистики. Определим ее место в структуре современной науки. Вся научная тематика, изучающая тесты, называется тестологией. Она подразделяется на педагогическую, психологическую и социальную. В англоязычной научной литературе для психологической тестологии используется термин психометрика (Psychometrics), а для педагогической - педагогические измерения (Educational Measurement). Математические методы педагогических измерений используются для обработки результатов тестирования и проверки соответствия характеристик тестовых заданий и теста в целом научно обоснованным критериям качества. Таким образом, математические методы педагогических измерений лежат на стыке педагогики, психологии, математики, логики и философии. Аппарат, используемый в математических теориях педагогических измерений, относится к теории вероятностей и математической статистике и использует методы матричной и векторной алгебры, математического анализа.
Цель различных математических теорий педагогических измерений в широком смысле - построение математических моделей, которые в количественной форме наиболее полно и точно отражают основные характеристики и параметры образовательного пространства, различных его элементов, механизмы их взаимодействия друг с другом. В узком смысле, который принят в современной науке и рассматривается далее, изучаются и рассматриваются только уровень подготовленности учащихся и уровень трудности определенного класса заданий, называемых тестовыми.
Под тестовым заданием мы будем понимать минимальную оцениваемую единицу контрольно-оценочного материала, удовлетворяющую требованиям предметной чистоты проверяемого содержания, одномерности и обладающую объективными устойчивыми статистическими характеристиками. Тест - это квалиметри-чески выверенная система тестовых заданий, предназначенная для измерения качеств и свойств личности.
Среди современных математических теорий педагогических измерений наиболее известна IRT -Item Response Theory (в русскоязычной литературе -теория моделирования и параметризации тестов). ТМПТ появилась в 60-е годы прошлого столетия благодаря работам датского математика G. Rasch [1], а также B. Wright [2], А. Birnbaum, R. Hambleton [3]. В IRT включаются однопараметрическая модель Раша, двух- и трехпараметрические модели Бирн-баума. В последние годы прослеживается тенденция проецирования модели Раша как отдельной теории - Rasch Measurement и отождествления научных статусов RM и IRT.
Иначе обстоит дело в нашей стране, где в целом наметилось серьезное отставание в сфере математических теорий педагогических измерений (и тестологии в целом) от многих зарубежных стран. Лишь начиная с 90-х гг. прошлого столетия по проблемам тестирования стали появляться отдельные работы. Тем не менее можно утверждать, что на сегодняшний день нашими учеными подготовлен серьезный теоретический и практический фундамент. Разрабатываются методологические и теоретические основы тестологии, исследуется ее место в системе педагогической науки, создается типология тестовых заданий, анализируется зарубежный опыт тестирования, учитываются особенности психологического тестирования. Сюда же примыкают работы по применению математических моделей IRT для конструирования тестов
B. C. Аванесова [4], Г. С. Ковалевой, Е. Ю. Карда-новой [5], Ю. М. Неймана [6], В. А. Хлебникова [6], М. Б. Челышковой [7] и других. Необходимой составляющей фундамента массового тестирования являются исследования по компьютеризации процессов контроля и обучения, проведенные А. О. Сергеевым, А. Н. Тихоновым, А. О. Татуром, А. Г. Шмелевым и др. Важны концептуальные и методологические проблемы оценки качества обучения, исследуемые в контексте мониторинга управления качеством образования в трудах Н. Н. Булынского, Г. С. Ковалевой, Э. Л. Красновского, А. А. Макарова, Н. А. Селезневой, А. И. Субетто,
Н. Ф. Ефремовой, М. Б. Челышковой и других.
* Цыганов Шамиль Ирекович — к.ф.-м.н., доцент, заместитель декана по научной работе математического факультета.
В Башкирском государственном университете к настоящему времени формируется научная школа, занимающаяся вопросами педагогических измерений, включающими в себя вопросы контроля качества обучения (Е. Г. Екомасов, Я. Т. Султанаев, М. Х. Харрасов [8, 9]); разработки, создания и научного обоснования контрольных и аттестационных измерительных материалов (Е. Г. Екомасов,
С. Е. Родионова, С. В. Савкина, Ш. И. Цыганов [10]); компьютеризации процессов массового тестирования (Е. Г. Екомасов, А. Д. Максутов, Е. М. Тарасенко [11]); разработки математических методов педагогических измерений (С. В. Савкина, Ш. И. Цыганов [12-15]). В университете создан отдел контроля качества обучения, одной из методических основ деятельности которого является использование процедур анализа массовых тестирований, проводимых на базе Центра Интернет БашГУ. Для этого в университете сформирована компьютерная общеуниверситетская система проверки и база данных оценки знаний на каждого студента. Данная система разработана на основе системы дистанционного образования хБЬ8 и предоставляет все основные способы организации дистанционного обучения в сети Интернет, а именно: обеспечение доступа к учебным материалам посредством сети Интернет; проведение тестирования, накопление в базе данных системы учебных информационных ресурсов (учебников, курсов, тестов и т.д.) в формате 1МБ, их импорт и экспорт; информирование пользователей о ходе и результатах учебного процесса, организация дистанционного обучения, согласно учебным планам, создание структуры виртуального учебного заведения (подразделения, отделы, сотрудники). Обеспечивается единая регистрация пользователей в системе: зарегистрированный в одной из подсистем пользователь получает доступ к информационным ресурсам системы в соответствии со своим учебным планом. С помощью этой системы с 2005 г. проводятся массовые проверки остаточных знаний студентов БашГУ. К настоящему времени охват превысил 400% от общего числа студентов (это означает, что каждый студент был протестирован не менее 4 раз).
В университете налажены научные контакты с ведущими российскими центрами, занимающимися педагогическими измерениями - Федеральным институтом педагогических измерений, НИИ мониторинга качества образования и Новгородским государственным университетом.
Переходя к рассмотрению моделей Раша, сформулируем математическую задачу. Пусть имеется N испытуемых, которые работают над тестом, содержащим т заданий. В зависимости от оценивания задания делятся на дихотомические (0 - 1 балл, соответствующие неверному и верному выполнениям задания соответственно) и политомические (с промежуточными категориями выполнения задания). За выполнение политомического задания ис-
пытуемый может получить от 0 до нескольких баллов, что позволяет рассматривать их как многошаговые: за выполнение каждого шага испытуемый получает 1 балл, а общий балл за такое задание равен сумме правильно выполненных шагов.
Рассмотрим сначала дихотомический случай. Рассмотрим /'-ого испытуемого, уровень подготовленности которого характеризуется неким латентным параметром в/, которому предстоит решить у-ое тестовое задание, уровень трудности которого характеризуется другим латентным параметром в. На выходе мы имеем наблюдаемый результат выполнения теста а., равный 0 или 1 в зависимости от того решено или не решено правильно данное задание. Если говорить точнее, то взаимодействие двух множеств значений латентных параметров, состоящих из N испытуемых с их уровнями подготовки в/ и т заданий теста с их уровнями трудности в, порождает матрицу наблюдаемых результатов выполнения теста, состоящую из 0 и 1. Очевидно, что элементы матрицы а. являются случайными величинами, поскольку даже очень сильный ученик может не решить простейшую задачу в силу нелепой арифметической ошибки или чего-либо подобного. На практике обычно приходится решать обратную задачу: зная таблицу результатов испытуемых, находить значения латентных параметров в/ и в,-
Для решения этой задачи датский математик Г. Раш предложил ввести в рассмотрение разность в - в, в предположении, что латентные параметры в и р измеряются в одной и той же шкале. Пусть р. = Р(в/ - в,) - вероятность того, что /-ый испытуемый правильно выполнит ,-ое задание. Если предложенная разность отрицательна и велика по модулю, то данное задание бесполезно для измерения уровня знаний данного испытуемого. Он наверняка не выполнит его, т.е. р. ^ 0 при в/ - в, ^ - да. Большие положительные значения разности также не интересны, т.к. означают, что ученик освоил задачи данного уровня трудности и наверняка решит предложенное задание верно, т.е. р. ^ 1 при вi - в/ ^ да. Кроме того, положим Р(0) = 0.5. В ТМПТ эту функцию принято называть функцией успеха.
При построении своей теории Г. Рашу удалось решить две принципиальнейшие проблемы. Первый важнейший прорыв состоит в том, что вычисляемый уровень подготовленности испытуемого инвариантен относительно трудности заданий. Это означает, что если одному и тому же испытуемому предъявить два теста, один из которых состоит из легких заданий, а другой из сложных, то, очевидно, что баллы за первый тест будут выше. При этом значение уровня подготовленности, вычисленное по результатам выполнения первого теста, совпадет со значением уровня подготовленности, вычисленным по результатам второго теста.
Аналогично, уровень трудности задания инвариантен относительно уровня подготовленности испытуемых, которые решают данное задание.
Точнее, эти требования были введены Рашем в систему аксиом его теории.
Второй важный момент теории рашевых измерений состоит в том, что параметры в и в измеряются по одной и той же шкале.
Приведем без вывода функцию успеха в дихотомической модели Раша:
р.. = р\е.~
V ' '
[о,-Ь, )=
е -р.
1 + е г /
(1)
Полученная вероятность зависит только от разности в - в, поэтому часто называется однопараметрической моделью Раша.
Зафиксировав в, построим на рис. 1 график функции у = Р/(в), который называется характеристической кривой_/-ого задания и имеет вид:
Р
1
0,5
0 . 9
Рис. 1 Характеристические кривые заданий теста.
Заметим, что на данной координатной плоскости мы построили графики функций у = Р(в) для двух различных значений в / < в/. Очевидно, что меньшему значению параметра в/ соответствует левая кривая, а в. - правая. Это означает, что чем проще задание и меньше ее уровень трудности, тем выше вероятность ее решения.
На данной координатной плоскости мы построили графики функций у = Р/(в) для двух различных значений в'1 < в/. Очевидно, что меньшему значению параметра в\ соответствует левая кривая, а в1 - правая. Это означает, что чем слабее испытуемый и меньше его уровень подготовленности, тем ниже вероятность решения им задания с уровнем трудности в.
Рассуждениями, аналогичными проведенным выше, получим, что характеристическая кривая /-ого испытуемого, изображенная на рис. 2, имеет вид
Перейдем к политомической модели Раша. Пусть за выполнение .-ого задания теста испытуемый может получить от 0 до т. баллов. Чтобы достичь высшей категории т. испытуемый должен последовательно преодолеть т. шагов: на первом шаге сначала необходимо достичь первый уровень в один балл, затем в шаге 2 достичь второй категории в два балла и так далее. Уровень трудности выполнения g-го шага .-го задания мы будем обозначать через в]Я (е = 1,. ., т.). Ясно, что трудность выполнения каждого шага в общем случае различна. Условная вероятность рУ™ верного выполнения
/-ым испытуемым в .-ом задании шага е при условии, что шаг е-1 выполнен верно, описывается основной логистической функцией успеха Раша:
о -Р
русл =
е-р 1+ е 1
Найдем формулу для нахождения безусловной вероятности р.Е того, что при выполнении .-го задания /-ый испытуемый выполнит ровно е шагов и получит, таким образом, ровно е баллов. Очевидно,
р„
что
Р =
УШ
русл = УШ
Р , + Р
-1 уш
Р усл уш
е-Р
1 - Р'
усл
УШ
■ р.. . = е
УШ-1
■ р
т-
Из
откуда
получен-
ного реккурентного соотношения имеем
р.. = е
е -р е -р.
/Ш ■ ■ е 1 т1 ■ П =. ••• е рт =
£ е,-р
(2)
= еь=1
■ р
1/0
Вероятность р ■ .0 найдем из условия ■е/ р 1 1/0 ^рщ 1
I=0
Положив для удобства е
е, -р
/0 =
= 1, получим
т/ -р/ь
£еь=і /
I=0
р1/0 =
1/0
£
I=0
I
£ е, -р
,ь=1
= 1,откуда
1 Р
0,5
0 Є і Р
Рис. 2. Характеристические кривые испытуемых.
£ е, -р
,Ъ=1
р.. =-
1/Ш
т/ £ е, -р
£ е
I=0
ь=1
(3)
Формула (3) определяет политомическую модель Раша. Построим на рис. 3 типичные графики функций р = р.о, р = р.1, р = р.2 для двухшагового .-ого задания с т. = 2:
е
е
т
I
Рис. 3. Графики вероятностей в двухбалльном задании.
На рис. 3 изображены уровни трудности выполнения первого и второго шагов .-го задания. Заметим, что в общем случае первый шаг выполнения задания может оказаться легче второго шага, т.е. в.1 > в2
Перейдем к вопросам оценивания параметров в моделях Раша. Будем требовать, чтобы получаемые оценки были асимптотически несмещенными, асимптотически эффективными и состоятельными (подробнее об этом в [13]). Всем этим требованиям удовлетворяют оценки, получаемые методом максимального правдоподобия. Для простоты рассмотрим этот метод для дихотомической модели Раша.
Вероятность того, что в результате выполнения .-го задания /-ый испытуемый получит а. = 1 баллов, равна р.. Событие а. = 0 произойдет с вероятностью д. = 1 -рЗапишем вероятности возможных значений случайной величины а. в виде а.. 1—а. .
функции р. ■ д. 1] . Если задания независимы,
то вероятность того, что профиль результатов /-ого испытуемого имеет вид а/1^а/т, равна
/ \ т а.. 1—а, .
Ь Ц. в , р ) = ^р ,]] ■ д.. 1] . Функция, стоящая . ] * У У
]=1
в правой части данного неравенства, называется функцией правдоподобия профиля ответов /-го ис-
пытуемого. Значение в , при котором функция /
правдоподобия достигает максимума, принимают в
качестве объективной оценки в и называют оцен-
/
кой наибольшего правдоподобия.
Так как функции Ь/ и 1п Ь/ достигают максимума при одном и том же значении в , то рассмот-
/
рим логарифмическую функцию правдоподобия т
1п Ь. = X (а.. 1п р.. + (1 — а.. )1п q..). Необходимым / . , и и и и
.=1
условием существования экстремума является ра-Э 1п Ь. . _ Э 1п р..
де.
- = 0
Так
е. -р.
е 1 ^
1 Ъ—7Г~ = 1 - р = Ч ,
е.-р. гу 4 у
1 + е
д 1п Ь. ________1_
дв.
д 1п а
_______
де.
е-р.
е 1
е-р, =- рї,
1 + е
£ а, - р„ )■
Ьг - £ р і/ =
= 0,
(4)
І=1
где ь ■ = X а. называется первичным баллом /-ого . . =1 У
испытуемого и равен числу верно решенных им заданий теста.
( \ а.. 1—а..
Аналогичная функция ь.(а..,в,р. 1=^р. д.. у . У /]., У У / =1
составляется для вычисления оценки наибольшего правдоподобия уровня трудности .-ого задания. Для ее нахождения приходится решать уравнение
N
с. - £ р.. = 0,
/ у =1
(5)
N
где с . = X а „ называется первичным баллом .-ого
3 /=1 .
задания и равен числу испытуемых, которые верно его решили.
Система т + N уравнений (4)-(5) с т + N неизвестными в1,..., вт, в1,..., вдг имеет единственное решение [5, 7]. Ее приближенное решение можно найти обычными итерационными методами. В по-литомическом случае данная система практически не изменится и после некоторых преобразований, упрощающих ее, будет иметь вид:
т . т 3
Ь . - £ £кр/к = 0, где Ь. = і, 1 = 0,...,М = £т
]=1
. , !П .
М /
С . - £ п. £ р., = 0, где / = 1,..., т; я = 1,..., т ..
/Я г. 1 , Ук /
1=0 к=я
(6)
де.
Кроме того, М = £ т ■ - максимально возможный /■=1 /
первичный балл за весь тест, п, - число испытуемых, первичный балл которых равен У, и, наконец, С я - количество испытуемых, набравших за /-ое задание не менее я баллов.
Система (6) содержит 2М + 1 уравнений и столько же неизвестных, имеет единственное решение. Ее можно приближенно решить, например, методом касательных. Соответствующие итерации имеют вид [3]:
т
т
т
П+1) -еП)
= еу> + -1
т .
т / / ч
Ьг - £ £к рП
/ =1 к=1
£
/ =1
т
Х"11 2 {V)
£к ■рУ/к-к=1
М
/ П)
к=1
(7)
(т)
р{т+1) = р{т + _
/Я /Я
- С . + £ п. £ р.,
/я п 1 , 1/к
і=0 к=Я
М
£ пг =0
ЪрЦ
к=Я
т , \
£ р,т'
к=Я
(8)
где р.к находятся по формулам (3). Начальные приближения выбираются из условий в(0) = 1п
М - і
р{0) = 1п /Я-1 , где С,Я- количество испытуемых, рт с
/Я
набравших за/-ое задание ровно я баллов.
После каждой итерации центрируем оценки
р(т+1) р {т+1) = р{т+1) р{т+1)
р. , т.е. вычисляем р —р. -р^ ’
Оя /Я /Я
где среднее значение р
т ,
р{т+1) = і т V р{т+1).
=М £ £ррк
м /=1 к=1
Итерационный процесс ведется следующим образом: сначала делается 10 итераций по V, затем 10 итераций по р, далее - 10 итераций по V и так далее. Итерационный процесс будет завершен при выполнении условия
1
т .
X вв”"’—^* хХ (.^—р^
/=0 .=1 к=1
Точность получаемых при этом оценок характеризуется средними квадратичными ошибками:
Л
2
<е.
5 е )=
еЛ і ’
£
-1/2
£ к ^1^ -к=1
£ кр, к=1
ук
(9)
яр )=
/Я'
М
£ пг і=0
£ рук -
к=Я
Ґ т/. \
^р/к
к=Я
2 V;
-1/2
(10)
Заметим, что ошибки измерений как трудности заданий, так и уровней подготовленности испытуемых возрастают к концам распределений и минимальны в центрах распределений. Кроме того, заметим, что точность оценивания трудности заданий более высока, чем точность оценивания мер
подготовленности испытуемых. Это объясняется тем, что точность результатов зависит от объемов выборок, а число испытуемых традиционно на несколько порядков выше числа заданий в тесте.
Модели Раша относятся к параметрическим методам педагогических измерений, поскольку позволяют оценить два параметра - уровень подготовленности испытуемых и уровень трудности заданий. Рассмотрим другие тестологические характеристики тестовых заданий и тестов. В современной научной литературе важнейшими тестологическими характеристиками называют сложность, надежность и валидность [2-7]. Однако, с точки зрения автора, возможна модернизация этой достаточно условной классификации тестовых характеристик [13]. Предлагается разбить их на две группы. К первой группе отнесем параметры эффективности теста и его заданий. Сюда отнесем сложность теста, вариацию тестовых баллов, дифференцирующую способность отдельных тестовых заданий, а также различные характеристики (например, информационные функции), возникающие в современных математических теориях педагогических измерений. Ко второй группе отнесем валидность, надежность и вычлененную из нее структурированность. Заметим, что сегодня общепринято говорить не о надежности и валидности тестов, а о надежности и валидности тестовых результатов.
Определение меры структурированности знаний испытуемых включается в число методов определения надежности тестовых результатов. Однако, по нашему мнению, этот важный тестологический параметр и идеологически, и технологически отличается от других параметров надежности, поэтому может быть выделен в отдельную группу. Рассмотрим его подробнее.
Простейшим из коэффициентов, определяющих меру структурированности знаний испытуемых, можно назвать коэффициент надежности Гуттмана. Рассмотрим тест с заданиями, оцениваемыми в дихотомической шкале. Будем считать, что задания в тесте расположены по возрастанию уровня их трудности. Назовем идеальными все профили результатов испытуемых вида 10...0, 110...0, ..., 1...10, т.е. профили, в которых единицы предшествуют нулям. Легко понять почему они так называются: испытуемый правильно выполняет более легкие задания, но не справляется с более трудными.
Будем говорить, что число 0 или число 1 образует беспорядок в профиле испытуемого, если оно стоит не на своем месте относительно его идеального профиля. Например, профиль испытуемого А вида 111011070 имеет два беспорядка, образованных заданиями №4 и 8, т.к. испытуемый А набрал 6 первичных баллов и его идеальный профиль имеет вид 111111000.
Коэффициентом надежности Гуттмана назы-
вается величина, равная га = 1
£ f■
Nm
где N -
2
т
т
2
т
т
т
т
т
і=1
количество испытуемых, т - количество заданий в тесте, £ - количество беспорядков /-го испытуемого, т.е. в числителе дроби стоит общее число беспорядков в матрице. В знаменателе дроби записывается общее число заданий, которые пришлось решать испытуемым. В качестве нижней границы допустимой надежности тестового измерения по Гуттману берется 0.8.
Введем альтернативный коэффициент структурированности [15]. То, что задания в тесте расположены по возрастанию уровня их трудности, означает в1 - в2 - .. - вт- Нули и единицы, образующие беспорядки, разобьем попарно. Самому левому в последовательности нулю, образующему беспорядок и не имеющему пару, поставим в соответствие самую левую в последовательности не имеющую пару и образующую беспорядок единицу. Весом пары беспорядков 0-1 для заданий с номерами
.1 и .2 назовем отношение V = 2 ■
.1 . Коэффи-
Рт Р1
циентом структурированности результатов /-го испытуемого называется отношение суммы весов всех пар беспорядков к общему числу заданий т. Коэффициентом структурированности тестовых
N
X *
результатов назовем величину
/=1 N
Заме-
тим, что V е [0; 2], 5, е [0; 1] и 5 е[0;1]. Кроме того,
коэффициент структурированности тестовых результатов 5 совпадает с коэффициентом надежности Гуттмана в случае, если веса всех пар беспорядков всех испытуемых равны 2. В качестве нижней границы коэффициента структурированности тестового измерения предлагается брать 0.9.
Основной мотив приведенных выше рассуждений состоит в том, что ситуации неправильного решения простых заданий сильным испытуемым (или правильного решения сложных заданий слабым испытуемым) требуют специального изучения. Еще одним методом выявления таких ситуаций является анализ согласия экспериментальных данных с моделью профиля ответов испытуемых [5]. Для /-го испытуемого в политомическом случае находим простую и взвешенную статистики согласия
(а . - М {а.. I2
X(к—М к I2
(11)
к=0
/к
и
(2).
X(a/ — М а. ))2
У=1_____________________,
т .
X X (к — М (а I2- р.к . =1 к=0
(12)
где математическое ожидание
т.
М(aу■ )= X кр
Ук
Обе статистки имеют математическое ожидание, равное 1. Чем лучше экспериментальные данные согласуются с моделью Раша, тем ближе к 1 значения рассмотренных характеристик. В качестве приемлемых рекомендуется брать значения из промежутка (0.8; 1.2). Статистика и (1 более чувстви-
/
тельна к экстремально неожиданным ответам. Простая и взвешенная характеристики при помощи
« (3^ ,) 3 Б(и) (Б(и)
преобразования г = уи — 1----------1—-—1 у у 7 -
1 ' Б(и) 3
дисперсия соответствующей статистики) приводятся к стандартизированному виду. Статистики г(1) и
/
г (2)
Iподчиняются нормальному закону распределения с математическим ожиданием 0 и дисперсией
1, поэтому при уровне значимости а = 0.05 в качестве правого критического значения этих значений может быть выбрано значение 2. Если для /-го испытуемого одна из статистик не попадает в промежуток (-2; 2), гипотеза о согласии профиля ответов с моделью измерения может быть отвергнута.
Комплексное рассмотрение рассмотренных параметров позволяет обнаруживать искажения результатов массовых тестирований, связанных с нарушением регламента проведения тестирования. Приведем анализ структурированности результатов теста на примере испытуемых, выполнявших один из вариантов контрольных измерительных вариантов единого государственного экзамена 2009 г. по математике в Республике Башкортостан. Общее число испытуемых, выполнявших данный вариант КИМ, равно 825. В табл. 1 приведены сведения о количестве испытуемых, параметры структурированности результатов и статистик согласия которых не попали в соответствующие приемлемые интервалы.
Таблица 1
Количество испытуемых, результаты которых не попадают в приемлемые интервалы
Параметр Г О 5 и(1) 1 г« 1 и(2) г г(2) 1
Количество 200 8 22 33 0 0
испытуемых
Из табл. 1 видно, что коэффициент надежности Гуттмана следует признать достаточно грубым инструментом при анализе результатов испытуемых. Наоборот, статистики согласия и(2) и г(2)
нечувствительны к экстремально неожиданным ответам и «не видят» их.
В табл. 2 приведены сведения о тех испытуемых, у которых не менее 4 параметров структури-
к=0
2
рованности результатов и статистик согласия не попали в соответствующие приемлемые интервалы.
Рассмотрим, например, профиль ответов испытуемого №513: 0 0 0 1 0 1 1 1 1 0 0 1 0 1 0 1 0 1 1 1 1 0 0 0 0 0. Данный испытуемый не смог решить 6 из 10 простейших заданий части А, но справился с 8 из 12 заданий части В. Скорее всего, ученик получил помощь извне.
Из табл. 2 видно, что даже совокупность нескольких статистик не может быть абсолютно надежным индикатором наличия или отсутствия искажений, и требует дополнительного анализа. Действительно, испытуемые № 776 и 792 набрали столь низкие баллы, что могут быть исключены из анализа. В целом данная методика показала, что приблизительно 0.5% школьников, выполняющих ЕГЭ, имеют искаженные результаты, вызванные различными причинами.
Если в формулах (11) и (12) проводить суммирование не по индексу . (заданиям теста), а по переменной / (испытуемым), то получим простую и взвешенную статистики согласия экспериментальных данных с моделью измерения ответов всех испытуемых на каждое отдельное задание теста. Их можно приводить к стандартизованному виду, и для них приемлемыми считаются те же значения, что и для анализа испытуемых. Например, для заданий варианта КИМ ЕГЭ по математике 2009 г., который мы рассматривали выше, единственным заданием с отклоненной статистикой из 26 предложенных является задание А7. Это несложное задание с уровнем трудности Р7 = -0.96, для которого
и(1) = 127. В этом случае полезно провести иссле-
а..—р
дование статистики х =—-------------— - нормирован-
. р.(1 — р.)
ного уклонения значения а. от ее математического ожидания Ма) = р. для каждого испытуемого. Статистика х. < -2, если вероятность правильного ответа больше 0.8, а испытуемый неожиданно дает неверный ответ, и х. > 2, если вероятность правильного ответа меньше 0.2, а ответ неожиданно правильный. В нашем случае для 55 (6.7% от общего
Результаты испытуемых, которые
числа) испытуемых х. < -2, и для 148 (18% от общего числа) испытуемых х. >2. Таким образом, А7 вводит в заблуждение сильных школьников, с одной стороны, а с другой - не вызывает проблем у слабых. Обратим внимание, что эта задача относится к новому типу заданий, которые до 2009 г. в ЕГЭ не встречались. Видимо, этим фактом объясняется ее феномен.
Выделение понятия структурированности результатов теста позволяет конкретизировать понятие надежности теста как способности давать подобные результаты при его применении к одинаковым выборкам тестируемых. Выделяется несколько типов надежности: реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста; надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами; надежность частей теста (метод расщепления) - анализ устойчивости результатов отдельных блоков теста, т.е. определение внутренней согласованности теста. Иногда о надежности теста говорят как о частном случае устойчивости результатов тестирования, включая последнюю в число параметров валидности теста [5].
Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается валидностью. В отличие от надежности обоснование валидности теста представляет собой существенно более сложную задачу методологического характера. Валидность - это методологическая характеристика способности теста измерять то, для чего он был создан. В понятие валидности входит самая разнообразная информация о тесте. В настоящее время нет какой-либо общепринятой классификации видов валидности. Мы приведем следующие ее виды: 1) диагностическая; 2) содержательная;
3) соответствия результатов; 4) конструкта (латентная); 5) критериальная (эмпирическая); 6) техническая. Валидность критериальная делится в свою очередь на прогностическую, текущую и синтетическую; техническая включает в себя организационную, композиционную и технологическую валидности.
Таблица 2
попадают в приемлемые интервалы
Номер испытуемого Балл ЕГЭ Г О 5 и(1) г(1) и (2) г(2)
513 44 0.43 0.81 1.85 11.79 0.38 0
184 60 0.52 0.90 1.49 7.44 0.15 0
361 50 0.52 0.87 1.38 5.86 0.24 0
515 44 0.62 0.87 1.33 5.16 0.28 0
731 30 0.52 0.90 1.47 7.10 0.38 0
776 21 0.71 0.90 2.32 16.86 0.82 0
792 17 0.71 0.94 1.72 10.27 0.74 0
Критерии валидности теста основываются как на параметрических, так и непараметрических подходах. Набор параметрических характеристик столь широк, что использует весь диапазон методов математической статистики от вычисления простейших коэффициентов корреляции до дисперсионного анализа, статистической проверки гипотез и методик, основанных на ТМПТ.
В качестве примера продемонстрируем проверку гипотезы о близости теоретической характеристической кривой задания А7 КИМ ЕГЭ по математике 2009 г. с эмпирическими данными. Нулевая гипотеза н в данном случае будет иметь вид:
модель Раша адекватно моделирует вероятность правильного ответа испытуемых из генеральной совокупности на данное задание.
Для проверки гипотезы применим критерий
хи-квадрат Пирсона. Пусть пі -число испытуемых,
набравших і первичных баллов, тогда п0 + ... + п36 = 825.
Пусть п - число испытуемых, набравших і пер-17
вичных баллов и правильно выполнивших задание А7
п._
п _
р17 =
Тогда ^ / эмп тeop г где эмп Пі7
Тогда Унабл = У Ci-\pi7 - Pi7 I , гдЄ Pi7 = —
rneop
Pi7 находится из (1), весовой множитель
( _ тeop )2
Окончательно, у2 = slJl L
Л і
г rneop Pi7
набл
= S
тeop п. ■ p._ r г r її
Выберем уровень значимости а= 0.01 и най-50.89 и у2 = 57.08. Так как
^набл
дем, что у2
^Kpит
у2 > у2 , то заключаем, что нулевая гипотеза
*"набл ^ Kpurn
отвергается.
В последние годы появились работы, в которых методы ТМПТ применяются к обработке результатов психологических тестов [5].
ЛИТЕРАТУРА
1. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, Denmark: Danish Instittute for Educational Research, 1960. 126 p.
2. Wright B., Stone M. Best test design. Chicago: Mesa Press, 1979. 220 p.
3. Linden W., Hambleton R. Handbook of Modern Item Response Theory. NY: Springer-Verlag, 1997. 510 p.
4. Аванесов В. С. // Педагогические измерения. 2005. №4. С. 91-116.
5. Карданова Е. Ю. Моделирование и параметризация тестов: основы теории и приложения. М.: Федеральный центр тестирования, 2008. 303 с.
6. Нейман Ю. М., Хлебников В. А. Введение в теорию моделирования параметризации педагогических тестов. М.: Прометей, 2000. 168 с.
7. Челышкова М. Б. Теория и практика конструирования педагогических тестов. М.: Логос, 2002. 432 с.
8. Харрасов Е. Г., Султанаев Я. Т., Морозкин Н. Д., Екомасов Е. Г., Цыганов Ш. И. // Тез. докл. Шестая научно-методическая конференция «Инновационные методы и средства оценки качества образования». 24-25 апреля 2008. Москва: АСТ-центр, 2008. С. 56-58.
9. Харрасов М. Х., Султанаев Я. Т., Екомасов Е. Г., Цыганов Ш. И. // Вестник Башкирского университета. 2004. №4. С. 3-8.
10. Харрасов М. Х., Султанаев Я. Т., Екомасов Е. Г., Цыганов Ш. И. Особенности методики подготовки к ЕГЭ по физике и математике. Уфа: РИО БашГУ, 2004. 76 с.
11. Султанаев Я. Т., Екомасов Е. Г., Максутов А. Д., Цыганов Ш. И., Тарасенко Е. М. // Всероссийская конференция по проблемам общественных и педагогических наук. УТИС. 1 декабря 2007. Уфа: РИО УТИС, 2007. С. 81-83.
12. Цыганов Ш. И. Тестовые технологии в непрерывных образовательных средах. Уфа: РИО БашГУ, 2006. 92 с.
13. Цыганов Ш. И. Математические теории педагогических измерений. Уфа: Эдвис, 2007. 92 с.
14. Цыганов Ш. И. Математическая обработка результатов педагогического тестирования. Уфа: РИО БашГУ, 2007. 72 с.
15. Цыганов Ш. И. // Тез. докл. Девятая Всероссийская научно-практическая конференция «Развитие тестовых технологий в России». 27-28 ноября 2007. Москва: Федеральный центр тестирования, 2007. С. 147-148.
п
noc-тупила в peдакцuю 15.09.2009 г.