О
Методология
МАТЕМАТИЧЕСКИЕ ОСНОВЫ RASCH MEASUREMENT
Олег Деменчёнок
Восточно-Сибирский институт МВД России [email protected]
Рассмотрены основы Rasch Measurement. Проанализированы достаточные статистики для педагогического измерения, выявлена зависимость существования этих статистик от метода подбора параметров модели Раша. Показана взаимосвязь модели Раша и пятым частным случаем закона Терстоуна. Сформулированы критерии выбора модели измерения.
Ключевые слова: математические модели педагогических измерений, модель Раша, Rasch Measurement, Item Response Theory, закон Терстоуна.
Введение
Rasch Measurement (RM) — направление современной теории педагогических и психологических измерений, основанное датским математиком и статистиком Георгом Рашем. Ключевым элементом RM является математическая модель. Эта модель и направление в целом находят применение не только в психологии и педагогике, но и в других областях, таких, как изучение общественного мнения, рыночной конъюнктуры и т.д. К сожалению, сам Раш не успел
I
измерения
-Q-
-1-
Аванесов В.С. Применение тестовых форм в Rasch Measurement //Педагогические измерения.
№ 4. 2006.
Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copengagen, 1960, Danish Institute of Educational Research (Expanded edition, Chicago. 1980. Mesa Press. 199 p.).
конкретизировать положения своей революционной теории измерений до уровня, достаточного для решения многих прикладных задач.
Rasch Measurement явился исходной теоретической базой Item Response Theory (IRT) — теории измерений, использующей кроме модели Раша и другие математические модели. По мнению В.С.Аванесова, RM нельзя рассматривать как частный случай Item Response Theory. Научный статус RM много выше IRT, поскольку представляет собой открытие в области систем педагогических измерений. RM позволяет получить непересекающиеся графики заданий теста, что считается существенным преимуществом для построения интервальной шкалы в педагогических измерениях1.
Математическая основа модели Раша
В работе2, ставшей началом нового направления теории педагогических измерений, Георг Раш предпринял попытку вывода уравнения модели, определяющей вероятность правильного ответа испытуемого на тестовое задание.
По сути, модель Раша — это научная гипотеза, основанная на следующих предположениях:
1) мера уровня подготовленности любого испытуемого Ц (т.е. количественная характеристика уровня подготовленности испытуемого по определённому множеству заданий теста) не должна зависеть от уровня трудности тестовых заданий Ц е]0;®[;
2) вероятность правильного ответа испытуемого Р^ зависит только от уровня подготовленности испытуемого и от уровня трудности тестового задания Ь е]0;да[ (т.е. количественной характеристики тестового задания, не зависящей от выборки испытуемых и отражённой на определённой шкале по конкретному разделу определённой области знания) или P=f(t,b);
3) ответы испытуемых на задания теста статистически независимы, из чего следует взаимная независимость измеряемых параметров.
Предположим, что уровень трудности Ь1 первого задания в k раз больше уровня трудности Ь2 другого задания:
¿1 = kb2.
(1)
С учётом принятых предположений первое задание должно оказаться в k раз труднее для каждого испытуемого.
Предположим также, что уровень подготовленности первого испытуемого ^ в k раз
-е-
больше уровня подготовленности другого испытуемого ¿2
Ц = к •
2-
(2)
Полагая уровни подготовленности и уровни трудности положительными величинами, разделим уравнение (1) на уравнение (2)
Ъ. к • Ъ Ъ
/ к •
и
(3)
°1 °2 °2
Следовательно:
• вероятность правильного решения более подготовленным первым участником более трудного первого задания должна совпадать с вероятностью правильного решения вторым участником второго задания;
• вероятность правильного ответа определяется отношением уровня подготовленности испытуемого к уровню трудности тестового задания Р=/(//ъ). Поэтому модель Раша называют однопараметрической, хотя она оперирует двумя переменными.
Конкретный вид аналитической зависимости Р = /(//ъ) неизвестен, но эта функция должна отвечать ряду условий.
1. Значение вероятности правильного ответа должно быть в пределах от нуля до единицы, т.е. область значений Р е [0; 1].
2. Функция Р = /(■/ъ) должна монотонно возрастать, так как при постоянном уровне трудности задания большему значению уровня подготовленности
должна соответствовать большая вероятность правильного ответа.
3. Логично предположить, что при г/ъ > 1 (уровень подготовленности тестируемого больше уровня трудности задания) вероятность правильного ответа Р больше вероятности ошибки, т.е. Р > 0,5. Чем больше отношение уровня подготовленности к уровню трудности задания, тем легче испытуемому решить задание. Значит, с увеличением параметра г/ъ вероятность правильного ответа должна возрастать. Но вероятность не может быть больше единицы, поэтому вероятность правильного ответа будет неограниченно приближаться к единице (асимптотически стремиться к единице), т.е.
НшР( %)=1.
X
4. Аналогичный ход рассуждений приводит к выводу: если уровень подготовленности меньше уровня трудности задания, то вероятность правильного ответа Р < 0,5; и с уменьшением параметра г/ъ вероятность правильного ответа Р уменьшается, стремясь к нулю, т.е.
Нш Р( уЪ) = 0.
/Ъ
5. В случае равенства уровня подготовленности и уровня трудности задания вероятность правильного ответа Р = 0,5. Характер взаимосвязи между параметром модели и вероятностью правильного ответа приведён на рис. 1.
I
измерения
-Q-
Логистической называется функция с S-образ-ной формой графика, принимающая значения в интервале от нуля до единицы. (Электронный учебник по статистике.
Москва, StatSoft; http://www.statsoft.ru/ home/textbook/ glossary/GLOSS_L.HTML).
Георг Раш предложил первую форму записи своей модели в виде:
P = ■
t
t + b 1 + t/
(4)
Нетрудно убедиться, что уравнение (4) отвечает всем сформулированным выше требованиям к функции Р = Дг'/ь).
Модель Раша в виде
логистической
функции
Для построения шкалы измерений оказалось удобным выражать уровень подготовленности t и уровень трудности Ь в логарифмическом масштабе:
в = Ь(0,
в = 1п(Ь), где в и в — логарифмы уровней подготовленности и трудности или значения уровней подготовленности и трудности, измеряемые в логарифмическом масштабе (в соответствии с принятой терминологией, далее под уровнями подготовленности и трудности будем понимать в и в).
Тогда модель Раша примет
вид:
ae-ß
P = ■
e-ß ■
1+% 1+e/ß 1+e /b /eß (5)
Уравнение (5) — наиболее известная форма записи модели Раша. Заметим, что модель Раша относится к логистическим функциям3, общее уравнение которых имеет вид:
f (x ) = -
1 + eX
Логарифмическая шкала даёт возможность измерять уровни подготовленности в и уровни трудности в в общем масштабе. За единицу шкалы принят логит (от англ. log odds unit — единица логарифмической разницы). Шкала характеризуется равными линейными интервалами (т.е. расстояние между 1 и 2 равно расстояниям между 2 и 3, между 10 и 11 и т.д.). Известны математические выкладки4,5, подтверждающие корректность модели Раша в виде логистической функции.
Исходя из положенных в основу модели Раша предположений, сравним уровни трудности двух заданий. Задания i и j можно различить по уровню трудности только тогда, когда частоты ответов испытуемых на эти задания различаются. Для сравнения заданий i и j необходимо посчитать, как часто испытуемые отвечали правильно на задание i, в то время как на задание j отвечали неправильно, и соотнести полученное с тем, как часто происходили обратные события.
Количественное сравнение трудности заданий i и j на основе этой пары взаимных значений требует в качестве объективного инструмента вероятностную модель, т.е. сравнение вероятностей. Обозначим %i — результат выполнения i-го зада-
ния X = 1 при правильном ответе, Xi = 0 при неправильном), Р(х) — вероятность исхода х^.
Учитывая независимость тестовых заданий, отношение уровней трудности заданий I и ] можно записать в виде Р Р ■ Р
(х =1, X: =0) 1(х1 =1) X, =0)
P P ■ P
( xt =0, Xj =1) ■'( xt =0) ■'( Xj =1)
= P ■ (1 - Pj ) (1 - P ) ■ P, '
(6)
где РI и Р] — вероятности правильного ответа на 1-е и]-е задание.
В соответствии с предположением о зависимости вероятности правильного ответа от уровня подготовленности испытуемого и уровня трудности тестового задания, уравнение (6) не должно зависеть от испытуемых. Другими словами, отношение уровней трудности двух заданий должно быть равным для любой пары испытуемых п и т:
Р ■ (1 - Р ) Р ■ (1 - Р )
т ^ п ' _ Ш1 ^ т '
(1 - Р ) ■ Р ~ (1 - Р ) ■ Р '
У т / п У та' т
Выполнение условия (7) означает независимость уровней трудности заданий от параметров испытуемых. Таким образом, соблюдается сформулированное Л.Л. Терстоуном и другими требование независимости (инвариантности) средств измерения от объекта измерения6.
Для упрощения оценки значений уравнения (7) мы можем выбрать ] = 0 и т = 0. Тогда при
-Q-
Wright B.D., Stone M.H. Measurement Essentials, 2nd Edition. Wilmington: Wide Range Inc, 1999.
LinacreJ.M.
The Rasch Model cannot be «Disproved»! // Rasch Measurement Transactions, 1996. 10:3. P. 512-514.
Thurstone L.L. Attitudes can be measured //American Journal of Sociology. Vol. 33. January. 1928. 529-544 pp.
x
e
I
измерения
-е-
шкалировании задание г будет сравниваться с заданием у = 0, а испытуемый п — с испытуемым т = 0. Можно также выбрать шкалу измерения так, чтобы испытуемый т = 0 с вероятностью 50% выполнял задание у = 0:
Рту = Р00
1 - Р
1 п
= 0,5
Р
■*■ ЛЛ
-=1.
1 - Р
т
Р
1 -Рп0 (1 -Рк) '0,5
1 - Р, 1 - Р_п 1 - Р,
1
/ = Рп0
П = 1 - Р
1 ^ „г
до бесконечности, примем за величину, обратную его уровню трудности
1
1-Р
1-Р
(10)
Подставив у = 0 и т = 0 в выражение (7), получим:
Рш (1 - Р 0) = Р (1 - Р00) (1 - Рш )Рп0 (1 - Р )Р' Рт = Рп0 Р • (1 - 0,5) (8)
0г * 0г
т.е. уровень трудности любого задания отношением вероятности неверного выполнения этого задания стандартным испытуемым, уровень подготовленности которого принят за единицу, к вероятности правильного решения.
Шкала, определённая отно-
Р
быть
пре-
Первый сомножитель правой части уравнения (8), зависящий только от свойств испытуемого п и изменяющийся от нуля до бесконечности, примем за уровень его подготовленности:
(9)
т.е. уровень подготовленности любого испытуемого определяется как отношение вероятности верного выполнения им стандартного задания, уровень трудности которого принят за единицу, к вероятности неверного выполнения этого задания.
Второй сомножитель правой части уравнения (8), зависящий только от свойств г-го задания и изменяющийся от нуля
1 - Рт'
образована в шкалу с равными линейными интервалами путём логарифмирования:
, ( Рш ^ , ( Рп0 ^ 1п I —— I = 1п I —п— I +
^ 1 - Рпг V1 - Рп 0 /
( Р ^ (11)
+ 1п I 1= 1п г- 1п Ъ. = к '
V1 - Р,г) п г
= в -в.
После очевидных преобразований получаем уже знакомое уравнение модели Раша (график этой функции приведён на рис. 2):
Р
1 - Р„,
Г) в.-в п |
Р = е п ' - Р • е
п^ = е°.-в
в -в,
Рш + Рп • ев-в = ев-в
рп1(1 + ) = е
ев-в
Р =
вп-в
1+е
в -в ■
-О-
-Q-
Рис. 2. График модели Раша
Достаточные статистики для модели Раша
Одно из преимуществ модели Раша — существование т.н. достаточных статистик7. Некоторая функция р (х), рассчитанная по результатам наблюдений Х1, Х2 ... хп, является достаточной статистикой тогда и только тогда, когда плотность распределения /ш (х) может быть записана в виде8:
п
П Л( х, ) = ёМ Хг ))' К Хг )• (12)
г=1
Это означает, что условие существования достаточной статистики заключается в возможности представления плотности распределения в виде двух сомножителей, один из которых (И) не зависит от параметра ш, а другой (ё) зависит, но не
непосредственно от результатов наблюдений, а только через статистику р (х).
Достаточные статистики позволяют уменьшить объём статистических данных без потери информации об интересующем нас параметре.
Рассмотрим обоснование достаточных статистик для модели Раша.
Задача определения уровней подготовленности испытуемых и уровней трудности заданий по исходным данным тестирования заключается в подборе таких значений этих параметров, чтобы результаты тестирования и расчёт по модели наилучшим образом совпадали. Наиболее известный критерий оптимальности подбора параметров основан на методе максимального правдоподобия. Этот
Достаточная статистика — совокупность функций от результатов наблюдений, которые содержат ту же статистическую информацию о неизвестных величинах, что и сами результаты наблюдений. (Большая советская энциклопедия, электронная версия. М.: Большая Российская энциклопедия, 2002).
Андронов А.М., Копытов Е.А., Гринглаз Л.Я. Теория вероятностей и математическая статистика: Учебник для вузов. СПб.: Питер, 2004. 461 с.
I
измерения
-Q-
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. М.: ЮНИТИ, 1998.
критерий требует выбора таких параметров, при которых вероятность получить в процессе измерения фактически наблюдаемые величины была бы максимальной. В формальной записи это соответствует максимуму произведения вероятностей всех наблюдаемых независимых событий9:
N
Р1 ■ Р2 ■■■■ ■ PN =П Рг ^ ШаХ- (13)
г =1
По модели Раша можно найти вероятность результата х при решении г-м тестируемым :-го задания:
„X, (в,-в,)
(14)
П№(*)=
i=1 j=1
n m exj (в-в)
ПП
¿=1 j=1 1 + e
в.-в,
max, (15)
где п — количество испытуемых; т — число тестовых заданий.
Зная, что еаеь = еа + ь, преобразуем числитель:
YLxj(e. -в,)
max.(16)
P, (xa) =
ex, (в-в,) в,-в, '
1+e
где хг, — результат выполнения задания,х = 1 при правильном ответе, х = 0 при неправильном ответе.
Действительно, в случае правильного ответа (14) равноценно модели Раша:
е(в-в,)
Р (хи = 1) =
Г] П (1 + е"')
г=1 ,=1
Введём обозначения: Яг — сумма результатов выполнения тестовых заданий г-м тестируемым (Я, также называют первичным или исходным баллом испытуемого):
т
Я = 1 ,
,=1
з, — сумма результатов выполнения ,-го задания всеми тестируемыми (первичный или исходный балл задания):
в,-в,
1 + е'
Выражение (13) корректно и в случае неправильного ответа:
s, =I х, •
i=1
Pj(Xj= 0) =
e
1+e
в-в,
1 + ев-в' -ев-в'
1+e
в,-в,
в-в,
= 1 -
-= 1 - P(x, = 1).
Используя Я, и з,, заменим
п т п
г =1 , = 1 г =1
п т т
г =1 ,=1 ,=1
Таким образом, уравнение (16) принимает вид:
1 + ев-в, '
Тогда критерий оптимальности подбора параметров (13) примет вид:
IR,A-Zsв , t'-1 ,=1
Z RiA,
n m . ч.
ПП(1 + ев'~в )
-= e'-
i=1 j=1
-Q-
e
n
1
1
-Q-
I s,e,
i-1
(17)
е- ПП(1 + ев-ву)
г=1 у=1
Нетрудно заметить, что в выражение (17) не входят исходные данные тестирования Ху, т.е. они не нужны для нахождения параметров модели. Данные Ху преобразованы в исходный балл испытуемого (который вошёл в первый сомножитель правой части уравнения) и в исходный балл испытуемого (второй сомножитель правой части). Из уравнения (17) следует, что уровень подготовленности любого испытуемого полностью определяется суммой набранных им баллов, т.е. исходный балл — достаточная статистика для уровня подготовленности. Аналогично, для нахождения уровня трудности задания из всего объёма исходных данных требуется только сумма результатов выполнения этого задания всеми тестируемыми, т.е. сумма правильных ответов по заданию является достаточной статистикой для уровня трудности.
Заметим, что достаточные статистики модели Раша существуют только для решения по методу максимального правдоподобия. При выборе других критериев оптимальности параметров модели Раш достаточные статистики отсутствуют. Например, при подборе параметров модели Раша по методу на-
именьших квадратов критерий подбора параметров принимает Т10:
. 2
вид
III
i =1 j=1V
Г е(в- ) ^2
x --
Je,-в,)
^ mm. (18)
1 + е
В этом случае для подбора параметров нужны все значения исходных данных тестирования Ху, которые нельзя заменить какими-либо достаточными статистиками. Аналогично можно доказать отсутствие достаточных статистик для уровней подготовленности испытуемых и уровней трудности заданий при педагогических измерениях по двух- и трёхпараметрическим моделям.
Преимущества
достаточных
статистик
Первое и самое очевидное — упрощение расчётов при нахождении уровней подготовленности испытуемых и уровней трудности заданий. Исходная матрица (таблица) данных тестирования Ху размером пт полноценно заменяется значениями сумм по каждой строке и каждому столбцу, количество которых равно п + т. Например, при обработке результатов выполнения теста из 50 заданий тысячей студентов 50000 (п-т = 50-•1000 = 50000) результатов решения тестовых заданий можно заменить 1050 суммами
-Q-
Деменчёнок О.Г. Компьютерная программа для подбора параметров основных моделей Item Response Theory // Педагогические измерения. 2008. № 2. С. 28-42.
I
измерения
-Q-
-n-
Толстова Ю.Н. Измерение в социологии: Учебное пособие. М.: Инфра-М, 2009.
288 с.
Thurstone L.L. A law of comparative judgment // Psychological Review. Vol 34(4). Jul 1927. 273—286 pp.
(п + т = 50 + 1000 = 1050), т.е.
объём данных может быть уменьшен в 47,6 раза. Однако вручную такую обработку выполнить нереально, а современная компьютерная техника способна обрабатывать данные без такого упрощения. Поэтому первое преимущество нельзя назвать весомым.
Второе преимущество — полное соответствие уровней подготовленности исходным баллам испытуемых, а уровней трудности — числу правильных ответов на задания. Это соответствие нелинейное, но сохраняющее упорядоченность, то есть большему исходному баллу будет соответствовать больший балл тестовый. Уровни подготовленности всех участников, набравших одинаковые исходные, будут совпадать, т.к. являются функциями равных достаточных статистик.
Другими словами, все испытуемые, решившие правильно одинаковое количество тестовых заданий (безразлично каких), получат одинаковую оценку подготовленности. Благодаря этому оценивание становится относительно прозрачным, поскольку испытуемый с большим исходным баллом может быть уверен в получении более высокого балла по уровню своей подготовленности на латентной шкале уровня подготовленности.
Модель Раша и закон Терстоуна
Одним из первых начал применять математические методы в психологии и социологии американский учёный Луис Леон Терстоун. Поиски «объективного в субъективном» привели Терстоуна к открытию в 1927 году т.н. закона (уравнения) сравнительного суждения, позволяющего при определённых допущениях сравнивать интенсивности не только количественных, но и качественных параметров. Это уравнение применяется в социальной психологии для оценки суждений при анализе общественного мнения, количественном изучении этноцентризма, психологии потребительских групп и т.д.
Закон сравнительного суждения Терстоуна на русском языке можно сформулировать следующим образом: искомые шкальные значения каких-либо двух объектов (т.е. их субъективные веса) тем далее отстоят друг от друга, чем чаще респондент предпочитает один объект другому (отмечает, что один объект «тяжелее» другого) при многократном предъявлении ему соответствующей пары объ-ектов11.
Аналитически закон Тер-стоуна представлен в виде зави-симости12:
(19)
где Бг и Бу — значения г-го и у-го параметра на шкале измерений; сг2 и су2 — дисперсии г-го и у-го параметра; гу — частота, с которой зарегистрированные значения Бг оказались больше значений Бу, выраженная единицами нормированного стандартного отклонения (см. формулу 20); г — коэффициент корреляции между г-м иу-м параметрами.
Замена реальных значений единицами нормированного стандартного отклонения г используется для приведения эмпирического распределения к стандартному нормальному распределению, для которого среднее значение случайной величины равно нулю, а дисперсия и стандартное отклонение — единице13. Замена производится по формуле:
х - х
г = -
О
Первый случай — это сама исходная общая форма закона (19). Второй случай предусматривает изменение экспериментальной методики, обращаясь от оценок, производимых одним испытуемым, к групповым оценкам. Каждый испытуемый в этом случае производит только одно сравнение. Третий, четвёртый и пятый частные случаи основаны на дополнительных допущениях14, которые изменяют аналитическое выражение закона Терстоуна.
Так, III случай закона Тер-стоуна справедлив при отсутствии корреляции (гг = 0), что приводит общую форму (19) к следующему виду:
2
Б - Б у =
О:'
(20)
где х — значение случайной величины; х — среднее значение; о — стандартное отклонение.
С точки зрения психометрической теории, закон сравнительного суждения Терстоуна определяет модель измерения. Ввиду высокой сложности практических измерений на основе исходной формы закона (19) Терстоун выделил несколько частных случаев (вариантов) закона сравнительного суждения.
IV случай закона Терстоуна основывается на допущении, что гг = 0 и что дисперсии мало отличаются друг от друга, т.е. Ог = су + й, где й мало по сравнению с Ог. Тогда выражение (19) преобразуется:
Б - Б у = г^О + й )2 +0,2.
Раскрывая скобки и делая ряд преобразований и упрощений, получаем окончательное выражение IV случая закона:
Бг - = гЧКО1 + О )>
где & — постоянный множитель.
Наиболее известен V случай закона Терстоуна, в котором значения параметров считаются независимыми (т.е. коэффициент
Кибзун А.И. и др. Теория вероятностей и математическая статистика. Базовый курс с примерами и задачами. М.: Физматлит, 2002. 224 с.
-14-
Гусев А.Н., Измайлов Ч.А., Михалевская М.Б. Измерение в психологии: общий психологический практикум. 2-е изд. М.: Смысл, 1998. 286 с.
I
измерения
Maydeu-Olivares A. Thurstone's Case V Model: a Structural Equations Modeling Perspective. //Recent Developments on Structural Equation Models. Series: Mathematical Modelling: Theory and Applications, Vol. 19, 2004. 360 p.
Bradley R.A., Terry M.E. Rank analysis of incomplete block designs, I. the method of paired comparisons. //Biometrika, 1952. № 39. 324-345 p.
-17-
Luce R.D. Individual Choice Behaviours: A Theoretical Analysis. New York: J. Wiley, 1959.
Andrich D. Relationships Between the Thurstone and Rasch Approaches to Item Scaling // Applied Psychological Measurement, 1978. №2.
451-462 p. -19-
Birnbaum A. Some Latent Trait Models and Their Use in Inferring an Examinee's Ability / In: F.M. Lord and M.R. Novick. Statistical Theories of Mental Test Scores. Reading, Mass: Addison-
корреляции равен нулю), а дисперсии — равными:
- Sj
zj =
^2 + a,2
Si - S,
a
где
а = = 42 ■а1.
(21)
При этом вероятность того, что Бг больше Б,, может быть получена непосредственно из частоты случаев, в которых ,-й параметр оценен больше, чем г-й, в предположении, что значения разности Бг - Б, распределены согласно функции нормального распределения15:
1 * -
Р(Бг > Б,) = е 2 ё2• (22)
Как известно, значения интегральной функции нормированного нормального распределения с точностью до сотых совпадают со значениями логистической функции при изменении масштаба аргумента с коэффициентом 1,7:
1 '
1 + e1
2п
'dz
1 + e1
1,7(S -S: )/a
1 + е4'7( б, - )/* 1 + е"
где с =1,7/с — константа, не зависящая ни от объектов, ни от субъектов измерения.
С( Si -S: )
c(sî-S: ) '
Изменив масштаб шкалы измерения с коэффициентом пропорциональности с, можно привести (24) к виду:
-Б)
е (25)
P(Si > S, ) = ^^ 1+eij
< 0,01.(23)
Тогда уравнение (22) можно переписать следующим образом:
e1,7z
P (S, > S, )f
(24)
Выражение (25) определяет вероятность того, что параметр Si больше параметра Sj. Это уравнение известной в психологии и социологии модели Бред-ли-Терри-Льюса (Bradley-Terry-Luce)16'17, которая применяется для выявления предпочтений путём попарного сравнения.
Применительно к педагогическим измерениям, считая параметрами Si и S: уровень подготовленности испытуемого в и уровень трудности задания ß, получим уравнение модели Раша18: ee-ß
P = —-
1 + ee-ß
Таким образом, модель Раша соответствует V случаю закона Терстоуна. Следует отметить, что этому случаю соответствует целый класс моделей вида:
ec(e-ß)
P = —-, (26)
P 1 + ec(e-ß), V '
где с — константа, не зависящая от тестовых заданий и испытуемых (для модели Раша с =1).
Уравнение (26) очень напоминает двухпараметрическую модель, предложенную А. Бирн-баумом19:
ea(e-ß)
P =■
1+e
a(e-ß) '
(27)
e
e
где а — второй параметр модели, называемый различающей способностью тестового задания (чем больше значение различающей способности а, тем ближе к вертикали центральная часть графика задания).
Однако между уравнением (26) и двухпараметрической моделью есть принципиальное различие: хотя константа с постоянна, каждое задание характеризуется собственным значением различающей способности (т.е. aj Ф const). Двухпараметри-ческая модель совпадёт с уравнением (26) и соответствует V случаю закона Терстоуна толь-
ко при одинаковой разрешающей способности всех заданий (aj = const).
Графически это можно проиллюстрировать графиками, представленными на рис. 3.
На графиках показана зависимость вероятности правильного ответа от уровня подготовленности испытуемого для пяти тестовых заданий с равномерно возрастающим уровнем трудности bi = —2, ¿2 = —1, Ьз = 0, ¿4=1 и ¿5 = 2. Три первые диаграммы (рис. 3, а—в) соответствуют уравнению (26) при различных значениях константы: с =1 (т.е. модель Раша, рис. 3, а), с = 2
-5-4-3-2-10 1 2 3 4 5
-5 -4 -3 -2 -1 0 1 2 3 4 5
а)
б)
-5 -4 -3 -2
в) г)
Рис. 3. Зависимость вероятности правильного ответа от уровня
подготовленности испытуемого (-— задание с уровнем
трудности в = -2;----задание с в = -1; - ■ - ■--задание с
в = 0;......— задание с в =1;......— задание с в =2)
е
I
измерения
-Q-
-20-
Partchev I. A visual guide to item response theory. — Jena: Friedrich-Schiller-Universitat, 2004. 61 p.
-21-
Аванесов В.С. Применение тестовых форм в Rasch Measurement //Педагогические измерения.
№ 4. 2006.
Деменчёнок О.Г. Проблема анализа погрешности педагогических измерений. //Педагогические измерения, № 1, 2009.
(рис. 3, б) и с =0,5 (рис. 3, в). Легко заметить, что графики заданий на этих рисунках не пересекаются.
На рис. 4 представлены результаты расчёта по двухпара-метрической модели при значениях различающей способности «1=1, а2 = 2, аз = 0,5, а4 = 4 и а5= 1,5 (рис. 3, в). На этом рисунке графики заданий пересекаются, что является наглядным свидетельством несоответствия двухпараметрической модели V частному случаю закона Терстоуна. Нетрудно показать, что соответствие недостижимо и для трёхпараметрической модели. Указанное обстоятельство выделяет модель Раша из ряда моделей педагогических измерений, что многие теоретики считают важным преимущест-вом20,21.
Однако, на взгляд автора, это преимущество не стоит переоценивать. Вспомним условия, при которых достигается соответствие модели Раша и закона Терстоуна:
• независимость измеряемых параметров;
• равенство дисперсий измеряемых параметров;
• распределение разности параметров по нормальному закону распределения.
Первое условие — независимость измеряемых параметров — стандартное для педагогических измерений предположение, и его справедливость ос-
паривать не будем. Выполнение третьего условия — распределение разностей измеряемых параметров по нормальному закону распределения — также не очевидно.
Представляется весьма сомнительным выполнение второго условия. Истинные значения дисперсии уровней подготовленности Биг и уровней трудности заданий Б^, неизвестны, но можно оценить предельные значения этих вели-
т22:
А = 2 =-
1
Pij (1 Pij )
/ j=1 1
42
I
j =1
?в--в' f.
1+e 1
1-
ee■ -pj ^
1+e
в. -в,
j, -в,
y^_
j1! (1 + ев'~в, )
De, =°в,2 =-
y Pj (1 - Pj)
1
y
e
в,-в<
г1 (1 + ев'~в )
Для проверки предположения о равенстве дисперсий проведены пробные расчёты. Использовалась компьютерная программа Estimate3PL (сайт www.asksystem.narod.ru), исход-
-Q-
m
m
1
=1
-Q-
ные данные — матрица результатов тестирования, опубликованная в известной работе Б.Д. Райта и М.Х. Стоуна23 (эта матрица заложена в программу Estimate3PL в качестве примера). Результаты расчётов приведены в табл. 1. Оценки дисперсии уровней подготовленности
составили от 0,68 до 1,33; дисперсий уровней трудности заданий Бву — от 0,21 до 1,19. Максимальная оценка дисперсии превышает минимальную более чем в шесть раз, ввиду чего равенство истинных значений дисперсий всех измеряемых параметров представляется маловероятным.
Таким образом, в практике педагогических измерений проблематично обеспечить соблюдение обязательных условий соответствия модели Раша V частному случаю закона Терсто-уна, что ставит соответствие под сомнение.
По мнению автора этой статьи, взаимосвязь модели Раша и закона Терстоуна, интересная с теоретической точки зрения, особого практического значения не имеет. Модель Раша самодостаточна и не нуждается в дополнительном теоретическом обосновании в виде закона Тер-стоуна. На технологию педагогических измерений наличие или отсутствие соответствия модели Раша V частному случаю закона Терстоуна какого-либо влияния не оказывает. По-
этому целесообразно сосредоточиться на более важных вопросах, таких, как изучение причин недостаточной точности и надёжности результатов педагогических измерений.
Rasch Measurement и Item Response Theory
Модель Раша — это самая простая математическая модель педагогических измерений. Наряду с многочисленными успехами Rasch Measurement, к сожалению, известны случаи, когда результаты педагогического измерения оказывались непригодны для практического использования ввиду недостаточной точности и надёжности результатов. Такие случаи заставляют задуматься над извечными вопросами: кто виноват и что делать.
J.M. Linacre в своей статье «Модель Раша не может быть опровергнута!»24 всю вину возлагает на неподходящие для модели Раша исходные данные. Если модель Раша не работает для реальных данных, то причина в тех искажениях, которые содержатся в этих данных. Действительно, искажение исходных баллов тестирования может быть обусловлено следующими факторами: • несанкционированный доступ испытуемых к правильным
-Q-
-23-
Wright B.D., Stone M.H. Best Test Design. Chicago: Mesa Press. 1979.
-24-
Linacre J.M.
The Rasch Model cannot be «Disproved»! //Rasch Measurement Transactions, 1996. 10:3. pp. 512-514.
I
измерения
-е-
Результаты выполнения теста
Тестовые задания
4 5
25 0 1
4 1 0
33 1 0
1 1 1
27 1 1
11 1
12 1 1
17 1
19 1 1
30 1 1
2 1 1
3 1 1
5 1 1
6 1 1
8 1 1
9 1 1
13 1 1
16 1 1
26 1 1
28 1 1
29 1 1
31 1 1
10 1 1
18 1 1
14 1 1
32 1 1
20 1 1
21 1 1
22 1 1
23 1 1
34 1 1
15 1 1
7 1 1
24 1 1
Ор 0,68 0,51
0,43
0,51
0,30
8
0,43
10
0,24
11
0,21
13
0,33
12
0,30
14
0,52
15
1,19
16
Таблица 1
1,19
17
1,19
Бе
0,78
0,68
0,68
0,69
0,69
0,79
0,79
1,02
1,02
1,02
1,33
1,33
1,33
1,33
1,33
1,33
1,33
1,33
1,33
1,33
1,33
1,33
1,22
1,22
1,22
1,22
1,22
1,04
1,04
1,04
0,95
0,95
0,92
0,92
-о-
7
6
9
0
1
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
0
0
0
0
1
0
1
1
0
0
0
1
0
0
1
0
0
1
0
0
0
1
0
0
0
1
0
1
0
0
1
0
0
0
1
0
1
1
0
1
0
1
0
1
0
1
0
0
1
1
1
0
0
0
1
0
1
0
1
1
0
0
0
1
-Q-
ответам (списывание, использование запрещённых справочных материалов, подкуп должностных лиц и т.д.);
• случайное угадывание ответа;
• ошибки при вводе ответа;
• некорректность тестовых заданий;
• фрагментарность знаний испытуемого (модель предполагает одинаковый уровень знаний по всему кругу проверяемых тестом знаний) и др.
Влияние указанных факторов приводит к нарушению заложенных в модель теоретических предположений. Вследствие этого модель не может удовлетворительно объяснить исходные данные, и результаты педагогического измерения становятся непригодными для практического использования. По мнению Linacre J.M., исправлять нужно не модель Ра-ша, а исходные данные. Высокоточные косвенные измерения латентных параметров по подвергшихся неизвестным искажениям данным — это задача, непосильная для любой математической модели. Поэтому целесообразность устранения (минимизации) искажений исходных данных тестирования не подлежит сомнению.
С другой стороны, теория математического моделирования в случае неудачи рекомендует улучшение и уточнение модели25. Отказ от некоторых допущений и упрощений, вклю-
чение в модель ранее неучитываемых факторов, способны повысить адекватность модели, сблизить расчётные и экспериментальные данные. В свете этого, предпринятые в ШТ шаги по улучшению модели Раша путём введения дополнительных параметров не противоречат общей теории и потенциально могут привести к положительным результатам. Так, например, кроме известных двух-и трёхпараметрической моделей существует также пятипа-раметрическая модель тестиро-
вяния26-
P = ее. + (1 - ее.) •
У - 3 ^ Т- 3 '
1 + exp
Г ß -в. ^
' 3 -
£
+°32 //
(28)
где сг — вероятность того, что на г-й испытуемый прибегнет к угадыванию правильного ответа; су — вероятность угадывания правильного ответа на у-е задание; Ог и Оу — стандартные отклонения вг и ву.
Теоретический предел количества параметров моделей определяется числом степеней свободы, которое обычно равно уменьшенному на единицу числу экспериментальных данных.
На взгляд автора, между двумя этими подходами, несмотря на внешнюю противоречивость, нет антагонизма. Никакая модель не в состоянии корректно устранить все искаже-
-Q-
Самарский А.А., Михайлов А.П. Математическое моделирование: Идеи. Методы. Примеры. 2-е изд. М.: Физматлит, 2001. 320 с.
Кромер В.В. О многопараметрической оценке уровней подготовленности испытуемых и трудности заданий //Педагогические измерения. № 3. 2005. С. 65-72.
I
измерения
-Q-
-27-
Тейлор Дж. Введение в теорию ошибок. Пер. с англ. М.: Мир, 1985. 272 с.
ния исходных данных. Поэтому актуальность задачи получения пригодных исходных данных высока и не зависит от выбранной математической модели.
Теперь рассмотрим целесообразность улучшения модели Раша. Усложнённая модель более гибко адаптируется к исходным данным, расчётные данные становятся ближе к экспериментальным.
Однако не будем забывать о косвенном характере измерений, погрешность которого равна квадратичной сумме произведений частных производных и погрешностей измерения каждой переменной27:
Ay =
i dy к Л2
tarAXi J
( du Л2 +1 —^-Ax,
"I
dx,
+...
f дУ л Л2
-Л*- J
, (29)
где Ау — погрешность измерения величины у, рассчитываемой по значениям переменных
ду
дх-
частная производная функ-
ции у(х1, Х2 ... х¿ ... хп) по переменной x¿;
Ах¿ — погрешность измерения переменной х^.
Это означает, что каждая дополнительная переменная вводит дополнительное слагаемое в уравнение погрешности (28). Конечно, изменятся и
значения других слагаемых. Поэтому усложнение модели может привести как к уменьшению, так и к увеличению погрешности измерений. Следовательно, усложнение модели оправдано только тогда, когда дополнительная переменная учитывает статистически значимый фактор. Такое изменение позволяет существенно сблизить расчётные и исходные данные, снизить погрешность измерения.
Напротив, усложнение математической модели путём введения малозначимого фактора при несущественном сближении модели и экспериментальных данных может привести к значительному росту погрешности измерения. Такие модели фактически бесполезны. Зачастую более простая модель позволяет лучше и надёжнее исследовать реальную систему, чем более сложная (и, формально, «более правильная»).
Таким образом, из всех моделей, обеспечивающих достаточную точность и надёжность измерения, следует выбрать наиболее простую. Введение в модель дополнительных параметров оправдано только тогда, когда адекватность простой модели неудовлетворительна.
Проведённый анализ особенностей Rasch Measurement приводит к следующим выводам.
-Q-
величин xj, Х2-.. Xj... xn;
-е-
1. Отличительная черта модели Раша — математически доказанная независимость (инвариантность) средств и субъектов измерения (тестовых заданий и испытуемых).
2. Существование достаточных статистик — ещё одна отличительная черта модели Раша. Это свойство проявляется только при решении задачи педагогического измерения методом максимального правдоподобия. Основным достоинством достаточных статистик полное соответствие уровней подготовленности первичным баллам испытуемых, а уровней трудности — первичным баллам заданий. Вследствие этого все правильно решившие одинаковое количество тестовых заданий получат одинаковую оценку подготовленности, а испытуемый с большим первичным баллом может быть уверен в более высокой оценке подготовленности.
3. Модель Раша полностью совпадает с V частным случаем закона Терстоуна при выполнении следующих условий:
• независимость измеряемых параметров — уровней подготовленности испытуемых и
уровней трудности тестовых заданий;
• равенство дисперсий измеряемых параметров;
• распределение разности параметров по нормальному закону распределения.
4. V частному случаю закона Терстоуна также соответствует двухпараметрическая модель при равных значениях различающей способности всех тестовых заданий. В этом случае графики заданий теста не пересекаются.
5. Необходимым условием корректности педагогического измерения служит устранение (минимизация) искажений исходных данных, вызываемых несанкционированным доступом испытуемых к правильным ответам, случайным угадыванием ответа, некорректностью тестовых заданий, ошибками при вводе ответа и другими факторами.
6. Из всех моделей, обеспечивающих достаточную точность и надёжность измерения, следует выбрать наиболее простую. Выбор более сложной модели оправдан только тогда, когда адекватность простой модели неудовлетворительна.