Методология
АНАЛИЗ МОДЕЛЕЙ
ДЛЯ АДАПТИВНОГО ТЕСТИРОВАНИЯ
-е-
Олег Деменчёнок
Восточно-Сибирский институт МВД России [email protected]
Проведён анализ эффективности моделей педагогического измерения в условиях адаптивного тестирования. Показано, что наиболее эффективна двухпараметрическая модель при условии достаточного количества заданий с высокой дифференцирующей способностью, равномерно распределённых по всему диапазону измерений. Если указанное условие не выполняется, то предпочтительными являются Partial Credit Model и модель Раша.
-е-
Ключевые слова: адаптивное тестирование, математическая модель измерения, информационная функция.
Введение
Одним из наиболее перспективных направлений совершенствования педагогических измерений может стать адаптивное тестирование.
Традиционное тестирование основано на тестах с фиксированной последовательностью заданий. Так как испытуемые имеют раз-
Pn
измерения
-е-
—i— Аванесов В.С. Применение тестовых форм в Rasch Measurement //Педагогические измерения.
№4, 2006.
http://www.mobukom.ru/ cit/mcp/adaptive.html
ныи уровень подготовленности, то и тестовые задания должны варьироваться по сложности. Очевидно, что для конкретного студента часть заданий может оказаться слишком лёгкой, а некоторые задания будут для него слишком сложными. Ответы на такие задания мало информативны: способность «среднего» студента правильно ответить на простейшие задания, наряду с неспособностью справиться с олимпиадными задачами, не дают надёжной основы для измерения уровня подготовленности этого студента.
Гораздо более информативны ответы на задания, соответствующие уровню подготовленности испытуемого. Адаптивный тест приспосабливается к возможностям испытуемого: при правильном ответе следующее задание будет чуть более трудным, при неправильном ответе — более лёгким. Таким образом, поддерживается примерное равенство уровней подготовленности испытуемого и трудности заданий в ~ в, а средняя вероятность правильного ответа будет близка к 0,5*.
При адаптивном тестировании испытуемый с высоким уровнем подготовки получит набор трудных заданий, а слабый студент — лёгкие задания. Такой подход к тестированию можно проиллюстрировать соревнованиями по прыжкам в высоту, на которых планка по-
степенно устанавливается на ту высоту, которую спортсмен потенциально способен преодолеть. При этом результат определяется не количеством удачных попыток, а взятой высотой.
Постановка проблемы
Основная идея адаптивного тестирования заключается в том, чтобы получить максимум информации об уровне подготовленности испытуемого путём подбора наиболее подходящих для этого заданий. За счёт этого можно существенно повысить точность и надёжность педагогического измерения или при той же точности сократить время тестирования. Так, технология адаптивного тестирования позволяет корпорации Microsoft при сертификации специалистов уменьшать количество заданий теста на 60%, существенно сокращая время тестирования2.
Однако количество информации, полученное из ответов на задания теста, зависит не только от соответствия уровня их сложности подготовленности испытуемого, но и от выбранной математической модели педагогического измерения. Закономерно возникает вопрос: какая из моделей работает наиболее эффективно именно в условиях адаптивного тестирования? Данная статья является попыт-
-e-
кои автора дать ответ на этот вопрос.
Анализ
информационной функции базовых моделей педагогического измерения
Чем больше информации, тем точнее наши сведения, т.е. меньше ошибка. Другими словами, увеличение количества информации означает повышение эффективности тестирования, так как сокращает время тестирования при равной точности педагогического измерения. В Item Response Theory (IRT) количеством информации3 называют величину, обратную дисперсии ошибок, а информационной функцией — соответствующую аналитическую зависимость:
I = -= Дг. (!)
D а2
Для трёх базовых моделей IRT4,5 количество информации рассчитывается по формуле:
i=4=
aet
( 1 - Pj 1 ( п ^ Р - с ij j
1 pj ) 1 - с. j
тестируемого на]-е задание; а^ и С — дифференцирующая способность и параметр коррекции на угадывание правильного ответа ]-го задания.
Для одного задания выражение (2) примет вид:
ч2~
I = a2
1 - Р Y Р - с
1 - с
. (3)
В модели Г.Раша aj =1, а Cj = 0, что приводит к следующей аналитической зависимости: ч2"
I = 12
1 - Р Y Р - 0
= (1 - р ) Р =
1 - 0
J-ß
(4)
1-
1 + e
e-ß
J-ß
1 + e
e-ß ■
Из формулы (4) следует, что количество информации максимально при вероятности правильного ответа Р = 0,5: I '(Р) = ((1 - Р )Р ) = 1 - 2Р = 0, Р = 0,5.
Максимум количества информации равен 1тах = 0,25 (рис. 1) и соответствует равенству уровня подготовленности испытуемого и уровня трудности задания в = в (или в - в= 0):
(2)
L =
= Х а
]=1
где Ов - стандартная ошибка уровня подготовленности г-го испытуемого; т — количество тестовых заданий; Р^ — вероятность правильного ответа г-го
1 —
1 + в0
1 —
1 +1
1 + в0 1
1 +1
= 0,25.
Информативность заданий, существенно отличающихся по уровню трудности от уровня подготовленности испытуемого
^^то^оллоггияя
Количество информации — показатель, характеризующий уменьшение неопределённости состояния системы.
Baker F.B. The Basics of Item Response Theory. 2 ed., ERIC Clearinghouse on Assessment and Evaluation, Madison, Wisconsin, 2001. 172 p.
Деменчёнок О.Г. Компьютерная программа для подбора параметров основных моделей ШТ. // Педагогические измерения, № 2, 2008.
а
измерения |
Рис. 1. Зависимость количества информации от разности уровня подготовленности испытуемого и уровня трудности задания для
модели Раша
(правый и левый конец графика на рис. 1.), почти нулевая. Действительно, способность испытуемого решать очень простые задания (б много больше в) или неудачи в решении заданий повышенной сложности (б значительно меньше в) мало информативны, так как не дают возможности уточнить уровень подготовленности тестируемого.
Для двухпараметрической модели (с^ = 0) выражение (3) примет вид:
ства информации достигается при Р =0,5 и равенстве уровня подготовленности испытуемого и уровня трудности задания б= в (рис. 2):
/„„., = а
1 —
1 + в0
1 + в0
(6)
= а
1 —
1 +1
1 +1
■ = 0,25а2.
1 - Р У Р - 0
\2
I = а2
= а2(1 - Р) Р = а2
1 - 0
1-
а(б-в)
1+в
а(б-в)
в
а(в-в)
(5)
1 + ва(б-в)
Нетрудно заметить, что и в этом случае максимум количе-
Однако максимальное значение равно 0,25а2, т.е. в зависимости от величины дифференцирующей способности задания а максимум может оказаться больше соответствующего значения для модели Раша (при а > 1) или меньше его (при 0< а < 1).
Например, при дифференцирующей способности задания а = 2 максимум количества информации равен 1тах = 0,25-22 = 1, а при а = 0,5
-e-
/ 1
i 0 9 1 1
1 l 0,8 1 1 1 1
1 1 107 1 1 1 1 i
r ' 0,6 i I 1 1
i ' 0,5 f I ! 1 1 1 1
1 ' 0.4 1 1 1 t
I ' 0,3 ■ I t
1 ' 1
I / 0,2 1 / (/ \ I \ 1 Xi \}
j" 0.1 / ) ' V ... v X
■-- - - ~ - ~ 1-
e-p
Рис. 2. Зависимость количества информации от разности уровня подготовленности испытуемого и уровня трудности задания для двухпараметрической модели: --------при а = 1,-----при а = 2, — ■ —--при а = 0,5
1тах = 0,25-0,52 = 0,0625. Таким образом, количество информации существенно зависит от дифференцирующей способности задания. При адаптивном тестировании достигается примерное равенство уровня подготовленности испытуемого и уровня трудности задания ц » Ь, а количество информации близко к максимуму. Если выбирать задания с дифференцирующей способностью более единицы а > 1, двухпара-метрическая модель окажется эффективнее модели Раша.
По трёхпараметрической модели вероятность правильного ответа тестируемого равна6:
P = С + (1 - c)
e
а(в-Р)
1 + e
,а(в-Р)
= С + (1 - c)-
1
(7)
1 + в~а(в-в)
Выясним влияние параметра коррекции на угадывание правильного ответа на количество информации. Используя уравнения (3) и (7), проведём расчёты при фиксированном значении дифференцирующей
-е-
Partchev I.
A visual guide to item response theory. Jena: Friedrich-Schiller-Universitat. 2004. 61 p.
а
измерения |
способности задания а = 1 и значениях параметра коррекции на угадывание правильного ответа с = 0; 0,2 и 0,4 (результаты приведены на рис. 3).
Расчёты показывают, что увеличение параметра коррекции на угадывание правильного ответа снижает информативность ответа:
• при с = 0 максимальное значение количества информации равно 0,25;
• при с = 0,2 1таХ =0,17;
• при с = 0,4 1тах =0,11.
Коррекция на угадывание правильного ответа во многом «съедаёт» повышение информативности ответа за
счёт высокой дифференцирующей способности задания (рис. 4).
Так, при значении дифференцирующей способности а = 2:
• при с = 0 максимальное значение количества информации равно 1;
• при с = 0,2 1таХ=0,68;
• при с = 0,4 1тах=0,44.
Таким образом, усложнение модели измерения путём введения третьего параметра — коррекции на угадывание правильного ответа — снижает эффективность измерения по сравнению с двухпараметрической моделью.
-0,25^ 'у-
/ / \
/ 0,2 \
/ / - \ \
/ 0,15 \ \
\ \
/ / \ \
/ / ч \
/ / ' ' 'V Ч \ \\\
/ / / 4
/ 'у' 0,05-
/ / . ■
/ / г N чЧ.
__—
в-р
Рис. 3. Зависимость количества информации от разности уровня подготовленности испытуемого и уровня трудности задания для трёхпараметрической модели при а = 1:
----------с = 0;-------с = 0,2;--------с = 0,4
-e-
Анализ
информационной функции Partial Credit Model
Рассмотренные выше математические модели педагогических измерений применимы только в тех случаях, когда результат выполнения тестового задания оценивается нулём («неправильно») или одним баллом
(«правильно»). Эти модели лишены возможности учёта частично или не полностью правильных ответов.
От этого ограничения свободны модели с градацией степени правильности ответа. В таких моделях за одно и то же задание можно получить разное количество баллов, в зависимости от полноты и правильности решения.
^^тч^Чоллоггияя
-е-
Pn
измерения
-е-
Wright B.D., Masters G.N. Rating Scale Analysis: Rasch Measurement. Chicago: Mesa Press, 1982. 204 p.
Там же.
Partial Credit Model (PCM) — это наиболее известная модификация модели Раша для тестовых заданий с градацией степени правильности ответа. Эта модель выражается
аналитической зависимостью
,7:
X (в,-в,к) ~к=0
= -
X (в,-вк)
(8)
ek
I = ■
1
=X
j=1
X2 п - xi
(9)
П,
ijl
V У
или для одного тестового задания:
/ \2
Хтах : Хтах :
I =!/2- I/п . (10)
1=1 /=1
V У
Например, для заданий, максимально оцениваемых двумя и тремя баллами, уравнение (10) принимает вид:
I = пч 1 + П 2 - (П1 + 2П 2 )2> (11)
1 = п, 1 + 4П, 2 + 9п, з -
-(П,1 + 2П,2 + 3П,3 )2-
(12)
где р,х — вероятность достижения тестируемым результата x, (т.е. того, что тестируемый i выполнит ровно x шагов и получит х баллов в заданииj); х = 0, 1 ... ... Xj, ... xmaax, — количество шагов; x^X, — максимально возможное количество баллов за 0
задание j; в 0 = Х(в - в 0) = 0-
n=0
Количество информации для Partial Credit Model8:
Количество информации для анализа заданий с большим количеством градаций степени правильности ответа находится аналогичным образом.
Начнём анализ с заданий, максимальная оценка за которые равна двум баллам. Количество информации существенно зависит от близости уровней трудности шагов задания и уровня подготовленности испытуемого: чем они ближе, тем больше получаемое при тестировании количество информации (рис. 5).
Теоретический максимум близок к 0,67:
• при уровнях трудности первого и второго шага Ь1 = -0,1 и Ь2 = 0,1 максимальное значение количества информации 1тах равно 0,64;
• при 01 = -1 и 02= 11тах =0,41;
• при 01 = 1 и 02 = 4 1тах =0,31.
Увеличение количества градаций степени правильности ответа, равного максимальному баллу задания, повышает информативность (рис. 6).
Для трёхбалльного задания теоретический максимум информации близок к 1,25:
• при уровнях трудности первого, второго и третьего шага соответственно 01 = -0,1; 02 = 0 и 0з = 0,1 максимальное значение
-е-
в,
-e-
Рис. 5. Зависимость количества информации двухбалльного задания PCM от уровня подготовленности испытуемого:
----------при в1= -0,1 и в2 = 0,1;------при в|= -1
и в2= 1;— — — '--при в = 1 и в2 = 4
Рис. 6. Зависимость количества информации трёхбалльного задания PCM от уровня подготовленности испытуемого:
---------при в1= -0,1; в2 = 0 и в3 = 0,1;-----при pi = -1,
в2 = 0 и в3 = 1;-------при в = 1, в2 = 3 и в3 = 4
-е-
вТд
измерения |
количества информации 1тах равно 1,2;
• при р1 = -1, в2 = 0 и в3 = 1 I = 0 79;
1тах
• при в1 = 1, в2 = 3 и в3 = 4
1тах = 0,64
Теоретически количество градаций степени правильности ответа не ограничено, но в практике педагогического тестирования это число обычно не превышает четырёх. Поэтому были проведены расчёты для четырёх балльного задания (рис. 7).
Для четырёхбалльного задания теоретический максимум близок к 2:
• при 01 = -0,2; 02 = -0,1; вз = 0,1 и в4 = 0,2 1тах=1,8;
• при в1 = -2, в2 = -1, вз= 1 и в4 — 2 Imax — 0,65;
• при в1 — -1, в2 — 1, в3 — 3 и
в4 — 5 Imax—0,5
Таким образом, увеличение числа градацией степени правильности ответа на тестовое задание в модели PCM существенно повышает информационную ценность ответов по сравнению с базовой моделью Раша:
• максимум количества информации для двухбалльного задания больше максимума информационной функции модели Раша в 2,68 раза;
• для трёхбалльного задания — в 5 раз;
Рис. 7. Зависимость количества информации четырёхбалльного задания PCM от уровня подготовленности испытуемого:
-------при в1 = -0,2; в2 = -0,1; в3= 0,1 и в4 = 0,2;
-----при в1 = -2, в2 = -1, в3 = 1 и в4 = 2;
-------при в1= -1, в2 = 1, в3 = 3 и в4 = 5
-e-
• для четырёхбалльного задания — в 8 раз.
Необходимо сделать важное замечание: теоретический максимум количества информации может быть получен при почти совпадающих значениях уровня подготовленности испытуемого и уровней трудности шагов задания — различие не более 0,0001 логита. Например, для двухбалльного задания в = 0, 01 = -0,0001 и 02 = 0,0001. Уровни трудности шагов взаимно независимы, так как знание одного из этих уровней не даёт возможности однозначно определить остальные уровни. Поэтому мы вправе считать различие между уровнями 01 и 02 случайной
величиной. Тогда вероятность практического совпадения значений уровня подготовленности испытуемого и уровней трудности шагов задания близка к нулю, т.е. теоретический максимум количества информации не может быть отправной точкой для оценки эффективности адаптивного тестирования. Но даже с учётом этого замечания модель PCM превосходит модель Раша, поскольку даже при значительном расхождении уровня подготовленности испытуемого и уровней трудности заданий количество информации больше максимума информационной функции модели Раша в 1,7-3,3 раза (см. табл. 1).
Таблица 1
Количество информации
Модель Раша Двухпараметри-ческая модель Partial Credit Model
двухбалльное задание трёхбалльное четырёхбалльное
Максимальное значение 0,25 0,25 a2 0,67 1,25 2
Незначительное расхождение уровня подготовленности испытуемого и уровней трудности заданий (0,1 логита) 0,249 a2 e0M (1+вола )2 0,644 1,2 1,901
Значительное расхождение уровня подготовленности испытуемого и уровней трудности заданий (1 логит) 0,197 a2 ea (1 + ea )2 0,424 0,788 0,837
измерения
Конкурс моделей
Трёхпараметрическую модель можно исключить из конкурса моделей: как было показано выше, она уступает двухпараметри-ческой модели по информационной ценности ответов. Для выявления наиболее подходящих моделей по критерию информативности тестирования сведём полученные данные в табл. 1.
Сначала сравним модель Раша и двухпараметрическую модель. Например, при дифференцирующей способности задания а = 3:
• максимум количества информации для двухпараметричес-кой модели в 9 раз больше максимума для модели Раша
1тах = 0,253 = 2,25;
• при незначительном расхождении уровня подготовленности испытуемого и уровня трудности задания (0,1 логита) двухпараметрическая модель позволит получить информации в 8,8 раза больше, чем модель Раша;
• если уровни различаются на 1 логит, то количество информации для двухпараметрической модели больше в 2,1 раза.
Однако ситуация кардинально меняется при дифференцирующей способности задания менее единицы. Так, при дифференцирующей способности задания а = 0,3:
• максимум количества информации для двухпараметричес-
кой модели в 11 раз меньше максимума для модели Раша 1тах = 0,25-0,32 = 0,0225;
• при расхождении уровня подготовленности испытуемого и уровня трудности задания 0,1 логита информативность ответа по модели Раша в 11 раз больше, чем по двухпараметричес-кой модели;
• если уровни различаются на 1 логит, то количество информации для двухпараметричес-кой модели меньше в 9 раз.
Чтобы гарантировать эффективность двухпараметричес-кой модели при адаптивном тестировании необходимы тестовые задания разных уровней трудности с высокой дифференцирующей способностью. Однако дифференцирующую способность заданий невозможно задать на этапе разработки теста — её можно определить только путём обработки результатов выполнения теста достаточно репрезентативной группой испытуемых.
Если гипотетически считать, что количество заданий теста не ограничено, то для каждого уровня подготовленности испытуемого можно выбрать достаточно заданий с высокой дифференцирующей способностью, что означает преимущество двухпараметрической модели. Но реальное распределение параметров заданий конкретного теста может оказаться таким, что преимущество получит модель Раша.
-e-
Влияние распределения параметров заданий можно наглядно проиллюстрировать результатами тестирования школьников Красноярского края по русскому языку и математике (данные предоставлены краевым государственным бюджетным специализированным учреждением «Центр оценки качества образования», г. Красноярск). Расчёты проведены с помощью компьютерной программы Estimate3PL (сайт www.asksystem.narod.ru). Большое количество испытуемых (свыше 22 тысяч) предопределило высокую точность оценки параметров тестовых заданий. Распределение параметров тестовых заданий и информационная функция теста приведены на рис. 8.
Тест по русскому языку состоит из 40 заданий низкого и среднего уровня трудности (параметры заданий обозначены маркерами на рис. 8а). Ввиду того, что, дифференцирующая способность тестовых заданий оказалась близка к единице (среднее значение аср = 1,03), информационные функции теста, соответствующие модели Ра-ша и двухпараметрической модели почти совпадают (сплошная и пунктирная линии на рис. 8а). В правой части графика обе линии близки к нулю, что означает низкую точность результатов тестирования хорошо подготовленных школьников.
Тест по математике тоже включает задания невысокого уровня трудности (всего 31 задание, рис. 8б). Однако дифференцирующая способность заданий оказалась выше, благодаря чему максимум информационной функции двухпараметрической модели почти в два раза превысил максимум информационной функции модели Раша. А справа и слева от максимума двухпара-метрическая модель проигрывает (пунктирная линия ниже сплошной). Это означает, что участки диапазона измерений, на которых мало заданий и (или) задания имеют низкую дифференцирующую способность, являются для двухпара-метрической модели весьма проблемными, так как информационная ценность ответов очень мала. Если уровень подготовленности испытуемого соответствует такому проблемному участку диапазона измерений, то двухпараметрическая модель получает значительно меньше информации, и точность измерения резко падает. У модели Раша точность снижается медленнее.
Partial Credit Model
Как показано выше, Partial Credit Model эффективнее модели Раша, так как в равных условиях позволяет получить больше информации о качестве измерения (см. табл. 1).
а
измерения |
-e-
Рис. 8. Распределение параметров тестовых заданий и информационная функция тестов по русскому языку (а) и математике (б): • — уровень трудности в и дифференцирующая способность а тестового задания;----------информационная функция теста по
модели Раша;-------информационная функция теста по
двухпараметрической модели
Однако сопоставление PCM и двухпараметрической модели не приводит к столь однозначному ответу (табл. 2):
• при наличии заданий нужного уровня трудности с высокой дифференцирующей способностью (а = 3) более предпочти-
-e-
тельной является двухпарамет-рическая модель. В этом случае и максимум количества информации, и количество информации при незначительном расхождении уровня подготовленности испытуемого и уровней трудности заданий двухпараме-трической модели превышает аналогичные показатели модели PCM (выделено в табл.2 жирным шрифтом);
• при низкой дифференцирующей способности заданий (а = 0,3) двухпараметрическая модель безоговорочно проигрывает: получаемое количество информации в десятки раз ниже, чем у модели PCM;
• если уровень трудности задания существенно отличается от уровня подготовленности испы-
туемого (т.е. нет подходящих по уровню трудности заданий), то двухпараметрическая модель также проигрывает. Даже высокая дифференцирующая способность заданий в этом случае не помогает (нижняя строка табл. 2).
Выводы
1. Тип математической модели оказывает существенное влияние на эффективность адаптивного тестирования.
2. Наиболее эффективной в условиях адаптивного тестирования является двухпараметриче-ская модель, при условии достаточного количества заданий с высокой дифференцирующей
Таблица 2
Kоличество информации
Двухпараметрическая модель Partial Credit Model
а = 0,3 а = 3 Двухбалльное задание трёхбалльное четырёхбалльное
Максимальное значение 0,0225 2,25 0,67 1,25 2
Незначительное расхождение уровня подготовленности испытуемого и уровней трудности заданий (0,1 логита) 0,0225 2,20 0,644 1,2 1,901
Значительное расхождение уровня подготовленности испытуемого и уровней трудности заданий (1 логит) 0,0220 0,41 0,424 0,788 0,837
Pn
измерения
способностью, равномерно распределённых по всему диапазону измерения уровня подготовленности испытуемых. 3. Модель PCM и модель Раша являются предпочтительными, если указанное выше условие не выполняется, т.е.: • при малом количестве тестовых заданий;
• при наличии участков диапазона измерений, на которых мало заданий и (или) задания имеют низкую дифференцирующую способность. 4. По эффективности адаптивного тестирования трёхпараме-трическая модель уступает двухпараметрической, а модель Раша — модели PCM.