Теория
ПОИСК НАИЛУЧШЕГО ЗНАЧЕНИЯ ПАРАМЕТРА ДИФФЕРЕНЦИРУЮЩЕЙ СПОСОБНОСТИ ТЕСТОВОГО ЗАДАНИЯ ДЛЯ МОДЕЛИ БИРНБАУМА
-е-
Александр Рыбанов
Волжский политехнический институт (филиал) ФГОУ ВПО «Волгоградский государственный технический университет»
-е-
Рассмотрены задачи поиска параметров модели Г. Раша и задачи поиска наилучшего значения параметра дифференцирующей способности тестового задания для модели А. Бирнбаума. В качестве наилучшего значения параметра дифференцирующей способности тестового задания предлагается значение, обеспечивающее минимум суммы квадратов отклонений, рассчитанных значений по модели А. Бирнбаума от эмпирических данных, полученных по результатам тестирования. Предлагаемый в работе подход к определению характеристик тестовых заданий для модели А. Бирнбаума позволяет получать тесты с более низкой дифференцированной ошибкой измерения.
Ключевые слова: IRT, Rasch Measurement, педагогические измерения, модель Раша, модель Бирнбаума, дифференцирующая способность задания, тестовое задание, логит, дифференцированная ошибка измерения теста.
-e-
Введение
Основными составляющими информационного обеспечения автоматизированной системы контроля и мониторинга за качеством учебного процесса1 являются база тестовых заданий и база результатов тестирования испытуемых. Качественные и количественные характеристики тестовых заданий непосредственным образом влияют на объективную интерпретацию2 результатов тестирования испытуемых. Количественные и качественные характеристики каждого тестового задания лучше определять опытным путем.
Рассмотрим задачи получения количественных характеристик тестовых заданий на моделях IRT (Item Response Theory). Модель Г. Раша3 описывает вероятность правильного решения тестового задания как функцию, зависящую от уровня подготовленности испытуемого и трудности тестового задания. В модели Бирнбаума4 появляется новый параметр — дифференцирующая способность тестового задания.
Дифференцирующая способность тестового задания является индикатором условия, определяющего корректировку тестового задания или его исключение из теста. Подбор тестовых заданий сбалансирован-
ной дифференцирующей силы позволяет добиться оптимальной валидности и надёжности теста. Погрешность измерения дифференцирующей силы тестового задания служит причиной формирования некорректных тестов и, как следствие, приводит к увеличению дифференцированной ошибки измерения для всего теста.
Постановка задачи
Результаты тестирования испытуемых представлены бинарной матрицей ответов (эмпирических данных):
X = (x. .\x. .
V i 1 \ j
е {0,1}, г = 1, п, ] = 1, к )
где п — количество участников тестирования; к — количество заданий в тесте.
Интерпретация свойств заданий (теста) и выставление тестовых баллов испытуемым предполагают предварительное решение ряда задач.
Задача поиска параметров модели Г. Раша. Дано:
X =
(хг] |хг, е {0,1},г = 1,п,] = 1,к)
Найти уровень подготовленности испытуемых^ : г = 1, п и трудность для каждого тестового задания^ . : г = 1, к , соответствующие дихотомической модели Г. Раша:
г . ехр(вг -5,)
Р {х = 10.,5. }--Ц—^ ,
1 г, Г 1 + ехр0-5})
-1-
Рыбанов А.А. Алгоритмическое и математическое обеспечение автоматизированной системы оценки качества учебного процесса по контрольным картам //Вестник компьютерных и информационных технологий. 2009. № 2. С. 30-36.
Аванесов В.С. Проблема объективности педагогических измерений // Педагогические Измерения. № 3, 2008. С. 3-40.
Wright B.D., Masters G.N. Rating scale analysis. Rasch measurements. Chicago: MESA Press, 1982.
Birnbaum A. Some latent trait models and their use in inferring an examinee's ability. In Lord F.M. and Novick M.R. Statisticals Theories of Mental Test Scores, 1968, Reading MA: Addison-Wesley.
измерения
Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М.: Прометей, 2000. 168 с.
где Pj — вероятность того, что г-й испытуемый выполнит правильно j-е задание (и, таким образом, получит 1 балл за выполнение этого задания).
Описанная выше задача может быть решена методом наибольшего правдоподобия, позволяющим получить модель Г. Раша, наилучшим образом описывающую бинарную матрицу ответов X. О несоответствии тестового задания модели Г. Раша можно судить по значениям отклонений эмпирических данных от характеристической кривой. С другой стороны, А. Бирнбаум предложил ввести в модель Г. Раша параметр угла наклона характеристической кривой, варьируя значением которого можно добиться наилучшего соответствия тестового задания модели измерения. Т.о. задача выбора наилучшего значения дифференцирующей силы тестового задания (угла наклона характеристических кривых) является актуальной.
Задача поиска наилучшего значения параметра дифференцирующей способности тестового задания для модели А. Бирнбаума. Дано:
х= *j е{0,1}, г=й, j = а )
вг: г = 1,к, 8,: г = 1,к. Найти для каждого тестового задания значение угла наклона характеристической кривой (параметр дифференцирующей силы за-
дания) di : г = 1, к, обеспечивающего максимальное соответствие эмпирических данных двухпараметрической модели А. Бирнбаума:
Р {х = 1 О ,8 ,d }
j [ г,; \ г' ^ j J
ехр (о -8 ))
1(О-8))'
Математическое описание
Рассмотрим решение задачи поиска параметров модели Г. Раша методом наибольшего правдоподобия. Метод заключается в построении функции правдоподобия5 L(xг,j; Ог, 8j) дискретной случайной величи-
ны х
у
L О 8 )=П ПР {} Ог 8 }
• =1 } = 1
п к
XХ^ (О -8)
ехр
г=1 }=1
где
П П (1 + ехр {Ог-8,))
г=1 }=1
Р {*г} Ог 8 }=
= ехр {*г,} (О -8 )}
1 + ехр (Ог-8}) ,
В качестве точечных оценок латентных параметров принимают значения О¿* и 8*, при которых L(xг,j■;Ог*,8j*) = = maxL(xг,j;Ог,8j). Следует отметить, что L(хг/Ог,8j) и
-e-
lnL(Xij,6i,Sj) достигают максимума при одних и тех же значе-
ниях 6j и Sj
Логарифмическая функция правдоподобия в данном случае имеет вид: п 1пL(х,,;0,5)=£агвг -
г=1
Фа -1 1 1пС1 + ехр(в-5 )}
j=1
i=1 j=1
где ai = ^X;,j— первичные бал-
1=1 n
лы ¿-го испытуемого; bj = ^
xi,i—
первичные баллы]-го задания.
Для нахождения максимума функции правдоподобия необходимо решить следующую систему уравнений:
Э In L (вг ,jj) * exp (вг )
= ai-—if\ = 0,i = 1, n
дв
дInL (в,Sj)
j=1
1 + exp (в -Sj J exp (в -Sj)
dS,
Ь + ^ 1 + exp (в-Sj)
i=1 1
Представленная выше система уравнений называется системой правдоподобия и содержит (п + к) уравнений с (п + к) неизвестными латентными параметрами: вг: г = 1, пи 5,: , = 1, к. Система правдоподобия имеет единственное решение, соответствующее максимуму логарифмической функции правдоподобия.
В табл. 1 приведен учебный пример6 с результатами тестирования испытуемых, исполь-
зуемых для определения параметров вг и 5 модели Г. Раша методом наибольшего правдоподобия.
Решение системы правдоподобия выполнено в системе MathCAD с помощью функции Find() (рис. 1). Полученные в результате решения латентные параметры вг : г = 1, п и 5,: ] = 1, к. приведены в табл. 1.
На рис. 2-а приведены монотонно возрастающие графики заданий №2, 3, 8. Чем выше логит подготовленности, тем вероятнее получить правильный ответ. На рис. 2-б приведены монотонно убывающие графики испытуемых №1, 6, 12, характеризующие вероятность правильного ответа на тестовое задание с заданным ло-гитом трудности. Например, вероятность Рг8 правильного ответа на задание с логитом трудности 58 = 1,108, для ¿-го испытуемого: рг8 = 0,858, р68 = 0,249, рг8 = 0,0333.
Для проверки соответствия эмпирических данных модели Г. Раша испытуемые делятся на группы (в данном случае, на три группы: Z = 3) вдоль шкалы в: 1 — сильная группа, 2 — средняя группа испытуемых, 3 — слабая группа испытуемых. Всего внутри группы с номером к окажутся тг испытуемых, г = 1,2.
= 0, j = 1, k
-е-
Аванесов В.С. Метрическая система Георга Раша //Педагогические измерения. №2. 2010. С. 57-80.
i=1
нп
измерения
Таблица 1
Учебный пример таблицы результатов тестирования
12
-3,615
Х1,2 Х1,3 Х1,4 Х1,5 Х1,6 Х1,7 Х1,8 Х1,9 Х1,10 а. г вг Группа
1 1 0 1 1 1 1 1 1 9 2,908 1
1 0 1 1 1 1 1 1 0 8 1,931
1 1 1 0 1 1 0 1 0 7 1,223
1 1 1 0 1 0 1 0 0 6 0,604 2
1 1 1 1 1 0 0 0 0 6 0,604
1 1 1 0 0 1 0 0 0 5 0,004
1 1 1 0 1 0 0 0 5 0,004
1 1 1 1 0 0 0 0 0 5 0,004
1 0 1 1 0 0 0 0 4 -0.632 3
1 1 0 0 0 0 1 0 1 4 -0.632
1 1 0 0 0 0 0 0 0 3 -1.366
1 0 0 0 0 0 0 0 0 2 -2.282
0 0 0 0 0 0 0 0 0 1 -3.530
11 9 7 6 6 5 4 3 1
2,539 -1,220 -0,262 0,18 0,18 0,629 1,108 1,653 2,326
В пределах каждой группы т, испытуемых отвечают правильно на,-е задание теста. Таким образом, для логита подготовленности в2 группы с номером 2 эмпирическое значение вероятности рг, правильного ответа на данное задание представлено в табл. 2:
Р2,, в ) =
ш.
Критерий соответствия эмпирических данных модели Г. Раша определим как сумму квадратов отклонений рассчитанных значений модели от эмпирических данных р,,:
* ( ехр в -8,)
^ =1
\2
Рг
1 + ехр (ег -8,)
Рассмотрим решение задачи поиска наилучшего значения параметра дифференцирующей способности задания модели А. Бирнбаума. В двух-параметрической модели А. Бирнбаума характеристикой тестового задания , является не только логит трудности 8', но и дифференцирующая способность 8'. Дифференцирующая способность определяет как тангенс угла наклона касательной, проведённой к графику тестового задания в точке в = 8'. Чем выше значение 8,, тем лучше задание подходит для теста. На практике рекомендуется, как правило, оставлять задания со значениями а?, е [0 . 5; 2.5]
т
г
2 =1
\
ORIGIN := 1 Матрица ответов испытуемых:
(\ 1 I 0 1 I 1 1 1 1
110 1111110
11110 110 10
11110 10 10 0
1 1 1 1 1 1 0 0 0 0
1 1 1 1 0 0 1 0 0 0
110 110 10 0 0
1 1 1 1 1 0 0 0 0 0
1 0 1 0 1 1 0 0 0 0
0 1 1 0 0 0 0 1 0 1
1 1 1 0 0 0 0 0 0 0
1100000000
VI 00000000 OJ
Количество испытуемых: п := к™-2(Х) Количество тестовых заданий: к := со1з(Х)
{ к
1 ^ 1... и ] ■= 1..к
Начальные приближения: 0. := 1п
Первичные баллы испытуемых и заданий: к а
j = l
1-Z
X. . i.J
j = l
0-Si
■ = 0
j=l1+e J Result := Find( Result.
Oi-S
4i= 1 1 + e
¡¡-6
& - to J
Result^ =
1 2 3 4 5 6 7 8.
1 2.908 1.931 1.223 0.604 0.504 3,803-Ю-З з.еоз-10-3
I 2 3 4 5 6 7 8 9 10
1 -3.615 -2.539 -1.22 -0.262 0.18 0.18 0.629 1.108 1.653 2.326
Рис. 1. Реализация метода наибольшего правдоподобия в MathCAD
Рис. 2. Графики тестовых заданий и испытуемых
При 5, = 1 логическая мо- логической однопараметричес-дель А. Бирнбаума совпадает с кой моделью Г. Раша.
Pn
измерения
Таблица 2
Вероятность правильного ответа испытуемых z-й группы
z Pz,j Pz,2 PZj3 Pz,4 Pz,5 Pz,6 Pz,7 Pz,8 Pz,9 Pz,10 в,
1 1 1 0,667 0,667 0,667 1 1 0,667 1 0,333 2,021
2 1 1 0,8 1 0,6 0,4 0,4 0,2 0 0 0.244
3 0,8 0,6 0,6 0 0,2 0,2 0 0,2 0 0,2 -1,682
S4x10-3 5,851 13,919 133,145 237,361 49,925 36,499 47,781 31,713 207,040 53,751
-е-
Lord F.M., Novick M.R. Statistical Theories of Mental Test Scores. Reading, MA: Addison-Wesley Publishing Company, 1968.
Дифференцирующая способность тестового задания может быть рассчитана на основе бисериального коэффициента корреляции в предположении, что значения латентной переменной, лежащей в основе выполнения заданий, распределены нормально.
Предлагаемая в работе Lord F.M. формула для оценки параметра дифференцирующей способности j-го зада- Sj = ^ ния теста имеет вид7'
Результаты моделирования
Критерий соответствия эмпирических данных модели А. Бирнбаума определим как сумму квадратов отклонений рассчитанных значений модели от эмпирических значений р^, полученных по результатам тестирования:
ехр(й, (в2 -8;))
1 + exp(d, (dz -Sj))
d =
1 -
(S )
Найдем оптимальные значения й* : ; = 1, ¡, при которых функция Sj(dj*) достигает минимального значения:
3 = ^ (й * )=
где rbs- бисериальный коэффициент корреляции j-го задания.
В табл. 3 приведены значения бисериальных коэф- Z фициентов и дифференци- = min ^ pz рующих способностей тесто- z=4 вых заданий учебного примера таблицы результатов тес- Полученные значения диф-тирования. ференцирующей способности
Таблица3
Дифференцирующая способность тестового задания
exp(d* (в, -Sj)) ' 1 + exp(d* (в, -Sj))
j 1 2 3 4 5 6 7 8 9 10
rbisj 0,132 0,488 0,305 0,495 0,495 0,707 0,652 0,534 0,752 0,293
d. i 0,133 0,559 0,321 0,569 0,569 0,998 0,859 0,632 1,142 0,306
46 4' 20 12
-e-
й* будут являться наилучшими с точки зрения соответствия эмпирически данным.
На рис. 3 приведены характеристические кривые для тестовых заданий, построенные по модели А. Бирнбаума с параметрами й, = 1 (соответствует модели Г. Раша), й- (рассчитан на основе бисериального коэффициента корреляции), й* (получен в результате минимизации
функции Sj(d*)). Поиск значе-
.. 1 * • ний й, осуществлялся в
MathCAD с помощью встроенной функции Minimize().
Количественные результаты моделирования, приведённые в табл. 4, показывают, что для тестовых заданий №1, 2, 4, 7, 9, 10 значения S * и Sj' имеют существенные различия.
Обсуждение результатов
Для сравнительного анализа результатов, представленных в табл. 4, воспользуемся понятием информационной функ-ции8, которая позволяет оценить меру точности измерения каждым отдельным заданием или тестом в целом.
Для тестовых заданий информационная функция модели А. Бирнбаума описывается как:
Бирноаум id,
=й)р (в,5, й )а (в,5, й)
Информационная функция всего теста вычисляется как сумма информационных функций тестовых заданий:
I (в)^ (й, ,в,5) =
У
=Хй;р (в,5, й )а 005,, й )
i=i
Таблица 4
Значения параметра дифференцирующей способности тестового задания ^, и критерия оптимальности Б¡, Б* Бу
-е-
Lord F.M., Novick M.R. Statistical Theories of Mental Test Scores. Reading, MA: Addison-Wesley Publishing Company, 1968.
j d. ] S. i d' ] S * i d' i S' i
1 1 5,851x10-3 0,807 2,619x10-3 0,133 298,325x10-3
2 1 13,919x10-3 0,903 12,995x10-3 0,559 35,874x10-3
3 1 133,145x10-3 0,328 58,056x10-3 0,321 58,078x10-3
4 1 237,361x10-3 7,853 111,000x10-3 0,569 292,838x10-3
5 1 49,925x10-3 0,553 16,910x10-3 0,569 16,980x10-3
6 1 36,499x10-3 1,157 34,552x10-3 0,998 36,541x10-3
7 1 47,781x10-3 1,888 10,157x10-3 0,859 68,826x10-3
8 1 31,713x10-3 0,787 28,569x10-3 0,632 31,379x10-3
9 1 207,040x10-3 15,000 0,020x10-3 1,142 185,386x10-3
10 1 53,751x10-3 2,287 40,031x10-3 0,306 140,798x10-3
а
измерения |
Рис. 3. Графики для заданий с параметрами dj, d'j , dj
-e-
Дифференцированная ошибка измерения для теста описывается следующей функцией:
1
SEM (в)=
JW)
По значениям дифференцированной ошибки измерения можно судить об эффективности компоновки теста по различным значениям параметра дифференцирующей способности тестового задания.
Графики стандартной ошибки измерения SEM*(0) и SEM'(в) по тесту с различными значениями дифференцирующей способности j и j для
одних и тех же тестовых заданий (с №1 по №10), приведённые на рис. 4, подтверждают, что при использовании параметра й* стандартная ошибка измерения меньше.
По результатам, представленным в табл. 4, для модели А. Бирнбаума с параметром й* из теста должны быть удалены задания №3, 4, 9, т.к. й3,й4,й5 ё[0.5;2.5]асудя по значениям й;' — из теста должны быть удалены задания №3, 1, 10. Таким образом, тест, скомпонованный по параметру й*, должен содержать задания №1, 2, 5-8, 10, а тест, скомпонован-
_____' ■ SEMF{0)
5ЕМ=(Э)__
Лотах подготовленности 6
Рис. 4. Графики стандартной ошибки измерения SEM*(e) и SEM'(в)
Е 2 о
я
-е-
________ - SE Мг(в)
SEM*^^--"
L пэдгэтсе.тенноста 6
Рис. 5. Графики стандартной ошибки измерения SEM*(e) и SEM (в) для тестов после компоновки
Pn
измерения
ный по параметру dj — задания №2, 4-9.
Графики стандартной ошибки измерения SEM*(0) и SEM (в) по тестам, после редуцирования множества тестовых заданий, приведённые на рис. 5, также подтверждают, что при использовании параметра d* точность измерений увеличивается. Кроме того, график SEM*(e) свидетельствует о том, что тест, скомпонованный по параметру dj*, обеспечивает практически равную точность оценок
испытуемых в заданном интервале оценок на шкале ло-гитов.
Заключение
Предлагаемый в работе подход к решению задачи поиска наилучшего значения параметра дифференцирующей способности тестовых заданий является допустимым и позволяет добиться снижения стандартной ошибки измерения для всего теста в целом.