УПРАВЛЕНИЕ, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И ИНФОРМАТИКА
УДК 519.85:004.421
ТЕОРЕТИЧЕСКИЕ ОСНОВЫ АЛГОРИТМА РАСЧЁТА ЛАТЕНТНЫХ ПЕРЕМЕННЫХ ПРОГРАММНЫМ КОМПЛЕКСОМ RILP-2
© 2011 г. И.Н. Елисеев
Южно-Российский государственный университет South-Russian State University
экономики и сервиса, г. Шахты of the Economy and Service, Shahty
Рассматриваются теоретические основы расчёта латентных параметров участников тестирования и политомических заданий (индикаторов) диагностического теста по результатам их выполнения. В качестве модели измерения используется однопараметрическая политомическая модель Раша для частичного доверия. Предложен алгоритм расчёта латентных параметров, обеспечивающий высокую сходимость расчетных данных к экспериментальным.
Ключевые слова: диагностический тест; индикатор теста; латентный параметр; алгоритм расчёта.
In the article present the theoretical bases for calculating of latent parameters ofparticipants of testing and polyatomic tasks (indicators) of a diagnostic test based on their performance. As the measurement models used a one-parameter polyatomic model of Rush for the partial trust. There is algorithm for calculating the latent parameters, providing a high convergence of the calculated data to experimental.
Keywords: diagnostic test; the test indicator; the latent parameter; the algorithm of calculation.
Постановка задачи
Создание современных программных средств обработки политомических результатов тестирования, анализ полученных данных и их интерпретация связаны с разработкой теоретических основ и алгоритмов расчёта латентных параметров участников тестирования 9 и политомических заданий (индикаторов) диагностического теста в, 5. Для решения подобной задачи могут быть использованы различные математические методы, которые нашли применение в теории педагогических измерений. Это методы попарного сравнения [1], моментов, максимального правдоподобия [2] и др. При выборе конкретного метода необходимо учитывать, что расчёт латентных параметров выполняется, зачастую, по нормативным выборкам небольшого объёма, поэтому полученные оценки параметров 6*, р* и 5* могут отличаться от объективно существующих точных значений 9, в и 5. В связи с этим возникает необходимость в исследовании несмещённости, эффективности и состоятельности оценок 6*, р*
и 5*. Избежать проведения исследований качества оценок можно, если теоретическое обоснование алгоритмов вычисления латентных параметров провести с использованием метода максимального правдоподобия. Этот метод наиболее полно использует данные выборки для расчёта параметра, и получаемые с его помощью оценки являются состоятельными, асимптотически несмещёнными и асимптотически эффективными [2]. С учётом данного обстоятельства метод
максимального правдоподобия и был выбран для разработки теоретических основ расчёта латентных параметров 9и, в; и 5/, под которыми понимаются уровень подготовленности и-го участника тестирования, уровень трудности 1-го задания диагностического теста и уровень трудности /-го шага (/-й категории ответа) 1-го задания.
В качестве модели измерения, благодаря которой выполняются вычисления латентных параметров, используется однопараметрическая модель Раша [2, 3] для политомических данных, базирующаяся на использовании одноименной однопараметрической дихотомической модели. Разработку математического аппарата, необходимого для расчёта параметров латентных переменных 9и, в; и 5/, начнём с теоретического обоснования допустимости использования од-нопараметрической модели Раша для оценки полито-мических результатов образовательной деятельности.
Теоретическое обоснование допустимости использования модели Раша
Политомическая модель Раша используется для обработки результатов тестирования (анкетирования) и расчёта латентных параметров заданий (индикаторов) и участников тестирования, когда результат выполнения заданий представляется в виде целого числа от 0 до т. Каждое политомическое задание содержит несколько шагов (градаций, категорий ответа), преодоление каждого из которых оценивается единицей, а непреодоление нулём. Результат выполнения ;-го
задания участником тестирования п есть целое число хп, = х, которое может принимать значения в диапазоне 0 < х < т,, где т, - максимальный балл, которым оценивается выполнение задания. Каждый из .-х порогов задания характеризуется определённой трудностью 5. и расположен в определённом месте на оси латентной переменной 9. Все задание в целом характеризуется трудностью р,- и также занимает определённое положение на оси 9.
Выполнение каждого шага можно представить в виде дихотомического латентного отклика в подпространстве, а политомическую оценку всего задания - в виде суммы таких откликов. Используя упорядоченную пространственную матрицу результатов тестирования (упорядоченную матрицу Гутмана), в которой результаты по участникам тестирования, заданиям и порогам заданий располагаются в порядке возрастания, найдём математическое выражение для полито-мической модели Раша. В общем случае подпространство латентных откликов Гутмана ^ при ответе на задание выглядит следующим образом:
Qnk —
1
1 + exp(9n -5Л)
Произведение Рп2©п2) будет равно Рп2^п2)- = ехр(6п -82).
Подставив выражения для Рпк, Опк и Рп2®п2)-1 в (3), найдём формулу для вероятности выполнения первого шага 1-го задания п-м участником тестирова-
ния
Pnk (önk> -1
exp(9n -5k)
+ exp(9n-5i)[1 + exp(9n-5 2)]
Найденное выражение удобно представить в виде
¿ехр(9п -8к)
Рпк (0п!^ = к=1 "
1 +iexp Е (9n-5j)
k-1 j—1
П = {1,1,....,1,0,.....,0} .
В нём содержится х единичек и (т, - х) нулей. В случае двух шагов (т=2) возможные варианты откликов Y пк для п-го участника тестирования будут выглядеть следующим образом:
- 0,0 » 0, - 1,0 » 1, - 1,1 » 2,
где справа от каждого варианта указано значение х.
Вероятность того, что при ответе на задание - будет выполнен только его первый шаг (отклик примет значение Ynik = 1), может быть описана моделью р Раша для дихотомической переменной [2]:
P —
nik
exP(9n -5ik ) 1 + exp(9n -5ik)
, k =x = 1.
(1)
Pnk -
Pn1Qn
QrnQ,
n2 + Pn1Qn2 + Pn1Pn2
(2)
P„,
Qn1 + Pn1 + Pn1Pn2(Qn2)
(3)
Опк= 1 - Рпк и с учётом (1) определится выражением:
Е exp(9n -5k)
k—1
]Гехр(9п -8к) + Еехр £ (9п-8.)
к=0 к=1 .=1
]Гехр(9п-8к)
= к=1_
2 к ' Е ехр Е (9п -8.)
к=0 .=1
Обобщая полученное выражение на произвольное число mi шагов задания найдём вероятность , | хп-, 5.) выполнения ,-го задания п-м участником тестирования с результатом хп-:
Вероятность успешного выполнения первого шага двухшагового ,-го задания тестируемым с номером п в соответствии с формулой Байеса будет равна
exp Е (9n -5ij)
pnix i9n/ Xni, 5ij}—rmrj-:
Е exp Е (9n -5„)
k—0
j—0
(4)
где Рп1, Рп2 - вероятности выполнения первого и второго шагов задания £п1, Оп2 - вероятности невыполнения первого и второго шагов задания Перемножение вероятностей в числителе соответствует условной вероятности успешного выполнения первого шага задания и невыполнения второго шага. Произведения вероятностей в знаменателе соответствуют трём вариантам откликов в подпространстве латентных откликов Гутмана, указанным выше. Поделив числитель и знаменатель выражения (2) на Оп2 (0п2 ф 0), получим
где 5. - трудность выполнения .-го шага задания т. е. трудность достижения следующей градации задания если предыдущая градация уже достигнута (5. = 0). Общая трудность ,-го задания определяется как среднее значение трудности всех его шагов
ßi —
Е5У j—1
Теоретические основы расчёта латентных переменных по политомическим данным на основе модели частичного доверия
В качестве исходного выражения для разработки алгоритма расчёта латентных переменных на основе политомической модели частичного доверия была использована формула (4) для вероятности Рп,х пра-
-1
вильного ответа участника тестирования и на ;-е задание теста с результатом хп;.
Для определения параметров 6п и 5/ решим задачу максимального правдоподобия для политомиче-ской матрицы результатов тестирования ((хп.)) размером N х L х т, предполагая величины Хп , Уг, 6п и 5/ независимыми. Вероятность Л правильного ответа на все L заданий всеми N тестируемыми определяется как произведение вероятностей Рпгх, которые находятся на основе матрицы результатов тестирования, и будет иметь вид:
N L хп,
n exp ttt [б„-5,)]
. т—г n=1 i=1 , =0
л = П- j
N L
пп
n=1 i=1
t exp t [0n -5, ]
k=0 j=0
(5)
N L mt k
-tt ln[t exp t (0n-5,)].
n=1 i=0 k=0 j=0
(7)
уровня подготовленности 6п п-го участника тестирования, найдём максимальное значение логарифмической вероятности А, продифференцировав выражение (7) по латентным переменным 6п, 5. и приравняв
производные нулю:
д ln
t exp t (0n -5ij)
k=0 ,=0
д ln
S, -
Обозначив
д0
t exp t (0n -5,)
= 0;
(8)
k=0 j=0
д5
= 0.
(9)
m k r -,
t exp t[0n -5, ]
чеРез F(0n, 5, )
Логарифмируя левую и правую часть равенства (5), получим
N L N L хш
а = 1п Л = ее хп, бп -ЕЕЕ5. -
п=1 ;=1 п=1 ;=1 /=1
N L Г т к
-ЕЕ 1п ЕехрЕ[бп-5.] , (6)
п=1 ;=1 [к=0 /=0
лпг лпг
где Е 5. = Е 5. , так как 5;0 = 0.
/=0 /=1
Упростим выражение (6), принимая во внимание,
хпг
что Е 5у - сумма трудностей выполненных шагов г -го
/=1
задания участником п. Суммируя эти трудности по всем N участникам тестирования, получим значение суммы трудностей всех шагов задания г, которые были успешно преодолены данной группой из N тести-
N Хп1
руемых, т.е. Е Е 5. . Если учесть, что Sij - число
п=1 /=1
тестируемых, успешно выполнивших / и более шагов в задании г, то эту сумму можно переписать в виде
N хш т
Е Е 5/ = Е ^5/ .
п=1 /=1 /=1
После этого упрощения и с учётом того, что
L
Е хп; = хп , выражение для логарифмической вероят-
;=1
ности приобретает вид
N L т1
А=Е хп6п -ЕЕ ^ 5г/ -
п=1 г=1. =1
[к=0 /=0
найдём производную от второго слагаемого выраже-
ния (8):
дlnF(0n,5,) г n-i dF(0n,5,)
V n у- = [F(0n,5,)] yJ . (10)
д0
Вычислим производную
д0
i k Г 1
t exp t[0n -5, ]
k=0 ,=0
д0
приняв во внимание, что переменная 6п не зависит от индекса суммирования/:
д
mi к
t exp t[0n -5, ]
k=0 ,=0
д
t exp(k0n -t5,)
k=0 ,=0
д0
д0
к mi к = t к exp(k0n - t 5,) = t к exp t [0n -5, ] .
,=0 k=0 ,=0
к=0
Подставляя полученное выражение для производной числителя формулы (10) в саму формулу, получим
t к exp t (0n -5,)
51п F (6п, 5.) = .
об тг к '
с6п ЕЕ ехр Е (6п -5,/)
к=0 /=0
С учётом формулы (4) нетрудно видеть, что полученное выражение будет равно Е кРпгк . Таким обра-
к=1
зом
д ln
t exp t (0n -5,)
к=0 ,=0
Для получения выражений, позволяющих рассчитать значения трудности /-го шага ;-го задания 5. и
д0
Аналогичным образом
= t кРтк .
к=1
xn~
д
д ln
Z exp Z (0И -Siy)
k=0
j=0
д5„
= Z Pnik
k=j
(11)
В выражении (11) производная от Z Siv по 5i;
v=0
отлична от нуля только для значения V = j . С учётом
Найдём производную от (Рпкк), подставив вместо вероятности Рпк её значение из формулы (4):
d(Pnkk)
дбп д9п
к-
exp Z (Ön -Sj)
j=o_
m к
Z exp Z (Ön -Sj)
k=0 j=0
этого нижний индекс суммы £ §гк изменяется с
к=0
к = 0 на к = }, т. е. сумма будет рассчитываться как
т
£ 8* .
к=]
На основе полученных упрощений выражения (8), (9) можно записать в виде
дХ L mi
= xn-Z Z*P
д0„
n ¿—t ¿—t '" nik '
i=1 k=1
n = 1, N;
(12)
дХ n m — -
-ZT = -Sij + ZZ Pnik, i = 1, L; j = 1, mi.
CO j n=1 k=j
Сумма £ кР^к в первом равенстве - это ожидае-
к=1
мый балл, который получит тестируемый п за успешно выполненные шаги задания I. Если провести суммирование по всем L заданиям, то получим число шагов, которые участник тестирования п успешно преодолеет, выполняя тест. То есть получим ожидаемый балл п-го тестируемого х°п .
т
Сумма £ Рпк во втором равенстве представляет
к=j
собой результат успешного выполнения п-м участником ] и более шагов задания I. Если сложить результаты всех тестируемых, то получим ожидаемое число участников, которые, предположительно, успешно выполнят ] и более шагов задания I, т.е ожидаемое значение Sj .
и
Приравняем найденные для производных выражения к нулю и решим систему полученных уравнений предложенным Ньютоном методом численного решения нелинейного уравнения вида f (х) = 0.
Если функция f (х) дважды дифференцируема в окрестности точки х0, то значение аргумента х(4+1) на (/+1) шаге итерации может быть вычислено на основе выражения
х(/+1) = х(/) _ f (х(/)) f '(х(/)) '
В качестве функции Дх) примем первые производные от X, а в качестве её производной - вторые производные от X. Для нахождения вторых производных продифференцируем первые производные выражения (12). Вторая производная по 6п будет равна
(13)
д2Х_
—2 = -Z Z
5ö( i=1 k=o
д (Pnikk)
дÖn
(14)
k exp Z (Ön -Sj )
= k-
j=0
Z expZ (Ön -Sj)]
k=0 j=0
-- k-
exp
kÖn - Z Sj
j=o
m k _
Z expZ[ön -Sj]
k=0 j=0
Z k exp
k=0
kÖn - Z Sj
j=0
= Pnikk
k exp
kÖn - Z Sj
j=0
Z expZ [Ön -Sj)]
k=0 j=0
Z kPnik
k=0
P k2 -
nik
Z kPnik
k=0
Подставляя полученное выражение в формулу (14), получим
д 2Х
= -Z
5Ö
i=1
m 2 "
m 2 Z k Pnik - Z kPnik
k=0 _k=0 _
Аналогичным образом доказывается, что
д2х_ N i=1
56 2
mi mi 2 "
Z Pnik - Z Pnik
= j k = j
(15)
(16)
Используя полученные выражения (12), (15), (16) для первых и вторых частных производных от величины X и воспользовавшись формулой (13), найдем окончательные выражения, позволяющие рассчитать значения искомых величин по матрице результатов тестирования:
Ö(t+1) =Ö(t) __
L mi
ZZ
i=1 k=0
xn Z Z kp(nik
n n
L mi ( m ^ 2
-Z Zk2 P(k - z kpnk
i=1 k=0 V k=0
n = 1, N; (17)
S(t+1) =S(t) --
N mt
ZZ
n=1 k=j
-Sj + Z Z kP(k
N mi ( m; ^ 2
-Z Z P (Л - L 1 nik Z P k)
n=1 k = j k = j
i = 1, L; j = 1, mi
x
2
X
2
В качестве оценки трудности задания р(1+1) принимается средняя трудность его шагов 5. в последней итерации, равная
1 тг ___
р^ =5?+1) = .1 ЕЕ 5(у+1), г = 1, L; / = 1,тг . (19)
тг 1 =1
Асимптотические стандартные ошибки рассчитываются по знаменателям выражений (17), (18) для последней итерации:
£(0n ) =
в(5,) =
Л
t к Ртк t кр
к=1
шк
N
t
n=1
f
к=1
Л
(20)
t Ржк
к=]
\
2 Л
t Ртк \к=]' У
= ln
Pn n
1 - P
(\-, __
V р У
50° = ln
^ -P,+A1 ^ P,-A1
а при P,= 0
5(0 = ln
^ - P,-A1 ^ P, +A1
4. Используя начальные значения , вычисляют
уточнённые значения 6(п+У) при t = 0 по формуле (17). Итерационные вычисления проводят до тех пор, пока
выполняется условие
>ДР
5. Используя начальные значения 5(;0-1,
вычисляют
уточнённые значения +1) при 1 = 0 на основе рекуррентного соотношения (18). После каждой итерации центрируют полученные значения 5(1) с помощью
выражения
5,° =5, -1 t115(t), i = 1,L; J = 1,
, y° L i=
а среднее значение 5(1) = — Е—Е 5?) обнуляют.
L ;=1 т;/=1
Итерационные вычисления выполняют до тех пор, пока удовлетворяется условие - 5((10-1) | > Д5.
6. Повторяют этапы 3 - 6, используя вместо и 5((|0"1 полученные значения 6^) и 5.).
7. После завершения итерационных вычислений рассчитывают значение критерия окончания итерационного процесса, который для данного случая будет иметь вид
Алгоритм расчёта латентных переменных на основе политомической модели частичного доверия
Алгоритм расчёта оценок 6п, р; и 5. по результатам тестирования, разработанный на основе полученных рекуррентных выражений, представляет собой следующую последовательность действий (рисунок).
1. Находят число участников тестирования, успешно выполнивших / и более шагов задания г, т.е. ^ .
2. Рассчитывают общий балл хп , полученный п -м
L
участником по всем L заданиям: хп =Е хпг .
;=1
3. Вычисляют начальные значения параметров 6по) и 5(.0"1 на основе следующих выражений:
ст =
L mi
t (0«-1)-0Si))2 + tt (5(t-1)-5(t))2
n=1 i=1 , =1
где Рп = xn|mL - доля баллов, полученных п -м участником тестирования;
5(0) = 1п
(N + (t mt )-1)
i=1
Проверяют условие завершения процедуры вычислений: ст < Д, где А = тт(Д9, Ар, АТ).
8. Если условие выполняется, то по значениям последней итерации 5(у+1) находят оценки трудности
задания р(1+1), используя выражение (19).
9. Рассчитывают относительные трудности шагов заданий т
(t+1): у
^+1) =5,+1) -ßf+1).
где Р. = Sii|N - доля участников, преодолевших / и
более шагов по г -му заданию.
Если Рп = 1 или Рп = 0, то профиль ответов п -го участника тестирования из обработки удаляется. При Р. = 1 или Р. = 0 в выражение для 5((|0"1 вводится поправка
Д1. При Р. = 1 выражение для 5((|0"1 запишется в виде
10. Рассчитывают погрешности расчётов латентных переменных, используя формулы (19), (20).
Рассмотренные алгоритмы расчёта параметров латентных переменных по политомической матрице результатов тестирования используются в программном комплексе RILP-2 [4]. Достоверность полученных с его помощью значений параметров подтверждается высокой сходимостью расчётных данных к эмпирическим; согласием их с оценками, рассчитанными с помощью лицензионной диалоговой системы RUMM 2020.
m
Начало
I
Ввод данных
I
Вычисление
e(o) s(o) х s
^ n ' IJ > n^lj
Вычисление
еП'), n=IN
Вычисление &,,,l = l,l, j = 1,m lJ l
1 r
= - E Df ]
Вычисление критерия 3
т
l = l, L,
SJ-1) = 8« J =
Нет
^^Проверка^^^ ^^ критерия 3 Да Расчет ß('+1) = E[sj+1>], l = 1,L
1
Расчет погрешностей Расчет = sJ- ßl
3
Вывод информации
inn
Конец
Блок-схема алгоритма вычисления параметров для модели частичного доверия Литература
1. Wright B.S., Masters G.N. Rating Scale Analysis: Rasch Measurement, Chicago, 1982. 206 p.
2. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. М., 2000. 169 с.
3. Карданова Е.Ю., Нейман Ю.М. Основные модели современной теории тестирования // Вопросы тестирования в образовании. 2003. № 7. С. 12 - 37.
4. RILP-2 / И.Н. Елисеев, И.И. Елисеев, А.И. Шерстобитов, А.В. Фисунов / Свидетельство об официальной регистрации программы для ЭВМ, РОСПАТЕНТ №2010611109, 05.02.2010.
e(t -1) =е(.'), n = i,n
Поступила в редакцию 26 января 2011 г.
Елисеев Иван Николаевич - канд. техн. наук, профессор, Южно-Российский государственный университет экономики и сервиса. Тел. (8-863-6)-22-55-92. E-mail: [email protected]
Eliseev Ivan Nikolaevich - Candidate of Technical Sciences, professor, South-Russian State University of the Economy and Service. Ph. (8-863-6)-22-55-92. E-mail: [email protected]_