Научная статья на тему 'Построение интервальных оценок статистик согласия политомических тестовых заданий'

Построение интервальных оценок статистик согласия политомических тестовых заданий Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
316
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛИ РАША / СТАТИСТИКА СОГЛАСИЯ / КРИТИЧЕСКОЕ ЗНАЧЕНИЕ / БУТСТРЕП-МЕТОД / ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ / RASCH MODELS / FIT STATISTICS / CRITICAL VALUE / BOOTSTRAP METHOD / INTERVAL ESTIMATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карданов Р. С.

Разработан метод построения интервальных оценок статистик согласия политомических тестовых заданий, в основе которого лежит бутстреп-метод построения доверительных интервалов. Предложена технология идентификации заданий, не согласующихся с моделью измерения. Все этапы этого процесса автоматизированы путем разработки специального программного обеспечения.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карданов Р. С.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Построение интервальных оценок статистик согласия политомических тестовых заданий»

УДК 004:519.2:37

ПОСТРОЕНИЕ ИНТЕРВАЛЬНЫХ ОЦЕНОК СТАТИСТИК СОГЛАСИЯ ПОЛИТОМИЧЕСКИХ ТЕСТОВЫХ ЗАДАНИЙ

Р.С.Карданов

Институт электронных и информационных систем НовГУ, [email protected]

Разработан метод построения интервальных оценок статистик согласия политомических тестовых заданий, в основе которого лежит бутстреп-метод построения доверительных интервалов. Предложена технология идентификации заданий, не согласующихся с моделью измерения. Все этапы этого процесса автоматизированы путем разработки специального программного обеспечения.

Ключевые слова: модели Раша, статистика согласия, критическое значение, бутстреп-метод, интервальное оценивание

The method of interval estimates construction for fit statistics of polytomous test items is proposed in the article. The method is based on the Bootstrap method of computing confidence intervals. The technology of identification of the tasks that don't fit the measurement model is also highlighted in the article. All stages of this process are automatized by the means of special developed software.

Keywords: Rasch models, fit statistics, critical value, Bootstrap method, interval estimation

1. Введение

Полигамические тестовые задания (т.е. задания, за выполнение которых можно получить более одного балла) широко используются в различных методах мониторинга в образовании, управлении, экономике, медицине и т.д., а также в социологических и психологических опросниках.

Наиболее часто в качестве математической модели тестирования при наличии политомических заданий применяют модель Раша с произвольными промежуточными категориями выполнения заданий [1,2]. Согласно этой модели вероятность Рпк того, что испытуемый п с уровнем подготовленности 0п получит к баллов за выполнение задания ,, к = 0, 1,..., т,, определяется формулой

( к \

P =

nik

-• exp

k0 n -2 5

V

j=0 V

(1)

где у = £ ехр(/0 п -£ 5у) — нормирующий множи-1=0 ]=0

тель. Здесь 5] , ] = 1,., т, - трудность выполнения]-го шага задания , (т.е. трудность достижения следующей категории задания при условии, что предыдущая категория уже достигнута), 5,0 = 0.

Одной из основных задач при математическом моделировании выступает исследование адекватности эмпирических данных модели измерения. В рамках моделей Раша наиболее часто используются статистики, получившие название общих статистик согласия. Применительно к модели (1) общая статистика согласия и, и ее взвешенная версия для задания

, имеют вид

N N

иг = -1 у yra = -1У-

N ^ N ^ mг

n=1 n=1 'V”

(ani - M(ani ))

(2)

у (l - M (am))2

• Pn

nil

У Упг • D (ani ) У (ani - M (ani ))2

Wi =

г N

(3)

£°(апг) ££ -М(ап,))2 • Рт1

п=1 п=1 I =0

где ап, — балл испытуемого п за выполнение задания ,; N — общее число участников тестирования;

т, т,

М (ап,) = £ I • Рт1 и Б(ат) = £ (I - М (ага))2 • Рт1 —

l=0

l=0

математическое ожидание и дисперсия случайно2й вели-

(ап, -М (ат■) )2 чины ап, соответственно; Уп, = —-------------------- --

У(/-M(ara))2 • Pnil

1=0

квадрат нормированного уклонения величины ап, от ее математического ожидания.

Дополнительно для политомических заданий можно проанализировать согласие с модельными ожиданиями ответов испытуемых по отдельным категориям задания. Простая и взвешенная версии общих статистик согласия по к-й категории задания , имеют вид [2]

У

(k -M(am ))2

V (1) = aы =k D (ani )

Vik =-----------------------------------

nik

(k - M (am))2

(4)

D (am)

У ( k - M ( ani ))2

V.

(2) _

k = 0,1,..., mi. (5)

l=0

£ Ртк • ( к - М ( ап,))2

Все ап,

Перечисленные статистики принимают значения из промежутка [0,+да), их математические ожидания равны 1.

Отметим, что в реальных условиях вероятность Рп,к нам неизвестна, и мы можем использовать только

n=1

n=1

N m

m

Все a

k

a

ее приближенное значение Рп,к, основанное на оценках параметров 0п и 5, модели (1).

Основной проблемой при использовании статистик согласия (2)-(5) является выбор их критических значений. Значения статистик зависят от числа испытуемых N, распределения их уровней подготовленности и других факторов. Более того, теоретические распределения статистик могут быть определены только приближенно, а эмпирические распределения отличаются от теоретических [3]. Это не позволяет использовать в качестве критических значения, определяемые по квантилям теоретических распределений.

В зарубежной литературе рекомендуется в качестве допустимого интервала значений статистик (2)-(3) использовать интервал (0,8; 1,2) (для полигамических заданий иногда предлагается интервал (0,6; 1,4)) [4]. Однако этот подход неоднократно подвергался критике, главным образом из-за его теоретической необоснованности и неточности предлагаемого интервала [5].

В работе [6] предлагается метод построения интервальных оценок общих статистик согласия дихотомических заданий и технология идентификации заданий, не согласующихся с моделью измерения. Для решения задачи интервального оценивания используется бутстреп-метод построения доверительных интервалов [7]. В настоящей работе этот метод обобщается на случай политомических заданий.

2. Бутстреп-метод построения доверительных интервалов

Суть бутстреп-метода состоит в том, что по имеющимся наблюдениям за случайной величиной моделируется процесс ее получения, позволяющий оценить выборочное распределение этой случайной величины.

Предположим, что из неизвестного распределения вероятностей О извлекается выборка объема N X, = х,, Х,~О, , = 1, 2,., N. Обозначим случайную выборку и ее наблюдаемую реализацию через X = (Х1, Х2, ..., XN) и х = (хь х2, ..., хд?) соответственно. Рассматривается некоторый параметр 0 (являющийся случайной величиной: 0 = 0(Х, О)),

для которого известна его точечная оценка 0 . Ставится задача на основе наблюденных данных х оценить выборочное распределение этой случайной величины. Для решения данной задачи бутстреп-методом необходимо проделать следующее

1. Построить выборочное распределение вероятностей О, полагая в каждой из точек хь х2, ..., xN массу 1/Ж

2. При фиксированном О извлечь из него случайную выборку объема N с возвращениями: X, ~ О, , = 1,2,...N Совокупность X* = (X*,...,Х*ь\) называется бутстреп-выборкой объема N.

/V * * /V

3. Вычислить оценку параметра: 0 = 0(X ,О). Эта оценка называется бутстреп-реализацией 0 .

4. Повторить шаги 2-3 большое число раз.

5. Аппроксимировать выборочное распределение случайной величины 0 = 0(Х, О) бутстреп-распределением случайной величины 0 *= 0 (X*, О).

Бутстреп-распределение может быть использовано для различных целей, в частности — для построения доверительных интервалов. Рассмотрим метод процентилей построения доверительных интервалов.

Пусть Р(х) = Р(0* < х) — эмпирическая функция бутстреп-распределения статистики 0. В качестве центрального доверительного интервала уровня значимости а для 0 берется интервал

0 е (Р-1(а/2),Р-1(1 - а/2)). (6)

Если Рх0) = Р(0* < 0) ^0,5(т.е. бутстреп-распределе-

ние смещено относительно точечной оценки 0 параметра 0), то интервал (6) может оказаться неточным (смещенным). В этом случае он нуждается в коррекции смещения. Положим: г0 = Ф 1 (РХ0)), где Ф(х) — функция Лапласа. В качестве приближенного центрального доверительного интервала уровня значимости а для 0 берется интервал

0 е (Р- (Ф(2Г0 - Га )),Р-1 (Ф(2Г0 + Га ))), (7)

где = Ф-1(1 - а/2).

Очевидно, что если бутстреп-распределение не смещено относительно 0 , то г0 = 0, и интервал (7) совпадает с интервалом (6). Известно, что доверительные интервалы, построенные с помощью бутст-реп-метода, являются более точными по сравнению со стандартными интервалами, построенными на основе нормальной теории [7].

В заключение отметим, что бутстреп-метод построения доверительных интервалов требует большого числа бутстреп-повторений, порядка 1000 [7].

3. Процедура построения доверительных интервалов общих статистик согласия политомиических

заданий и ее программная реализация

Процедура построения доверительных интервалов общих статистик согласия включает в себя следующие шаги.

1. Нахождение точечных оценок статистик согласия.

Для нахождения точечных оценок статистик согласия (2)-(5) необходимо знать оценку вероятности Рп,, основанную на оценках параметров 0 п и 5, модели (1). Для оценивания параметров и получения оценок статистик согласия использовалась программа Winsteps (http://www.winsteps.com).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Конструирование бутстреп-выборок.

Конструирование осуществляется методом

Монте-Карло. Повторные реализации матрицы тестирования генерируются с использованием случайных выборок объема N с возвращением из исходной матрицы тестирования.

3. Нахождение бутстреп-оценок общих статистик согласия.

С этой целью к бутстреп-выборке применяется

шаг 1.

4. Шаги 2-3 повторяются 1000 раз, в результате чего имеем 1000 бутстреп-оценок для каждой из рассматриваемых статистик.

5. Аппроксимация распределений статистик согласия.

При использовании метода Монте-Карло конструирования бутстреп-выборок в качестве аппроксимации бутстреп-распределения рассматривается гистограмма бутстреп-оценок рассматриваемых статистик.

6. Оценивание характера распределения статистик согласия.

На данном этапе по каждому заданию вычисляются выборочные числовые характеристики полученных распределений и исследуется смещение распределения относительно точечных оценок статистик, полученных на шаге 1.

7. Построение доверительных интервалов для статистик согласия.

С учетом результатов шага 6 на уровне значимости а = 0,05 строится один из доверительных интервалов (6) или (7) для каждой статистики.

Для реализации описанной процедуры разработана специальная компьютерная программа. Программа реализована в виде отдельного desktop-приложения с использованием технологии Java 2 Standart Edition (версия Java-1.6). Графический интерфейс реализован с использованием стандартных библиотек AWT и Swing, система хранения данных представляет собой структурированный каталог, содержащий XML-файлы. Для работы программы необходима предустановленная программа Winsteps.

4. Модель эксперимента

Для проведения эксперимента использовалось имитационное моделирование. Генерирование модельных матриц производилось методом Монте-Карло в соответствии с формулой вероятности (1). В программной реализации для получения точечных оценок статистик согласия матрица тестирования в batch-режиме прогоняется через программу Winsteps. Из выходных данных программы специальным анализатором извлекаются значения оценок общих статистик согласия по каждому заданию.

Для исследования возможности идентификации заданий, не согласующихся с моделью, в модельные матрицы вносились искажения: для выбранных заданий и выбранного процента искажений р ответы р% испытуемых, определенных случайным образом, по некоторым категориям заменялись на другие.

К матрице тестирования применялась процедура построения доверительных интервалов статистик согласия (2)-(5). Обозначим (ар ,PU,) и

(ajpp- ,P)ppj) доверительные интервалы статистик Р и

W соответственно для задания i, i = 1,2,.,/, при условии, что ответы на это задание содержат р% искажений. Доверительные интервалы при р = 0

(искажений нет) будем называть базовыми. Аналогичным образом вводятся доверительные интервалы статистик согласия по категориям. Задание признается не согласующимся с моделью измерения, если доверительные интервалы его статистик согласия не пересекаются с соответствующими базовыми интервалами.

Для генерирования матриц тестирования выбирались различные сочетания распределений испытуемых и заданий, встречающиеся в массовом тестировании.

5. Результаты эксперимента

Было проведено большое число разнообразных экспериментов, имеющих целью показать возможности использования интервальных оценок статистик согласия для идентификации заданий, не находящихся в согласии с моделью измерения. Ниже приведены результаты одного из экспериментов.

Параметры исходной матрицы тестирования: N = 1000 (число испытуемых); I = 30 (число заданий); 0п -N(0,2); 5, -N(0,1); 5, — общая трудность задания (среднее значение трудностей всех его шагов). Все задания моделировались политомическими с тремя категориями: 0, 1 и 2. Трудности шагов моделировались по формуле 5]= 5, ± т, где т = 0,8 постоянно для всех заданий.

После моделирования параметров испытуемых и заданий генерировалась исходная матрица тестирования. С этой целью

1) для каждого испытуемого п с уровнем подготовленности 0п и каждого задания , с трудностями шагов 5,] вычисляются модельные вероятности ответов в различных категориях Рп,0, Рп,1 и Рп,2 (формула (1));

2) из промежутка [0,1] выбирается случайное число Д;

3) если Д < Рп,0 , то в соответствующую позицию (п,,) матрицы тестирования ставится 0; если же Рп,0 < Д < Рп,0 + Рп,1 , то ставится 1; в противном случае ставится 2.

Параметр р выбирался равным 5, 10, 15, 20, 25, 50 и 100. Искажения вносились в профили пяти случайным образом отобранных заданий. С этой целью у р% испытуемых, определенных случайным образом, ответ «0» заменялся на «2», а ответ «2» — на «0». При этом ответ «1» оставался без изменения. Ко всем сгенерированным матрицам (без искажений и с искажениями) применялась процедура построения доверительных интервалов статистик согласия (2)-(5).

В табл.1-2 представлены доверительные интервалы общих статистик согласия (2)-(3) при различных значениях параметра р. Данные усреднены по пяти заданиям, в профили которых вносились искажения. В 1-й строке таблиц представлены базовые интервалы.

Анализ таблиц позволяет сделать следующие выводы.

1. Если задание находится в согласии с моделью (р = 0), то значения его статистик согласия близки к 1. Чем больше искажений содержит матрица тес-

Таблица 1

Доверительные интервалы статистики и

Параметр р (процент искажений) Значение статистики Левая граница р доверит. интервала ар, Правая граница доверит. интервала вр,

Среднее Ср.кв.откл. Среднее Ср.кв.откл. Среднее Ср.кв.откл.

0 0,97 0,129 0,81 0,126 1,16 0,144

5 1,28 0,154 1,09 0,110 1,50 0,203

10 1,47 0,172 1,28 0,134 1,68 0,209

15 1,72 0,258 1,51 0,216 1,94 0,305

20 1,82 0,190 1,61 0,153 2,01 0,218

25 1,90 0,203 1,72 0,179 2,10 0,245

50 2,40 0,265 2,19 0,222 2,62 0,331

100 4,12 1,021 3,74 0,784 4,59 1,320

Таблица 2

Доверительные интервалы статистики Ж

Параметр р (процент искажений) Значение статистики Левая граница р доверит. интервала аЖ, Правая граница доверит. интервала в Ж,

Среднее Ср.кв.откл. Среднее Ср.кв.откл. Среднее Ср.кв.откл.

0 0,98 0,080 0,89 0,075 1,07 0,086

5 1,18 0,103 1,07 0,098 1,29 0,111

10 1,34 0,085 1,22 0,074 1,46 0,097

15 1,50 0,126 1,38 0,115 1,63 0,140

20 1,63 0,101 1,50 0,093 1,76 0,101

25 1,73 0,084 1,60 0,080 1,85 0,096

50 2,05 0,102 1,93 0,092 2,17 0,106

100 2,44 0,305 2,32 0,302 2,56 0,301

тирования, тем сильнее отличаются от 1 значения статистик согласия.

2. Средние квадратические отклонения всех статистик, представленных в таблицах, достаточно малы. Это позволяет утверждать, что значения статистик согласия и границы доверительных интервалов в большей степени определяются количеством искажений, чем какими-либо свойствами самих заданий.

При этом взвешенная статистика Ж обладает гораздо меньшей вариабельностью, чем статистика и.

3. Задание может быть идентифицировано как не согласующееся с моделью измерения, уже при 510% искажений.

В табл.3-4 представлены доверительные интервалы статистик согласия и и Ж по пяти заданиям, в которые вносились искажения.

Таблица 3

Доверительные интервалы статистики и при 10% и 15% искажений

Номер задания Базовый интервал Значение при 10% Довер. инт. при 10% Значение при 15% Довер. инт. при 15%

1 (0,63;1,04) 1,77 (1,51; 2,04) 2,16 (1,88; 2,46)

2 (0,97; 1,33) 1,38 (1,19; 1,57) 1,64 (1,44; 1,82)

3 (0,76;0,98) 1,48 (1,27; 1,70) 1,70 (1,46; 1,92)

4 (0,85; 1,22) 1,38 (1,21; 1,58) 1,49 (1,32; 1,68)

5 (0,85; 1,12) 1,36 (1,20; 1,53) 1,61 (1,43; 1,80)

Таблица 4

Доверительные интервалы статистики Ж при 5% и 10% искажений

Номер задания Базовый интервал Значение при 5% Довер. инт. при 5% Значение при 10% Довер. инт. при 10%

1 (0,80;0,99) 1,22 (1,09; 1,35) 1,45 (1,30; 1,60)

2 (0,95; 1,13) 1,12 (1,02; 1,21) 1,24 (1,14; 1,30)

3 (0,82;0,97) 1,04 (0,94; 1,14) 1,27 (1,14; 1,39)

4 (0,94; 1,14) 1,21 (1,11; 1,32) 1,36 (1,25; 1,48)

5 (0,95; 1,14) 1,31 (1,20; 1,42) 1,38 (1,26; 1,49)

Из анализа таблиц можно сделать следующие выводы.

1. Взвешенная статистика Ж обладает большей чувствительностью, чем статистика и.

2. Точечные оценки статистик согласия не могут служить надежными индикаторами согласия. Например, значение статистики и задания №2 при 10% искажений, равное 1,38, не принадлежит базовому интервалу (0,97;1,33). Однако интервальная оценка (1,19; 1,57) не позволяет идентифицировать задание, как не согласующееся с моделью.

3. Интервал (0,6;1,4), рекомендуемый в качестве допустимого для статистик согласия полигамических заданий в [4], не может служить надежным индикатором согласия. Так, значения статистики Ж четырех заданий при 10% искажений принадлежат указанному промежутку (табл.4), но задания не могут быть признаны адекватными модели, если принять во внимание их интервальные оценки: доверительные интервалы не пересекаются с соответствующими базовыми интервалами.

4. Интервал (0,8; 1,2) также не является надежным индикатором. Значения статистики и заданий №2 и №4 при 10% искажений не принадлежат указанному промежутку (табл.3), однако задания не могут быть признаны неадекватными модели с учетом их интервальных оценок.

В табл.5 представлены доверительные интервалы статистик согласия (4)-(5) по отдельным категориям для одного из заданий. (По другим заданиям ситуация аналогичная).

ем объема выборки чувствительность статистик согласия повышается, но всегда взвешенная статистика Ж обладает большей чувствительностью, чем статистика и. Дополнительно было проведено исследование зависимости доверительных интервалов статистик согласия от трудности заданий, в которые вносились искажения.

Таким образом, использование интервальных оценок общих статистик согласия (2)-(5) позволяет идентифицировать задания, не адекватные модели измерения, и категории, в которых есть искажения.

6. Технология идентификации заданий,

не согласующихся с моделью измерения

В результате проведенного теоретического анализа и экспериментального исследования была разработана следующая технология идентификации политомических заданий, не согласующихся с моделью измерения, в реальных данных тестирования.

1. Генерируется матрица тестирования, аналогичная реальной, но с полным соответствием модели измерения.

2. С использованием модельной матрицы строятся доверительные интервалы общих статистик согласия (2)-(5) для всех заданий и их категорий. Это — модельные доверительные интервалы.

3. Строятся доверительные интервалы общих статистик согласия (2)-(5) для всех заданий и их категорий по реальной матрице тестирования. Назовем эти интервалы реальными доверительными интервалами.

Таблица 5

Доверительные интервалы статистик и и Ж по отдельным категориям задания №2

Процент искажений Категория Статистика и Статистика Ж

Значение Доверит. интервал Значение Доверит. интервал

0 1,00 (0,89;1,13) 1,05 (0,93; 1,18)

0 1 1,20 (0,98;1,46) 1,10 (1,01;1,22)

2 1,20 (0,83;1,72) 0,98 (0,86;1,13)

0 1,07 (0,96;1,19) 1,14 (1,01;1,26)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

5 1 1,13 (0,93;1,36) 1,10 (0,99;1,20)

2 1,48 (1,06;2,00) 1,12 (0,97;1,27)

0 1,10 (0,99;1,23) 1,19 (1,07;1,31)

10 1 1,11 (0,90;1,33) 1,08 (0,98; 1,18)

2 1,94 (1,51;2,45) 1,38 (1,20;1,57)

0 1,32 (1,18;1,47) 1,39 (1,25;1,54)

15 1 1,14 (0,92;1,40) 1,07 (0,97; 1,19)

2 2,41 (1,96;2,87) 1,67 (1,47; 1,84)

Все выводы аналогичны выводам относительно статистик согласия по заданиям: «плохие» категории идентифицируются при 10-15% искажений. Построение интервальных оценок статистик согласия по категориям позволяет определить категории, в которых есть искажения.

На следующем этапе исследования изучалась зависимость доверительных интервалов статистик согласия от различных факторов — числа испытуемых, числа заданий, параметров их распределений. Результаты показали, что чем больше объем выборки, тем уже доверительные интервалы статистик согласия. С увеличени-

4. Сравнивая реальные доверительные интервалы с модельными, делаем вывод о согласии или несогласии с моделью ответов на данное задание теста. Дополнительный анализ интервальных оценок статистик согласия по категориям позволяет определить категории, в которых есть искажения.

Данная технология была апробирована на реальных данных массового тестирования и показала свою эффективность. Таким образом, интервальные оценки статистик согласия позволяют более точно идентифицировать задания, не согласующиеся с моделью измерения, чем их точечные оценки.

7. Заключение

В работе рассматривается возможность использования бутстреп-метода построения доверительных интервалов для построения интервальных оценок статистик согласия политомических заданий теста. Предложена процедура построения доверительных интервалов общих статистик согласия, на основе которой разработана технология идентификации заданий, не согласующихся с моделью измерения. Все этапы этого процесса автоматизированы путем разработки специального программного обеспечения.

1. Wright B.D., Masters G.N. Rating Scale Analysis. Rasch Measurement. Chicago: Mesa Press, 1979. 206 p.

2. Карданова Е.Ю. Моделирование и параметризация тестов: основы теории и приложения. М.: Федеральный центр тестирования, 2008. 304 с.

3. Карданова Е.Ю., Карпинский В.Б. // Информационные технологии. 2009. №6. С.74-79.

4. Wright B.D., Linacre J.M. // Rasch Measurement Transac-

tions. 1994. № 8:3. Р.370.

5. Karabatsos G.A // Journal of Applied Measurement. 2000,

Vol.1. №2. Р.152-176.

6. Карданова Е.Ю., Карданов Р.С. // Информационные технологии. 2010. №9. С.64-70.

7. Эфрон Б. Нетрадиционные методы многомерного ста-

тистического анализа. М.: Финансы и статистика, 1988. 263 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.