УДК 519.2:37
В.Б.Карпинский
ИСПОЛЬЗОВАНИЕ КОМПОЗИЦИОННОГО СТАТИСТИЧЕСКОГО КРИТЕРИЯ ДЛЯ ОБНАРУЖЕНИЯ ИСКАЖЕНИЙ ПРИ МАССОВОМ ТЕСТИРОВАНИИ
Институт электронных и информационных систем НовГУ
Complex statistical criterion was designed upon the results of the empirical study into the efficiency of various statistical criteria. The efficiency was assessed for testing large groups of subjects applicable to the task of detecting distortion. The research involved specifically designed simulated data. The efficiency of the complex statistical criterion was duly investigated and considered satisfactory for practical use.
Введение
Задача анализа результатов тестирования (мониторинга) может быть решена средствами математической статистики и математического моделирования. Результаты тестирования представляют собой большую совокупность однотипных данных, типичную для статистической обработки. Однако параметры соответствующего распределения неизвестны, т.е., по сути, надо решить обратную задачу моделирования: так подобрать параметры модели, чтобы ее функции пришли в согласие с опытными данными. Эффективность моделирования во многом определяется удачным выбором математической модели изучаемого процесса.
Такую математическую модель предложил в 60-е годы прошлого века датский ученый Георг Раш (George Rasch, 1901 — 1980) в [1] (на русском языке эта теория изложена в [2]). Основная масса результатов педагогического (и иного) тестирования находится в хорошем согласии с нею. Следовательно, случаи отклонения результатов какого-либо испытания от модели Раша могут дать информацию о причинах этого отклонения, вызванных, в частности, нарушениями процедуры тестирования. Обнаружение подобных искажений особенно актуально для массового тестирования (например, ЕГЭ).
Модель Раша строится следующим образом. В элементарном акте тестирования участвуют две стороны: испытуемый и задание теста. Результат испытания (балл) зависит от двух параметров. Это — подготовленность испытуемого 0 и трудность задания 5. Пусть тест одномерен, т. е. все его задания (с номерами m = 1,2,...,M) измеряют одну переменную, а именно уровень подготовленности испытуемого. И пусть множество испытуемых (с номерами n = 1,2,...,N) является для целей данного тестирования достаточно однородным. Тогда, как доказано в [3], вероятность того, что испытуемый с номером n получит за выполнение задания, имеющего номер m, к (к = 0,...,Km) баллов, определяется формулой
Pnm (к) = с™ (к) , (1)
^m
Z Enm (i)
i=0
i
где Enm (i) = exp(i0n 5mj), 0n — уровень подго-
j=0
товленности испытуемого номер n, а 5mj — трудность
выполнения у-го шага в задании номер т (т.е. трудность перехода при выполнении задания номер т с уровня, соответствующего (у - 1) баллам, на уровень у баллов).
Обозначим хпт балл, фактически полученный испытуемым номер п в задании номер т. На основе вероятности (1) можно определить прогноз модели Раша относительно величины этого балла — его математическое ожидание
Кт
М(хпт ) =Х к ' Рпт (к^ (2)
к=1
где Кт — максимальный балл для задания номер т.
Отклонения профиля испытуемого, т. е. совокупности баллов хпт испытуемого номер п по всем заданиям теста т = 1,2,...М от предсказываемого моделью Раша его модельного профиля могут быть оценены с помощью разных статистик. Они имеют различную мощность и чувствительны к разным по природе причинам нарушения согласия данных с моделью.
В ходе предварительных исследований [4] было выяснено, что общая статистика согласия результатов тестирования с моделью Раша
и = (Хт - М(Хт ))2
П М^ В(Хпт) ’
Кт
где О(Хпт) = ^ (к - М(Хпт ))2 Рпт (к) — дисперсия, а
к=0
также ее взвешенный, стандартизованный и стандартизованный взвешенный аналоги [5] имеют недостаточно высокую эффективность при решении задачи обнаружения искажений в массовом тестировании. Требуется исследовать эффективность статистических критериев, основанных на иных статистиках, и выбрать или сконструировать критерий с достаточно хорошей эффективностью. Очевидно, что для обнаружения разных искажений в тестировании будут эффективны разные статистические критерии.
Целью данной работы является выбор совокупности критериев, лучше соответствующих конкретной задаче принятия решения о том, что результаты тестирования данного испытуемого дали завышенный тестовый балл из-за нарушения процедуры тестирования типа списывания или подлога.
Методика исследования
С целью исследования эффективности критерия для обнаружения искажений в результатах тестирования используется имитационное моделирование результатов тестирования с заранее известными случаями искажений. На этих модельных данных статистическими методами проверяется нулевая гипотеза, что профиль данного испытуемого не содержит искажений. Эффективность критерия определяется вероятностями ошибки первого рода а (признаны достоверными результаты измерения подготовленности испытуемого, основанные на искаженном профиле) и ошибки второго рода в (отмечены как недостоверные результаты тестирования, не содержащие искажений).
Помимо общей статистики согласия и (3), ее взвешенного аналога и их стандартизованных версий (полученных различными преобразованиями [5,6]) были рассмотрены также и межгрупповые статистики согласия. Эти статистики предполагают разбиение всего теста на группы заданий по какому-либо основанию (например, в соответствии с трудностью заданий, их типом и т. д.). В данном случае исследовались межгрупповые статистики согласия в соответствии с разбиением заданий на следующие группы: в соответствии с трудностью заданий (первая часть содержит задания, трудность которых меньше средней трудности теста, вторая часть — задания, трудность которых не меньше средней трудности теста), в соответствии с типом заданий (например, применительно к ЕГЭ первая часть содержит задания типа А (закрытого типа), вторая часть — задания типов В и С (открытого типа)) и в соответствии с частями теста (например, части А, В и С соответственно). Для каждой статистики исследовались также взвешенная, стандартизованная и стандартизованная взвешенная формы.
Таким образом, в категории статистик согласия в рамках теории Раша выбраны для исследования шестнадцать статистик: четыре общих и двенадцать межгрупповых. В качестве критического значения не стандартизованных версий общих и межгрупповых статистик согласия использовано значение 1,3, определенное эмпирически на предыдущем этапе исследования [4]. Критическое значение для стандартизованных вариантов общих и межгрупповых статистик согласия составляет 2, так как эти статистики имеют распределение, близкое к стандартизованному нормальному распределению.
Кроме статистик согласия исследованию подвергнут еще ряд статистик, имеющих иную математическую природу: коэффициент корреляции профиля испытуемого с рядом трудностей заданий теста, статистики на основе стандартизированных остатков и др.
Исследование эффективности статистических критериев и построение композиционного критерия
Для данного исследования разработан комплекс программ. Во-первых, это программы для моделирования результатов тестирования с точно известными случаями искажений. Основная часть вир-
туальных испытуемых моделируется в полном соответствии с моделью Раша. Т. е. для каждого элементарного акта ответа на основе уровня подготовленности испытуемого и уровней трудности категорий заданий вычисляются вероятности (1) получения испытуемым за это задание любого возможного количества баллов. После этого по методу Монте-Карло реализуется случайная величина, имеющая это дискретное распределение вероятностей, путем преобразования равномерно распределенной на интервале [0;1) случайной величины Random.
К этой совокупности полностью соответствующих модели данных добавляются данные с моделированием списывания/подлога, либо с моделированием случайного угадывания (эта возможность в данном исследовании не использовалась). Для каждого случая виртуального списывания/подлога определяется истинный уровень подготовленности данного испытуемого и уровень подготовленности того лица, от которого поступают ответы на часть заданий. Имеется возможность варьирования других аспектов списывания/подлога: сколько ответов подменяется и по какому принципу эти ответы выбираются. Например, могут быть списаны ответы на трудные задания независимо от их положения в тесте; могут быть списаны или заменены при подлоге ответы на задания в конце теста; могут подвергаться списыванию/подлогу все задания типа C и т.п.
Одна из программ моделирования позволяет выбирать характер и параметры распределения трудности заданий и подготовленности испытуемых (нормальное распределение, равномерное, ступенчатое или задаваемое в виде линейного сплайна).
Другая программа позволяет заимствовать параметры трудности заданий и параметры подготовленности испытуемых (основной, «правильной» части выборки) из реальных результатов тестирования. В этом случае за истинные значения уровней трудности и подготовленности принимаются их оценки на основании модели Раша.
Во-вторых, в комплекс входит программа, которая по результатам тестирования и оценкам уровней трудности заданий и уровней подготовленности испытуемых вычисляет значения всех исследуемых статистик для каждого испытуемого. На вход программы можно подавать как модельные данные, описанные выше, так и реальные данные. Кроме того, программа строит гистограммы эмпирического распределения статистик.
На предыдущем этапе исследования [4] была обоснована необходимость построения композиционного критерия в силу недостаточной эффективности описанных выше статистических критериев. Очевидно, что композиционный критерий должен быть построен на базе наиболее эффективных критериев и являться некоторой функцией от них. Поскольку на данный момент нет никаких предположений о характере этой функциональной зависимости, разумно представить композиционный критерий как линейную комбинацию базисных критериев. Вместе с тем следует учесть разнообразие математической природы рассматриваемых статистических критериев, в
том числе различие законов распределения положенных в их основу статистик. Перед сведением в единый критерий следует привести базисные критерии к единому виду. С этой целью предлагается использовать индикаторную функцию
Г0, если 5 < Р,
l(s, Р) = \ >
[1, если 5 > Р,
где 5 — статистика, р — критическое значение. Тогда статистика К для композиционного критерия может быть определена следующим образом:
К = Т,аУ 1(5У,Ру), (4)
у=1
где — базисная статистика, Ру — ее критическое значение, 3 — количество статистик в линейной комбинации, а коэффициенты ау предлагается выбирать так, чтобы величина К оказалась нормирована к единице. Тогда семантика значения К очевидна — это степень уверенности в том, что результаты тестирования данного испытуемого содержат искажения.
По результатам исследования статистик были выбраны для включения в композиционный критерий в качестве базисных статистик следующие: все статистики согласия, доля существенных остатков, коэффициент корреляции с трудностями заданий и специальный критерий подлога/списывания.
В таблице приведен пример анализа эффективности композиционного критерия К по выявлению смоделированных случаев списывания/подлога (в зависимости от завышения тестового балла по сравнению с истинным уровнем подготовленности испытуемого).
Приведены значения частоты не распознанных случаев нарушения процедуры (оценка вероятности ошибки первого рода). Отдельно указана частота ложного распознавания, т. е. выделения как подозрительного случая, не содержащего нарушения процедуры (оценка вероятности ошибки второго рода). Данные с одними и теми же параметрами были смоделированы 10 раз, в таблице приведены средние значения и стандартные отклонения. Распределение подготовленности испытуемых, а также распределение трудности заданий теста заимствованы из реальных данных — одного из вариантов ЕГЭ по физике за 2005 г.
Пример анализа эффективности композиционного критерия К
Завышение Оценка вероятности ошибки
тестового балла не первого рода
менее чем на Среднее Стандартное
(логитов) значение отклонение
0,0 0,336 0,043
0,5 0,276 0,039
1,0 0,132 0,044
1,5 0,018 0,028
2,0 0,000 0,000
Оценка вероятности ошибки второго рода 0,004 0,001
Видно, что композиционный критерий К обнаруживает все случаи нарушения процедуры с завышением тестового балла на 2 логита, более 98% случаев с завышением на 1,5 логита, примерно 90% случаев с завышением на 1 логит, около 75% случаев с завышением на 0,5 логита. И даже случаи нарушения процедуры, не приводящие к завышению тестового балла, частично им выявляются. При этом вероятность ошибки второго рода (ложное срабатывание) очень мала, менее одного процента.
Аналогичное исследование было проведено с моделированием результатов тестирования с разным объемом выборки и разным количеством случаев искажений, а также с распределением трудности заданий и подготовленности испытуемых, заимствованных из реальных результатов тестирования разных лет по разным учебным дисциплинам.
Рис.1 и 2 позволяет сравнить эмпирическое распределение композиционной статистики К для модельных и реальных данных.
Рис.1. Эмпирическое распределение композиционной статистики К для модельных данных
Рис.2. Эмпирическое распределение композиционной статистики К для реальных данных
Горизонтальное «плато» на рис.1 объясняется тем, что основная масса испытуемых смоделирована
в полном соответствии с моделью, что в реальности, разумеется, не может иметь места. Относительная плавность распределения статистики К, т. е. степени подозрительности результатов тестирования, объясняется статистическим, вероятностным характером моделирования, следующим из теории Раша.
Еще более заметна плавность роста значений статистики для реальных данных. Это можно объяснить следующим образом. Предположим, условия проведения тестирования таковы, что оказываются возможными более или менее массовые нарушения (например, нет должного контроля, пресекающего списывание, и т.п.). В этом случае, очевидно, разные испытуемые в силу своих индивидуальных особенностей и особенностей конкретной ситуации в разной степени воспользуются возможностями списывания, подлога и т.п.
Для данных, на основании которых построен график на рис.1, композиционный статистический критерий обнаруживает искажения (при критическом значении Ккр = 0,5) примерно у 10% испытуемых, что соответствует факту: в выборке 1009 полностью соответствующих модели Раша испытуемых и 100 случаев подлога/списывания с разной степенью завышения оценки подготовленности относительно истинного уровня подготовленности испытуемого. В данных, на основании которых построен график на рис.2, обнаруживается почти 1/3 испытуемых, результаты которых вызывают обоснованное сомнение. Причины обнаруженных искажений требуют анализа со стороны организаторов процесса тестирования.
Таким образом, подтверждается показанная, в частности, данными таблицы сравнительно высокая
эффективность разработанного композиционного статистического критерия для обнаружения искажений при массовом тестировании.
Заключение
На основании анализа эффективности исследованных статистических критериев для целей обнаружения искажений при массовом тестировании разработан композиционный статистический критерий с удовлетворительной с точки зрения решаемой задачи эффективностью.
Разработан также комплекс программ, позволяющих анализировать эффективность статистических критериев с использованием специально создаваемых модельных данных и выявлять в результатах тестирования случаи, дающие основание подозревать нарушение процедуры тестирования, приводящее к искажению.
1. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Chicago: MESA Press, 1993. 199 p.
2. Нейман Ю. М., Хлебников В. А. Введение в теорию моделирования и параметризации педагогических тестов. М.: Прометей, 2000. 1б9 с.
3. Карданова E. Ю. // Вопросы тестирования в образовании. 200б. №1б. С.44-5б.
4. Карпинский В.Б. // Вопросы тестирования в образовании. 200б. №17. С.7-14.
5. Wright B.D. Masters G.N. Rating Scale Analysis. Chicago: MESA Press, 1982. 203 p.
6. Wright B.D. Stone M.H. Best Test Design. Chicago: MESA Press, 1979. 221 p.
зз