Методология
ИССЛЕДОВАНИЕ ВЗАИМОСВЯЗИ ТЕОРИИ ИНФОРМАЦИИ И ТЕОРИИ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ
Юрий Каргин,
Ноябрьский колледж профессиональных и информационных технологий [email protected]
-е-
В статье рассмотрены некоторые вопросы применения теории информации к педагогическим измерениям. Такой подход позволил привести информационную интерпретацию основных показателей моделей педагогических измерений, выделить совокупность моделей Раша и построить алгоритм их конструирования, а также предложить методы оценки эффективности тестовых испытаний.
Ключевые слова: педагогические измерения, модель педагогических измерений, единицы педагогических измерений, IRT, формула Шеннона
Введение
Развитие любой науки связано с введением собственных понятий и величин, на которых она базируется. Не является исключением и математическая теория измерений (IRT). Во всём множестве смежных и собственных понятий IRT1 некоторые из них имеют исключительное значение. К таким относятся количественные показатели мер подготовленности испытуемого b (person ability, обозначения по работе2) и трудности тестового задания d (item
-е-
—i— Аванесов. В.С. Item Response Theory: основные понятия и положения. ПИ №2. 2007. С. 3-28;
Истоки и основные понятия математической теории измерений (Item Response Theory). Статья вторая. ПИ №3. 2007. С. 3-36.
Wright B.D., Stone M.H.
Measurement Essentials. WIDE RANGE, INC. Wilmington, Delaware, 1999. 221 p.
Pn
измерения
-е-
difficulty), значения которых определяются по латентной шкале логитов. Причём введённая в IRT единица измерения логит является внутренней единицей измерений и никак непосредственно не связана с универсальными или широко распространёнными и в других отраслях знаний единицами измерений.
Содержательная интерпретация значений показателей b и d, точнее расстояний между ними g = b - d сводятся к описанию зависимости от этой разности доли правильных ответов Р, информационной функции I = Р (1 - Р) и некоторых менее значимых показателей. Фактически в различных изложениях IRT именно эти рассуждения, иногда подкреплённые графиками, дают необходимый содержательный смысл о результатах измерений.
В данной работе предлагается расширить содержательный смысл основных показателей педагогических измерений и связать основные единицы педагогических измерений с информационными мерами. Основания для этого можно найти в широко известной формуле Шеннона.
Выявленная связь формулы Шеннона с математической моделью педагогических измерений Раша позволила также предложить алгоритм констру-
ирования математическом модели педагогических измерений по форме тестового задания. В качестве примера сконструированы как некоторые известные, так и частные модели педагогических измерений.
И, наконец, информационные меры можно использовать при оценивании эффективности теста. Эти вопросы нашли своё отражение в завершающих подразделах данной работы.
Информационная энтропия Шеннона
Существуют различные понятия энтропии. Мы используем это понятие в формулировке Шеннона. Клод Шеннон предложил количественно рассчитывать полученную от элементарного сообщения информацию как меру снятой неопределённости (энтропии) этого сообщения. Неопределённость одного состояния X; сообщения х называют частной энтропией, её значение рассчитывается по
формуле
h(X.) =
bg2 р.
где Р; — вероятность появления состояния из набора дискретных состояний элементарного сообщения, ^ Р. = 1 . Энтропия всего элементарного сообщения определяется как среднее частных энтропий по всем состояниям: Н (х )= Рг Н (хг).
-e-
Единицей измерения энтропии является бит3 (binary digit — двоичное число).
В данной работе осуществляется опора преимущественно на формулы Шеннона с натуральным логарифмом — для частной энтропии h(x.) = — ln P и для средней энтропии H(x)=-^Рг-lnРг.
При расчёте энтропий по этой формуле результат имеет единицу измерения нат (nat).
Если случайное событие х имеет только два состояния (1 — да; 0 — нет) с вероятностями Р и 1 — Р, то формулы Шеннона приобретают вид:
h (x = 1)= h1 = - ln P, h (x = 0)= h0 = - ln (1 - P) H (x )=-P -ln P - (1 - P )ln (1 - P ) Кратко остановимся на свойствах этих функций.
Графики функции h(x) и Н(х) приведены на рис. 1а и 1б.
Графики частных энтропий монотонные убывающая для h1 и возрастающая для h0 функции с положительной областью
значений от нуля до бесконечности и вертикальными асимптотами соответственно Р =0 и Р = 1. При Р = 0,5 значения частных энтропий совпадают и равны А1(0,5) = П0(0,5) = 1п2.
Энтропия Н ограничена и достигает максимума, равного 1п2 нат (или 1 бит) при Р = 0,5. При Р =0 или Р = 1 неопределённость Н равна нулю. Среднее значение функции Н(х) обозначено на рисунке горизонтальной пунктирной линией и равно Нср=0,5 нат, что примерно соответствует неопределённости сообщения с вероятностями событий Р = 0,2 или Р = 0,8. Продолжим исследование этой функции. Вычисляя производную, находим
йИ , 1 - Р , ,
—— = 1п-= п. -п0,
йР Р 10
т.е. производная энтропии равна разности частных энтропий благоприятного и неблагоприятного состояний.
Последнее выражение, наряду с определениями функ-
Рис. 1. Графики функций энтропий h(x) и Н(х)
Двоичная единица измерения информации «бит» — не единственная мера. Эта мера определяется основанием логарифма — 2. Если в формуле Шеннона изменить двоичный логарифм на натуральный, то такую единицу измерения называют «нат». Связь между этими единицами измерения следующая: 1 бит = 1п2-1 нат. Безусловно, количество информации от выбора основания логарифма не зависит, выбор основания и, как следствие, выбор единицы измерения — лишь вопрос масштаба измерительной шкалы. Единственное требование — в одном тесте для результатов измерений должна использоваться единая шкала. При формальных математических преобразованиях можно считать величину количества информации безразмерной (как, впрочем, и логит).
а
измерения |
ции энтропии, отражает связь производной усреднённой энтропии через разность частных энтропий симметричных состояний.
Для дальнейших рассуждений важно отметить и то, что производная энтропии
й— , Р
-= - 1п- с точностью до
—Р 1 - Р
знака совпадает с выражением для исходной оценки логита уровня подготовленности испытуемого Ь = 1п в модели
Раша. Такое совпадение даёт возможность не просто выразить показатели педагогических измерений модели Раша через информационные показатели энтропии Шеннона, но и попытаться выявить содержательные связи между соответствующими теоретическими положениями.
Действительно, даже рассуждая формально, модель Раша можно вывести из формулы Шеннона. Если в выражении для производной функции Шеннона
—И = - 1п Р вести обозначе-
—Р 1 - Р —И
ние а = - —— (или а = й0 — к{) 6 —Р
и выразить вероятность Р, то получим формулу Раша
Р =
ехр а
1 + ехр а
правильного ответа испытуе-
мым с подготовленностью Ь при выполнении задания трудности —, где а = Ь - —. График этой функции хорошо известен в ШТ (рис. 2). Иными словами, Функция Раша (логистическая кривая) представляет собой график производной информационной энтропии Шеннона, взятой с противоположным знаком.
0,5 /
у
для вероятности
Рис. 2. Логистическая кривая с различными осями абсцисс
Таким образом, приведённые понятия и свойства функций энтропии Шеннона позволяют установить функциональную связь информационных показателей к и И, измеряемых в единицах нат, с измеряемыми в логитах значениями параметра а = Ь - — модели Раша.
Пример
Рассмотрим пример, уточняющий понятия неопределённости. Учитель, знающий своего
ученика, при контроле знаний стремится дать ему адекватное задание или, как говорится, задание по уровню его развития. При выполнении такого задания и поиске правильного ответа на поставленный вопрос ученик должен испытывать существенные затруднения. Как он ответит на это задание, предсказать достаточно трудно; неопределённость состояний правильного или неправильного ответа ученика значима, неопределённость результата такого испытания близка к максимальной. Именно ответ на такое задание даст учителю наибольшее количество полезной информации об уровне его подготовленности.
Несложно привести примеры и неудачных заданий. Бессмысленно давать очень лёгкие задания. Неопределённость правильного ответа на него близка к нулю. Скорее всего, испытуемый лёгко выполнит задание, и этот предсказуемый результат не даст учителю много полезной информации об уровне подготовленности ученика. Так же совершенно бессмысленно задавать испытуемым очень трудное задание. Ждать от них правильные ответы не приходится, результат такого контроля знаний обычно предопределён. Ответы на такие задания дополнительной информации о подготовленности тестируемых дают мало.
Формулы Шеннона
Эти качественные рассуждения пока никак не подкреплены количественными оценками. Однако возможно и количественное описание подобных ситуаций. Такую возможность дают формулы Шеннона. Действительно, для эффективного задания вероятность правильного ответа близка к значению Р = 0,5, неопределённости состояний правильного к1 или неправильного к0 ответа ученика оцениваются значениями 1п2, неопределённость такого результата Н близка к максимальной. Ответ ученика на задание снимает эту неопределённость и даёт информацию в количестве снятой неопределённости.
Для задания с хорошо предсказуемым результатом вероятность правильного ответа близка к единице (или нулю), частная энтропия такого состояния, как и средняя энтропия, приближаются к нулю, результат такого испытания информации практически не несёт. Эффективность такого задания близка к нулю уже не в качественном смысле, а в строго количественном.
Этим примером мы попытались раскрыть прикладной смысл понятий энтропии, значение математических формул Шеннона при расчёте неопределённостей и трактовку результатов их применения.
а
измерения |
-e-
Информационная трактовка модели Раша
Попытаемся понять логику педагогических измерений, заложенную в формуле Раша, с позиции теории информации. Для удобства изложения этого вопроса изобразим графики функций P(h), обратных частным энтропиям h0(P) и hj(P) (рис. 3а):
Первым рассмотрим случай с вероятностью Р = 0,5 правильного выполнения испытуемым задания (точка А на рис. 3). Неопределённости состояний «правильный ответ» и «неправильный ответ» совпадают, и равны h1 = h0 = -ln0,5 = ln2 = 0,693, разность частных энтропий равна нулю h0 - hj=0. Это состояние соответствует равенству уровней подготовленности испытуемого b и трудности тестового задания d, т.е. нуле-
вой разности этих уровней g = Ь— й =0.
Рассмотрим другой случай (обозначение на рисунках точкой В). Испытуемый достаточно хорошо подготовлен к выполнению тестового задания и правильно отвечает на его вопрос с вероятностью 0,8. Неопределённость состояния «испытуемый правильно выполнит задание» снижается, и частная энтропия этого состояния примерно равна к1 = -1п0,8 = 0,223. При этом энтропия противоположного события «испытуемый неправильно выполнит задание» возрастает и примерно равна к0 = -1п0,2 = 1,609. Разность частных энтропий этих состояний равна ^ - ^ = 1,386, т.е. неопределённость состояния «неправильный ответ « на 1,386 нат выше неопределённости состояния «правильный ответ». Эта разница выделена на рис. 3а фигурной скобкой.
Рис. 3. Информационная трактовка модели Раша: частная энтропия h
Если учесть ранее установлен-
ную связь а = к0 - к = 1п
Р
1-Р
то такой результат в традиционной трактовке формулируется так: уровень подготовленности испытуемого на 1,386 логит выше уровня трудности тестового задания.
В третьем случае испытуемый недостаточно хорошо подготовлен к выполнению тестового задания и правильно отвечает на него с вероятностью 0,269 (точка С). Для такого состояния имеем разность энтропий к0 - к1 = = -1п0,731 + 1п0,269 = 0,313 --1,313 = -1 нат, или а = -1 логит и вывод — уровень подготовленности испытуемого на один логит ниже уровня трудности тестового задания.
Если на рис. 3а от оси абсцисс частных энтропий Ь перейти к оси абсцисс разности энтропий к0 - к1, то предыдущие примеры расчётов будут представлены точками на традиционной т.н. логистической кривой (рис. 3б).
Отсюда первое заключение: традиционный показатель измерительной системы Раша а = Ь — й, измеряемый в частно-научных единицах измерения логит, есть не что иное, как разность частных энтропий неправильного и правильного ответов на тестовое задание к01 = к0 - к1, измеряемых в об-
щенаучных единицах количества информации нат.
Дополнительное информационное содержание основных показателей педагогических измерений можно найти и в свойствах средней энтропии Н(х). Выше мы установили фор-
й—
мальное соотношение а = .
Попытаемся понять, какой содержательный смысл вносит производная энтропии в толковании показателей педагогических измерений.
Аналитически, производная
выражает скорость измене-
й— йР
ния функции. Геометрически производная представляет собой тангенс угла наклона касательной к графику функции. В естествознании подобные выражения иногда обозначают термином «плотность» или «интенсивность». Можно опереться на любой из этих подходов, но в данном случае удобно начать с процентной интерпретации, иногда используемой в экономических приложениях.
Выражая приращение энтропии й— через приращение йР, получим й— = -#йР. Последнюю формулу можно приближённо трактовать так: рост вероятности правильного ответа Р на 1% (от единичной вероятности достоверного события) приводит к уменьшению
^^тч^Чоллоиияя
а
измерения |
энтропии системы на величину g% (от максимального значения 1п2). Коэффициент «-g» в этом выражении определяет степень изменения энтропии с изменением вероятности состояния или, иначе, характеризует интенсивность изменения энтропии.
Далее удобно обратиться к геометрической иллюстрации энтропии Н (рис. 3в). Этот рисунок можно рассматривать как дополнение к рис. 3а и 3^.
Рис. 3в. Информационная трактовка модели Раша: средняя энтропия Н
При Р = 0,5 (точка А) энтропия Н достигает максимума, касательная к графику функции принимает горизонтальное положение, потерь информации нет, аналитически произ-
ан 0
водная равна нулю —— = 0.
аР
В этом состоянии уровни подготовленности испытуемого и тестового задания совпадают, g = Ь - й =0.
С изменением значения Р, возрастания или убывания, эн-
тропия начинает уменьшаться, т.е. происходит потеря информации. Чем дальше отклонение Р от значения 0,5, тем интенсивней происходит потеря информации, причём интенсивность этих потерь как раз и определяет значение показателя
ан
(знак минус отражает
йР
уменьшение информации с ростом Р). Таким образом, информационный смысл показателя
g = - аН состоит в отражении
ё ар
интенсивности информационных потерь.
Так, в точке В касательная наклонена к графику по углом
ан
tg = = -1,386, энтропия в
этой точке убывает со скоростью 1,386 нат, что соответствует значениям показателей g = Ь — а = 1,386. В точке С касательная наклонена к графику под углом 45°, на каждый процент роста вероятности правильного ответа количество информации Н увеличивается на 1%. Значения традиционных показателей ШТ этого состояния g = ь - а = -1.
Отсюда можно установить: показатель g имеет ещё одну информационную трактовку — интенсивность информацион-
ан
ных потерь--.
р ар
-e-
К группе основных показателей IRT можно отнести и информационную функцию I = Р(1 - Р), безразмерные значения которой служат индикатором качества измерений, иногда мерой информации о локальном измерении. Это ча-стнонаучный показатель. Его общенаучным аналогом является информационная энтропия Шеннона Н с информационными единицами измерения. В этом её основное достоинство.
Вторым достоинством информационной функции Н(х) является её универсальность — независимость от функции распределения вероятности Р события х. Информационная функция I этим свойством универсальности не обладает. Информационная функция напрямую связана с дисперсией распределения вероятности, способы и возможность вычисления которой определяются функцией распределения.
Таким образом, к традиционной системе основных показателей IRT, выраженного в ло-гитах g = b - d, и безразмерного значения информационной функции I, можно поставить в соответствие информационные показатели, измеряемые в единицах количества информации нат — разности частных энтро-пий противоположных событий Hqi или интенсивности информационных потерь
dH dP
и меры неопределённос-
ти исходного состояния Н.
Конструирование модели педагогических измерений
Процедура вывода математической модели Раша из формулы Шеннона позволяет предложить алгоритм конструирования целого класса математических моделей педагогических измерений. Этот алгоритм достаточно прост и кратко может быть выражен двумя этапами.
Первый — по заданному виду тестового задания сформировать функции Шеннона для расчёта заложенной меры неопределённости в данном задании.
Второй этап — используя связи традиционных показателей с информационными, выразить искомую вероятность правильного ответа Р, т.е. построить модель педагогических измерений.
В качестве первого примера сконструируем хорошо известную двухпараметрическую модель А. Бирнбаума.
Идея Бирнбаума состоит во введении в модель Раша дополнительного параметра для ха-рактёристики дифференцирующей способности задания. При конструировании такой модели достаточно в информа-
Методология
вТд
измерения
ционно-измерительное соответствие ^ ^ g ввести множитель а дифференцирующей способности задания: А01 = Этот множитель увеличивает (при а>1) или уменьшает (при 0<а<1) «чувствительность» латентной разности g на наличие разности частных неопределённостей А01. Тогда можно
1п . Р_ = а^. Отсю-
записать
1 - Р
да, выражая вероятность правильного ответа Р, имеем хорошо известную двухпараметри-ческую модель Бирнбаума:
Р =
ехр (а (Ь - а ))
1 + ехр (а (Ь - а )) Двухпараметрическую модель Бирнбаума можно схематически представить ориентированным графом (рис. 4). Определим его. Вершины такого графа обозначают возможные состояния выполнения тестового задания — соответствующие вероятности Р с началом в вершине «неправильный ответ», дуга графа — направленная линия с потенциалом, равным разности частных энтропий смежных вершин (обозначено над дугой графа). Потенциалу дуге графа соответствует свой измеряемый показатель ШТ (обозначено под дугой графа).
Ьй1
Рис. 4. Граф модели А.Бирнбаума
Второй пример. Сконструируем педагогическую модель для тестового задания с тремя градациями ответа: неправильный — частично правильный — правильный. Обозначим вероятность частично правильного ответа через Р1 (1 балл), правильного ответа Р2 (2 балла), тогда вероятность неправильного ответа Р0 = 1 - Р1 - Р2. Разницы частных энтропий и средняя энтропия рассматриваемой системы определяются выражениями: к01 = к0 - к1 = - 1п (1 - Р1 - Р2)+ 1п Р1,
к12 = к1 - к2 = - 1п Р1 + 1п Р2,
Н(х)=-(1 -Р -Р2)
■1п (1 - Р1 - Р2)- Р1-1п Р1 - Р2-1п Р2..
В этом примере продолжим построение модели в двух вариантах: через определение разности частных энтропий и через вычисление производной средней энтропии.
Для демонстрации первого варианта удобно построить граф, отражающий логику выполнения тестового задания (рис. 5а). Условие тестового задания (У) предполагает два варианта его выполнения (В1 и В2): с частично правильным ответом на поставленный в задании вопрос и уточняющий полный ответ. Т.е. предполагается, что полный ответ не независим, а следует после
-e-
предварительно правильного ответа.
d>
<вГ>-
Рис. 5а. Граф задания с частично правильным ответом
Процесс выполнения первой части задания можно описать уже привычной формулой с выделением индекса у показателя g для первого задания Äqi = g\. Процесс выполнения всего задания можно представить как сумму последовательных этапов его выполнения: hoi + ^12 = gl + g2. Разрешая систему этих уравнений относительно Pi и Р2, находим искомые выражения для расчётов вероятности правильного ответа, которые являются двухша-говым вариантом известной модели PCM (Partial Credit Model):
ex
P (gi)
P =-
1 1 + exp (gi)+ exp (gi + g 2)'
eXP (gi + g2 )
и приравниваем их к соответствующим показателям педагогических измерений:
dPi
= ln-
P
i - Pi - P2
dH = ln dP = П"
P
i - Pi - P2
= gi + g 2.
hoi+hia
gi+gi
Р = —
2 1+ехр (&)+ ехр (&+а2) По структуре графа тестового задания несложно привести и граф модели педагогических измерений для этого задания (рис. 5б).
Второй вариант построения модели отличается только формой математических преобразований. Т.к. функция Н зависит от двух переменных, то находим частные производные
Рис. 5б. Граф двухшаговой модели PCM
Разрешая систему уравнений относительно Р1 и Р2, приходим к полученной выше модели.
В качестве третьего примера разработаем модель для задачи по физике.
В закрытом сосуде объёма V находится идеальный газ в количестве п молей. Определить: 1. Температуру газа Т, при которой давление в сосуде будет равно атмосферному; 2. На сколько увеличится давление газа при его нагреве на ДТ градусов.
Критерии оценки. Полное и правильное решение всей задачи оценивается в 3 балла. За правильное выполнение каждого из трёх пунктов назначается 1 балл:
а) правильно записано уравнение состояния идеального газа:
б) записаны правильные решение и ответ на вопрос задачи 1;
в) записаны правильные решение и ответ на вопрос задачи 2.
В тексте задания и критериальных требованиях можно вы-
вТд
измерения
делить условие задачи (У) и три вопроса (В1, В2, В3), по которым можно построить граф тестового задания (рис. 6а). При построении графа учтено, что правильное выполнение пунктов б) и в) основывается на правильном выполнении пункта а), но между собой решения б) и в) независимы.
ЭР,
эн = 1п
ЭР = п"
1 - Р - Р - Р
I х~2 Г3
Р
1 - Р - Р - Р
I г^ ^2 -Г3
= gl+g2;
ЭН ЭРЧ
= 1п-
Р
1 - Р - Р - Р
I г^ х~2 -Г3
- = & + ;
Разрешая систему уравнений относительно Р1, Р2 и Р3, находим искомые модели:
Р =_ехР (gl)_
1 1 + ехр (^ )+ ехр (^ + g2)+
Рис. 6а. Граф задания
Конструирование модели
Обозначим вероятность правильного выполнения пункта а) через Р1, пункта б) — через Р2, пункта в) — через Р3, тогда вероятность неправильного ответа равна Р0 = 1 - Р1 - Р2 - Р3. Полная энтропия определяется выражением: Н(х)=-(1 -р -р -Рз)
■1п (1 - Р1 - Р2 - Р)- Р1-1п Р1 -
- Р2-1п Р2 - Р3-1п Р3.
Находим частные производные функции Н и приравниваем их к показателям, соответствующим информационным потерям:
_т = 1п р
+ ехР (gl + &3 )' ехР (gl + g2 )
р = —
2 1 + ехр (^ )+ ехр (gl + g2)+
+ ехр С&1 + g 3 )' ехр (gl + g3 )
Р = —
3 1 + ехр (^ )+ ехр (^ + g 2)+
+ ехр (gl + g3 )'
Конструирование модели на основе частных энтропий Ь приводит к той же модели и здесь не приводится. Граф модели представлен на рис. 66:
^ в1-®
-
Ь(Д
Ь-и - Ьо.'
<Э
Рис. 6б. Граф модели педагогических измерений для тестового задания
Рассмотренные примеры позволяют рекомендовать при конструировании моделей с разветвлённой структурой тестовых заданий использовать
-e-
графы. С учётом этого можно предложить следующий упрощённый пошаговый алгоритм конструирования измерительной модели тестового задания.
Первый шаг — построение графов. По заданному условию тестового задания и критериальным требованиям к оцениваемым элементам ввести необходимые обозначения и построить граф тестового задания. Не изменяя структуры этого графа, ввести дополнительные обозначения и построить изоморфный граф модели, служащий основой для построения математической модели измерений для данного тестового задания (пример: рис. 6а и 6б к задаче по физике).
Второй шаг — построение модели педагогических измерений. Вероятность правильного ответа Р; на г-й элемент контроля тестового задания для аддитивной модели класса модели Раша определяется по формуле:
P =
этом пути будем называть экспоненту от суммы измеряемых показателей, соответствующих потенциалу пути ехр^ + а2 + ~ + а;). Работа на графе равна сумме работ на всех возможных путях графа, включая работу на его единственной петли от Р0 до Р0 равную ехр(0) = 1.
Например, путь от Р0 до Р3 через вершины Р1 и Р2 представляет собой последовательность дуг с суммарным потенциалом к03 = к01 + к 12 + к13, работа на этом пути определяется выражением ехр^ + а2 + а3). Если в основе графа лежат только эти четыре вершины, то граф содержит 4 различных пу-
Ро
Ро, Ро - Pi, Ро
работа на пути от P0 doPi работа на графе где: путём на графе от начальной вершины Ро до выбранной вершины P; будем называть последовательность дуг графа, соединяющих эти вершины; потенциалом пути будем называть разность частных энтро-пий начальной и выбранной вершин пути ко[; работой на
ти
- Р1 - Р2, Р0 - Р1 - Р2 - Р3, с
суммарной работой на графе 1 + ехр&1) + ехр^ + а2) + + ехр(а1 + а2 + аэ).
Таким образом, описанный процесс конструирования модели педагогических измерений даёт разработчику теста свободу в выборе формы тестовых заданий. Теперь не форма тестового задания подбирается под известные модели педагогических измерений, а наоборот, на заданную форму тестового задания может быть сконструирован свой закон расчёта вероятностей правильного ответа на его задания.
а
измерения |
Модель измерения
педагогических
отношений
В предыдущих работах мы обозначали эту модель как альтернативную, вкладывая в определение «альтернативная» смысл параллельности к аддитивной модели Раша и её модификациям. Отличительной особенностью этой модели является возможность проведения педагогических измерений в пропорциональной шкале, т.е. возможность проведения измерений педагогических отношений — относительных уровней подготовленности испытуемых и и относительных уровней трудности тестовых заданий в. Сама математи-
в
ческая модель имеет вид: Р = 0,5е.
Применение информационного подхода к описанию модели измерения педагогических отношений принимает ещё более простой вид. Если из выражения для частной энтропии к = -^2Р выразить вероятность Р, то получим общий вид альтернативной модели педагогических измерений Р = 0,5к. И вопрос построения модели фактически превращается в вопрос об интерпретации показателя к применительно к проблеме педагогических измерений.
Вариант такой интерпретации представим с иллюстрациями на рис. 7. Монотонно убы-
вающая функция частной энтропии к(Р) определена на интервале (0;1]с областью значений 0]. Для достоверного события Р = 1, неопределённость такого состояния к(1)=0 бит. Применительно к тестовым испытаниям для участника с уровнем подготовленности е это событие эквивалентно нулевому уровню трудности тестового задания в =0. С ростом трудности тестового задания вероятность правильного ответа испытуемым убывает, а неопределённость такого состояния растёт. Т.е. с ростом уровня трудности задания в при постоянном уровне е растёт неопределённость состояния к и вполне допустимо предположить эту связь пропорциональной 1г ~ Д
Рис. 7. График функции частной энтропии h(P)
Аналогичные рассуждения можно привести и для фиксированного задания с уровнем трудности в. Тогда, достоверно правильное решение задания
можно объяснить бесконечно высоким уровнем подготовленности испытуемого. Падение уровня подготовленности испытуемого и приводит к падению вероятности правильного ответа Р и росту неопределённости состояния к, т.е. опять вполне логично предположить обратно пропорциональную связь к ~ 1/д .
Коэффициент пропорциональности легко находится из следующих соображений: когда уровни подготовленности испытуемого и трудности тестового задания совпадают в = в или в/в = 1, вероятность правильного ответа на задание равна 0,5 и мера неопределённости такого состояния определяется значением к = 1 бит. Отсюда имеем к = в/в или окончательно выражение модели измерения педагогических отношений: Р = 0,5в/в.
Таким образом, в альтернативной модели отношение показателей в/в есть не что иное, как мера неопределённости состояния «правильный ответ испытуемого на тестовое задание», выраженное значением частной энтропии Шеннона к.
В отличие от информационного толкования моделей педагогических измерений класса Раша, где измеряемые параметры подготовленности и трудности выражаются через разность частных энтропий состояний «неправильный ответ» и «пра-
вильный ответ», измеряемые параметры альтернативной модели выражаются только через частную энтропию состояния «правильный ответ». Такая зависимость только от одного состояния позволяет использовать альтернативную модель измерений автономно, без каких либо процедур согласования, не только к дихотомическим тестовым заданиям, но и к заданиям с произвольным уровнем градации ответов. На наш взгляд, единственно возможным «совершенствованием» такой модели может быть введение множителя дифференцирующей способности задания в виде степени к показателю уровня трудности тестового задания в а.
Критерии
эффективности теста
Аналитические свойства информационной функции Шеннона Н(х) позволяют использовать её при разработке критериев эффективности теста. Существование максимума энтропии можно определить как оптимальное информационное состояние вероятностной системы. Тогда отношение энтропии наблюдаемого состояния системы к энтропии оптимального состояния может служить количественной оценкой информационной эффективнос-
нп
измерения
ти. Эти достаточно общие рассуждения могут найти применения и в задачах разработки критериев эффективности педагогических тестов.
Рассмотрим две таких задачи — задача оценки эффективности информационного содержания теста и задача оценки эффективности ранжирования участников теста.
В первой задаче в качестве наблюдаемого критерия эффективности можно принять среднее значение энтропии всей системы вероятностей правильного ответа испытуемых на тестовые задания. Такие вычисления допустимы свойством аддитивности функции Шеннона. Если вероятность правильного ответа 1-м испытуемым на_/'-е тестовое задание обозначить через Р^, то относительное значение (в расчёте на один локальный акт ответа одним испытуемым на одно задание теста) информационной энтропии теста будет определяться по формуле:
н=
1
N-М
Первое. Максимально возможное значение этой функции Нтах=1бит. Однако в практике это состояние недостижимо. Это тот невероятный случай, когда уровни подготовленности всех испытуемых совпадают с уровнями трудности всех тестовых заданий и вероятность каждого правильного ответа равна 0,5.
При равномерном распределении вероятности правильного ответа значение функции Шеннона Нотн равно 1/21п2. Тогда эффективность такого состояния оценивается значением
н
1
•ц[-Р-1^ Р-( - РН
1 ]
где N — количество испытуемых, М — количество тестовых заданий.
Применение этого критерия следует сопроводить несколькими замечаниями.
>0,72 или, в про-
Нтах 2-1п2
центном выражении, 72%. Для реального теста такое значение показателя эффективности информационного содержания можно рассматривать как допустимое.
На наш взгляд, принимать этот критерий как целевой при разработке тестовых заданий правомерно лишь для решения задач максимального сбора информации о подготовленности всей группы испытуемых. Например, этот -Ру )] критерий эффективности теста можно использовать при контроле знаний группы обучающихся в процессе обучения.
Дело в том, что среднее значение информационной энтропии теста растёт с увеличе-
нием доли заданий со средним уровнем трудности. И критерий Нотн принимает значения, близкие к максимуму, когда все задания имеют уровень трудности, близкий к среднему. Но такие тесты имеют и недостатки. С метрической точки зрения, такие тесты выводят результаты измерений слабо и сильно подготовленных испытуемых в область высоких погрешностей, вплоть до исключения из анализа результатов теста. Дидактические недостатки таких тестов состоят в том, что сама природа учебных знаний имеет различные уровни глубины сложности содержания и, соответственно, трудности их усвоения. Приводить все контрольные задания к золотой середине, выявлять только средние знания и нецелесообразно, и не представляется возможным.
Второе замечание относится к технологии обработки тестовых результатов. Дело в том, что значение информационной функции теста Н зависит от принятой математической модели педагогических измерений. И может сложиться впечатление, что этот критерий можно использовать при выборе оптимально-эффективной модели педагогических измерений и определении её параметров. Назначение этого критерия другое. Этот критерий отражает ин-
формационно-содержатель-ную эффективность подбора тестовых заданий для группы испытуемых. Это свойство не должно зависеть от метода обработки результатов теста.
Рассмотрим задачу оценки эффективности ранжирования тестируемых испытуемых. Проблема ранжирования испытуемых обычно ставится перед тестом при проведении конкурсных отборов, когда основной целью тестовых испытаний является максимальное разъединение испытуемых по уровням подготовленности относительно содержания теста. Приведём эту задачу к математическому виду.
Введём индекс ранга к по числу правильных ответов и обозначим через щ количество испытуемых, правильно ответивших на к тестовых заданий. Тогда для N испытуемых справедливо равенство N = ^ пк и можно ввести поня-к
тие доли испытуемых, принадлежащих к-му рангу ю = —,
к N
с условием нормировки = 1. В этих обозначениях фкнкцию Шеннона для информационной энтропии можно записать в виде: Нраиж=-^Щ,
где суммирование происходит по всем значения к от 1 до М - 1. Последнее выражение можно трактовать как энтро-
а
измерения |
пия сообщения о ранжировании испытуемых в результате тестовых испытаний по всем возможным ранговым группам. Максимально возможное значение Нтах = ^2(М - 1) эта функция принимает при равномерном распределении испытуемых по ранговым группам. Тогда эффективность ранжирования участников теста можно характеризовать показателем Яранж/Ятах.
Совершенно аналогично можно ввести и показатель эффективности ранжирования тестовых заданий по уровням трудности. Для хорошо ранжированного теста оба показателя эффективности должны быть близки к единице. Примером идеального ранжирования испытуемых и заданий может служить идеалистический тест Л. Гутмана, когда профили подготовленности всех испытуемых правильные и каждое задание чётко различает одного испытуемого.
Примеры расчётов показателей эффективности теста
Для иллюстрации свойств введённых показателей проведём расчёты для трёх модельных таблиц тестовых данных, представленных на рис. 8. Таблицы содержат результаты ответов 8 испытуемых на 5 тестовых заданий. В правом столбце таблиц приведены доли правильных ответов каждым испытуемым, в нижней строке — доли правильных ответов на отдельное тестовое задание. Общая доля правильных ответов во всех трёх таблицах данных равна 0,5.
Результаты расчётов представлены в таблице. При расчёте показателей эффективности информационного содержания мы использовали значения вероятности правильного ответа Рц, полученные на основе исходных решений схемы Раша. Если данные таблиц а) и б) дают значения близкие к допус-
Рис. 8. Таблицы результатов тестовых испытаний
Таблица
Информационные показатели эффективности теста
Таблица данных Показатель эффективности информационного содержания Показатель эффективности ранжирования
испытуемых заданий теста
а) 0,69 1 0,83 0,83
б) 0,73 1 0,49 0,49
в) 0,95 0,5 0,49 0,24
тимому уровню 0,72, то данные третьей таблицы дают очень высокий результат — эффективность информационного содержания теста составляет 95%. Этот результат — предсказуем. Именно в третьей таблице доли правильных ответов, как испытуемых, так и на тестовые задания, сгруппированы около среднего значения 0,5, а значит, и вероятности правильных ответов на тестовые задания сгруппированы около информационно оптимального значения 0,5.
Проанализируем данные трёх таблиц с позиций эффективности ранжирования испытуемых и тестовых заданий. Сначала можно привести несколько общих замечаний для всех таблиц: 5 тестовых заданий позволяют выделить 4 ранговые группы для ранжирования 8 испытуемых; 8 испытуемых позволяют выделить семь ранговых групп для ранжирования тестовых заданий.
Рассмотрим, как в приведённых примерах распредели-
ли испытуемых 5 тестовых заданий. В таблицах а) и б) результаты испытуемых равномерно распределены в четыре ранговые группы по два участника теста в каждой. Каждая ранговая группа одинаково заполнена испытуемыми, эффективность ранжирования испытуемых оптимальная с единичным значением показателя. В таблице в) результаты испытуемых сгруппированы в две ранговые группы по четыре участника в каждой, а две ранговые группы не заполнены. В этом случае набор тестовых заданий не разделил участников теста по всем возможным ранговым группам, показатель эффективности ранжирования отразил этот результат значением 0,5.
Рассмотрим распределения заданий. При ранжировании 5 тестовых заданий по 7 возможным уровням неизбежны вакансии. Но если в таблице а) только две ранговые группы оказались свободными, в таблицах б) и в) тестовые задания
измерения
распределены в три группы в количествах 1, 3, 1, оставив незаполненными 4 ранговые группы. Эти свойства теста отражены значениями показателей эффективности тестовых заданий 0,83 для таблицы данных а) и 0,49 для данных таблиц б) и в). И наконец, в последнем столбце таблицы приведены показатели эффективности ранжирования всего теста, как произведения показате-
лей эффективностей ранжирования испытуемых и тестовых заданий.
Таким образом, введённые информационные показатели эффективности количественно отражают выделенные свойства теста и могут найти применение как в анализе результатов тестирования, так и в виде рекомендаций к конструированию нового теста или совершенствованию имеющегося.