Конструирование модели педагогического теста

Каргин Юрий

Методология

КОНСТРУИРОВАНИЕ МОДЕЛИ ПЕДАГОГИЧЕСКОГО ТЕСТА НА ОСНОВЕ ИНФОРМАЦИОННОГО ПОДХОДА

-1-

Каргин Ю. Исследование взаимосвязи теории информации и теории педагогических измерений. ПИ.

№2. 2013. С. 3-22.

Юрий Каргин

Ноябрьский колледж профессиональных и информационных технологий

[email protected]

В данной работе предпринята попытка по-новому ответить на принципиально важные вопросы теории педагогических измерений: что, собственно, и каким образом измеряется? Поиск ответов на эти вопросы идёт с позиций теории информации.

Развитие информационного подхода к решению задач педагогических измерений позволило предложить алгоритм конструирования частных моделей педагогических измерений и расширить возможности анализа их свойств.

В последней части работы обсуждается информационный метод проведения измерения.

Ключевые слова: модель педагогических измерений, модель Раша, количество информации, формула Шеннона.

Введение

Ранее1 была высказана идея существования взаимосвязи между теорией информации и теорией педагогических измерений. Выявление этой связи позволило по-новому:

• описать содержательный смысл основных показателей качества педагогических измерений через информационные характеристики;

• выразить традиционные единицы измеряемых величин — логит — через меры информации бит;

• рассмотреть вопрос о классах моделей педагогических измерений и способах их конструирования;

• по-новому взглянуть на вопросы эффективности педагогического теста и способы её оценивания.

В данной работе высказанная идея и её следствия находят своё дальнейшее развитие.

Проблемы МТИ

Математическая теория педагогических измерений (МИТ) начинается с достаточно очевидного высказывания — испытуемый с лучшей подготовкой к содержанию тестового задания имеет больше шансов на успех, чем испытуемый с худшей подготовкой. Это высказывание можно привести и в более строгой форме, через понятие вероятности. Вероятность правильного ответа на тестовое задание испытуемым с лучшей подготовкой больше, чем испытуемого с худшей подготовкой.

Дальнейшее построение МТИ проходит через поиск,

выбор и обоснование строгих математических правил, реализующих это высказывание, правил вычисления вероятности правильного ответа на тестовое задание, в зависимости от подготовленности испытуемого и трудности тестового задания. Этот этап развития МТИ завершается формулировкой моделей педагогических измерений, анализом их свойств, по которым затем и разрабатываются технологии педагогического тестирования.

Следует отметить, что на некоторых этапах построения МТИ проявляются слабые места и недостаточно убедительные суждения. В частности, переход от исходного высказывания о монотонном росте вероятности правильного ответа с ростом подготовленности испытуемого к построению той или иной математической модели, строго говоря, не обоснован. Обычно это обоснование представлено несколько размытыми рассуждениями о необходимом виде функции, о её свойствах, включая асимптотическое поведение. Иногда математический вид функции обосновывается подбором под эмпирические данные или даже просто представляется как удачная догадка Г. Раша.

Другим «слабым местом» МТИ является отсутствие внятного ответа на вопрос, что,

нп

измерения

собственно, мы измеряем, «накладывая» ту или иную модель на наблюдаемые данные педагогического тестирования? Как понять связь между подготовленностью испытуемого к тестовому заданию и значениями измеряемых показателей? Тем более, когда шкала измерения знаний в логи-тах неравномерна и, вообще говоря, зависит от подготовленности испытуемых и трудности тестовых заданий. И понять эту связь не так просто. Но необходимо.

Возможно, и в этих трудностях, в том числе, кроются препятствия более широкого распространения МТИ. Отсюда возникает недоверие к результатам педагогических измерения методами МТИ или игнорирование их отличительных качеств. А иногда и примитивное толкование результатов МТИ как более сложной формы ранжирования испытуемых.

Таким образом, можно выделить две взаимосвязанные проблемы МТИ — убедительное обоснование модели педагогических измерений и внятная интерпретация её параметров. Новое понимание и толкование этих проблем в этой статье предлагаются через применение основных идей и положений теории информации к педагогическим измерениям.

Частная и средняя энтропия

К числу исходных и основных понятий теории информации относят понятие энтропии как меры неопределённости системы и понятие информации сообщения как меры снятой этим сообщением неопределённости. Иногда эту логическую связь представляют иначе: если некоторое сообщение приводит к уменьшению неопределённости системы, то такое сообщение несёт информацию о познаваемой системе в количестве уменьшения неопределённости. В качестве единичной меры неопределённости (энтропии) выбрана неопределённость системы, находящейся в одном из двух равновероятных состояний. Энтропия такой системы равна 1 бит (bit, binary unit — двоичная единица).

Полагая, что не каждый читатель знаком с понятиями теории информации и основными правилами расчёта количества информации, рассмотрим их на небольшом модельном примере.

Пример

В школе стало известно, что один из учеников 10«А» класса победил в престижном международном шахматном турнире. Но кто этот ученик, пока неизвестно, и перед педагогами школы стоит задача опреде-

лить имя победителя. Рассмотрим возможности правильного решения этой задачи различными педагогами.

Сначала рассмотрим, как директор школы пытается определить имя победителя. Директор не готов точно ответить на этот вопрос, ему известно только то, что в 10«А» классе 16 учащихся. Для него ученики класса неразличимы, любой ученик этого класса мог стать победителем шахматного турнира. Тогда неопределённость рассмотренной системы можно охарактеризовать количеством равно-возможных вариантов — 6.

Завуч больше осведомлён о классе, ему известно, что в этом классе только восемь юношей. Так как один из восьми юношей мог стать победителем турнира, неопределённость системы доходит до восьми возможных вариантов.

Помощник по воспитательной работе по анкетным данным определил, что в этом классе только четверо юношей систематически занимаются спортом, но информации о видах спорта у него нет. Неопределённость системы для помощника по воспитательной работе уменьшилась до четырёх.

Классный руководитель ближе знаком с увлечениями своих учеников и знает, что только два ученика класса занимаются шахматами, и только

кто-то из них мог стать победителем шахматного турнира. Неопределённость системы доходит до двух.

И, наконец, руководитель шахматного кружка лучше всех подготовлен к ответу на этот вопрос. Он не просто знает этих двух учеников как шахматистов, но и имеет веские основания полагать, что шансы на победу первого из них примерно в три раза выше второго.

Таким образом, единое для всех педагогов задание воспринимается педагогами по-разному. Каждый из них имеет свои знания, которые и помогают правильно решить поставленную задачу. Неопределённость систем «отдельный педагог — задача определить победителя» различна, отсюда и различия в шансах правильно «вычислить» победителя турнира.

Дальнейшие обсуждения информационных свойств рассматриваемых систем удобно сопровождать заполнением таблицы (табл. 1). Первые два столбца таблицы заполняются по приведённым выше рассуждениям.

Пример подобран так, что неопределённости рассматриваемых систем не просто различны, а ещё и для первых систем эти различия одинаковы — количество возможных вариантов N в каждой последующей системе в 2 раза меньше. Действительно, анализируя второй

нп

измерения

Таблица 1

Информационные характеристики систем «педагог-задача»

Педагог ^личество вариантов N Вероятность выбора Р Энтропии

бит К бит V К бит H, бит

директор 16 1/16 4 0,093 3,907 0,339

завуч 8 1/8 3 0,193 2,807 0,544

пом. по восп. раб. 4 1/4 2 0,415 1,585 0,811

класн. руковод. 2 1/2 1 1 0 1

руковод. кружка - 3/4 0,415 2 -1,585 0,811

столбец таблицы, несложно выделить отношения — 16:8 = 8:4 = 4:2 = 2. Это факт на языке информационного подхода можно сформулировать так — неопределённость каждой последующей системы на 1 бит меньше предыдущей.

Мы не заполнили последний элемент таблицы второго столбца с количеством возможных вариантов для руководителя шахматного кружка. В данном примере эта мера теряет смысл. Однако, дальнейшие рассуждения справедливы и для этой строки. Продолжая информационный анализ рассматриваемых систем, запишем выражения для основных величин теории информации — для частной и средней энтропии.

Общее выражение для вычисления частной энтропии некоторого единичного состояния было предложено Хартли: h = logo P = , где Р — ве-

роятность наблюдаемого состояния системы. Рассчитаем

по этой формуле энтропию состояния «первый ученик — победитель» с позиции руководителя кружка. По его мнению, вероятность выиграть турнир у первого ученика выше второго в три раза, т.е. равна 3/4 (против !/4 второго ученика), тогда энтропия этого состояния равна к = 1о80,50,75 = 0,415 .

В более простом, частном случае, когда неопределённость системы задаётся N равнозначными вариантами и вероятность каждого из таких состояния равна Р = 1/N, формула Хартли принимает вид:

1

к = 1о§0>5 N = N.

Именно по этим формулам рассчитаны вероятности правильного решения задачи педагогами и соответствующие значения частной энтропии к1 (третий и четвёртый столбцы табл. 1).

Содержательный смысл значения частной энтропии

можно передать как «мера неожиданности» события. Чем меньше вероятность события, тем больше значение частной энтропии и тем неожиданней его появление. Такое толкование становится более наглядным, если дополнительно рассчитать частные энтропии состояний «победитель турнира определён неправильно» (пятый столбец таблицы). В шестом столбце приведены разности частных энтропий, отражающие, насколько «неожиданней» правильный выбор победителя по сравнению с ошибкой.

Если показатель частной энтропии отражает неопределённость отдельного состояния системы, то средняя энтропия (или просто энтропия) отражает неопределённость всей системы и рассчитывается как среднее значение частных энт-ропий всех её состояний. Для расчёта этого показателя следует применять формулу Шеннона:

Н = £Р{ • 1С8о,5 Р{ =

I

= -Х Рг ■ 1082 Р.

!

Когда система может находиться только в одном из двух возможных состояний с вероятностью благоприятного исхода р, то формула Шеннона имеет вид: Н(Р) = Р-^0 5Р + + (1 - Р)-1о8о,5(1 - Р). В последнем столбце табл. 1 приведены средние значения энтро-

пий системы Н для педагогов школы.

В данном примере мы начинали рассматривать понятие энтропии через понимание неопределённости системы по количеству равновозможных вариантов выбора и даже смоделировали системы с различными мерами неопределённости и рассчитали эти меры. Таким детализированным рассмотрением задачи мы пытались лишь развёрнуть содержание терминов «неопределённость», «частная и средняя энтропия», «информация». На самом деле, рассматривая вопросы подготовки учебных заданий и анализа ответов на них учащихся, возможности в такой детализации вряд ли представятся. Строгий теоретический расчёт энтропий и других информационных показателей возможен только для «понятных» систем, для систем с заданными вероятностями состояний. Система «испытуемый — тест» к таким не относится. Однако применять положения теории информации можно и без такой детализации.

Информационный подход к вопросам педагогических измерений, как и другие направления МТИ, опирается не на теоретический расчёт, а на экспериментальную оценку вероятности правильного ответа испытуемым. Но в отличие от других направлений МТИ, в основе информационного под-

нп

измерения

хода лежат и анализируются новые, именно информационные показатели.

Таким образом, тестовые испытания как инструмент проведения педагогических измерений, можно рассматривать и с позиций теории информации. В этом случае под «системой с количественно оцениваемой неопределённостью» (энтропией) следует понимать испытуемого, выполняющего тестовое задание, а под сообщением, несущим информацию, следует понимать результат тестового испытания. Тогда количество неопределённости, снятой сообщением, и есть то количество информации, которое поступает педагогу для анализа результата тестирования.

Информационные показатели МТИ

На некоторое время отвлечемся от известных в МТИ показателей трудности тестовых заданий и подготовленности испытуемых и попытаемся предложить свои варианты решения этой задачи, но уже на основе информационных показателей.

Первое предположение лежит на поверхности. Рассмотрим вариант описания неопределённости системы «испытуемый — тестовое задание» непосредственно показателем частной энтропии состояния с ве-

роятностью Р правильного ответа: h = log0 5P. В рассмотренном примере значения этого показателя приведены в четвёртом столбце табл. 1.

Приведём основные свойства этого показателя:

• при значениях вероятности 0 < P < 1 значения частной энтропии h изменяются в интервале от 0 до го;

• с ростом вероятности появления состояния частная энтропия этого состояния монотонно убывает;

• h(1) = 0 — частная энтропия (неопределённость) достоверного состояния равна нулю, h(0) = го — частная энтропия невозможного состояния равна бесконечности, h(0,5) = 1 бит — частная энтропия равновероятного дихотомического состояния равна единице. Такое состояние называют состоянием единичной неопределённости;

• свойство аддитивности h(P1'P2) = h(P1) + h(P2) для независимых событий.

Если формулу Хартли переписать в виде:

Р = 0,5h = 0,5-...-0,5,

*_v_'

hpae

то состояние со значением частной энтропии h эквивалентно h-раз совместному состоянию единичной неопределённости. Таким образом, значение показателя частной энтропии h показывает, во сколько раз неопределённость данного состояния системы отличается

от состояния системы единичной неопределённости.

Приведённые свойства и интерпретация значений показателя частной энтропии позволяют ввести пару основных показателей педагогических измерений в, в и связать их с информационным показателем отношением к = в/в. Тогда из формулы Хартли следует модель педагогических измерений Р = 0,5 , где в — относительный показатель трудности тестового задания, в — относительный показатель подготовленности испытуемого.

Проведём трактовку результатов рассмотренного выше примера с позиций этой модели. Собственно трудность задачи определения победителя для всех педагогов одинакова. Для упрощения рассуждений положим в = 1. Тогда относительный показатель подготовленности педагогов в обратно пропорционален значению частной энтропии в = 1/к. Отсюда, в частности, заключаем: классный руководитель имеет единичный уровень подготовленности (равный уровню трудности задания) к ответу на поставленный вопрос. Для директора школы в = 1/4 , т.е. он в четыре раза хуже классного руководителя подготовлен к ответу на этот вопрос, а руководитель кружка — в 1/о 415 ~ 2,4 раза лучше подготовлен к ответу на этот вопрос. Такие интер-

претации подготовленности педагогов не только качественно верно отражают рассмотренную в примере ситуацию, но и количественно выверены на основе теории педагогических измерений.

В наших работах2,3 модель

П А С в/в

Р = 0,5 представлена как альтернативная, где достаточно подробно приведены свойства модели, свойства и интерпретация показателей модели. Здесь отметим лишь то, что по этой модели измерения проводятся в шкале отношений (пропорций).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Если обратиться к данным табл. 1, то несложно заметить, что не только значение частной энтропии отражает различия систем с педагогами при решении поставленной задачи, но и разность частных энтропий состояний «правильный и неправильный выбор победителя» Ак = к1 - ко отражает эти различия. Например, для директора эта разность имеет значение примерно 3,9 бит (на столько бит неожиданней правильный выбор, чем ошибка), для завуча около 2,8 бит, а для классного руководителя неопределённости состояний «правильный и неправильный выбор» вообще одинаковы, и разность частных энтропий равна нулю. По характеру поведения разности частных энтропий Ак несложно заметить, что чем хуже подготовлен педагог к правильному

Каргин Ю.

Построение альтернативной модели педагогических измерений по системе Г. Раша. ПИ. №4. 2010. С. 62-71.

Каргин Ю.

Педагогические измерения в шкале отношений. ПИ. №2. 2012. С. 3-26.

нп

измерения

выполнению задание, тем она больше. Отсюда можно предложить следующую связь показателей подготовленности Ь и трудности задания й с информационной разностью: й - Ь = 1п2-Ак.

Коэффициент пропорциональности 1п2 введён для приведения этих показателей к стандартному для системы Ра-ша виду. Если в это равенство подставить выражения для частных энтропий, то после элементарных преобразований получим хорошо известную модель Раша для педагогических

измер™: ехр (Ь - й))

1 + ехр (Ь - й )'

Таким образом, разность показателей подготовленности испытуемого и трудности тестового задания в измерительной системе Раша можно трактовать как разность (с точностью до постоянного множителя 1п2) частных энтропий состояния «верное и неверное решение заданий». Эта разность, традиционно измеряемая в ло-гитах, принимает информационную меру измерения бит, с соответствующей информационной интерпретацией значений показателей подготовленности Ь и трудности й.

Мы предложили два варианта описания системы «испытуемый-задание» на основе информационного подхода.

Каждый из них дал свою исходную модель педагогических измерений — альтернативную и Раша. Не исключается возможность предложить и другие варианты. Например, основанные на частной энтропии состояния «неправильное решение задачи» или другие комбинации информационных показателей. Поиск и обсуждение других вариантов моделей лежат за рамками данной работы.

В завершение подраздела остановимся на формуле Шеннона для расчёта среднего значения энтропии системы по всем её возможным состояниям и её месте в педагогических измерениях. Содержательный смысл значения средней энтропии состоит в получении среднего количества информации в сообщении о результате ответа на задание. В рассмотренном примере значения этого показателя приведены в последнем столбце табл. 1.

Приведём основные свойства этого показателя:

• при значениях 0 < Р < 1 функция Н(Р) = Р^05Р + + (1 - P)•log0,5(1 - Р) симметрична относительно нейтрального значения вероятности Р = 0,5;

• при Р = 0,5 энтропия принимает максимальное значение Н(0,5)=1, на границах обращается в нуль — Н(0) = Н(1) = 0;

• свойство аддитивности к(Р1'Р2) = к(Р1) + к(Р2) для независимых событий.

По своим свойствам и содержательному смыслу эта функция с успехом заменяет информационную функцию I = P(1 - P) системы измерений Раша. Если учесть, что величина энтропии имеет фундаментальный смысл и широко принятые единицы измерения бит, то её применение более предпочтительно.

Таким образом, на основе информационного подхода достаточно легко и естественно удаётся построить исходные модели педагогических измерений и выразить основные показатели таких измерений через информационные показатели с единицей измерения бит.

Конструирование частных моделей педагогических измерений

В предыдущем подразделе мы вывели на основе информационного подхода две исходные модели педагогических измерений — модель Раша и альтернативную модель. Под термином «исходная» мы понимаем одно-параметрическую дихотомическую модель, в которой единственный параметр представляет собой разность g = Ь - d (аддитивная модель) или отношение 7 = в/в (мультипликативная модель) измеряемых показателей подготовленности испыту-

емого и трудности тестового задания. Таким образом, исходные модели имеют вид:

P = ■

ехр( g)

модель Раша;

1 + ехр( g)

P = 0,51/^ — альтернативная модель.

По этим моделям наиболее информативны состояния с пороговыми значениями параметров соответственно g =0 и 7= 1, при которых вероятности правильных и неправильных ответов совпадают и равны Р = 0,5, а среднее значение энтропии принимает максимальное значение Hmax = 1 бит = 1п2 нат.

Для иллюстрации основных положений теории педагогических измерений традиционно приводятся графики зависимости вероятности наблюдаемых событий от показателя подготовленности испытуемого при заданном уровне трудности тестового задания. Для исходных моделей графические образы тестовых заданий представлены на рис. 1а и 1б. На этих рисунках и далее на график вероятностей Р наложен график значений энтропии

H = -£ Р{• 1п Р,

в зависимости

от уровня подготовленности испытуемого имеющих единицу измерения нат (1 бит « 0,693 нат). График энтропии Н показывает информативные свойст-

измерения

ва тестового задания — чем выше график, тем информативней задание для данного испытуемого.

На рис. 1а приведены графики зависимости вероятности неправильного ответа Р0 и

правильного ответа Р^ на тестовое задание нейтрального уровня трудности й =0 и значения энтропии Н, в зависимости от уровня подготовленности испытуемого Ь. Точка пересечения графиков вероятности

Рис. 1а. Графики вероятности Р ответов на задание с нейтральным уровнем трудности ^ = 0) в системе Раша и средней энтропии Н

0 ОД 0.4 0:б 0:3 1

^-Во -Й-Р1 -Н

Рис. 1б. Графики вероятности Р ответов на задание c единичным уровнем трудности (в = 1) в альтернативной системе и средней

энтропии Н

Р0 = Р1 = 0,5 соответствует абсциссе с уровнем подготовленности испытуемого, равным уровню трудности тестового задания Ь = й =0.

Для альтернативной модели подобные графики удобно приводить в зависимости не от относительного показателя подготовленности и, а от его вероятностного эквивалента — вероятностного показателя и = 0,5 . Тогда исходная модель имеет вид Р = ив и графики вероятности неправильного ответа Р0 и правильного ответа Р1 на тестовое задания единичного уровня трудности и энтропии Н представлены на рис. 1б.

Если принять предложенный в работе1 критерий эффективности тестового задания

Н

1

Н

21п2

= 0,72,

то можно сделать утверждения:

• нейтральное задание эффективно для испытуемых с уровнем подготовленности из диапазона -1,4< Ь <1,4 с шириной АЬ = 2,8 логит;

• единичное задание эффективно для испытуемых с вероятностным показателем уровня подготовленности 0,2< и <0,8 с шириной диапазона Аи = 0,6 (или с относительным показателем из диапазона 0,43 < в< 3,1).

Хорошо известной модификацией исходных моделей являются двухпараметричес-кие дихотомические модели

педагогических измерений. Введение дополнительного параметра а позволяет учитывать дифференцирующие свойства показателей модели. В аддитивную модель Ра-ша этот параметр входит в качестве множителя, в мультипликативную альтернативную модель в качестве показателя степени к основному параметру модели:

ехр(а• g) Р =--модель Бирн-

1 + ехр(а • g)

баума; Р = 0,51/г° — двухпараме-трическая альтернативная модель.

Введение в модель дифференцирующего параметра приводит к следующим деформациям образов тестовых заданий, в зависимости от значения параметра (рис. 2а и 2б).

Введение дифференцирующего показателя а отражается на диапазоне эффективности тестовых заданий следующим образом — увеличение значения дифференцирующего показателя уменьшает диапазон эффективности тестовых заданий.

В системе Раша ширина диапазона обратно пропорционален значению дифференцирующего показателя; можно примерно записать АЬ « 2,8/а. В частности, при а = 2 имеем диапазон эффективности тестовых заданий -0,7 < Ь < 0,7, а при а = 0,5 имеем -2,8 < Ь < 2,8.

Рис. 2а. Графики вероятности Р правильных ответов на задания с нейтральным уровнем трудности, значениями параметра а = 2 и а = 0,5 в системе Раша и средней энтропии Н

0 0.2 0,4 0.6 0.8 1

Р(2) —О—Р(0:5> -на)--Щ0:5)

Рис. 2б. Графики вероятности Р правильных ответов на задания с единичным уровнем трудности, значениями параметра а = 2 и а = 0,5 в альтернативной модели и средней энтропии Н

Для альтернативной модели при значении а =2 имеем диапазон эффективности тестовых заданий 0,35 < u < 0,68 , а при а = 0,5 имеем 0,02 < u < 0,93 .

Другим направлением модификации модели является переход от дихотомического к политомическим типам, допускающим вариативность ответа на тестовое задание. Известным

примером политомическои модели класса Раша является модель PCM (Partial Credit Model). Аналогичные расширения допустимы и для класса альтернативных моделеИ.

Получим алгоритм построения этоИ модели на основе информационного подхода.

Допустим, тестовое задание содержит n градации ответа, тогда система «испытуемый-задание» может находиться в n +1 состояниях (включая нулевое состояние n = 0) с вероятностями Р0, Pi, •••, Pk, Pk+1, • Pn. Переход системы из одного состояния в другое Pk ^ Pk+i сопровождается изменением неопределённости состояний, с разностью частных энтропии Ahk = lnPk+i/Pk, значение которой определяется только пороговым параметром gk+1, отделяющим эти состояния. Т.е. отношение вероятностей последовательных состояний есть функция только от параметра

g Pk+1/ Pk = f(gk+1).

Для начальных состояний последнее соотношение, задающее отношение вероятности правильного ответа к вероятности ошибки, можно записать для двух исходных моделей в виде: P1/P0 = exp(g1) и P1/P0 = 0,51/r1 /(1 -0,51/r1). Отсюда несложно выразить вероятность первого состояния через вероятность нулевого состояния P1 = P0exp(g1) и P1 = Р0 • 0,51/r1 /(1 -0,51/r1) или

вероятности последующего состояния через предыдущее

Рк+\ = Рк ехР(gk+1) и рк+1 = Рк ■ ■ 0,51/п+1 /(1 - 0,51/г1).

Таким образом, вероятности любого последующего состояния можно выразить через вероятность Ро нулевого состояния. Дописывание к этим соотношениям условия нормировки Р0 + Р1 + ... + Рп = 1 позволяет однозначно записать выражения для вероятностей возможных событий. Примеры конструирования частных по-литомических моделей рассмотрим в следующем подразделе.

Возможны и составные схемы тестовых заданий. В этом случае само задание можно рассматривать как совокупность напрямую независимых подзаданий со своими вариантами ответов и системой оценивания. Такие составные задания лучше разбивать на отдельные. Отдельные задания удобней и выполнять, и оценивать, но у составителей заданий на этот счёт может быть и своя точка зрения. Примеры таких заданий можно увидеть в задачах типа С материалов ЕГЭ, олимпиадных задачах.

Допустим, задание содержит п независимых дихотомических подзаданий, с вероятностями правильного ответа на каждое из них Р1, Р2, ..., Рп. Для расчёта вероятности правильного ответа на отдельное подза-дание можно использовать лю-

^^то^оллоггияя

измерения

бую из исходных моделей. Тогда существует п2 различных вариантов ответа, начиная от состояния «все подзадания выполнены неправильно» с совместной вероятностью (1 - Р1) (1 - Р2>..,(1 - Рп), «только первое подзадание выполнено правильно» с вероятностью Р1-(1 - Р2>...-(1 - Рп) и завершая правильным решением всех подзаданий с совместной вероятностью Р1 ■ Р2-...-Рп. Примеры конструирования составных заданий рассмотрим ниже.

Пример

конструирования линейной политомической модели

Линейная политомическая модель предполагает строгое логически последовательное расположение всех вариантов ответа на тестовое задание. Например, задание с категориями вариантов ответа: 0 — совершенно не согласен; 1 — не согласен; 2 — согласен; 3 — полностью согласен. Или с категория-

не полный ответ; 3 — совершенно правильный и полный ответ. Если вероятности выбора испытуемым одного из четырёх предложенных вариантов ответа обозначить соответственно через Р0, Р1, Р2, то структуру такого задания можно представить схемой:

Р =_

ми: 0 — совер- о 1 + ехр(gl)

шенно неправильный ответ; Р =

Обозначим три пороговых значения, разграничивающих смежные категории в интервальной шкале логитов через ¿1, ¿2, йз, причём, ¿1 < ¿2 < ^3. Тогда для испытуемого с подготовленностью Ь и разностью gk = Ь - йк на основе рекуррентного правила Рш = Рк ехр(gk+l) можно записать следующие соотношения между вероятностями появления одного из вариантов ответа: Р1 = Р0 ехр(g1),

Р2 = Р1 ехр( g 2) = Р0 ехр( gl + g 2),

Подставляя эти соотношения в условие нормировки Р0 + Р1 + + Р2 + Р3 += 1, находим искомые выражения для вероятностей (линейная модель РСМ):

1

+ ехр( gl + g2) + ехр( gl + g2 + gз) ' ехр( gl)

1 — ответ содер- 1 + ехр( жит правильные

элементы; 2 — Р2 =-

правильный, но 1 + ехр(gl) + ехр(gl + g2) + ехр(gl + g2 + gз)'

> + ехр(gl + g2) + ехр(gl + g2 + gз) ' ехр( gl + g2)

Р _ехр(а + ^ + gз)_ РСМ на основе

Р3 =---5-2-. рекуррентного

1 + ехр(+ ехр( ё1 + §2) + ехр( ё1 + + §з) СООТНОшния В качестве иллюстра- Рк+1 = Рк • 0,51/П+1 /(I -0,51/п+1 )с ции приведем графики этих пороговыми показателями в функций для пороговых значений категорий трудности задания в интервальной шкале логитов ¿1 = -1, ¿2 = 0, ¿3 = 1 (рис. 3а).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Аналогичные результаты несложно получить и для линейной альтернативной модели

пропорциональнои шкале измерений 01< 02 < вз, уровнем подготовленности испытуемого в и отношением % = в/0^. Если ввести вероятностный показатель подготовленности испытуемого и = 0,51/в, то эти выражения примут более компактный вид:

Р0 =

Р =

(1 - ив )(1 - ив2 )(1 - ивз )

01 +02 +вз

(1 - и0 )(1 - ив2 )(1 - и0 )+ и0 (1 - ив2 )1 - и0 )+ и0 +в2 (1 - и0 )

и0 (1 - ив2 )(1 - и0 ) (1 - ив1 )(1 - ив2 )(1 - ив3 )+ ив1 (1 - ив2 )( - ив3 ) ив1 +0 (1 - ив3 )+ ив1 +0 +0

в + 0

(1 - ивз )

(1 - ив )(1 - ив2 )(1 - и0 )- ив (1 - ив2 )1 - и0 )- ив +0 (1 - и0 )

01 +02 +вз

3 ' 2 0 14

59

измерения

Рз =

u

в + в +вз

(1 - ue )(l - ив )l - ивз )+ ue (l - ue )(l - ue ) ив +e (l - ue ) ив +в +e

Графики этих функций для пороговых значений трудности задания в пропорциональной шкале битов в = 1/е, в = 1, вз = е приведены на рис. 36.

Точки пересечения графиков вероятности выбора того или иного варианта ответа соответствуют абсциссе с уровнем подготовленности испытуемого равным пороговому значению уровня трудности между соответствующими категориями. Например, абсцисса точки пересечения графиков Р1(и) и Р2(и) равна уровню подготовленности испытуемо-

го и = 0 , 51 = 0, 5е « 0 ,15 2 соответствующего пороговому значению трудности в1. Этот вывод несложно получить и аналитически из решения уравнения Р^и) = Р2(и).

Обратимся к анализу эффективности такого задания. Для системы, которая может находиться в одном из четырёх состояний, энтропия достигает максимально возможного значения Нтах = 1п4 нат « 1,386 нат в точке равенства вероятностей каждого из состояний. Для тестовых заданий с множеством выбора этому условию удовле-

Рис. 3б. Графики вероятности Р ответов испытуемым на линейное задание с уровнями трудности в = 1/е, в = 1, в = е в альтернативной системе и средней энтропии Н

творяют состояния с одинаковыми пороговыми значениями равными уровню подготовленности испытуемого, т.е. когда все gk = 0, % = 1. Тогда условие

эффективности

Н

->-

1

21п2

для тестового задания с четырьмя возможными состояниями преобразуется в неравенство Н > 1 нат.

Применяя это условие, имеем области уровня подготовленности испытуемых, для которых задание эффективно: -1,2 <¿<1,2 с наибольшим значением Ннаиб « 1,28 <1,39 « Нтах в системе Раша; 0,22 < и < 0,79 с наибольшим значением Ннаиб ~ 1,19 <1,39 « Ятах в альтернативной системе. Т.е. информативность линейных поли-томических заданий с различающимися пороговыми значениями уровней трудности несколько снижается.

Пример

конструирования разветвлённой политомической модели

Разветвлённая политомичес-кая модель допускает существование параллельных (независимых) траекторий из вариантов ответа. Например, в задании требуется не только правильно ответить на вопрос, но и

обосновать его одним из методов. Тогда результаты выполнения задания могут содержать варианты: 0 — ответ неправильный; 1 — ответ правильный; 2 или 3 — правильный ответ обоснован тем или иным способом. Структуру такого задания можно представить схемой:

р<> р.

Рз

Обозначим три пороговых значения, разграничивающих смежные категории в интервальной шкале логитов через ¿1, ¿2, ¿3. Тогда для испытуемого с подготовленностью Ь и разностью gk = Ь - на основе рекуррентного правила Р^+1 = Р&ехР(й+1) можно записать следующие соотношения между вероятностями появления одного из вариантов ответа: р = Р0ехр(^),

= рехрЫ = Р)ехр(Я1 + g2), Рз = ^1ехр(Яз) = Р^ехрС?! + gз). Подставляя эти выражения в условие нормировки Р1 = Р1 + + Р2 + Р3 + 1, находим искомые выражения для вероятностей (развётвлённая модель РСМ):

Р0 =

Р1 =

Р2 =

1

1 + ехр( gi) + ехр( gi + g2) + ехр( gl + gз)

_ехр( gl)_

1 + ехр(gl) + ехр(gl + g2) + ехр(gl + gз) ,

_ехр( gl + g2)_

1 + ехр(gl) + ехр(gl + g2) + ехр(gl + gз) '

измерения

exp( g, + g3) ..

P3 =-—^—- ленной альтерна-

1 + exp( g1) + exp( g, + g2) + exp( g, + g3) тивной модели

В качестве иллюстрации PCM с пороговыми показателя-

приведем графики этих функ- ми в пропорциональной шкале

ций для пороговых значений измерений в\, в, вз, выражен-

категорий трудности задания в ными через вероятностный

интервальной шкале логитов уровень подготовленности ис-

¿1 = -1, ¿2 = 0, ¿з = 1 (рис. 4а). пытуемого u = 0,51/е, и на осно-

Аналогичные результаты не- ве рекуррентного соотношения

сложно получить и для разветв- Pk+1 = Pk • ue+1 / (1 - ue+1)

P =

P=

(1 - ue )(1 - ue2 )(1 - ue3 )

(1 - ue )(1 - ue2 )(1 - ue3 )+ ue1 (1 - ue2 )1 - ue3 )+ ue1 +e (1 - ue3 )+ ue +в (1 - ue2 )

ue (1 - ue2 )1 - ue3 )

' ue + в (1 - ue3 )

ue + в (1 - ue2 )

(1 - ue )(1 - ue2 )1 - ue3 )+ ue (1 - ue2 )(1 - ue3 )+ ue +в (1 - ue3 )+ ue +в (1 - ue2 ).

Рис. 4а. Графики вероятности Р ответов испытуемым на разветвлённое задание с уровнями трудности а(1 = -1, а^ = 0, а3 = 1 в системе Раша и средней энтропии Н

Рис. 4б. Графики вероятности Р ответов испытуемым на разветвлённое задание с уровнями трудности в1 = 1/e, в2 = 1, в = e в альтернативной системе и средней энтропии Н

Графики этих функций для пороговых значений трудности задания в пропорциональной шкале битов в = 1/е, в = 1, вз = е приведены на рис. 4б.

Области уровня подготовленности испытуемых, для которых задание с разветвлением эффективно определяется диапазонами: -1,4 < Ь <1,3 , с наибольшим значением Янаиб«1,28 < 1,39 «Ятах в системе Раша; 0,20 < и < 0,76 с наибольшим значением

Янаиб " 1,28 < 1,39 «Нтах в альтернативной системе. Т.е. информативность разветвлённых по-литомических заданий с различающимися пороговыми значениями уровней трудности несколько снижается.

Рассматриваемые исходные модели никак не противоречат, а лишь описывают ис-

следуемые явления с разных позиций, в разных метрических шкалах. Подтверждением этого могут служить не только единые качественные выводы и опорные количественные значения рРаш(£ = 0) = рАльт(у= 1) = 0,5, но и количественные асимптотические оценки.

Дополнительное подтверждение находится в рассмотренном примере. При очень хорошей подготовке испытуемого из моделей следует единый, очевидный при заданных параметрах, вывод:

РРРаш (й _ Р2Альт или и = 1)

рРраш(й _ Р3Альт(в^с или и = 1)

Если первый метод обоснования решения задачи в е раз (или на 1 логит) легче второго, то и вероятность правильного

^^оддолоогиияя

= е « 2,718.

3 ' 2 0 14

63

измерения

ответа на него в е раз выше. В системе измерений Раша подобные результаты анализа не приводятся.

Пример

конструирования составной модели

Конструирование составного тестового задания покажем на примере задания, состоящего из двух относительно независимых подзаданий. Например, задание: выбрать наиболее верное описание свойств движения тела, свободно падающего на Землю из состояния покоя. Варианты ответов: прямолинейное равномерное; прямолинейное ускоренное; криволинейное равномерное; криволинейное ускоренное. В отличие от политомического такое задание предполагает предварительное решение двух независимых задач — определить вид траектории и определить характер движения тела. Если вероятности правильных ответов на каждую из задач обозначить через Pi и Р2, то существует четыре варианта ответа с совместными вероятностями

Cоо = (1 - Pi) (1 - P2), C10 = Pi(1 - P2), C01 = (1 -

- P1)P2, С11 = P1P2. Структуру такого задания можно представить схемой:

1-Pl Pl

Сю

с )0 с 11

1-Р2 Р2

Обозначим два пороговых значения разграничивающих категории «правильно — неправильно» для каждого из подза-даний в интервальной шкале логитов через ¿1, Тогда для испытуемого с подготовленностью Ь и разностью ^^^ = Ь - ^ можно записать следующие соотношения для совместной вероятности ответов на подзадания:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Соо =

1

(1 + ехр( g1) )(1 + ехр( g2))'

_ехР( g2)_

(1 + ехр( &))(1 + ехр( g 2)),

_ехР( gl)_

(1 + ехр( gl))(l + ехр( g 2)),

ехР( gl)exР( g2) (1 + ехр( + ехр( g2)).

Графики этих функций для пороговых значений трудности задания в интервальной шкале логитов ¿1 = -1, ¿2 = 1 приведены на рис. 5а.

Аналогичные результаты несложно получить и для составной альтернативной моде-

С01 =

С10 =

С11 =

Рис. 5а. Графики совместной вероятности С ответов испытуемым на составное задание с уровнями трудности d1 = -1, d2 = 1 в системе Раша и средней энтропии Н

ли с пороговыми показателями двух подзаданий в пропорциональной шкале измерений в\, в выраженными через вероятностный уровень подготовленности испытуемого и = 0,51/0:

О) =(1 - ив )1 - ив ) С10 = ив (1 - ив ) С)1 = (1 - ив )Д

С11 — ив и.

Графики этих функций для пороговых значений трудности подзаданий в пропорциональной шкале битов = 1/е, в2 = е приведены на рис. 56.

Области уровня подготовленности испытуемых, для которых составное задание эффективно определяется диапазонами:

-1,2 < Ь < 1,2 с наибольшим значением Янаиб « 1,16 < 1,39 « Ятах в системе Раша; 0,57 < и < 0,77 с наибольшим значением Ннаиб « 1,04 < 1,39 я Ятах в альтернативной системе. Т.е. информативность составных заданий с различающимися пороговыми значениями уровней трудности заметно снижается.

В завершение рассмотренных примеров приведём одно замечание относительно выраженных различий в свойствах моделей класса Раша и альтернативных моделей. Модели класса Раша симметричны относительно нейтрального значения параметра g = 0. Это свойство отражено на соответствующих рисунках с литерой «а» при симметричных уровнях трудности тестовых заданий. Альтернативная система

Рис. 5б. Графики совместной вероятности С ответов испытуемым на составное задание с уровнями трудности в = 1/е, в = е в альтернативной системе и средней энтропии Н

подобной симметрией относительно нейтральной единицы 7= 1 (или и = 0,5) не обладает, что отражено и на рисунках с литерой «б». Эти различия заложены в исходных моделях, в толкованиях её показателей, и противоречий здесь нет. Измерительные шкалы этих систем обладают различными метриками.

Информационный метод проведения измерений

Информационный подход можно распространить не только на педагогические, но и на классические физические измерения. Для примера рассмотрим про-

цесс измерения линейкой длины небольшого бруска Ь. Сначала обратимся к свойствам линейки и свойствам результатов измерения линейкой. Первое. Линейка имеет метрическую шкалу с минимальным делением 1 мм, по которой, собственно, и проводятся измерения. Если аккуратно провести измерение, т.е. ровно наложить линейку на брусок и строго совместить левый край бруска с нулевой отметкой шкалы линейки, то положение правого края бруска указывает его длину в единицах шкалы линейки. Пример такого измерения показан на рисунке 6, по которому можно заключить, что длина бруска более 27 и менее 27,5 мм.

Рис. 6. Измерение бруска

Точнее провести измерение данной линейкой не удастся. Неопределённость измерения неизбежна, она заложена и в самом измерительном инструменте, и в свойствах бруска, и технологии проведения измерения. В нашем примере неопределённость измерения линейкой можно оценить значением 0,5 мм. Отсюда второе свойство линейки — присущая ей неопределённость при проведении измерений, количественно выраженная погрешностью. Таким образом, результат физического измерения характеризуется двумя основными параметрами — значение измеряемой величины и погрешность этого измерения.

Рассмотрим измерение длины бруска на основе информационной схемы. Под измерением будем понимать процесс получения наибольшего количества информации от сравнения бруска с метрической линейкой. Будем считать, что если исследователь принимает за длину бруска значение 27 мм, то, по его мнению, вероятность события «длина бруска менее 27 мм» равна 0,5. Впрочем, как и того, что длина бруска более

27 мм. Именно в этом случае равенства вероятностей противоположных событий энтропия системы максимальная, именно в этом случае исследователь получает наибольшее количество информации от измерения.

Другой исследователь выскажет другой результат измерения, например 27,2 мм, и т.д. При проведении массовых измерений длины бруска результаты сгруппируются в диапазоне от 25 до 25,5 мм. Если результаты этих измерений выразить через показатели двухпа-раметрической альтернативной модели, то графический образ длины бруска будет иметь вид, представленный на рис. 7. Здесь введены следующие обозначения: и = 0,51/е — вероятностный показатель результатов отдельного измерения по шкале линейки, q = L/Lср — относительные значения этих измерений, Р — вероятность состояния «среднее значение длины бруска меньше показаний линейки», Н — энтропия этого состояния.

Наиболее информативное состояние при иср = 0,5 с вероятностью P(L = Lср) = 0,5 и энтропией Яmax(L = Lср) = 1п 2 отражает среднее значение измеряемой величины. Диапазон информационной эффективности оценивается шириной ДЯ » 0,005, что соответствует погрешности измерений ДЬ » 4 мм.

^^то^оллоггияя

Рис. 7. График вероятности Р и энтропии Н измерений длины бруска

Эти результаты полностью согласуются с основными показателями физического измерения, что говорит о правомерности информационного подхода к измерениям.

Однако, результаты физических и педагогических измерений имеют и выраженные различия.

Первое и принципиальное различие состоит в том, что при проведении педагогических измерений нет предварительно созданной «эталонной метрической линейки». В педагогических измерениях сама метрика формируются в процессе самих измерений, при обработке результатов тестовых испытаний.

Второе различие относится к точности измерений. При проведении педагогических из-

мерений значение дифференцирующего показателя а незначительно отличается от единицы, в то время как при более точных физических измерениях значения этого показателя порядка сотен. В нашем примере измерения линейкой а = 150.

Свойства дифференцирующего показателя таковы, что при увеличение его значения уменьшается ширина диапазона информационной эффективности измерения. Более строго — ширина диапазона информационной эффективности измерения Л обратно пропорциональна значению дифференцирующего показателя а и по порядку величин они связаны отношением Л ~ 1/а . Если в педагогических измерениях относительная ширина диа-

пазона информационной эффективности сопоставима со средним значением Ди ~ иср, то в физических измерениях -составляет доли процента Ди ~ 0,01-иср. Измерения, в которых погрешность измерений сопоставима с результатом, точными не назовёшь. Проблема точности педагогических измерений решается только при проведении массовых испытаний и за счёт статистической сходимости результатов измерений.

Таким образом, применение информационного подхода к измерению не ограничено от-

дельной областью. На наш взгляд, этот подход носит универсальный характер, суть которого можно представить выделением следующих этапов:

• поиск состояния сравниваемых величин с наибольшим значением энтропии;

• представление этого состояния в виде числовой величины с метрикой.

В этом случае результат измерения даст максимально возможное количество информации не только в смысле Шеннона, но и в смысле важнейшего метода эмпирического познания.

Конструирование модели педагогического теста Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Каргин Юрий

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Каргин Юрий

Текст научной работы на тему «Конструирование модели педагогического теста»