Юрий Николаевич Каргин, преподаватель Ноябрьского колледжа профессиональных и информационных технологий, кандидат физико-математических наук [email protected]
ЭНТРОПИЯ ЗНАНИЙ. КОНСТРУИРОВАНИЕ МОДЕЛИ ПЕДАГОГИЧЕСКОГО ТЕСТА
Введение
Ранее1 была высказана идея существования взаимосвязи между теорией информации и теорией педагогических измерений. Выявление этой связи позволило по-новому:
• описать содержательный смысл основных показателей качества педагогических измерений через информационные характеристики;
• выразить традиционные единицы измеряемых величин — логит — через меры информации бит;
• рассмотреть вопрос о классах моделей педагогических измерений и способах их конструирования;
• по-новому взглянуть на вопросы эффективности педагогического теста и способы её оценивания.
В данной работе высказанная идея и её следствия находят своё дальнейшее развитие.
1 Каргин Ю. Исследование взаимосвязи теории информации и теории педагогических измерений. ПИ №2. 2013. С. 3-22.
Проблемы МТИ
Математическая теория педагогических измерений (МИТ) начинается с достаточно очевидного высказывания — испытуемый с лучшей подготовкой к содержанию тестового задания имеет больше шансов на успех, чем испытуемый с худшей подготовкой. Это высказывание можно привести и в более строгой форме, через понятие вероятности. Вероятность правильного ответа на тестовое задание испытуемым с лучшей подготовкой больше, чем испытуемого с худшей подготовкой.
Дальнейшее построение МТИ проходит через поиск, выбор и обоснование строгих математических правил, реализующих это высказывание, правил вычисления вероятности правильного ответа на тестовое задание, в зависимости от подготовленности испытуемого и трудности тестового задания. Этот этап развития МТИ завершается формулировкой моделей педагогических измерений, анализом их свойств, по которым затем и разрабатываются технологии педагогического тестирования.
Следует отметить, что на некоторых этапах построения МТИ проявляются слабые места и недостаточно убедительные суждения. В частности, переход от исходного высказывания о монотонном росте вероятности правильного ответа с ростом подготовленности испытуемого к построению той или иной математической модели, строго говоря, не обоснован. Обычно это обоснование представлено несколько размытыми рассуждениями о необходимом виде функции, о её свойствах, включая асимптотическое поведение. Иногда математический вид функции обосновывается подбором под эмпирические данные или даже просто представляется как удачная догадка Г. Раша.
Другим «слабым местом» МТИ является отсутствие внятного ответа на вопрос, что, собственно, мы измеряем, «накладывая» ту или иную модель на наблюдаемые данные педагогического тестирования? Как понять связь между подготовленностью испытуемого к тестовому заданию и значениями измеряемых показателей? Тем более, когда шкала измерения знаний в логитах неравномерна и, вообще говоря, зависит от подготовленности испытуемых и трудности тестовых заданий. И понять эту связь не так просто. Но необходимо.
Возможно, и в этих трудностях, в том числе, кроются препятствия более широкого распространения МТИ. Отсюда возникает недоверие к результатам педагогических измерения методами МТИ или игнорирование их отличительных качеств. А иногда и примитивное толкование результатов МТИ как более сложной формы ранжирования испытуемых.
...................................47
Таким образом, можно выделить две взаимосвязанные проблемы МТИ — убедительное обоснование модели педагогических измерений и внятная интерпретация её параметров. Новое понимание и толкование этих проблем в этой статье предлагается через применение основных идей и положений теории информации к педагогическим измерениям.
Частная и средняя энтропия
К числу исходных и основных понятий теории информации относят понятие энтропии как меры неопределённости системы и понятие информации сообщения как меры снятой этим сообщением неопределённости. Иногда эту логическую связь представляют иначе: если некоторое сообщение приводит к уменьшению неопределённости системы, то такое сообщение несёт информацию о познаваемой системе в количестве уменьшения неопределённости. В качестве единичной меры неопределённости (энтропии) выбрана неопределённость системы, находящейся в одном из двух равновероятных состояний. Энтропия такой системы равна 1 бит (bit, binary unit — двоичная единица).
Полагая, что не каждый читатель знаком с понятиями теории информации и основными правилами расчёта количества информации, рассмотрим их на небольшом модельном примере.
Пример
В школе стало известно, что один из учеников 10а класса победил в престижном международном шахматном турнире. Но кто этот ученик, пока неизвестно, и перед педагога-
теория и практика проектирования
48
-О-
ми школы стоит задача определить имя победителя. Рассмотрим возможности правильного решения этой задачи различными педагогами.
Сначала рассмотрим, как директор школы пытается определить имя победителя. Директор не готов точно ответить на этот вопрос, ему известно только то, что в 10а классе 16 учащихся. Для него ученики класса неразличимы, любой ученик этого класса мог стать победителем шахматного турнира. Тогда неопределённость рассмотренной системы можно охарактеризовать количеством равно-возможных вариантов — 16.
Завуч больше осведомлён о классе, ему известно, что в этом классе только 8 юношей. Т.к. один из 8 юношей мог стать победителем турнира, неопределённость системы доходит до 8 возможных вариантов.
Помощник по воспитательной работе по анкетным данным определил, что в этом классе только четверо юношей систематически занимаются спортом, но информации о видах спорта у него нет. Неопределённость системы для помощника по воспитательной работе уменьшилась до 4.
Классный руководитель ближе знаком с увлечениями своих учеников и знает, что
только два ученика класса занимаются шахматами, и только кто-то из них мог стать победителем шахматного турнира. Неопределённость системы доходит до 2.
И, наконец, руководитель шахматного кружка лучше всех подготовлен к ответу на этот вопрос. Он не просто знает этих двух учеников как шахматистов, но и имеет веские основания полагать, что шансы на победу первого из них примерно в три раза выше второго.
Таким образом, единое для всех педагогов задание воспринимается педагогами по-разному. Каждый из них имеет свои знания, которые и помогают правильно решить поставленную задачу. Неопределённость систем «отдельный педагог — задача определить победителя» различна, отсюда и различия в шансах правильно «вычислить» победителя турнира.
Дальнейшие обсуждения информационных свойств рассматриваемых систем удобно сопровождать заполнением таблицы (табл. 1). Первые два столбца таблицы заполняются по приведённым выше рассуждениям.
Пример подобран так, что неопределённости рассматриваемых систем не просто различны, а ещё и для первых систем эти различия одинаковы — количество возмож-
Таблица 1
-о-
Информационные характеристики систем «педагог-задача»
Педагог Количество вариантов N Вероятность выбора Р Энтропии
И1, бит й0, бит И- й0, бит Н, бит
директор 16 1/16 4 0,093 3,907 0,339
завуч 8 1/8 3 0,193 2,807 0,544
пом. по восп. раб. 4 1/4 2 0,415 1,585 0,811
класн. руковод. 2 1/2 1 1 0 1
руковод. кружка - 3/4 0,415 2 -1,585 0,811
49
-О-
ных вариантов N в каждой последующей системе в 2 раза меньше. Действительно, анализируя второй столбец таблицы, несложно выделить отношения — 16:8=8:4=4:2==2. Это факт на языке информационного подхода можно сформулировать так — неопределённость каждой последующей системы на 1 бит меньше предыдущей.
Мы не заполнили последний элемент таблицы второго столбца с количеством возможных вариантов для руководителя шахматного кружка. В данном примере эта мера теряет смысл. Однако дальнейшие рассуждения справедливы и для этой строки. Продолжая информационный анализ рассматриваемых систем, запишем выражения для основных величин теории информации — для частной и средней энтропии.
Общее выражение для вычисления частной энтропии некоторого единичного состояния было предложено Хартли: к = 1о§0 5Р = -1о§2Р, где Р — вероятность наблюдаемого состояния системы. Рассчитаем по этой формуле энтропию состояния «первый ученик — победитель» с позиции руководителя кружка. По его мнению, вероятность выиграть турнир у первого ученика выше второго в три раза, т.е. равна 3/4 (против 1/4 второго ученика), тогда энтропия этого состояния равна к = 1о§0 50,75 = 0,415.
В более простом, частном случае, когда неопределённость системы задаётся N равнозначными вариантами и вероятность каждого из таких состояния равна Р = формула Хартли принимает вид: .
к = 1о§0,5 N = 1о§2 ^
Именно по этим формулам рассчитаны вероятности правильного решения задачи педагогами и соответствующие значения частной энтропии к1 (третий и четвёртый столбцы таблицы 1).
Содержательный смысл значения частной энтропии можно передать как «мера неожиданности» события. Чем меньше вероятность события, тем больше значение частной энтропии и тем неожиданней его появление. Такие толкования становится более наглядным, если дополнительно рассчитать частные энтропии состояний «победитель турнира определён неправильно» (пятый столбец таблицы). В шестом столбце приведены разности частных энтропий, отражающие на сколько «неожиданней» правильный выбор победителя по сравнению с ошибкой.
Если показатель частной энтропии отражает неопределённость отдельного состояния системы, то средняя энтропия (или просто энтропия) отражает неопределённость всей системы и рассчитывается как среднее значение частных энтропий всех её состояний. Для расчёта этого показателя следует применять формулу Шеннона:
Н = £Р, X 1оЕ0,5 Р = -£Р X 1оЕ2Р,.
Когда система может находиться только в одном из двух возможных состояний с вероятностью благоприятного исхода р, то формула Шеннона имеет вид: Н(Р) = Р'^Р + (1 - Р)-1оВ0,5(1 - Р).
В последнем столбце таблицы 1 приведены средние значения энтропий системы Н для педагогов школы.
теория и практика проектирования
50..................................
В данном примере мы начинали рассматривать понятие энтропии через понимание неопределённости системы по количеству равновозможных вариантов выбора, и даже смоделировали системы с различными мерами неопределённости и рассчитали эти меры. Таким детализированным рассмотрением задачи мы пытались лишь развернуть содержание терминов неопределённость, частная и средняя энтропия, информация. На самом деле, рассматривая вопросы подготовки учебных заданий и анализа ответов на них учащихся, возможности в такой детализации вряд ли представятся. Строгий теоретический расчёт энтропий и других информационных показателей возможен только для «понятных» систем, для систем с заданными вероятностями состояний. Система «испытуемый — тест» к таким не относится. Однако применять положения теории информации можно и без такой детализации.
Информационный подход к вопросам педагогических измерений, как и другие направления МТИ, опирается не на теоретический расчёт, а на экспериментальную оценку вероятности правильного ответа испытуемым. Но в отличие от других направлений МТИ, в основе информационного подхода лежат и анализируются новые, именно информационные показатели.
Таким образом, тестовые испытания как инструмент проведения педагогических измерений, можно рассматривать и с позиций теории информации. В этом случае под системой с количественно оцениваемой неопределённостью (энтропией) следует понимать ис-
пытуемого, выполняющего тестовое задание, а под сообщением, несущим информацию, следует понимать результат тестового испытания. Тогда количество неопределённости, снятой сообщением, и есть то количество информации, которое поступает педагогу для анализа результата тестирования.
Информационные показатели МТИ
На некоторое время отвлечёмся от известных в МТИ показателей трудности тестовых заданий и подготовленности испытуемых, и попытаемся предложить свои варианты решения этой задачи, но уже на основе информационных показателей.
Первое предположение лежит на поверхности. Рассмотрим вариант описания неопределённости системы «испытуемый — тестовое задание» непосредственно показателем частной энтропии состояния с вероятностью Р правильного ответа: к = 1о§0 5Р. В рассмотренном примере значения этого показателя приведены в четвёртом столбце таблицы 1.
Приведём основные свойства этого показателя:
• при значениях вероятности 0 < Р < 1 значения частной энтропии к изменяются в интервале от 0 до да;
• с ростом вероятности появления состояния частная энтропия этого состояния монотонно убывает;
• к (1) = 0 — частная энтропия (неопределённость) достоверного состояния равна нулю, к (0) = да — частная энтропия невозможного
51
-О-
состояния равна бесконечности, к(0,5) = 1 бит — частная энтропия равновероятного дихотомического состояния равна 1. Такое состояние называют состоянием единичной неопределённости;
• свойство аддитивности к (Р1'Р2) = к (Р1) + + к (Р2) для независимых событий.
Если формулу Хартли переписать в виде
Р = 0,5к = 0,5 х ... х 0,5, то состояние со
>._v_/
к раз
значением частной энтропии к эквивалентно к-раз совместному состоянию единичной неопределённости. Таким образом, значение показателя частной энтропии к показывает, во сколько раз неопределённость данного состояния системы отличается от состояния системы единичной неопределённости.
Приведённые свойства и интерпретация значений показателя частной энтропии позволяют ввести пару основных показателей педагогических измерений в, в и связать их с информационным показателем отношением к = в /в. Тогда, из формулы Хартли следует модель педагогических измерений Р = 0,5в/в, где в — относительный показатель трудности тестового задания, в — относительный показатель подготовленности испытуемого.
Проведём трактовку результатов рассмотренного выше примера с позиций этой модели. Собственная трудность задачи определения победителя для всех педагогов одинакова. Для упрощения рассуждений положим в = 1. Тогда относительный показатель подготовленности педагогов в обратно пропорционален значению частной энтропии в = 1 /к. Отсюда, в частности, заключаем -
в/в
классный руководитель имеет единичный уровень подготовленности (равный уровню трудности задания) к ответу на поставленный вопрос. Для директора школы в = 1/4, т.е. он в 4 раза хуже классного руководителя подготовлен к ответу на этот вопрос, а руководитель кружка — в 1/0415 ~ 2,4 раза лучше подготовлен к ответу на этот вопрос. Такие интерпретации подготовленности педагогов не только качественно верно отражают рассмотренную в примере ситуацию, но и количественно выверены на основе теории педагогических измерений
В наших работах 2, 3 модель Р = 0,5 представлена как альтернативная, где достаточно подробно приведены свойства модели, свойства и интерпретация показателей модели. Здесь отметим лишь то, что по этой модели измерения проводятся в шкале отношений (пропорций).
Если обратиться к данным таблицы 1, то несложно заметить, что не только значение частной энтропии отражает различия систем с педагогами при решении поставленной задачи, но и разность частных энтропия состояний правильный и неправильный выбор победителя А к = к1 - к0 отражает эти различия. Например, для директора эта разность имеет значение примерно 3,9 бит (на столько бит неожиданней правильный выбор, чем ошибка), для завуча около 2,8 бит, а для классного руководителя неопределённости состояний правильный и неправильный выбор вообще одинаковы, и разность частных энтропий равна нулю. По характеру поведения разности частных энтропий Ак несложно заметить, что чем хуже подготов-
теория и практика проектирования
52
-О-
лен педагог к правильному выполнению задание, тем она больше. Отсюда можно предложить следующую связь показателей подготовленности Ь и трудности задания й с информационной разностью: й - Ь = 1п2-Лк.
Коэффициент пропорциональности 1п2 введён для приведения этих показателей к стандартному для системы Раша виду. Если в это равенство подставить выражения для частных энтропий, то после элементарных преобразований получим хорошо известную модель Раша для педагогических измерений: р = ехр (Ь - ё))
1 + ехр (Ь - й)
Таким образом, разность показателей подготовленности испытуемого и трудности тестового задания в измерительной системе Раша, можно трактовать как разность (с точностью до постоянного множителя 1п2) частных энтропий состояний верное и неверное решение заданий. Эта разность, традиционно измеряемая в логитах, принимает информационную меру измерения бит, с соответствующей информационной интерпретацией значений показателей подготовленности Ь и трудности й.
Мы предложили два варианта описания системы испытуемый-задание на основе информационного подхода. Каждый из них дал свою исходную модель педагогических измерений — альтернативную и Раша. Не исключается возможность предложить и другие варианты. Например, основанные на частной энтропии состояния «неправильное решение задачи» или другие комбинации информационных показателей. Поиск и обсуждение других вариантов моделей лежат за рамками данной работы.
В завершении подраздела остановимся на формуле Шеннона для расчёта среднего значения энтропии системы по всем её возможным состояниям и её месте в педагогических измерениях. Содержательный смысл значения средней энтропии состоит в получении среднего количества информации в сообщении о результате ответа на задание. В рассмотренном примере значения этого показателя приведены в последнем столбце таблицы 1.
Приведём основные свойства этого показателя:
• при значениях 0 < Р < 1 функция
Н(Р)= Р-10Е05Р + (1- Р)-1оЕ0,5(1- Р)
симметрична относительно нейтрального значения вероятности Р = 0,5;
• при Р = 0,5 энтропия принимает максимальное значение Н(0,5) = 1, на границах обращается в нуль — Д0) = Я(1)=0;
• свойство аддитивности к(Р1-Р2) = к(Р1) + + к(Р2) для независимых событий.
По своим свойствам и содержательному смыслу эта функция с успехом заменяет информационную функцию I = Р(1 - Р) системы измерений Раша. Если учесть, что величина энтропии имеет фундаментальный смысл и широко принятые единицы измерения бит, то её применение более предпочтительно.
Таким образом, на основе информационного подхода достаточно легко и естественно удаётся построить исходные модели педагогических измерений и выразить основные показатели таких измерений через информационные показатели с единицей измерения бит.
-о-
Конструирование частных моделей педагогических измерений
В предыдущем подразделе мы вывели на основе информационного подхода две исходные модели педагогических измерений — модель Раша и альтернативную модель. Под термином «исходная» мы понимаем однопа-раметрическую дихотомическую модель, в которой единственный параметр представляет собой разность g = Ь - й (аддитивная модель) или отношение у = в/в (мультипликативная модель) измеряемых показателей подготовленности испытуемого и трудности тестового задания. Таким образом, исходные модели имеют вид:
Р =
ехр( g)
1 + ехр( g)
модель Раша; Р = 0,51/7 -
альтернативная модель.
По этим моделям наиболее информативны состояния с пороговыми значениями параметров соответственно g = 0 и у =1, при которых вероятности правильных и неправильных ответов совпадают и равны Р = 0,5, а среднее значение энтропии принимает максимальное значение Н =1 бит = 1п2 нат.
тах
Для иллюстрации основных положений теории педагогических измерений традиционно приводятся графики зависимости вероятности наблюдаемых событий от показателя подготовленности испытуемого при заданном уровне трудности тестового задания. Для исходных моделей графические образы тестовых заданий представлены на рисунках 1а и 16. На этих рисунках и далее
Н
1
Н
21п2
0,72, то можно сделать ут-
53
на график вероятностей Р наложен график значений энтропии Н = Р, х 1п Р, в зависимости от уровня подг,товленности испытуемого имеющих единицу измерения нат (1 бит « 0,693 нат). График энтропии Н показывает информативные свойства тестового задания — чем выше график, тем информативней задание для данного испытуемого.
На рис. 1а приведены графики зависимости вероятности неправильного ответа Р0 и правильного ответа Р1 на тестовое задание нейтрального уровня трудности й = 0 и значения энтропии Н, в зависимости от уровня подготовленности испытуемого Ь. Точка пересечения графиков вероятности Р0 = Р1 = 0,5 соответствует абсциссе с уровнем подготовленности испытуемого, равным уровню трудности тестового задания Ь = й =0.
Для альтернативной модели подобные графики удобно приводить в зависимости не от относительного показателя подготовленности в, а от его вероятностного эквивалента — вероятностного показателя и = 0,51/в. Тогда исходная модель имеет вид Р = ив и графики вероятности неправильного ответа Р0 и правильного ответа Р1 на тестовое задания единичного уровня трудности и энтропии Н представлены на рис. 16.
Если принять предложенный в работе1 критерий эффективности тестового задания
верждения:
• нейтральное задание эффективно для испытуемых с уровнем подготовленности из диапазона -1,4 < Ь <1,4 с шириной АЬ = 2,8 логит;
теория и практика проектирования
Рис. 1а. Графики вероятности Р ответов на задание с нейтральным уровнем трудности (й =0) в системе Раша и средней энтропии Н
Рис. 1б. Графики вероятности Р ответов на задание с единичным уровнем трудности (в = 1) в альтернативной системе и средней энтропии Н
• единичное задание эффективно для испытуемых с вероятностным показателем уровня подготовленности 0,2< и <0,8 с шириной диапазона Ли = 0,6 (или с относительным показателем из диапазона 0,43 < в <3,1).
Хорошо известной модификацией исходных моделей являются двухпараметриче-ские дихотомические модели педагогических
измерений. Введение дополнительного параметра а позволяет учитывать дифференцирующие свойства показателей модели. В аддитивную модель Раша этот параметр входит в качестве множителя, в мультипликативную альтернативную модель в качестве показателя степени к основному параметру модели:
ехр(а х g) Р =- — модель Бирнбаума;
1 + ехр(а х g)
Р = 0,5У 7 — двухпараметрическая альтернативная модель.
Введение в модель дифференцирующего параметра приводит к следующим деформациям образов тестовых заданий, в зависимости от значения параметра (рисунки 2а и 2б):
Введение дифференцирующего показателя а отражается на диапазоне эффективности тестовых заданий следующим образом — увеличение значения дифференцирующего показателя уменьшает диапазон эффективности тестовых заданий.
В системе Раша ширина диапазона обратно пропорционален значению дифференцирующего показателя; можно примерно записать ЛЬ«2,8/ а. В частности, при а = 2 имеем диапазон эффективности тестовых заданий -0,07 < Ь < 0,07, а при а = 0,5 имеем -2,8 < Ь < 2,8.
Для альтернативной модели при значении а = 2 имеем диапазон эффективности тестовых заданий 0,35 < и < 0,68, а при а = 0,5 имеем 0,02 < и < 0,93.
Другим направлением модификации модели является переход от дихотомического к политомическим типам, допускающим
55
-Q-
1 Р,Н
0,5- / / / /у/ / Jr Ч \ N / \ N ' \ 4
0 ь
-4 -2 0 2 4
^Р(2) -к>- Р(0,5) -Н(2)--Н(0,5)
Рис. 2а. Графики вероятности Р правильных ответов на задания с нейтральным уровнем трудности, значениями параметра а = 2 и а = 0,5 в системе Раша и средней энтропии Н
'1 Р,Н
0,5- / / ' / 1 ^"УУ \ \ \ \ \ \ \ 1 X 1
0 0,2 0,4 - - Р(2) -^Р(0,5) 0,6 0,8 1 — Н(2)--Н(0,5)
Рис. 26. Графики вероятности Р правильных ответов на задания с единичным уровнем трудности, значениями параметра а = 2 и а = 0,5 в альтернативной модели и средней энтропии Н
вариативность ответа на тестовое задание. Известным примером политомической модели класса Раша является модель PCM (Partial Credit Model). Аналогичные расширения допустимы и для класса альтернативных моделей.
Получим алгоритм построения этой модели на основе информационного подхода.
Допустим, тестовое задание содержит п градаций ответа, тогда система испытуемый-задание может находиться в п + 1 состояниях (включая нулевое состояние п = 0) с вероятностями Р0, Р1, ..., Рп. Переход системы из одного состояния в другое Рк ^ Рк+1 сопровождается изменением неопределённости состояний, с разностью частных энтропий Акк = 1пр+1/р, значение которой определяется только пороговым параметром gk+1, отделяющим эти состояния. Т.е. отношение вероятностей последовательных состояний есть функция только от параметра & Рк+1/ Рк = /^Д
Для начальных состояний последнее соотношение, задающее отношение вероятности правильного ответа к вероятности ошибки можно записать для двух исходных моделей в виде: Р/р = ехр^) и Р1 /Р0 = 0,51/п /(1 - 0,5 п). Отсюда несложно выразить вероятность первого состояния через вероятность нулевого состояния
Р0 х 0,5и^
Р = pexP(&i) и P\ =
(1 - 0,51/Y0
или
вероятности последующего состояния через предыдущее Рк+1 = Pk exp(g 1) и
Pk+1 =
Рк '0,5
1/Гкн
. 1 - 0, 51/Гк+1 '
Таким образом вероятности любого последующего состояния можно выразить через вероятностью Р0 нулевого состояния. Дописывание к этим соотношениям условия нормировки Р0 + Р1 + ... + Рп = 1 позволяет однозначно записать выражения для вероятностей возможных событий. Примеры кон-
теория и практика проектирования
56
-Q-
струирования частных политомических моделей рассмотрим в следующем подразделе
Возможны и составные схемы тестовых заданий. В этом случае само задание можно рассматривать как совокупность напрямую независимых подзаданий со своими вариантами ответов и системой оценивания. Такие составные задания лучше разбивать на отдельные. Отдельные задания удобней и выполнять и оценивать, но у составителей заданий на этот счёт может быть и своя точка зрения. Примеры таких заданий можно увидеть в задачах типа С материалов ЕГЭ, олимпиадных задачах.
Допустим, задание содержит п независимых дихотомических подзаданий, с вероятностями правильного ответа на каждое из них Р1,Р2,... ,Рп. Для расчёта вероятности правильного ответа на отдельное подзадание можно использовать любую из исходных моделей. Тогда существует п2 различных вариантов ответа, начиная от состояния «все под-задания выполнены неправильно» с совместной вероятностью (1 - Р1)'(1 - Р2)-...-(1 -- Рп), «только первое подзадание выполнено правильно» с вероятностью Р1'(1 - Р2) ... •(1 - Р ) и завершая правильным решением всех подзаданий с совместной вероятностью Р1 • Р2\./Рп. Примеры конструирования составных заданий рассмотрим ниже.
Пример конструирования линейной политомической модели
Линейная политомическая модель предполагает строгое логически последовательное
расположение всех вариантов ответа на тестовое задание. Например, задание с категориями вариантов ответа: 0 — совершенно не согласен; 1 — не согласен; 2 — согласен; 3 — полностью согласен. Или с категориями: 0 — совершенно неправильный ответ; 1 — ответ содержит правильные элементы; 2 — правильный, но не полный ответ; 3 — совершенно правильный и полный ответ. Если вероятности выбора испытуемым одного из четырёх предложенных вариантов ответа обозначить соответственно через Р1, Р1, Р2, ..., Рп, то структуру такого задания можно представить схемой:
Po Pi p2 Рз
Обозначим три пороговых значения разграничивающих смежные категории в интервальной шкале логитов через dj, d2, d3, причём, dj < d2 < d3. Тогда для испытуемого с подготовленностью b и разностью gk = b - dk на основе рекуррентного правила Pk+j = Pk exp(gk+j) можно записать следующие соотношения между вероятностями появления одного из вариантов ответа: Pj = Р0 exp(gj), P2 = piexp(g2) = = P0 exp(gj + g2) . Подставляя эти соотношения в условие нормировки P0 + Pj + P2 + + P3 = J, находим искомые выражения для
вероятностей (линейная модель PCM): =_J_
1 + exp(gj) + exp(gj + g2) + exp(gj + g2 + g3) , _exp( gj)_
1 + exp( gj) + exp( gj + g2) + exp( gj + g2 + g3)'
Pj =
-Q-
образовательные технологии. № 4/2014
.............................57
P> =
P, =
exP( gi + £2)
Аналогичные результаты неслож-
_ но получить и для линейной альтер-
1 + exp(gi) + exp(gi + g2) + exp(gi + g2 + g,^ нативной модели PCM на основе рекуррентного соотношения Pk+1 =
_exp(gi + g2 + g3)_. = pk x 0,51/Гк+1/(i-o,51/Yk+i)с поро-
1 + exp( gi) + exp( gi + g2) + exp( gi + g2 + g,) говыми показателями в пропорцио-В качестве иллюстрации приведём гра- нальной шкале измерений ¡5t< в2 < в3,
фики этих функций для пороговых значе- уровнем подготовленности испытуемого в и
нии категории трудности задания в интервальной шкале логитов йх = -1, а2 = 0, аз = 1 (рисунок 3а).
l,5-i It P,H --^Pi - -Pi -H
0,5- -V/ di da (b v'*
-4 -2 0 2 4
отношением ук = Й/Рк. Если ввести вероятностный показатель подготовленности ис-
1 / Й
пытуемого и = 0,5 , то эти выражения примут более компактный вид:
(1 - ив )
Po =
(i - ue )( - ue)( - u в )+, (i - ив2 )(i - ив3 )
(i - ив2 )( - ив )+ ив1 +в2 (i - u в )+i
Pi +P2 +вз '
P =
1 (i - uei )(1 - ue
Р«с. 3а. Графики вероятности Р ответов испытуемым на линейное задание с уровнями трудности а1 = -1, а2 = 0, аз = 1 в системе Раша и средней энтропии Н
)( - u в)и 1 - ив2 )( - ив3 )
(i - ue2 )(i - ue ) uei +в (i- uв )+ U в +e +в ' P = _u__
2 (i - ue)( - ue )( - ue) u e ( - u e ) (i - ue3 )
(i - ue ) uв +в (1 - uв )и
Pi +P2 +вз '
P3 =
u
A + P2 +A
Рйс. 36. Графики вероятности Р ответов испытуемым на линейное задание с уровнями трудности в, = 1/е, в2 = 1, в3 = е в альтернативной системе и средней энтропии Н
(i - ue )( - u в)( - u в) u в (1 - ue )(i - ue ) uв+e (1- u в ) u в + в + в
u
теория и практика проектирования
-Q-
58
Графики этих функций для пороговых значений трудности задания в пропорциональной шкале битов в1 = 1/е, в2 = 1, в = е приведены на рисунке 36.
Точки пересечения графиков вероятности выбора того или иного варианта ответа соответствуют абсциссе с уровнем подготовленности испытуемого равным пороговому значению уровня трудности между соответствующими категориями. Например, абсцисса точки пересечения графиков Р1(и) и Р2(и) равна уровню подготовленности испытуемого и = 0, 51/в = 0,5е ® 0,152 соответствующего пороговому значению трудности Ьу Этот вывод несложно получить и аналитически из решения уравнения Р1(и) = Р2(и).
Обратимся к анализу эффективности такого задания. Для системы, которая может находиться в одном из четырёх состояний, энтропия достигает максимально возможного значения Н = 1п4 нат « 1,386 нат в
тах '
точке равенства вероятностей каждого из
1,5-1 Р,Н ^Ро -й-Pi п Р2 ^ -^Рз
I1 / ft \ —н>> \ if \ л
0,5- ^ \ \/д
0 0,2 0,4 0,6 0,8 1
Рис. 36. Графики вероятности Р ответов испытуемым на линейное задание с уровнями трудности в1 = 1/е, в2 = 1, в3 = е в альтернативной системе и средней энтропии Н
состояний. Для тестовых заданий с множеством выбора этому условию удовлетворяют состояния с одинаковыми пороговыми значениями равными уровню подготовленности испытуемого, т.е. когда все gk = 0, у^ = 1.
Тогда условие эффективности - Н 1
Н
21n2
для тестового задания с четырьмя возможными состояниями преобразуется в неравенство Н > 1 нат.
Применяя это условие, имеем области уровня подготовленности испытуемых для которых задание эффективно: -1,2 < b< 1,2 с наибольшим значением И 1,28 < 1,39 ~И в
наиб ' ' max
системе Раша; 0,22 < u < 0,79 с наибольшим значением И 1,19 <1,39«И в альтер-
наиб max
нативной системе. Т.е. информативность линейных полигамических заданий с различающимися пороговыми значениями уровней трудности несколько снижается.
Пример конструирования разветвлённой политомической модели
Разветвлённая политомическая модель допускает существование параллельных (независимых) траекторий из вариантов ответа. Например, в задании требуется не только правильно ответить на вопрос, но и обосновать его одним из методов. Тогда результаты выполнения задания могут содержать варианты: 0 — ответ неправильный; 1 — ответ правильный; 2 или 3 — правильный ответ обоснован тем или иным способом. Структуру такого задания можно представить схемой:
-Q-
Po Pi
Р2
Рз
Обозначим три пороговых значения разграничивающих смежные категории в интервальной шкале логитов через dp d2, d3. Тогда для испытуемого с подготовленностью b и разностью gk=b - dk на основе рекуррентного правила Pk+i = Pkexp(gk+i) можно записать следующие соотношения между вероятностями появления одного из вариантов ответа: Pi = P0exp(gi), P2 =
=P2exp(g2)=P0exp(gi + g2), P3 = Piexp(g3) = =P0exp(gi + g3). Подставляя эти выражения
в условие нормировки Pi = Pi + P2 + P, + 1, находим искомые выражения для вероятностей (развётвлённая модель PCM):
P. =
1
59
вальной шкале логитов d1 = -1, d2 = 0, d3 = 1 (рисунок 4а).
1,5-1 P,H ^Po -л-Pi
1 - о P2 -o-Pj ч —H
0,5- di dz d,
b
-2 0 2 4
Р«с. 4а. Графики вероятности Р ответов испытуемым на разветвлённое задание с уровнями d1 = -1, d2 = 0, d, = 1 трудности в системе Раша и средней энтропии Н
Аналогичные результаты несложно получить и для разветвлённой альтернативной модели PCM с пороговыми показателями в -, пропорциональной шкале измерений pv Р2, Р3,
+ exp(gi) + exp(gi + g2) + exp(gi + gз) выраженными через вероятностный уровень
1 / в
exp(g ) подготовленности испытуемого u = 0,5 , и
-1-, на основе рекуррентного соотношения
1 + exp(gi) + exp(gi + g2) + exp(gi + g,) P ,= p • uek+i / (1 - uek+ 4
Pi =
P2 =
P, =
[ k+1
exp( gi + g2)
1 + exp(gi) + exp(gi + g2 ) + exp(gi + g, )
_exp( gi + g3)_
1 + exp(gi) + exp(gi + g2 ) + exp(gi + g, ).
, P0 =
'(i - uek+i): ( - ue)
(1 - ue)(
(1
2 X
1 - u^^ )(i
- u'
- u'
u e (
'3)
- u'
)
(1 - ue)+ i
,A +02
В качестве иллюстрации приведём графики этих функций для пороговых значений категорий трудности задания в интер-
Pi =
(1 - uв )+ uв +e (1-u' uei (1 - uв )
)
(1 - uei )( - ue2 )( - uв ) uв (- uв )
-Q-
1
теория и практика проектирования
60
-Q-
(1 - ив )
(1 - ив ) ив (1 - и в ) и в (1- и в ) р =_и__
2 ( - ив )( - ив )( - ив ) ив (-ив ) (1 - ив )
'(1 - ив ) ив(1 - ив ) ив (1- и в )
А
Рз =
(1 - ив )( - ив )( - и в ) и в ( - и в )
( 1 - ив2 ^
(1 - ив3 )+ ив + в2( 1 - и в ) и в ( 1 - и в2 )
Графики этих функций для пороговых значений трудности задания в пропорциональной шкале битов в1 = 1/е, в2 = 1, в3 = е приведены на рисунке 4б.
Рис. 46. Графики вероятности Р ответов испытуемым на разветвлённое задание с уровнями трудности Pi = 1/e, ^ = 1 Р3 = e в альтернативной системе и средней энтропии H
Области уровня подготовленности испытуемых, для которых задание с разветвлением эффективно определяются диапазонами: -1,4 < b <1,3 , с наибольшим значением И „да 1,28 < 1,39 да И в системе Раша;
наиб max
0,20 < u < 0,76 с наибольшим значением И „да 1,28 < 1,39 да И в альтернативной си-
наиб max
стеме. Т.е. информативность и разветвлённых политомических заданий с различающимися пороговыми значениями уровней трудности несколько снижается.
Рассматриваемые исходные модели никак не противоречат, а лишь описывают исследуемые явления с разных позиций, в разных метрических шкалах. Подтверждением этого могут служить не только единые качественные выводы и опорные количественные значения PPaiu(g = 0) = pAjlhm(g= 1) = 0,5, но и количественные асимптотические оценки.
Дополнительное подтверждение находится в рассмотренном примере. При очень хорошей подготовке испытуемого из моделей следует единый, очевидный при заданных параметрах, вывод:
гуРаш
или и = 1)
Рраш (а ^Ю) Р^ът (0^® или и = 1)
= е « 2,718.
Если первый метод обоснования решения задачи в е раз (или на 1 логит) легче второго, то и вероятность правильного ответа на него в е раз выше. В системе измерений Раша подобные результаты анализа не приводятся.
-о-
Пример конструирования составной модели
Конструирование составного тестового задания покажем на примере задания, состоящего из двух относительно независимых под-заданий. Например, задание — выбрать наиболее верное описание свойств движения тела, свободно падающего на Землю из состояния покоя. Варианты ответов: прямолинейное равномерное; прямолинейное ускоренное; криволинейное равномерное; криволинейное ускоренное. В отличие от полито-мического такое задание предполагает предварительное решение двух независимых задач — определить вид траектории и определить характер движения тела. Если вероятности правильных ответов на каждую из задач обозначить через Р1 и Р2, то существует четыре варианта ответа с совместными вероятностями С00 = (1 - Р1) (1 - Р2),
Сю=ла - А) С01=(1 - Л)^ сп=
Структуру такого задания можно представить схемой:
1-Р1 Р1
1-Рг Р2
С00 =
С01 =
С10 =
1
61
Обозначим два пороговых значения разграничивающих категории правильно — неправильно для каждого из подзаданий в интервальной шкале логитов через а1, а2. Тогда для испытуемого с подготовленностью Ь и разностью gk=Ь - можно записать следующие соотношения для совместной вероятности ответов на подзадания:
(1 + ехр( g1))(l + ехр( g 2))'
_ехР( g2)_
(1 + ехр( ^))(1 + ехр( g2)),
_ехР( gl)_
(1 + ехр( gl))(l + ехр( g2)),
с = ехр( gl)exp( g2) 11 (1 + ехр( гх))(1 + ехр( g2)).
Графики этих функций для пороговых значений трудности задания в интервальной шкале логитов йх = -1, а2 = 1 приведены на рисунке 5а.
Рйс. 5а. Графики совместной вероятности С ответов испытуемым на составное задание с уровнями трудности а1 = -1, а2 = 1 в системе Раша и средней энтропии Н
теория и практика проектирования
62
Аналогичные результаты несложно получить и для составной альтернативной модели с пороговыми показателями двух подзаданий в пропорциональной шкале измерений в в2, выраженными через вероятностный уровень подготовленности испытуемого и = 0,51/е:
в У1 - Ив
Сю = (1 - «в )(1 - )
Г - «в Г10 - «
(1 - «в )
Г01 -(1 - «в )Л Ги - «в\
Графики этих функций для пороговых значений трудности подзаданий в пропорциональной шкале битов в1 = 1/е, в2 = е приведены на рисунке 56.
Рис. 56. Графики совместной вероятности С ответов испытуемым на составное задание с уровнями трудности в1 = 1/е, в2 = е в альтернативной системе и средней энтропии Н
Области уровня подготовленности испытуемых для которых составное задание эффективно определяются диапазонами:
-1,2 < b < 1,2 с наибольшим значением
H
наиб
4,16 < 1,39
~H
max
в системе Раша;
0,57 < « < 0,77 с наибольшим значением H 1,04 <1,39 ® H в альтернативной сис-
наиб ' ' max г
теме. Т.е. информативность составных заданий с различающимися пороговыми значениями уровней трудности заметно снижается.
В завершение рассмотренных примеров приведём одно замечание относительно выраженных различий в свойствах моделей класса Раша и альтернативных моделей. Модели класса Раша симметричны относительно нейтрального значения параметра g = 0. Это свойство отражено на соответствующих рисунках с литерой «а» при симметричных уровнях трудности тестовых заданий. Альтернативная система подобной симметрией относительно нейтральной единицы у =1 (или и = 0,5) не обладает, что отражено и на рисунках с литерой «б». Эти различия заложены в исходных моделях, в толкованиях её показателей, и противоречий здесь нет. Измерительные шкалы этих систем обладают различными метриками.
Информационный метод проведения измерений
Информационный подход можно распространить не только на педагогические, но и на классические физические измерения. Для примера рассмотрим процесс измерения линейкой длины небольшого бруска Ь. Сначала обратимся к свойствам линейки и свойствам результатов измерения линейкой. Первое. Линейка имеет метрическую шкалу
63
-Q-
с минимальным делением 1 мм по которой собственно и проводятся измерения. Если аккуратно провести измерение, т.е. ровно наложить линейку на брусок и строго совместить левый край бруска с нулевой отметкой шкалы линейки, то положение правого края бруска указывает его длину в единицах шкалы линейки. Пример такого измерения показан на рисунке 6, по которому можно заключить, что длина бруска более 27 и менее 27,5 мм.
Рис. 6. Измерение бруска
Точнее провести измерение данной линейкой не удастся. Неопределённость измерения неизбежна, она заложена и в самом измерительном инструменте, и в свойствах бруска, и технологии проведения измерения. В нашем примере неопределённость измерения линейкой можно оценить значением 0,5 мм. Отсюда второе свойство линейки — присущая ей неопределённость при проведении измерений, количественно выраженная погрешностью. Таким образом, результат физического измерения характеризуется двумя основными параметрами — значение измеряемой величины и погрешность этого измерения.
Рассмотрим измерение длины бруска на основе информационной схемы. Под измерением будем понимать процесс получения наибольшего количества информации от
сравнения бруска с метрической линейкой. Будем считать, что если исследователь принимает за длину бруска значение 27 мм, то, по его мнению, вероятность события «длина бруска менее 27 мм» равна 0,5. Впрочем, как и того, что длина бруска более 27 мм. Именно в этом случае равенства вероятностей противоположных событий энтропия системы максимальная, именно в этом случае исследователь получает наибольшее количество информации от измерения.
Другой исследователь выскажет другой результат измерения, например 27,2 мм, и т.д. При проведении массовых измерений длины бруска результаты сгруппируются в диапазоне от 25 до 25,5 мм. Если результаты этих измерений выразить через показатели двухпараметрической альтернативной модели, то графический образ длины бруска будет иметь вид представленный на рисунке 7. Здесь введены следующие обозначения: и = 0,51/0 — вероятностный показатель результатов отдельного измерения по шкале линейки, 0 = Ь/Ьср — относительные значения этих измерений, Р — вероятность состояния «среднее значение длины бруска меньше показаний линейки», Н — энтропия этого состояния.
Наиболее информативное состояние при иср = 0,5 с вероятностью Р(Ь = Ьср) = 0,5 и энтропией Нтах(Ь = Ьср) = 1п 2 отражает среднее значение измеряемой величины. Диапазон информационной эффективности оценивается шириной АН« 0,005, что соответствует погрешности измерений АЬ « 4 мм. Эти результаты полностью согласуются с основными показателями физического измерения,
теория и практика проектирования
64
-Q-
Рис. 7. График вероятности Р и энтропии H измерений длины бруска
что говорит о правомерности информационного подхода к измерениям.
Однако, результаты физических и педагогических измерений имеют и выраженные различия.
Первое и принципиальное различие состоит в том, что при проведении педагогических измерений нет предварительно созданной «эталонной метрической линейки». В педагогических измерениях сама метрика формируются в процессе самих измерений, при обработке результатов тестовых испытаний.
Второе различие относится к точности измерений. При проведении педагогических измерений значение дифференцирующего показателя а незначительно отличаются от единицы, в то время как при более точных физических измерениях значения этого показателя порядка сотен. В нашем примере измерения линейкой а =150.
Свойства дифференцирующего показателя таковы, что при увеличении его значе-
иия уменьшается ширина диапазона информационной эффективности измерения. Более строго — ширина диапазона информационной эффективности измерения А обратно пропорциональна значению дифференцирующего показателя а и по порядку величин они связаны отношением А ~ 1/а. Если в педагогических измерениях относительная ширина диапазона информационной эффективности сопоставима со средним значением А и ~ иср, то в физических измерениях — составляет доли процента А и ~ 0,01-иср. Измерения, в которых погрешность измерений сопоставима с результатом, точными не назовёшь. Проблема точности педагогических измерений решается только при проведении массовых испытаний и за счёт статистической сходимости результатов измерений.
Таким образом, применение информационного подхода к измерению не ограничено отдельной областью. На наш взгляд, этот подход носит универсальный характер, суть которого можно представить выделением следующих этапов:
• поиск состояния сравниваемых величин с наибольшим значением энтропии;
• представление этого состояния в виде числовой величины с метрикой.
В этом случае результат измерения даст максимально возможное количество информации не только в смысле Шеннона, но и в смысле важнейшего метода эмпирического познания.