Коржик И.А.,
Центр электронных образовательных технологий, директор
Протасова И.В.,
химический факультет, доцент [email protected]
Толстобров А.П.
Воронежский государственный университет, начальник управления И и КТ [email protected]
Тестовая система Moodle и качество тестовых заданий
Аннотация
В статье рассматриваются вопросы обеспечения качества тестовых заданий с помощью LMS Moodle, приведен пример практического использования встроенных средств статистического анализа результатов тестирования с целью получения характеристик, которые позволяют количественно оценить способность конкретных задач, тестов служить в качестве средства для определения уровня подготовки по предмету. Также рассмотрены некоторые возможности по улучшению качества тестов на основании этих характеристик.
Learning Management System («система управления обучением», также часто употребляют «система управления курсами») Moodle (Modular Object-Oriented Dynamic Learning Environment) известна в мире с 2003 г.
С 2006 г. в России появился официальный партнер Moodle, и началось активное использование и создание новых модулей и плагинов.
Массовый выбор учебными заведениями системы LMS Moodle основан на следующих ее характеристиках:
• стоимость - Moodle является свободно распространяемым программным обеспечением;
• функциональные возможности - система обладает очень широкими функциональными возможностями, которые, вследствие ее модульной архитектуры, могут быть дополнены любым функционалом, причем, не обязательно силами разработчиков системы, а и самими пользователями;
• работа в системе на русском языке - система имеет языковые пакеты на множестве мировых языков, в том числе и на русском языке, причем пользователь может самостоятельно изменять под свои цели
перевод тех или иных понятий;
• невысокая сложность первых шагов при освоении системы, наличие помощи - большое количество справочных материалов, активный форум сообщества пользователей, дистанционные курсы обучения работе в системе;
• поддержка жизненного цикла системы - крупные обновления выходят 2 раза в год;
• поддержка стандартов, совместимость и возможность интеграции с другими системами - реализована поддержка таких стандартов как SCORM, есть API для внешних функций.
Рост популярности системы Moodle можно проиллюстрировать количеством сайтов, развернутых под этой системой в мире: Россия более 1100 сайтов, Бразилия - 4920 сайтов, США - 11 700 сайтов, Великобритания - 3870 сайтов, Германия - 2870 сайтов, Таиланд - 1550 сайтов, Китай - 1250 сайтов [1].
Активно работая с системой Moodle, и являясь одними из активных участников Российского сообщества пользователей Moodle, хотелось бы отметить, что эта среда является очень мощным инструментом, но далеко не всегда пользователи осознают и используют многие из ее возможностей. Одними из таких, предлагаемых системой полезных, но недостаточно используемых возможностей, являются средства обработки и анализа результатов тестов и измерения качества тестовых материалов.
При использовании современных интерактивных технологий в обучении остро встает вопрос контроля и оценивания освоения учениками изучаемого материала. Эффективным современным инструментом, активно используемым для этих целей, является использование тестовых технологий. Как и для любой системы оценивания знаний в этом случае актуальным является вопрос о качестве контрольно-измерительных материалов, с точки зрения способности служить инструментом для оценки знаний, о точности такого измерения.
В связи с этим, одним из важных достоинств тестовых технологий является возможность получения объективных характеристик, позволяющих оценить качество тестов и их составляющих - тестовых заданий (вопросов). Эти характеристики рассматриваются и обосновываются в теории педагогических измерений [2]. Педагогическое измерение понимается как процесс определения меры интересующего нас латентного свойства личности испытуемого на интервальной шкале, посредством качественного теста, состоящего из системы заданий равномерно возрастающей трудности, позволяющего получать педагогически целесообразные результаты, отвечающие критериям надёжности, валидности, объективности и эффективности [3]. То, что тесты и составляющие их вопросы многократно используются для больших групп испытуемых, позволяет применять статистические методы при обработке
их результатов для вычисления целого ряда характеристик. Эти величины с помощью теории педагогических измерений могут интерпретироваться для оценки качества тестов. В основе системы сбора статистики используется метрическая система Раша, позволяющая говорить о качестве педагогических измерений [3].
Проблема заключается в том, что статистическая обработка результатов тестирования, вычисления и последующей интерпретации необходимых характеристик довольно сложные. Это является серьезным препятствием для применения этих характеристик широким кругом преподавателей, использующих в своей деятельности задания в тестовой форме, но в большинстве своем не являющихся специалистами в области математической статистики.
В этой связи одним из достоинств системы управления обучением Moodle является то, что у нее имеются встроенные средства для осуществления такой обработки и вычисления разнообразных характеристик тестов. Более того в версиях системы Moodle, начиная с 2.1, эти средства претерпели большие изменения - они расширились по сравнению с версией 1.9. Тем не менее, к сожалению, приходится констатировать, что в настоящее время мало кто из преподавателей знает и использует в своей практике эти возможности для оценки качества своих тестовых материалов.
Рассмотрим наиболее важные, на наш взгляд, характеристики, которые автоматически формирует система Moodle 2.1 по результатам выполнения тестов испытуемыми.
Все характеристики разделены на две группы: первая относится к тесту в целом, вторая - к каждому вопросу или категории вопросов, присутствующих в тесте.
Характеристиками, позволяющими оценивать качество теста в целом, являются следующие величины [4].
Средняя оценка испытуемых - среднее арифметическое по оценкам всех выполняющих тест студентов.
где 5 - множество студентов, выполнявших тест, Ts - оценка за тест s-го студента.
Медиана - срединное значение оценок испытуемых Ts.
Стандартное отклонение оценок за тест - это общепринятая мера вариации полученных испытуемыми тестовых баллов для конкретной группы испытуемых. Оно характеризует дифференцирующую способность теста, то есть его способность разделять испытуемых в группе по уровню подготовки. Эта характеристика определяется по формуле
Коэффициенты асимметрии и эксцесса - меры характеризующие отличие формы распределения полученных испытуемыми тестовых баллов от нормального распределения.
Коэффициент надежности теста, еще называемый альфа Кронбаха.
С/С = 100 (1 - (5 - 1) УУ*3:,^)
где p - номер тестового задания из множества заданий теста P
Это средний разброс результатов каждого студента при ответе на все вопросы теста.
Чем меньше разброс результатов каждого студента при ответе на вопросы теста по отношению к разбросу суммарных оценок за тест в целом, тем вопросы теста являются более согласованными.
Стандартная ошибка - оценивает фактор везения и указывает границы погрешности для оценки студента за тест [3]:
ЕЯ.
=-50
100
Если стандартная ошибка 10% и студент набрал 60% от максимальной оценки, тогда его подлинная оценка будет располагаться в интервале от 50% до 70%.
В теории педагогических измерений считается, что в более хорошем тесте средний арифметический балл испытуемых равен медианному значению оценок используемых заданий, коэффициенты асимметрии и эксцесса не отклоняются от значений для стандартной кривой нормального распределения результатов. Также хорошо, если значения среднего арифметического, моды и медианы совпадают. Это признак точной нацеленности общего уровня трудности теста на уровень подготовленности испытуемых [2]. Так же совпадающие средние значения шкальных баллов, показатели асимметрии и эксцесса позволяют корректно сравнивать распределения результатов по разным тестам.
Вторая группа параметров позволяет оценивать качество конкретных тестовых заданий (вопросов), составляющих тест.
• Индекс легкости - процент студентов, которые ответили на конкретный вопрос теста правильно. Для /-го тестового задания он определяется по формуле ^ = при использовании стобальной шкалы для оценивания, где усреднение осуществляется по всем испытуемым, выполнившим это задание.
• Стандартное отклонение - характеризует разброс значений оценок испытуемых при ответе на конкретный вопрос теста.
• Случайно угаданная оценка - оценка, которую мог бы получить студент при случайном угадывании ответов.
• Предполагаемый вес - вес, который преподаватель назначил тестовому заданию при формировании сценария теста.
• Эффективный вес - это характеристика того, какова фактическая
доля в итоговой оценке студентов за тест, определяется конкретным вопросом. В идеале эффективный вес должен быть равен предполагаемому. Другими словами, имея эти значения, преподаватель может скорректировать предполагаемые веса вопросов в соответствии с их фактическим весом в итоговой оценке. • Коэффициент дифференциации - это соотношение связи между оценками за конкретный р-й вопрос и за весь тест в целом. То есть для хорошего тестового вопроса студенты, с наивысшими оценками
за него, также будут иметь более высокие оценки и за тест в целом.
,
где Xp(s) = Ts - xp(s) - баллы, полученные студентом за ответы на все вопросы кроме рго (остаток оценки студента для позиции р).
Эффективность дифференциации - нормированный коэффициент дифференциации [3].
ses
В качестве иллюстрации можно привести показатели, полученные при реальном тестировании при проведении аттестаций студентов факультета компьютерных наук по конкретной дисциплине.
Таблица 1. Показатели рубежных (промежуточных) тестирований по дисциплине «Управление данными», проведенных в 2011г. на факультете
компьютерных наук.
Тестирование/Параметры Аттестация 1 Аттестация 2 Аттестация 3
Средняя оценка 73 60,9 78,2
Медиана 75 58,4 83,7
Стандартное отклонение 17 18,9 15,6
Коэффициент асимметрии -0,84 0,261 -1,363
Мера эксцесса 0,7 -0,894 2,727
Коэффициент надежности 90 90 83,2
Стандартная ошибка 5 6 6,4
Учитывая вышесказанное, приведенные в таблице значения можно интерпретировать следующим образом.
О качестве сценария тестирования - по параметру надежность. Он достаточно высок для всех тестов, т.е. хорошо оценивает всех студентов.
О целевой аудитории теста - по средним параметрам. Поскольку они практически равны, значит, тест по своей трудности соответствует именно этой аудитории.
Об ошибке в оценке за тест - по величине стандартной ошибки. Может помочь преподавателю при определении окончательной оценки, указав возможные допуски для изменений.
Логическим продолжением нашей работы стало исследование методик увеличения надежности сценария тестирования. Для этого мы
рассматривали анализ критериально-ориентированного теста, предназначенного для выявления степени усвоения студентами 1-го курса химического факультета ВГУ раздела курса «Информатика». Тестирование в системе Moodle выполнялось студентами впервые, время выполнения - 60 мин. Сценарий тестирования состоял из 50 случайно расположенных вопросов. Средствами, заложенными в системе Moodle, проведена статистическая оценка качества вопросов [5].
Результаты выполнения теста студентами распределились неравномерно (рис.1). Максимум частот появления оценки смещен к 70 баллам. Смещение максимума частот в область высоких баллов может свидетельствовать об излишней лёгкости теста [8].
40 42 44 46 49 51 53 55 56 61
57 69 72 75 77
Тестовые несгруппировэнные Группы
Рис. 1. Частотное распределение баллов первых попыток
тестирования
Для оценки легкости/трудности заданий в системе Moodle используется величина индекса легкости задания (ИЛ). Сложность заданий должна соответствовать уровню подготовки испытуемых. Тест в целом должен включать в себя комплекс заданий различной сложности — от легких до трудных. Очевидно, что слишком простые задания, на которые правильно отвечают все испытуемые, и слишком сложные задания, на которые не может ответить никто из испытуемых, не обладают способностью дифференцировать испытуемых по уровню их подготовки и в этом смысле не являются тестовыми заданиями [2].
ИЛ
1,00 0,90 0,ВО 0,70 0,60 0,50 0,40 0,30 0£0 0,10 0,00
Номер вопроса
1 3 5 7 9 11 13 1 5 17 19 21 23 25 27 29 31 33 3 5 37 39 »1 43 45 47 49
Рис. 2. Значение индекса лёгкости заданий теста от номера вопроса в
выборке
Полученные данные для исследуемого теста свидетельствует о том, что используемая база тестовых заданий достаточно равномерно представляет вопросы различного уровня сложности, при этом легкие —
«очевидные для всех», практически отсутствуют. Однако вопросы сложные — «никем не решаемые», с индексом легкости ниже 0,1 в базе вопросов присутствуют (вопрос 23 - 0,02 и вопрос 18 - 0,05), что требует исключения этих вопросов из теста (рис. 2).
Величина стандартного отклонения тестовых баллов позволяет судить о качестве теста, о его дифференцирующей способности [3]. Анализ средних величин стандартного отклонения для каждого типа вопросов показал, что все используемые типы вопросов вносят практически равный вклад в дифференцирующую способность теста и ни один из типов вопроса не должен быть исключен из тестового задания (стандартное отклонение всех типов вопросов выше 30%).
Стандартное отклонение для большинства тестовых вопросов имеет значение больше 0,3, что в соответствии с требованиями педагогической теории измерений [4] является хорошим показателем их дифференцирующей способности (рис. 3). Задания, для которых это значение меньше 0,3, такой способностью не обладают и должны исключаться из теста. В рассматриваемом случае заданиями, рекомендуемыми к исключению из теста, оказались: вопрос 23 (0,18) и вопрос 18 (0,22).
I в
X ш
I
о Ч ¥
) .40
О
о
¡Е >20
Ого
а .ю
X
го
Ь >00
Номер вопроса
I I I_I_I_I I I_I I
_|_I I I_I I
_|_I_I_I I I_I I I_I I
1 3 5 7 9 1 1 13 1 5 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49
Рис. 3. Стандартное отклонение результатов выполнения заданий от
номера вопроса в выборке
Важной статистической характеристикой дифференцирующей способности тестовых заданий, которую позволяют вычислять средства Moodle, является Коэффициент Дифференциации (КД). Считается, что задание обладает достаточной дифференцирующей способностью, если коэффициент дифференциации имеет значение больше или равное 30% [7].
Анализ величины КД для рассматриваемого случая показал (рис. 4), что 14% использованных в эксперименте тестовых заданий не удовлетворяют этим требованиям (КД < 30%), более того, у одного задания (вопрос 23), значение этого коэффициента имеет отрицательное значение (-40,69%), что свидетельствует о явных дефектах вопроса.
теста
Статистическая оценка базы тестовых вопросов позволяет корректировать тест. В Moodle для оценки качества теста в целом используются параметры, указанные в таблице 2:
Таблица 2: Статистические характеристики сценария теста
Название теста и о * 2 3 € м И о ш ш = и с — * л С - О Ф = Средняя оценка Медиана оценки Щ X г = о о И с X О; [5 Л и 1 а 5 3 X и ■X и и § У П Коэффициент внутренней согласованности (надежности) теста Относительная ошибка В ю X 3 0 £ X о. ГС 1 N О
Контроль №1 01 54.22% 55:32% 21:25% 4),732 -0:0705 92,90% 26.64% 5,36%
Важнейшей характеристикой теста является его надежность, характеризующая воспроизводимость результатов тестирования и их точность. Коэффициент надежности - это корреляционный коэффициент, показывающий степень совпадения результатов тестирования, осуществленного в одинаковых условиях одним и тем же тестом. Надежность теста зависит от ошибки измерений [6]. Когда ошибка отсутствует, коэффициент надежности равен единице. Если измеренный тестовый балл полностью обусловлен ошибкой измерения, то надежность теста равна нулю. Согласно статистической оценке анализируемого теста, ошибка для него составила 5,66 %, а коэффициент внутренней согласованности - 95.90%.
Учитывая полученную ранее информацию о качестве тестовых заданий, была проведена статистическая оценка теста с исключением «некачественных» вопросов по разным параметрам:
• по эффективному весу вопроса (исключение вопросов 23 и 18);
• по предполагаемому весу вопроса (учет сложности вопроса). В анализируемом тесте одно задание имело максимально возможную
оценку в 3 раза превышающую остальные. При анализе по весу проводилась статистическая оценка при всех равных максимальных баллах и при выделенном по трудности вопросе 28. Значение максимального балла составляли 1 или 3.
• по величине стандартного отклонения (рис.3);
• по эффективному коэффициенту дифференциации.
Исключение «некачественного» вопроса из теста проводилось путем присвоения максимально возможной оценке по заданию значения 0. Полученные результаты приведены в таблице 2.
Таблица 2: Статистические характеристики сценария тестирования в разрезе эксперимента
исходная ситуация "уравнивание" весов исключение вопросов
Коэффициент внутренней согласованности (надежности) те ста 0,9290 0,9324 0,9043
Стандартная ошибка 0,0566 0,0539 0,0609
Для анализируемого случая «уравнивание» весов вопросов приводит к снижению ошибки определения оценки, при одновременном увеличении величины внутренней согласованности. Это свидетельствует об увеличении надежности теста.
Исключение из теста вопросов, выделенных по анализу величины стандартного отклонения и по эффективному коэффициенту дифференциации, а также распределение веса в соответствии с индексом легкости, ведет к уменьшению внутренней согласованности теста и увеличению стандартной ошибки.
Увеличение внутренней согласованности теста обусловлено «выравниванием» качества вопросов в базе тестовых заданий.
В свою очередь, наблюдаемое некоторое увеличение стандартной ошибки определения оценки может быть обусловлено малым количеством учитываемых тестовых заданий.
По результатам анализа можно сделать следующие выводы:
• для тестов, построенных на элементарных («легких») вопросах известные методы повышения надежности не дают ожидаемых результатов;
• малое количество заданий в базе вопросов и в самом тесте приводит к ненадежной оценке качества теста и создает условия для невозможности применения методик его улучшения.
Стоит отметить, что приведенная система анализа тестов и тестовых заданий может быть положена в учебном заведении в основу контроля качества создания электронных учебно-методических комплексов (ЭУМК).
Модель оценки качества ЭУМК можно выстроить следующим образом:
• размещенные в портале учебные и методические материалы должны быть оценены экспертной комиссией на предмет соответствия
заявленной теме учебного курса;
• по каждой дисциплине должно быть в наличии определенное количество учебно-методических материалов для обеспечения самостоятельной работы обучаемых, в том числе и в тестовой форме;
• первичная оценка качества теста должна включать в себя оценку количества тестовых заданий подготовленных в рамках курса;
• вторичная оценка качества составленных тестов должна быть проведена по истечении первого полного цикла обучения слушателей этого курса на основании тех статистических данных и общепринятых понятий и величин педагогических измерений, что предоставляет Moodle.
Таким образом, описанная выше и реализованная в сетевой системе управления обучением Moodle система анализа статистических результатов тестирования внутри учебного курса может служить как эффективным инструментом контроля качества создаваемых преподавателем тестовых материалов со стороны руководства учебного учреждения, так и удобным инструментом для самого преподавателя в процессе совершенствования теста и тестовых заданий для увеличения качества обучения и контроля успеваемости.
Литература
1. Сайт http://moodle.org/stats/
2. Аванесов В.С. Метрическая система Георга Раша // Педагогические Измерения №2, 2010, С. 57-80.
3. Аванесов В.С. Понятие и методы математической теории педагогических измерений (Item Response Theory): статья третья. Педагогические Измерения. №4, 2009 г. - С. 5.
4. Сайт http://docs.moodle.org/dev/Quiz_statistics_calculations
5. Толстобров А.П., Коржик И.А. Возможности анализа и повышения качества тестовых заданий при использовании сетевой системы управления обучением MOODLE / // Вестник Воронежского государственного университета. Сер. Системный анализ и информационные технологии. Воронеж, 2008. № 2. С. 100-106 .
6. Ким В.С. Тестирование учебных достижений. Уссурийск: Издательство УГПИ, 2007. 214 с.
7. Аванесов В.С. Проблема эффективности педагогических измерений. Педагогические Измерения № 4, 2008. С. 3-24.
8. Челышкова М.Б. Теория и практика конструирования педагогических тестов. М.: Логос, 2002. 431 с.