Система анализа статистики тестирования как средство самооценки преподавателем электронного образовательного ресурса

Толстобров Александр Павлович; Протасова Ирина Валентиновна; Коржик Илья Андреевич

Толстобров А.П.1, Протасова И.В.2, Коржик И.А.3

1 Воронежский государственный университет, начальник управления И и КТ,

tap@ main . vsu . ru

2 Воронежский государственный университет, химический факультет, доцент,

protasova @ chem.vsu.ru 3 Воронежский государственный университет, Центр электронных образовательных технологий, директор, [email protected]

Система анализа статистики тестирования как средство самооценки преподавателем Электронного Образовательного Ресурса

КЛЮЧЕВЫЕ СЛОВА:

Электронный образовательный ресурс, статистика, тестирование, самооценка, Moodle.

АННОТАЦИЯ:

В электронной образовательной среде Moodle на базе учебных курсов «Управление данными» и «Архитектура ЭВМ» для студентов 3 курса факультета компьютерных наук Воронежского госуниверситета проведен статистический анализ результатов опросов в тестовой форме с целью разработки методики анализа его качества. Оценка статистических параметров вопросов и тестов в целом осуществлялась с использованием математического аппарата расширенной статистической теории (Generalizability Theory, GT) и современной параметрической теории Item Response Theory (IRT). Проведено сопоставление полученных результатов с уровнем подготовленности студентов. Показано, что характеристики качества теста в целом и отдельных вопросов, полученные с помощью встроенного функционала Moodle на основе расширенной статистической теории (Generalizability Theory, GT) могут быть использованы как средство самооценки преподавателем качества электронного образовательного ресурса.

В сфере высшего профессионального образования широкое распространение приобретает тестовая форма контроля знаний. Востребованность оценки знаний в тестовой форме связана как с технологичностью процесса тестирования, так и с желанием повысить уровень объективности при оценивании знаний обучаемых.

Однако, при всех достоинствах тестов существуют и недостатки, обусловленные не только формой, но и процедурой тестирования. Создание новых тестовых заданий промежуточного, текущего и итогового контроля для формирования базы тестовых заданий по дисциплине требует больших временных затрат преподавателя, тщательности проработки и

структурирования материала курса. При этом массовость тестирований по одной дисциплине часто невелика, а повторное тестирование для оценки качества теста на той же выборке испытуемых практически невозможна [1,2].

Для повышения надежности тестов в такой ситуации необходимо иметь средства анализа его качества на этапе конструирования. Представляется возможным для оценки качества тестовых заданий при его создании и определения путей повышения надежности теста использовать математический аппарат статистической теории тестов [1-3].

В данной работе проведен анализ качества тестовых заданий реализованных в электронной образовательной системе Moodle с помощью математического аппарата расширенной статистической теории (Generalizability Theory, GT) и современной параметрической теории Item Response Theory (IRT), а так же сравнение результатов выполнения тестовых заданий с уровнем подготовленности опрашиваемых.

С целью выявления факторов, оказывающих влияние на результаты выполнения тестов студентами в системе Moodle, был проведен анализ результатов тестовых контролей в курсах «Архитектура ЭВМ» и «Управление данными» на протяжении всего освоения дисциплин в 2012/2013 учебном году на факультете компьютерных наук.

Для исследования выбраны учебные курсы, которые изучались студентами одного факультета, имеют схожую структуру формирования из банка вопросов, схожий формат подготовки к тестированию и условия его проведения. В процессе обучения студенты имели доступ к примерам тестовых заданий. Во время проведения тестирования обучающий материал был закрыт.

Курс «Архитектура ЭВМ» содержал 3 тематических теста и один итоговый, включающий вопросы по всем темам курса. Курс «Управление данными» включал два тематических теста и один итоговый, включающий вопросы по всем темам курса.

По мере проведения тематических тестирований «неуспешные» студенты отсеивались. Таким образом, первое тестирование выполняли все студенты курса, однако это их первый опыт. Второе тестирование так же выполняли почти все студенты курса, третий для дисциплины «Архитектура ЭВМ» - самые подготовленные, а итоговый в обоих курсах -самые «неуспешные». «Успешными» и «неуспешными» считались студенты, проявившие себя таковыми при изучении других учебных дисциплин и показавшие соответствующие результаты при прохождении предыдущих тестирований в анализируемых курсах [4]. Статистический анализ результатов тестовых испытаний осуществляли с использованием встроенного функционала электронной образовательной среды Moodle [5].

Средствами, заложенными в системе Moodle, проводилась статистическая оценка качества отдельных вопросов и теста в целом. Для анализа качества вопросов в Moodle используются: Индекс легкости,

Стандартное отклонение баллов (позволяет судить о дифференцирующей способности вопросов), параметр Случайности угадывания оценки (зависящий от типа вопроса), Предполагаемый вес вопроса (зависит от максимально возможного балла за каждый вопрос и количества вопросов), Эффективный вес (реальный вклад вопроса в оценку), Коэффициент дифференциации и Эффективность дифференциации (отражающие степень независимости вопросов).

Статистическая оценка теста в целом осуществляется путем нахождения Средней оценки для первой попытки; Средней оценки по всем попыткам; Медианы оценки (для первой попытки); Стандартного отклонения (для первой попытки); Асимметрии (для первой попытки); Эксцесса (для первой попытки); Коэффициента внутренней согласованности (надежности) теста (для первой попытки) -коэффициента Кронбаха; Error ratio (для первой попытки) - коэффициента, учитывающий процент стандартного отклонения, определяющийся случайными эффектами; Стандартной ошибки (для первой попытки) -определяет диапазон оценки.

Полученные в Moodle значения статистических параметров теста в дальнейшем использовали для анализа исследуемых тестовых заданий.

В таблице 1. приведена статистические характеристики тестовых заданий курса «Архитектура ЭВМ» за один семестр обучения.

Табл. 1 Статистические характеристики тестовых заданий курса «Архитектура ЭВМ»

Название курса Идентификатор Количество полных оцененых первых попыток Средняя оценка для первой попытки Медиана оценки (для первой попытки) Стандартное отклонение (для первой попытки) Асимметрия (для первой попытки) Эксцесс (для первой попытки) Коэффициент внутренней согласованности Error ratio (для первой попытки) Стандартная ошибка (для первой попытки) Банк вопросов Число вопросов в тесте Время тестирования

Архитектура ЭВМ Тест1-12 215 72,72% 77,10% 19,79% -0,7782 -0,2324 89,93% 31,73% 6,28% 301 34 45

Архитектура ЭВМ Тест2-12 213 77,25% 84,14% 21,37% -1,2222 0,5736 91,83% 28,57% 6,11% 89 29 45

Архитектура ЭВМ ТестЗ-12 108 81,77% 86,89% 15,48% -0,8796 -0,1797 89,03% 33,11% 5,12% 120 43 45

Архитектура ЭВМ Тест_экзаме 43 45,32% 42,11 % 24,34% 0,1608 -1,1232 92,10% 28,11% 6,84% 258 38 50

Следует отметить, что все тестовые задания курса «Архитектура ЭВМ» показывают хорошую надежность (выше 89%) и достаточно низкую стандартную ошибку (мене 7%). Вышеуказанный режим оценки усвоения материала при изучении дисциплины «Архитектура ЭВМ» и подготовленность студентов не оказывают влияния на надежность теста и достоверность оценки, а заметно влияет на среднюю оценку первой попытки.

Достоверность полученных студентами оценок подтверждается результатами анализа средних оценок и стандартных ошибок первых попыток в курсе «Управление данными» (таб. 2). Действительно, участие, в основном, «неуспешных» студентов в итоговых тестах анализируемых

курсов приводит к низкой средней оценке за тест. Однако эта оценка может считаться достоверной, т.к. стандартная ошибка ее определения не превышает 7%, хоть и заметно выше, по сравнению с тематическими тестами. Увеличение стандартной ошибки определения оценки, вероятно, обусловлено заметным снижением числа оценок (43 и 16). Табл. 2 Статистические характеристики тестовых заданий курса «Управление данными»

Название курса Идентификатор Количество полных оцененых первых попыток Средняя оценка для первой попытки Медиана оценки (для первой попытки) Стандартное отклонение (для первой попытки) Асимметрия (для первой попытки) Эксцесс (для первой попытки) Коэффициент внутренней согласованности Error ratio (для первой попытки) Стандартная ошибка (для первой попытки) Банк вопросов Число вопросов в тесте Время тестирования

Управление данными Тест_Атт1 227 76% 78% 16% -0,72 0,19 90% 31% 5% 132 52 50

Управление данными Тест Атт2 11 223 64,80% 66,60% 21,10% -0,273 -0,684 92,70% 27,00% 5,70% 260 50 50

Управление данными Тест экзамен 2013 16 38,84% 41,35% 9,57% -0,2452 -1,1141 47,89% 72,19% 6,91% 247 40 50

Если в случае итогового теста в курсе «Архитектура ЭВМ», снижение числа первых попыток до 43 не снизило внутреннюю согласованность теста, то в случае итогового теста курса «Управление данными» снижение числа первых попыток до 16 приводит к уменьшению внутренней согласованности теста (47,89%!) и увеличению степени случайности в оценке дисперсии (72,19% при максимально возможном значении 50%) [2].

Такой результат может быть обусловлен недостаточным размером анализируемой выборки.

Таким образом, анализ результатов тематического и итогового тестирования курсов «Архитектура ЭВМ» и «Управление данными» показал хорошую согласованность с подготовленностью студентов, участвующих в тестировании, что хорошо коррелирует с ранее проведенными исследованиями [6].

Все используемые в курсах тесты имеют достаточный банк вопросов и структуру, позволяющие выставить оценку студенту за тест с высокой точностью (стандартная ошибка не превышает 7%, при максимально возможной - 8% [5]).

Анализ наглядно продемонстрировал невозможность использования тестовых заданий для малых выборок опрашиваемых.

Анализируемые тестовые задания содержали от 29 до 52 вопросов, что оказалось достаточным для надежной оценки результатов тестирования. Даже уменьшение количества вопросов в два раза не делает результаты анализируемых тестов ненадежными [7]. Значительное влияние на надежность тестового задания оказывает размер выборки ответов, на основании которой определяется оценка за тест (табл. 1,2).

Анализ качества разработанных тестов с использованием математического аппарата расширенной статистической теории тестов,

используемой в Moodle, по оценке надежности исследованных тестов показал, что полученная средствами Moоdle оценка надежности тестов (коэффициент Кронбаха) хорошо согласуется с оценками надежности теста, полученными в анализе с помощью аппарата классической статистической теории [7].

Качество тестового задания определяется его структурой и качеством отдельных вопросов. Оценка качества заданий теста проводилась с использованием математического аппарата расширенной статистической теории (Generalizability Theory, GT) и современной параметрической Item Response Theory (IRT).

Полученные в Moodle статистические характеристики тестов позволили оценить частотное распределение оценок первых попыток каждого контроля и сделать вывод о сложности заданий для опрашиваемого контингента обучаемых. Было установлено, что все первые тестовые задания в исследованных курсах «Архитектура ЭВМ» и «Управление данными» имеют высокую среднюю оценку, максимум распределения смещен к 72,75% и 76 % соответственно (рис.1). Это свидетельствует об излишней легкости теста для опрашиваемых студентов, поэтому преподавателю следует задуматься над добавлением в опрос более сложных заданий или над выявлением легких, решаемых всеми студентами.

а) б)

Рис. 1. Пример частотного распределения оценок: а) Контроль 1 курса "Архитектура ЭВМ";

б) Контроль 2 курса "Управление данными"

Функционал Moodle предоставляет средства статистической оценки качества вопросов, такие как стандартное отклонение оценки за вопрос, индекс легкости вопроса, эффективный коэффициент дифференциации вопроса. Анализ этих параметров заданий теста позволил выявить вопросы, требующие корректировки или исключения из теста [7].

Так, если стандартное отклонение оценки вопроса не ниже 30%, то в соответствии с требованиями педагогической теории измерений является хорошим показателем их дифференцирующей способности задания.

Задания же, для которых это значение меньше 0,3 такой способностью не обладают и должны быть переработаны. Анализ величин стандартного отклонения оценок первых попыток каждого вопроса был проведен для всех тестовых заданий курсов «Архитектура ЭВМ» и «Управление данными», что позволило выявить ряд заданий требующих корректировки. Для оценки легкости/трудности заданий в системе Moodle рассчитывается величина индекса легкости задания (ИЛ). Сложность заданий должна соответствовать уровню подготовки испытуемых. Тест в целом должен включать в себя комплекс заданий различной сложности — от легких до трудных [1,2].

Полученные данные для исследуемых тестов показали, что используемые базы тестовых заданий достаточно равномерно представляют вопросы различного уровня сложности, при этом легкие — «очевидные для всех», практически отсутствуют, однако вопросы сложные, «никем не решаемые», с индексом легкости ниже 0,1 имеют место.

Важной статистической характеристикой дифференцирующей способности тестовых заданий, которую позволяют вычислять средства Moodle, является Коэффициент Дифференциации (КД). Считается, что задание обладает достаточной дифференцирующей способностью, если коэффициент дифференциации имеет значение больше или равное 30%. Анализ величины КД для рассматриваемых случаев показал наличие вопросов с низкой дифференцирующей способностью, КД<30%. Так же был выявлен ряд вопросов, имеющих отрицательный коэффициент дифференциации.

Таким образом, статистический анализ тестовых заданий, проведенный на основе результатов тестирований в системе электронного обучения Moodle с позиции расширенной статистической теории тестирования позволил выявить факторы, влияющие на надежность тестовых заданий. Такой анализ может служить основой для создания новых тестовых заданий и корректирования уже имеющихся в условиях отсутствия возможности его апробации на разных выборках опрашиваемых.

С целью выявления оптимальных средств самооценки преподавателем разрабатываемых тестов был проведен анализ тестовых заданий курсов «Архитектура ЭВМ» и «Управление данными» с помощью одно- и двухпараметрической теории IRT [1,2].

Использование однопараметрической модели Раша [1,2] позволило оценить распределение вопросов тестовых заданий по сложности в зависимости от уровня подготовленности опрашиваемых (рис.2).

Анализ распределений характеристических кривых тестовых заданий позволил оценить равномерность распределения вопросов по сложности и спрогнозировать пути редактирования теста по пути изменения количества вопросов заданной сложности.

Рис. 2. Пример характеристических кривых тестовых заданий для однопараметрической модели Г.Раша: а) Контроль 1 курса "Архитектура ЭВМ"; б) Контроль 2 курса "Управление

данными"

Сравнительный анализ реально наблюдаемых ответов на вопросы с теоретически прогнозируемыми по однопараметрической модели IRT для анализируемых тестов позволил выявить вопросы для корректирования

(рис. 3).

а) б)

Рис. 3. Пример оценки качества вопроса по однопараметрической модели Раша (Контроль 1 курса "Архитектура ЭВМ"): а) хорошо составленное задание; б) очень легкое задание.

Характеристическая кривая (линия) и экспериментальные данные (точки)

Другим путем определения качества вопроса является ведение дополнительного параметра, учитывающего его дифференцирующую способность (модель А.Бирнбаума) (рис.4).

Анализ информационных функций ответов, полученных по двухпараметрической модели А.Бирнбаума, позволил выявить неинформативные вопросы, требующие корректировки или замены.

Сопоставление оценок качества тестов, основанных на различных моделях современной теории педагогических измерений показало, что при разработке контрольно-измерительных материалов в тестовой форме необходима оценка качества создаваемого теста и его корректировка в процессе использования. При оценке качества теста следует анализировать как качество вопросов, так и всего теста.

а) б)

Рис. 4. Пример характеристических кривых тестовых заданий для двухпараметрической модели IRT (А. Бирнбаум): а) Контроль 1 курса "Архитектура ЭВМ"; б) Контроль 2 курса

"Управление данными"

Необходимым, но недостаточным для оценки качества тестов является математический аппарат классической теории. Корректная же оценка качества вопросов видится при использовании параметрической модели Item Response Theory. Расширенная статистическая теория (Generalizability Theory), реализованная в модуле статистического анализа электронной образовательной среды Moodle, позволяет учитывать влияние на качество теста и ошибку определения оценки длины тестового задания, числа первых попыток оценок (тестируемых студентов), а также свойств вопросов, таких как, сложность, стандартное отклонение оценки по вопросу, вероятность угадывания на надежность теста. Поэтому видится достаточным на первом этапе при создании теста в электронной образовательной среде Moodle проводить оценку его качества с помощью встроенного в среду модуля статистического анализа, что позволит создавать контрольно-измерительные материалы в тестовой форме, позволяющие достоверно оценивать качество подготовки студентов.

Таким образом, анализ статистических параметров оценок знаний в тестовой форме средствами Moodle позволяет выявлять слабые места в структуре и содержании теста, устранять их с целью повышения надежности тестового задания и может быть использован преподавателем как средство самооценки качества разрабатываемого электронного ресурса.

Литература

1. Челышкова М. Б. Теория и практика конструирования педагогических тестов. - Москва: «Логос», 2002, - 431 с.

2. Ким В. С. Тестирование учебных достижений. - Уссурийск: Издательство УГПИ, 2007. - 214 с.

3. Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Дж. Гласс, Дж. Стэнли - М.: Прогресс. - 1976. - 496с.

4. Толстобров А.П. Возможности анализа и повышения качества тестовых заданий при использовании сетевой системы управления обучением MOODLE / А.П. Толстобров, И.А. Коржик // Вестник Воронежского государственного университета. Сер. Системный анализ и информационные технологии .— Воронеж, 2008 .— № 2. - С. 100-106.

5. Сайт MoodleDocs. - (http://docs.moodle.org/ru/)

6. Коржик И. А. Некоторые методы увеличения качества сценария теста в Moodle / И.А. Коржик, И.В. Протасова, А.П. Толстобров // Информационно-технологическое обеспечение образовательного процесса государств-участников СНГ : сборник докладов Международной интернет-конференции, Минск, 1-30 нояб. 2012 г. — Минск, 2012 .— С. 213-221 .

7. Коржик И. А. Некоторые методы увеличения качества сценария теста в Moodle / И.А. Коржик, И.В. Протасова, А.П. Толстобров // Информационно-технологическое обеспечение образовательного процесса государств-участников СНГ : сборник докладов Международной интернет-конференции, Минск, 1-30 нояб. 2012 г. — Минск, 2012 .— С. 213-221.

Аннотация научной статьи по наукам об образовании, автор научной работы — Толстобров Александр Павлович, Протасова Ирина Валентиновна, Коржик Илья Андреевич

Похожие темы научных работ по наукам об образовании , автор научной работы — Толстобров Александр Павлович, Протасова Ирина Валентиновна, Коржик Илья Андреевич

Текст научной работы на тему «Система анализа статистики тестирования как средство самооценки преподавателем электронного образовательного ресурса»