Методика анализа и оценка результатов тестирования

Тесленко В. И.

ДИАГНОСТИКА

В. И. Тесленко

МЕТОДИКА АНАЛИЗА И ОЦЕНКА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ

Научно обоснованный тест — это метод, соответствующий установленным стандартам валидности и надежности. Качество педагогической информации о результатах тестирования оказывается зависимым от качества используемого для этого инструментария.

Результаты каждого тестирования необходимо приводить в определенную систему, делать анализ и проводить их обработку.

Выбор технологии обработки результатов выполнения теста определяется целями тестирования. Информация, содержащаяся в ответах, позволяет не только судить о результатах учения каждого из испытуемых, но и делать достаточно обоснованные выводы об особенностях процесса преподавания, о технологии обучения, провести диагностику и прогнозирование процесса обучения.

Выделяют две группы методов анализа заданий: экспертные и математические. Математические методы применяются после проведения тестирования на основании полученного эмпирического материала, поэтому о них речь пойдет ниже. Экспертные методы позволяют не только оценить, в какой степени они измеряют именно те знания, умения и навыки, для которых разрабатывается тест, но и оценить задания с точки зрения их формы. В основе экспертных методов лежит соотнесение содержания и форм заданий с требованиями, изложенными в спецификации. Задания, к которым ни один из экспертов не высказал замечаний, включаются в тест. Такие задания считаются объективными и корректно сформулированными. Остальные задания переформулируются или совсем убираются из теста. После разработки и проведения экспертного анализа заданий получается первый вариант теста. Чтобы повысить его качество, используются математические методы. Для применения этих методов нужны результаты экспериментального апробирования теста. Такое тестирование называют предварительным.

Если математической обработке подвергаются оценки, выраженные в баллах, по которым судят об эффективности педагогического процесса, то нельзя забывать, что они являются суммарным выражением знаний, умений и навыков, исключающим возможность выявления связей между преподавателем и испытуемыми во всем их многообразии.

При использовании математического метода обработки данных перед тестирующими встает вопрос о точности, достоверности педагогических выводов, вы-

текающих из математических формул. Это несет в себе большую долю относительности применительно к процессу обучения. Поэтому недопустимо неумелое, формальное использование математических методов.

Использование математической статистики, как показывают исследования, — одно из эффективных средств познания объективных законов обучения, воспитания и развития. Оно оправданно и действенно только тогда, когда опирается на умелый и разносторонний качественный анализ, когда математические формулы представляют собой конкретное выражение качественных особенностей сформированности знаний, умений. Все это предполагает установление определенных отношений между показателями и факторными признаками, характеризующими различные стороны подготовки испытуемых. Знание функциональной зависимости между ними позволяет спрогнозировать уровень подготовки для каждого испытуемого.

Следует отметить, что человек как объект исследования слишком сложен в своих проявлениях, чтобы его поведение можно было уложить в определенные формулы, поэтому главное внимание уделяют исследованию статистических связей. Но в любом случае основой для выводов служит оценка достижений отдельных испытуемых. Поэтому остановимся вначале именно на этом.

Успешность работы с тестом означает выполнение его заданий. Поскольку тест есть система заданий, то предстоит сопоставить результаты выполнения различных заданий между собой.

При выполнении задания закрытой формы перед испытуемым встают две взаимосвязанные задачи: определить верные ответы (их может быть несколько) и найти ошибки в неверных ответах.

Дополнительные трудности испытуемому при распознавании верных ответов создает то, что их может быть несколько к одному заданию и они могут находиться в разных отношениях. Варианты ответов подбираются правдоподобными, ошибки в них замаскированы. Иногда обнаружение ошибки в ответе оказывается делом более сложным, чем узнавание верного (может быть, хорошо известного) ответа. При оценке сложности задания нельзя не учитывать трудностей распознавания ошибочных ответов.

При оценке результатов выполнения заданий испытуемыми перед составителем теста встает целый ряд проблем. Нет проблем только в том случае, если ответ абсолютно совпадает с правильным эталонным ответом. Как поступать, если определены не все верные ответы? Решение может быть различным: если эти верные ответы равноправны, то можно считать задание выполненным, например, когда найден хоть один правильный ответ; если ответы находятся в отношении дополнения друг друга и только вместе дают законченный, полный ответ, то составителю предстоит определить свое отношение к каждому из конкретных случаев и отобразить это в специально составленной эталонной таблице ответов к тесту, о которой речь пойдет ниже.

Иногда испытуемый наряду с правильными ответами может отобрать ошибочные. Как оценить в этом случае выполнение задания? По-видимому, следует учитывать характер допущенной ошибки. Самое простое было бы считать в любом подобном случае задание невыполненным. Но ведь ошибка ошибке рознь. Они могут носить второстепенный характер, не иметь принципиального значе-

ния с точки зрения основных целей измерения. В то же время не учитывать ошибку нельзя. Было бы справедливо при наличии незначительных ошибок считать задание выполненным, но оценку испытуемому снизить.

Ошибки, содержащиеся в ответах к заданию, могут носить существенный характер, свидетельствуя о наличии пробелов у испытуемого в контролируемом учебном материале. Наличие такого рода ошибок является основанием для того, чтобы считать задание невыполненным или же оценку значительно понизить. Ответы теста могут содержать и грубые ошибки как свидетельство явного непонимания испытуемым сущности контролируемого. В этом случае задание считается безусловно невыполненным.

Такой подход к ошибкам в ответах испытуемых сильно осложняет обработку результатов тестирования, и его можно реализовать только в том случае, если процесс обработки результатов происходит при помощи компьютера.

Рассмотрим сначала простой способ оценки теста по результатам выполнения его заданий.

В качестве критерия оценки результата выполнения теста может быть выбрано число правильно выполненных заданий (n+). Для того чтобы можно было сопоставлять результаты работы с тестами, включающими в себя различное число заданий (n), за достижение испытуемого (Д) принимается:

Дг=(п+) tin.

Что означает этот результат? Плохо это или хорошо? Необходимо интерпретировать результаты тестирования. В настоящее время существуют два основных подхода к интерпретации результатов.

Нормативно-ориентированный подход (по-английски norm-referenced) позволяет сравнивать учебные достижения отдельных учащихся друг с другом. Критериально-ориентированный подход (по-английски criterion-referenced) позволяет оценивать, в какой степени учащиеся овладели необходимым учебным материалом.

Подход к интерпретации тестового балла является основным критерием для разделения тестов на критериально- и нормативно-ориентированные, различающиеся по методам конструирования и особенностям применения.

Результаты выполнения различных тестов следует оценивать в зависимости

n

от их сложности СТ = XC3i / n, а при помощи специальной нормировочной таб-

i=1

лицы (табл. 1) можно сравнить итоги выполнения тестов различной сложности.

Дадим пояснения к нормировочной таблице. При репродуктивном тесте (ТР) испытуемому для получения отметки «5» необходимо иметь достижение не менее 0,9, т. е. правильно выполнить не менее 90 % всех заданий теста. Отметка «4» ставится при достижении не менее 0,7 и т. д. Если же выполняется тест повышенной сложности (ТП), то при таком же достижении 0,7 испытуемый получит оценку «5» и т. д. Нормировочную таблицу несложно продолжить для информационного и творческого тестов.

Таблица 1

Оценка результатов выполнения тестов различной сложности

Д=(п+)/п 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0

ТР 1,3<СТ<1,6 «5» «4» «3» «2» «1»

ТБ 1,7<СТ<2,4 «5» «4» «3» «2» «1»

ТП 2,2<СТ<2,4 «5» «4» «3» «2»

Следует отметить, что система оценивания испытуемых по результатам тестирования содержит максимальное количество стереотипов, домыслов и ошибок. Одни считают, что отличную оценку можно ставить только в том случае, когда испытуемый справился со всеми заданиями. Другие — для получения положительной оценки достаточно ответить более чем на половину заданий в тесте. Среди рекомендаций можно встретить и такие, когда вопрос оценивания целиком перекладывается на пользователя.

В этой связи следует отметить, что педагогические тесты имеют основания для сравнения. Для критериально-ориентированных тестов — это полученный на основе экспертных оценок критерий значимости, превысив который, как считается, тестируемый справился, готов, прошел и т. д., в зависимости от целей тестирования. Для нормативно-ориентированных тестов основанием для сравнения служат статистические нормы.

Тестовые нормы представляют собой установленные на базе репрезентативной выборки эмпирические усредненные количественные данные о результатах выполнения теста, полученные в стандартных условиях. Выделяют следующие нормы по широте охвата испытуемых:

- универсальные (устанавливаются для широкого контингента людей);

- национальные;

- региональные;

- локальные.

Нормирование дает качественный способ корректного сравнения оценок, полученных в результате изменения различных тестов и выставления оценок в школьных баллах.

Следует признать более эффективным использование для оценки результатов тестирования не пятибалльной, а двенадцатибалльной шкалы.

Так можно сравнивать между собой уровни подготовленности испытуемых, выполнявших один и тот же вариант по определенной теме, но сравнивать эти результаты с результатами участников тестирования, решавших другие варианты тестов по этой теме, нельзя. Для одного и того же количества верно решенных заданий соответствующие интервалы тестовых баллов для разных вариантов тестов будут различны.

Для того чтобы иметь возможность сравнивать между собой все оценки уровней подготовленности испытуемых и все оценки сложности тестовых заданий, необходимо все шкалы привести к единой для всех вариантов шкале.

Для сопоставления результатов тестирования учащихся по разным вариантам теста в пределах определенной темы учебного предмета необходимо наличие перекрытия вариантов, то есть различные варианты должны иметь определенную часть общих заданий. Такие задания называют узловыми, или якорными. Здесь в качестве единой шкалы в самом простом случае можно выбрать шкалу параметров какого-либо из вариантов или промежуточную шкалу, началом которой является среднее арифметическое значение оценок трудностей общих заданий.

Методика оценки результатов тестирования складывается из следующих этапов.

1. Для выбранного теста составляется эталонная таблица.

Приведем фрагмент подобной таблицы и дадим к ней необходимые пояснения.

Таблица 2

п

СТ = 2 СЗ / п .

г=1

В задании 1 два равноправных ответа — «б» и «г». Задание репродуктивного характера (СЗ=1,5) будет считаться выполненным, если указан хотя бы один из верных ответов.

В задании 2 верный ответ «б» и его сложность 2 (базовый уровень).

Задание 3 считается выполненным только в том случае, если выбраны оба ответа «а» и «в». Сложность задания повышенная — 2,5. Фигурная скобка указывает на то, что должны быть определены обязательно оба верных ответа.

В задании 4 — три верных ответа, прямые скобки указывают на то, что при выборе испытуемым любых двух задание считается выполненным. Это задание творческого характера (СЗ = 3).

По сложности теста (СТ) определяется его характер. Он может быть репродуктивным, базовым, творческим и т. п. Отсюда становится ясным, какая часть нормировочной таблицы оценок (табл. 1) должна быть использована при выставлении окончательных отметок испытуемым.

2. Для анализа результатов с целью диагностики составляется аспектная таблица оценки результатов тестирования (табл. 3).

Т а б л и ц а 3

Аспектная таблица оценки результатов тестирования

(тест по теме: Скорость движения тела)

Аспекты тестирования Задания Общее число заданий

1. Цели введения понятия 1, 2, 7 3

2. Определение понятия 2, 3, 4, 9, 10, 12 6

3. Специфические особенности понятия «скорость» 5, 6, 7, 12 4

4. Применение понятия 4, 8, 9, 10, 11, 12 6

Сравнивая число верно выполненных заданий испытуемыми, по аспекту тестирования можно определить его аспектное достижение (ДАО и по нормировочной таблице (табл. 1) выставить отметку, более того, сделать определенные выводы диагностического характера. Следует обратить внимание на то, что выполнение отдельных заданий теста может быть одновременно связано с несколькими из выделенных аспектов контроля.

3. Оценка эффективности технологии или методики обучения.

Одним из критериев, позволяющих оценить технологию или методику обучения, является достижение группы испытуемых, под которым подразумевается среднее достижение испытуемых в группе:

дг=2 д , / п,

где п — число испытуемых в группе.

Как и для отдельного испытуемого, достижения, относящиеся ко всей группе, могут быть представлены в виде отметки, учитывающей сложность теста, с которым работала группа испытуемых. Для этого следует воспользоваться нормировочной таблицей (табл. 1).

Перечислим этапы применения педагогического теста и анализа результатов тестирования.

В распоряжении преподавателя имеется некоторый тест, к которому составлены аспектная таблица (табл. 3), эталонная таблица ответов (табл. 2) и определена сложность теста. Кроме того, имеется нормировочная таблица оценок (табл. 1).

Каждый из испытуемых, выполняя тест, заполняет стандартную рабочую таблицу ответов на задания теста (табл. 4).

Испытуемому предстоит проставить к каждому из заданий теста буквы, относящиеся к правильным ответам. Результаты тестирования, представленные испытуемыми в такой форме, очень удобны для сопоставления с эталонной таблицей ответов к тесту. В результате этого сопоставления при минимальных затратах времени оценивается достижение каждого из испытуемых и по нормировочной таблице выставляются оценки.

Таблица 4

Стандартная рабочая таблица ответов

Ф.И.О., группа Задания теста № ... 1 2 3 п п+ Д = П± п

Ответы а

б

в

г

Отказ

Вычисляется достижение всей группы тестируемых (или отдельных групп) по формуле:

п

IД

ДГ = ,

п

где п — число испытуемых.

Сравнительно много времени потребуется для проведения диагностики. С помощью аспектной таблицы оценки результатов для каждого из испытуемых (табл. 3) находится аспектное достижение ДА^ на основании которого выставляются отметки по каждому из аспектов тестирования (ОА^:

(п+) А

ДА} .

ПА

Суммируя эти отметки для всей группы тестируемых, можно сделать выводы об эффективности выбранной технологии обучения.

Наибольшую ценность для проведения диагностики результатов обучения по использовавшейся технологии представляет таблица, в которой сведены ответы всей группы испытуемых по каждому из заданий теста (табл. 5). Данная таблица приводится в качестве примера.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Т а б л и ц а 5

Распределение ответов группы испытуемых по заданиям теста

Задания Число ответов^^ 1 2 3 4 5 6 7 8 9 10 11 12

а 13 2 29 21 40 60 26 8 3 25 58 61

б 56 59 44 13 34 19 62 16 45 15 5 40

в 33 9 21 59 28 30 43 32 10 5 3 56

г 7 2 40 8 2 4 31 52 20 25 10 0

Отказ 1 1

Верные ответы 24 59 26 18 44 21 30 11 43 25 8 44

Общее число испытуемых: N=69.

Анализ приведенной выше таблицы дает возможность установить наиболее распространенные ошибки испытуемых по выделенным аспектам тестирования, сделать обоснованные выводы о причинах их появления.

Какое бы число подобных факторов не влияло на конкретные случаи, общая закономерность обязательно проявит себя. С учетом других факторов результаты обработки собранных данных (табл. 4, 5) помогут только в конечном итоге сделать обоснованные выводы об эффективности той или иной технологии или методики обучения, так как сложный многогранный характер обучения не позволяет делать однозначные утверждения относительно его результатов при планировании этого процесса. О результатах можно говорить как о вероятных, возможных. Есть все основания рассматривать результат обучения как вероятностный процесс.

Центр тестирования Минобразования и науки РФ для оценки уровня подготовленности выпускников школ использует тесты, состоящие из нескольких вариантов. Процесс вычисления тестовых баллов участников тестирования состоит из двух этапов.

Первый этап заключается в оценивании параметров заданий и уровней подготовленности участников тестирования по каждому из вариантов в отдельности.

Например, вариант теста, состоящий из п заданий, был предложен N участникам тестирования. Ответ тестируемого на каждое задание оценивается по дихотомному принципу, то есть за верный ответ ставится единица, а за неверный — ноль, причем за пропущенные задания также ставится ноль.

Матрица тестовых результатов имеет размерности N х п, где на пересечении 1-й строки и ^го столбца (1 е [1.^, j е [1..п) стоит результат (то есть ноль или единица) выполнения 1-м участником тестирования ,]-го задания. Как правило, число строк в матрице ответов во много раз превышает число столбцов.

Используя полученную матрицу тестовых результатов, вычисляют оценки параметров заданий варианта теста и оценки уровня подготовленности участников тестирования, решающих данный вариант.

Один из возможных подходов к решению данной задачи состоит в применении метода наибольшего правдоподобия. Кратко данный метод изложен в работе В.В. Овчинникова [1].

После завершения первого этапа, уровень подготовленности каждого участника тестирования характеризуется некоторым числом. Но проблема заключается в том, что эти числа для участников тестирования, решавших разные варианты, находятся на разных шкалах. Можно сравнивать между собой уровни подготовленности участников тестирования, выполняющих один и тот же вариант, но сравнивать эти результаты с результатами испытуемых, решавших другие варианты, не представляется возможным. Аналогичная ситуация происходит и с оценками параметров тестовых заданий.

Для каждого из вариантов теста существует своя шкала, на которой располагаются оценки параметров заданий, и сравнивать оценки параметров заданий из разных вариантов считается некорректным.

Сравнивать между собой все оценки уровней подготовленности испытуемых и все оценки параметров заданий можно лишь при условии приведения получившихся шкал к одной, единой для всех вариантов шкале.

Второй этап вычисления тестовых баллов заключается в нанесении полученных оценок параметров участников и заданий на единую для всех вариантов шкалу и преобразовании получившейся шкалы в стобалльную. При этом результаты тестирования, определенные по каждому варианту теста, приводятся в сопоставимый вид с учетом свойств каждого варианта теста. В связи с этим возникают вопросы:

Что выбрать в качестве единой шкалы?

Как нанести оценки всех параметров на единую шкалу?

В качестве единой шкалы можно выбрать или шкалу параметров какого-либо из вариантов, или промежуточную вспомогательную шкалу. Полученные единые шкалы преобразуются в стобалльную. Делается это следующим образом. На единой шкале результатов вычисляются среднее значение уровня подготовленности испытуемых и соответствующее среднее квадратичное отклонение. После этого уровень подготовленности каждого участника тестирования (1 = 1, ..., N преобразовывается в окончательный тестовый балл В1 по формуле:

в. -в

В. = 50 +у-----, где

! а

у — определяется исходя из того, что значения Вг должны находиться в промежутке от 0 до 100;

в — уровень подготовленности 1-участника;

в — среднее значение уровня подготовленности участников тестирования, вычисленного по формуле:

- 1 V

в = V , где

м 1=1

N — общее число испытуемых.

Вычисление тестового балла по указанной формуле производится только для тех испытуемых, которые верно выполнили часть заданий теста. Участникам тестирования, верно выполнившим все задания без каких-либо вычислений ставится максимальный тестовый балл, то есть 100, участникам тестирования, не решившим верно ни одного задания, ставится минимальный балл.

Для установления достоверности полученных результатов вычисляют также определенные статистические показатели.

1. Дисперсия каждого задания. Это произведение доли правильных ответов (р^ и доли неправильных ответов (^) в каждом столбце по каждому отдельному заданию. Извлечение корня из значения pjgi дает стандартное отклонение результатов испытуемых по каждому заданию. Эта величина является показателем рассеивания от их средней величины.

2. Средняя арифметическая величина - х. Является обобщающей по всему тесту. Выражая одним числом определенную совокупность, она как бы ослабля-

ет влияние случайных индивидуальных отклонений. В простейшем случае этот показатель вычисляется путем сложения всех полученных индивидуальных баллов и деления суммы на число испытуемых:

N

_ £ х Х=■ где

X - знак суммирования;

хг — индивидуальный балл каждого испытуемого;

N — число испытуемых.

По этой формуле вычисляется так называемая простая средняя арифметическая величина, применяющаяся в тех случаях, когда имеется небольшое число испытуемых.

При большом числе тестируемых прибегают к вычислению взвешенной средней арифметической величины. С этой целью результаты тестирования упорядочиваются по строкам (по всей совокупности заданий) и по столбцам (по каждому отдельному заданию) по принципу «от больших значений (количество правильных ответов) к меньшим», или наоборот. Таким образом получают вариационный ряд, который представляет собой ряд вариант и их частот.

Для упрощения числовых операций весь ряд разбивается на группы в зависимости от количества выполненных заданий. После разбивки вариант в каждой группе определяется срединная варианта «Ус», для каждой из которых проставляется число испытуемых, выполнивших задания. Примеры этих операций приведены в таблице 6.

В таблице 6 графы 1 и 3 представляют собой вариационные ряды, которые можно изобразить графически для дальнейшего анализа результатов тестирования. Применяется несколько способов графического изображения вариационных рядов в зависимости от их вида и поставленной задачи.

Для нашего случая (табл. 6) строится соответствующий полигон: на оси абсцисс прямоугольной системы координат откладываются интервалы значений баллов, полученных испытуемыми, а на оси ординат — число испытуемых, соответствующих этим интервалам.

Из полигона можно получить гистограмму того же распределения, если на оси абсцисс прямоугольной системы координат отложить интервалы значений баллов и на них, как на основаниях, построить прямоугольники с высотами, пропорциональными числу испытуемых в этих интервалах.

Взвешенная средняя арифметическая величина вычисляется по формуле:

— Ек ■ N 811,75 Х = ------= —^» 8,46 .

N 96

Таблица 6

Результаты тестирования, упорядоченные по строкам и по столбцам по принципу распределения больших значений (количество правильных ответов) к меньшим

Количество баллов Середина интервала, Уе Число испытуемых, N Уе^ Ус - х = й а2

0-2 1 3 3,0 -7,46 55,65 166,95

3-4 3,5 5 17,5 -4,96 22,80 114,00

5-6 5,5 8 30,25 -2,96 8,76 70,08

7-8 7,5 14 105,0 -0,96 0,92 12,88

9-10 9,5 27 256,5 1,04 1,08 29,16

11-12 11,5 25 287,5 3,04 9,24 231,00

13-14 13,5 7 94,5 5,04 25,40 177,80

15-16 15,5 5 77,5 7,04 49,56 247,80

17-18 17,5 2 35,0 9,04 8,17 16,34

96 811,75 1066,01

Полученная величина позволяет сравнивать и оценивать группы испытуемых в целом. Однако для характеристики группы испытуемых только этой величины недостаточно, так как размер колебаний вариант, из которых она складывается, может быть различным. Поэтому в характеристику группы испытуемых необходимо ввести такой показатель, который давал бы представление о величине колебаний вариант около их средней величины. Целесообразно каждую вычисленную среднюю арифметическую дополнять соответствующим данному распределению средним квадратическим отклонением.

3. Среднее квадратическое отклонение. Этот статистический параметр называется еще стандартным отклонением, или просто стандартом. Условное обозначение его — а. Величина среднего квадратического отклонения является показателем рассеивания (т. е. отклонений вариант, которые получены в исследовании, от их средней величины) и призвана дополнять характеристику группы испытуемых.

Пример вычисления этого параметра приведен в таблице 6. Среднее квадратическое отклонение вычисляется по формуле:

а=±

£ й /1066,01

= ±Л—гг— ~±3,33.

N V 96

При малом числе испытуемых среднее квадратическое отклонение рекомендуется вычислять по следующей формуле:

а=±-

£ й2 N

N -1

Закон нормального распределения говорит, что подавляющее большинство значений в однородной группе вариант встречается в интервале, расположенном около средней арифметической величины. При нормальном распределении варианты расположены в определенных границах. Например, в границах х ± 3а расположено 99,7 % всех вариант признака.

Величина стандартного отклонения (а) служит также средством оценки характера распределения результатов тестирования. Для этого величину средней арифметической (х) соотносят со значением а, взятым три раза. Если х примерно равняется произведению 3а, то это является одним из признаков распределения, близкого к нормальному.

Рассматривается и другое мнение. «Применение тестов, сконструированных в соответствии с традиционным критерием, согласно которому “хороший” тест должен давать «нормальное» (то есть гауссово) распределение, имеет еще и побочный результат. Он состоит в том, что такие тесты крайне неэффективны для оценки качества системы образования в целом или какой-либо его части (подсистемы) с точки зрения достижения стоящих перед ней важных целей» [2].

4. Средняя ошибка среднего арифметического. Вычисление средней ошибки среднего арифметического производится по формуле:

а

т=±7^ ’ где

т — средняя ошибка среднего арифметического; о - среднее квадратическое отклонение;

N — число испытуемых.

Для приведенного примера (табл. 6) величина средней ошибки среднего арифметического будет равна:

3,33

т = ± I— ~ ±0,34. л/96

Следовательно, (х ± т) = (8,46 + 0,34). Это означает, что полученная средняя арифметическая величина (х =8,46) может иметь значение от 8,12 (8,46 + 0,34 = 8,12) до 8,80 (8,46 + 0,34 = 8,80).

Средняя ошибка показывает отличие среднего арифметического, полученного на выборочной совокупности (в нашем примере на 96 испытуемых), от истинной средней арифметической величины.

Следует отметить, что если тест предназначается для более узкого использования (в одном классе, группе), то процесс разработки теста упрощается. Не проводится предварительное тестирование, а в тест включается большое количество заданий, из которого после анализа исключаются неудачные. Такой тест совершенствуется из года в год.

Применение компьютерной технологии в практике педагогического тестирования не только значительно облегчает этот процесс и позволяет гибко, но с единых позиций подходить к формированию тестов и оценке получаемых ре-

зультатов, но и обеспечивает обоснованный, точный, надежный диагноз подготовки испытуемого.

Тестирование может быть основано на работе испытуемых как с тестом на печатной основе, так и с компьютером. Современные средства программирования позволяют создавать достаточно универсальные компьютерные тесты многоцелевого назначения.

Известно, что в процессе тестирования можно выделить ряд основных этапов:

1) ознакомление испытуемых с содержанием заданий теста;

2) выполнение испытуемыми заданий и оформление результатов;

3) обработка результатов тестирования;

4) обсуждение с испытуемыми результатов тестирования с целью внесения корректив в процесс обучения.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Поэтому в организации тестирования могут и должны найти свое место компьютеры. Более того, весь процесс тестирования может быть построен на основе применения компьютеров, широкого использования их дидактических возможностей.

Во-первых, использование компьютера для ознакомления испытуемого с содержанием теста имеет целый ряд преимуществ по сравнению с применением для этой цели печатных форм. Компьютер как бы оживляет содержание заданий теста, показывая рассматриваемые в них ситуации в динамике, развитии. Испытуемые «видят» движения тел, происходящие изменения в их состояниях. Более того, на экране дисплея могут моделироваться не только процессы, но и физические измерения, эксперимент. Испытуемый, проводя «измерения» на экране дисплея, самостоятельно находит исходные данные для выполнения задания. При этом, как и в реальных условиях измерений, могут обсуждаться вопросы расчета погрешностей в проводимых измерениях, проводиться учет вводимых упрощений. Практически ЭВМ применяется как средство наглядности.

Во-вторых, компьютер может использоваться при выполнении заданий теста. Речь идет об использовании компьютера не только для выполнения необходимых вычислений или как средства оформления результатов, но и как средства решения, например, определенных педагогических ситуаций.

В-третьих, незаменимы компьютеры и в статистической обработке результатов тестирования. Результаты массового выполнения теста содержат огромную по объему информацию не только о достижениях в учении каждого из испытуемых, но и об эффективности тех технологий, по которым велось обучение. Детальный анализ результатов тестирования позволяет объективно диагностировать учебный процесс и результаты обучения, вскрывая сильные и слабые стороны в учении конкретных испытуемых, а также высказывать достаточно обоснованно причины пробелов в обучении. Вся сложность извлечения этой полезнейшей информации связана с необходимостью выполнения такого значительного числа операций, что без компьютера не обойтись.

Говоря о ближайшем будущем применения компьютера в контроле процесса обучения, следует упомянуть о возможности создания программ тестирования, адаптированных к индивидуальным особенностям испытуемых. Основной це-

лью адаптивного тестирования является повышение точности измерения достижений испытуемых в условиях сокращения времени тестирования и выделения определенного числа заданий. В отличие от традиционного подхода к организации тестового контроля достижений, где один и тот же набор заданий используется для измерения достижений различных испытуемых, в адаптивном контроле тестирование осуществляется путем подбора оптимальных по трудности тестовых заданий. Имея такой банк заданий, с помощью компьютера можно подбирать оптимальные задания и предъявлять их индивидуально каждому испытуемому. Такие программы можно отнести к гибким, предоставляя испытуемому право выбора теста любого уровня сложности.

Гибкие программы тестирования (ГТ) содержат системы заданий, в которых характер каждого последующего задания зависит от результата выполнения испытуемым предыдущего. В зависимости от индивидуальных результатов испытуемого варьируется не только характер, но и число заданий. Реализация такого рода программ возможна только в форме компьютерного тестирования, диалога «компьютер - испытуемый».

Остановимся на особенностях компьютерной технологии обработки результатов тестирования. Наличие компьютера позволяет выдвинуть ряд дополнительных требований к технологии обработки результатов выполнения теста, обеспечивающих более объективную их оценку и позволяющих получить дополнительную информацию диагностического характера.

Вспомним предложенную ранее технологию обработки результатов. В качестве основного критерия оценки достижения испытуемого выбрано отношение числа правильно выполненных заданий теста к общему числу заданий в тесте: Д =(п+) 1/п. Этот критерий имеет определенные недостатки. Первый из них связан с тем, что задания в тесте могут быть различной сложности. При подсчете общего числа правильно выполненных заданий (п+) не учитывалось, какие именно задания выполнены верно, какова их сложность. Второй: было принято правило - включение испытуемым в число верных ответов хотя бы одного ошибочного, независимо от того, определены ли верно правильные ответы, служит основанием считать задание невыполненным. Иными словами, не учитывается характер ошибок, допущенных испытуемыми, а ошибки могут быть грубыми, более или менее существенными и незначительными.

В компьютер вводится эталонная таблица ответов, несколько отличная от предложенной ранее таблицы 2. В ней каждому из ответов к заданию теста можно приписывать число в соответствии со следующими правилами: 1) верным ответам - положительное, неверным - отрицательное или нуль; 2) сумма оценок положительных ответов совпадает с оценкой сложности всего задания;

3) более сложному ответу приписывается большее число; 4) выбор ответа, помеченного нулем, является свидетельством грубой ошибки, и в этом случае задание считается невыполненным; 5) оценка выполнения испытуемым задания находится как сумма положительных и отрицательных оценок выбранных им ответов к заданию.

Приведем для примера фрагмент эталонной таблицы оценок (табл. 7).

Сумма сложностей всех заданий теста: ЕСЗ = 28. Это максимальное число, которое может получить испытуемый при работе с 12-ю заданиями теста. Таким образом, сложность теста (как средняя сложность его задания) определяется:

п

СТ = £сд. / п = 28/12 = 2,3.

(=1

Таблица 7

Эталонная таблица ответов к тесту

^'^^^Задания Ответьі^^^^ 1 2 3 4 5 6 7 8 9 10 11 12

а 0 0 0,5 1 1,5 0 0 0 0 0,5 1 0

б 1 2 -1 1,5 1 1 2 1 2,5 0,5 0 0

в 1 0 1 0,5 0 1,5 0 0 1 0,5 1 2

г 0 0 1 -1 0 0 0 3 0 0,5 0 0

СЗ 2 2 2,5 3 2,5 2,5 2 3 2,5 2 2 2

Это тест повышенной сложности (ТП), поэтому в компьютер вводится нормировочная таблица оценок (табл. 8).

Таблица 8

Нормировочная таблица оценок результатов тестирования

Отметки «5» «4» «3» «2»

Верхняя граница достижений (ВГД) 1,00 0,69 0,49 0,29

Нижняя граница достижений 0,70 0,50 0,30 0,00

Для диагностики результатов тестирования в компьютер вводится эталонная аспектная таблица ответов (табл. 9).

Максимальная оценка аспекта может быть получена как сумма сложностей заданий, в которых проверяется рассматриваемый аспект. Для первого аспекта его максимально возможная оценка (ОМАї):

ОМАї = 2 + 2 + 2,5 + 3 + 2,5 = 12.

Результаты работы с тестом каждый из испытуемых вводит в специальную таблицу (табл. 10).

Таблица 9

Эталонная аспектная таблица ответов

№ п/п Аспекты тестирования Задания по аспектам Максимально возможная оценка

1 Прямолинейность распространения света. Тень, полутень и т. д. 1, 2, 3, 4, 5 12

На основании сравнения таблицы ответов каждого из испытуемых с эталонной, аспектной эталонной и нормировочной таблицами компьютер позволяет получить результаты тестирования для каждого из испытуемых: достижение (Д) и соответствующую отметку (0); достижения и оценки испытуемого по каждому из аспектов тестирования (ДА1 и ОАО (табл. 11).

Сопоставляя результаты отдельных групп испытуемых с помощью компьютера, получаем данные, позволяющие сделать определенные выводы об эффективности той технологии, по которой велось обучение испытуемых в группе: достижение группы в целом (ДГ) как среднее достижение испытуемого:

N

IД

ДГ = ПТ, где

N — число испытуемых в группе; соответствующую отметку группы (ОГ) по нормировочной шкале; аспектные достижения группы (ДГА) и отметки (ГА) (табл. 12).

Таблица 10

Ответы испытуемого

^'^^^Ответы ЗаданИЯ^^^ 1 2 3 4 5 6 7 8 9 10 11 12

а 1 1 1 1

б 1 1 1 1 1 1 1

в 1 1 1 1 1 1

г 1 1

Отказ

Кроме того, компьютер позволяет получить и таблицу распределения выбора ответов всей группы испытуемых по каждому заданию теста (табл. 5).

Таблица 11

Результаты работы испытуемых с тестом

№ п/п Ф.И.О. Достижение, Д Отметка, О Аспектные достижения и отметки

1 2 3

ДА1 (ОА)1 ДА2 (ОА)2 ДАз (ОА)з

1 Цветков Н. и т. д. 0,45 3 0,54 (4) 0,47 (3) 0,35 (3)

Таблица 12

Результаты работы группы испытуемых с тестом

№ Группа ДГ ОГ Аспектные достижения группы, отметки

п/п 1 2 3

1 17 и т. д. 0,37 3 0,48 (3) 0,35 (3) 0,27 (2)

Компьютер позволяет получить среднее отклонение достижений испытуемых от достижения группы:

ддт = X(Д - ДГI) п

Таким образом, компьютерная обработка в результате тестирования отличается от других видов тем, что:

1) контроль и диагностика достижений испытуемых происходят без вмешательства преподавателя; тем самым обеспечивается объективная оценка достижений;

2) можно получить дополнительную информацию диагностического характера об испытуемом;

3) требует разработки специальных приемов регистрации наблюдаемых явлений и фактов;

4) позволяет фиксировать достижения испытуемых в данный момент времени;

5) можно оперативно проводить статистическую обработку результатов тестирования.

В заключение хотелось бы отметить, что эффективность тестирования зависит не только от качества тестов, но и от методов сравнения тестовых результатов. Объем информации о том или ином полученном балле заметно возрастает, если известны среднее арифметическое значение и стандартное отклонение. Соотношение полученного тестового балла с этими статистическими показате-

лями позволяет уточнить место, занимаемое тем или иным испытуемым в ряду других. Использование математической статистики в педагогических исследованиях не самоцель, а одно из эффективных средств познания объективных законов обучения и воспитания.

Библиографический список

1. Овчинников, В.В. Оценивание учебных достижений учащихся при проведении централизованного тестирования. — М.: Центр тестирования МО РФ, 2001. — 27 с.

2. Равен, Дж. Педагогическое тестироавние: проблемы, заблуждения, перспективы : пер. с англ. / Джон Равен. - М.: Когито-Центр, 1999. - 144 с.

Методика анализа и оценка результатов тестирования Текст научной статьи по специальности «Компьютерные и информационные науки»

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Тесленко В. И.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Тесленко В. И.

Текст научной работы на тему «Методика анализа и оценка результатов тестирования»