РУКОВОДСТВО AMEE № 119. ОСНОВЫ ИЗМЕРЕНИЯ И ОЦЕНКИ В МЕДИЦИНСКОМ ОБРАЗОВАНИИ (ПЕР. ПОД РЕД. АЛЕКСЕЕВОЙ А.Ю.)

Тавакол Мохсен; Денник Рег

РУКОВОДСТВО АМЕЕ № 119. ОСНОВЫ ИЗМЕРЕНИЯ И ОЦЕНКИ В МЕДИЦИНСКОМ ОБРАЗОВАНИИ*

(перевод с английского под ред. А.Ю. Алексеевой1

Тавакол М., Денник Р.

Школа медицины, Ноттингемский университет, NG7 2 UH, г. Ноттингем, Великобритания

Как преподаватель медицины вы можете прямо или косвенно участвовать в контроле качества оценки. Измерение играет важную роль в повышении качества оценочных вопросов и обучения студентов. Информация, предоставляемая психометрическими данными, помогает решению педагогических проблем медицинского образования. Измеряя, мы можем оценить освоение материала студентами. Определение стандартов играет важную роль в оценке качества будущей эффективности студентов как врачей. Представление данных об успеваемости для разработчиков стандартов может способствовать выработке надежного и обоснованного проходного балла. Валидность и надежность результатов тестов являются наиболее важными факторами при разработке оценочных вопросов качества. Анализ отдельных оценочных вопросов дает полезную обратную связь для ответственных за оценку, позволяет улучшить качество каждого вопроса и, следовательно, сделать оценки студентов справедливыми, в том числе с точки зрения разнообразия и этнической принадлежности. Характеристические графики заданий (Item Characteristic Curves, ICC), анализ дифференциального функционирования заданий (Differential Item Function, DIF) и анализ вариантов дают ответственным за оценку информацию, позволяющую улучшить качество отдельных вопросов.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

AMEE GUIDE # 119. THE FOUNDATIONS OF MEASUREMENT AND ASSESSMENT IN MEDICAL EDUCATION

Tavakol M., Dennick R.

School of Medicine, University of Nottingham, Nottingham, NG7 2 UH, United Kingdom

As a medical educator, you may be directly or indirectly involved in the quality of assessments. Measurement has a substantial role in developing the quality of assessment questions and student learning. The information provided by psychometric data can improve pedagogical issues in medical education. By measuring, we are able to assess the learning experiences of students. Standard setting plays an important role in assessing the performance quality of students as doctors in the future. Presentation of performance data for standard setters may contribute towards developing a credible and defensible pass mark. Validity and reliability of test scores are the most important factors for developing

*Связанная статья впервые была опубликована в журнале «Medical Teacher»: Tavakol M, Dennick R. The Foundations of Measurement and Assessment in Medical Education. Medical Teacher. 2017; 39 (10): 1010-5.

quality assessment questions. The analysis of assessment individual questions provide useful feedback for assessment leads in order to improve the quality of each question, and hence make students' marks fair in terms of the diversity and ethnicity. Item Characteristic Curves (ICC), Differential Item Function (DIF) analysis and option analysis will send signals to assessment leads to improve the quality of individual question.

Conflict of interests. The authors declare no conflict of interests.

Tavakol M., Dennick R. The Foundations of Measurement and Assessment in Medical Education. Medical Teacher. 2017; 39 (10): 1010-5.

Ключевые моменты

■ Преподаватели медицины должны ознакомиться с основами измерения и оценки.

■ Преподаватели медицины измеряют обучение и способности студентов с помощью текущих и итоговых оценок с целью улучшения качества обучения студентов и качества учебных программ, преподавания и оценки.

■ Измерение на основе критериев связано с достижением учебных целей учебной программы.

■ Разработчики стандартов должны предоставить надежный проходной балл, чтобы разделить студентов на две группы: компетентные и некомпетентные.

■ Предоставление разработчикам стандартов обратной связи о рейтингах может уменьшить количество ошибок, связанных с проходным баллом.

■ Как компенсационная, так и конъюнктивная оценка могут использоваться для моде-рирования оценок студентов.

■ Надежность и валидность контролируют, чтобы гарантировать соответствие и точность оценки студентов.

■ Кривые зависимости «задание-ответ» показывают ожидаемую оценку задания в зависимости от способностей студента.

■ Характеристические кривые вариантов показывают качество эффективных вариантов в вопросах с множественным выбором.

ВВЕДЕНИЕ

Пожалуй, ДНК любого формального образования - это оценка. Это систематический процесс, который собирает и интерпретирует информацию, полученную из данных экзамена, для легитимации содержания экзамена и оценок студентов. Для осуществления этого процесса ответственные за оценку должны представить доказательства качества инструментов оценки. Психометрические методы позволяют нам выделить плохо разработанные

оценочные вопросы, чтобы улучшить их качество (Tavakol, Dennick, 2016a). Психометрические результаты позволяют разработчикам оценки не только разрабатывать более справедливые оценочные вопросы с точки зрения равенства и разнообразия, но и повышать эффективность своих подходов к обучению. Кроме того, психометрический анализ оценочных вопросов позволит преподавателям-медикам улучшить свои навыки в разработке тестов (Ebel, 1972).

Следует подчеркнуть, что оценка - это измерение обучения и что понимание факторов, влияющих на точность, надежность и валидность процесса измерения, необходимо для создания высококачественных оценок. Назначение настоящего руководства - дать общее представление об основах измерения и оценки в медицинском образовании для тех, кто пока не знаком с этим предметом. Оно охватывает следующие разделы:измерение и оценка, формирующая и итоговая оценка, оценки на основе норм и критериев, определение стандартов, доказательства надежности и валидности и выбор лучших оценочных вопросов.

ИЗМЕРЕНИЕ И ОЦЕНКА

Измерение определено как присвоение числовых значений объектам, событиям, атрибутам и особенностям в соответствии с правилами (Miller et al., 2013). Согласно этому определению, характеристики объектов, событий,атрибутов и особенностей обозначаются числами. Пример может прояснить эти «правила». Если студенты сдают экзамен с одинаковыми инструкциями, администрированием, оценочными вопросами и системой оценки, мы можем сравнивать оценки студентов друг с другом. Например, если студент получает оценку 70% по физиологии и оценку 80% по анатомии, мы реально измерили способности студента. Присваивая результатам студентов числовые значения, мы измеряем их успеваемость. Действительно, оценки означают различия в измеряемых характеристиках (например, в успеваемости студентов). Следовательно, измерение будет значимым, если студенты будут оцениваться по одним и тем же правилам, в противном случае измерение не имеет

смысла. Инструмент измерения (например, оценочные вопросы для измерения знаний студентов о сердечно-сосудистой системе) должен быть объективным. В противном случае субъективные интерпретации не позволят измерить компетентность студента по исследуемым знаниям или навыкам (McDonald, 2014). Например, на объективном структурированном клиническом экзамене (ОСКЭ) субъективная интерпретация поведения студентов при ответе на отдельные части может дать неверный результат успеваемости студентов, если у нас нет заранее определенной объективной меры измеряемого навыка. Тем не менее опыт специалиста-эксперта может быть использован для получения более субъективных «глобальных» оценок. В то же время следует отметить, что оценка, основанная на объективной интерпретации, может быть бессмысленной, если она построена на неэффективных вопросах.

Оценка описывает, «насколько хорошо человек успевает?» (Miller et al., 2013). Мы стараемся улучшить все оценочные вопросы, чтобы убедиться в точности и стабильности результатов оценки. Данные оценки используются для обоснования решений «сдал/не сдал» у когорты студентов, доказательства эффективности курса и валидности и надежности тестов (например, тестовые задания или ОСКЭ). Такие решения «сдал/не сдал» основаны на процессе измерения. Валидная и надежная оценка студентов преследует 3 основные цели: «оптимизировать возможности всех обучающихся и медработников, обеспечивая мотивацию и направление для будущего обучения, защищать общественность путем выявления некомпетентных врачей и служить основой для отбора абитуриентов или курсантов» (Epstein, 2007). Следует от-

метить, что в медицинском образовании оценка должна основываться на результатах обучения на отдельных курсах, которые соответствуют национальным стандартам. После обучения студенты должны быть готовы успешно применить результаты обучения на практике (изменение поведения). Когда преподаватели медицины преподают определенный курс, например результат-ориентированный курс по кардиологии, а затем студенты меняют свое поведение (т.е. происходит обучение), «оценка становится неотъемлемой частью процесса преподавания и обучения» (Miller et al., 2013). Для разработки и совершенствования процесса оценки и преподавания-обучения были предложены следующие рекомендации (Brookchart Nitko, 2008; Miller et al., 2013):

1. Определите ожидаемые результаты обучения для студентов. Какими компетенциями должны обладать студенты, когда их обучение будет завершено? Какие навыки обеспечивают их готовность к практике?

2. Убедитесь, что методы оценки соответствуют предполагаемым результатам обучения.

3. Оцените потребности студентов в отношении предполагаемых результатов обучения. Это поможет вам определить компетенции, которыми должны обладать студенты по завершении определенного учебного курса.

4. Проводите текущую оценку, чтобы отслеживать процесс обучения. Текущая оценка позволит вам предоставить содержательную обратную связь вашим студентам и экспертам. Обратная связь позволяет студентам лучше понять свои пробелы и заблуждения.

5. Повысьте валидность оценки, применяя различные методы оценки.

6. При оценке результатов учитывайте ошибки, связанные с оценкой, потому что ни один инструмент оценки не защищен от ошибок.

В дополнение к этому анализ данных экзамена поможет контролировать и улучшать процесс экзамена, как описано у Tavakol, Dennick, 2011b.

ТЕКУЩАЯ И ИТОГОВАЯ ОЦЕНКА

Формирующая Iтекущая1 оценка. Студенты должны знать о пробелах в своих компетенциях, чтобы восполнить их. Другими словами, разница между текущим статусом и желаемой целью называется пробелом в компетенциях (или образовательными потребностями), и студентам необходимо предпринять определенные действия для достижения желаемых целей (Black, Wiliam, 1998). С помощью эффективной формирующей оценки студенты понимают свой текущий статус (где я сейчас?) и узнают, как достичь желаемой цели (как я могу достичь этого?). Текущая оценка, иногда называемая «оценкой для обучения», представляет собой постоянный процесс или руководство, а не формальный тест, направленный на мониторинг обучения во время преподавания. С помощью текущей оценки оцениваются качество преподавания и учебный опыт. На основании этих оценок медицинские преподаватели корректируют учебные материалы и уточняют результаты обучения, чтобы студенты могли достичь желаемых целей обучения. Конструктивная обратная связь обучающимся и преподавателям является краеугольным камнем текущей оценки (Shepard, 2006). Следует подчеркнуть, что текущая оценка - это средство мониторинга и улучшения процесса преподавания и обучения, а не обоснование для решений «сдал/ не сдал».

Итоговая оценка - любой формальный учебный курс заканчивается оценкой, направленной на то,чтобы признать уровень знаний студентов и убедиться, что студенты достигли желаемых результатов обучения. В отличие от текущей оценки, цель итоговой оценки - принятие точного решения «сдал/ не сдал». Анализ данных экзамена может дать медицинским преподавателям полезную обратную связь, чтобы лучше понять соответствие результатов обучения и эффективность преподавания. Кроме того, с помощью итоговой оценки мы заверяем общественность, что наши студенты освоили минимальные стандарты диагностики и лечения пациентов (Norcini, Dawson-Saunders, 1994).

НОРМАТИВНО-ОРИЕНТИРОВАННОЕ И КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННОЕ ИЗМЕРЕНИЕ

Эти термины широко используются в медицинском образовании, они связаны с интерпретацией и решением о результатах оценки. Нормативно-ориентированные интерпретации направлены на оценку уровня подготовки студента относительно распределения оценок в группе студентов. Другими словами, успеваемость отдельных студентов сравнивается с успеваемостью в группе с использованием произвольного числа в качестве проходного балла. Например, экзамен сдадут те, у кого оценка равна или выше проходной. Это означает, что тесты на основе норм могут не отражать связи оценки студента с усвоением результатов обучения по учебной программе. Поэтому, например, мы можем только сказать, что 88% студентов набрали больше баллов, чем Джон. В этом примере успеваемость Джона сравнивается с успеваемостью других студентов в его группе. Нормативно-ориентированная оценка может содержать сложные

вопросы, чтобы дифференцировать участников с высокими и низкими показателями. Это полезно, когда нужно выбрать несколько абитуриентов из группы при наличии конкурса, например при отборе и приеме абитуриентов в медицинский вуз.

Критериально-ориентированные интерпретации, иногда называемые объективными, как следует из названия, связаны с критериями, которые являются результатами обучения в рамках курса. При таком подходе оценка студента интерпретируется на основе результатов обучения без какого-либо сравнения с другими студентами.

Например, предположим, что если в экзамене 20 вопросов и каждый вопрос измеряет конкретный элемент обучения, мы можем сказать, что Рита правильно ответила на 80% вопросов, это означает, что она достигла 80% результат обучения. Следовательно, она получит критериально-ориентированную оценку 16 (при условии, что максимальная общая оценка составляет 20). Преподаватели составляют экзаменационные задания на основе результатов обучения и учебной программы. При таком подходе они выбирают набор заданий разной степени сложности для измерения успеваемости студента. Разработчики стандартов определяют заслуживающий доверия и обоснованный проходной балл, используя процесс суждения, чтобы принять решение «сдал/не сдал», так как нельзя ожидать, что все намеченные результаты обучения будут достигнуты студентами.

ОПРЕДЕЛЕНИЕ ПОРОГОВОГО БАЛЛА

Определение стандартов успеваемости -важный вопрос в медицинском образовании. Разработчики стандартов судят об успеваемости студентов и о том, могут ли они

выполнить конкретную задачу в реальной жизни. Задача разработчиков стандартов -разделить студентов на соответствующие группы: тех, кто успешно пройдет экзамен, тех, кто не пройдет экзамен, а также пограничную группу. Большинство методов определения стандартов используют успеваемость пограничного студента, который не относится однозначно к сдавшим или не сдавшим, а затем определяют проходной балл, чтобы установить минимальный уровень успеваемости, отделяя тех студентов, успеваемость которых выше порога, от тех, у кого он ниже (Kolen, 2006).

В литературе описан ряд методов определения стандартов. Более полное описание этих методов см.: McKinley, Norcini, 2014; Cizek, 1996; Downing et al., 2006. Эти методы были разделены на 2 группы: тест-ориентированные и студент-ориентированные (Cizek, 2012). В тест-ориентированных методах группа разработчиков стандартов тщательно изучает каждый вопрос по очереди на предмет его легкости или сложности для пограничного студента. Разработчики стандартов оценивают вероятность того, что пограничный студент даст правильные ответы на задания. Наиболее популярными тест-ориентированными методами являются метод Ангоффа (и его модификации), метод Эбеля и метод Недельского соответственно. Эти методы подвергались критике по 2 причинам. Во-первых, разработчикам стандартов очень сложно представить себе уровень знаний и навыков пограничных студентов, чтобы оценить вероятность того, что они правильно ответят на экзаменационные вопросы. Во-вторых, при смене разработчиков стандартов меняется и проходной балл (Cizek, 1993). В студент-ориентированных методах проходной балл основывается на фактической успе-

ваемости студентов на конкретном оценочном мероприятии. В этих методах внимание уделяется успеваемости студентов, а не экзаменационным вопросам. Наиболее популярными студент-ориентированными методами являются метод медианной границы, метод регрессии и метод контрастных групп. Используются и другие методы, например метод кластерного анализа (Sireci, Robin, 1999).

Представление данных об успеваемости [нормативных). Нужно ли нам предоставлять разработчикам стандартов данные об успеваемости для каждого задания перед установлением проходного балла? Ответ на этот вопрос можно найти в литературе, где проводились экспериментальные исследования. Существуют разногласия по поводу влияния данных об успеваемости на проходную оценку. Например, было показано, что корреляция между фактической сложностью задания и рейтингом Ангоффа увеличивается при предоставлении результатов анализа заданий разработчикам стандартов (Bowers, Shindoll, 1989). Метаанализ показывает, что предоставление значений сложности заданий разработчикам стандартов привело к снижению проходного балла при использовании методов Ангоффа (Hurtz, Auerbach, 2003). Более того, утверждалось, что влияние данных об успеваемости на проходной балл «может быть больше психологическим, чем психометрическим». Утверждалось, что предоставление значений сложности задания влияет на вариабельность между разработчиками стандартов, а не на установленный проходной балл. Кроме того, разработчики стандартов «чувствуют большую уверенность относительно разработанных стандартов при наличии обсуждения и обратной связи» (Hambleton et al., 2012). Экспериментальное исследование показало, что разработчики

стандартов сопоставляют начальные рейтинги с данными об успеваемости (С1аизег е1 а1., 2009).

Некоторые исследования показывают, что проходной балл увеличивается, а некоторые исследования - что он уменьшается при предоставлении данных об успеваемости разработчикам стандартов. Недавний отчет о влиянии данных об успеваемости на проходные баллы с использованием крупномасштабного исследования показал, что данные об успеваемости влияют как на вариабельность между разработчиками стандартов,так и на полученные проходные баллы. Авторы пришли к выводу, что «данные об успеваемости, безусловно, могут давать различия» (МагдоИз, С1аизег, 2014). Кроме того, было ясно показано, что предоставление разработчикам стандартов обратной связи позволяет им выявить свои ошибки при определении стандартов. Построение гистограммы установленных разработчиками баллов и описательной статистики (особенно стандартного отклонения рейтингов) ответов студентов на экзаменационные вопросы может повысить уровень консенсуса среди разработчиков стандартов. По проходным баллам, определенным каждым разработчиком стандартов, должна предоставляться дополнительная обратная связь об успеваемости студентов. Если процент не сдавших экзамен не приемлем для каждого разработчика стандартов или группы, они могут захотеть снизить проходной балл, или если разработчик стандартов установил порог заданию 25% (вероятность того, что пограничный студент ответит на задание правильно), но 90% студентов ответили на задание правильно,разработчик стандартов может изменить задание и обсудить его с коллегами. Очень важно, чтобы разра-

ботчики стандартов лучше понимали значение такой обратной связи и возможности ее использования. В противном случае они могут игнорировать содержание заданий, а их проходные баллы будут основаны на параметрах их сложности (Hambleton et al., 2012; Hambleton, Pitoniak, 2006). Корреляция между значениями сложности заданий и проходными баллами разработчиков стандартов может указывать на связь между проходными баллами и эмпирической сложностью вопросов (Buckendahl, Davis-Becker, 2006).

Использование метода Ангоффа с моделью Раша для расчета проходной оценки

Модель Раша описывает взаимосвязь между успеваемостью студентов и сложностью заданий и содержит ряд методов, в том числе метод, который можно использовать для определения вероятности того, что студенты смогут ответить на определенный набор тестовых заданий. Например, оценивая успеваемость пограничного студента по методу Ангоффа, для определения проходного балла можно использовать параметры (или калибровки) сложности задания по модели Раша на основе рейтингов Ангоффа. Поэтому, если у нас есть уровень сложности каждого задания с использованием модели Раша и рейтинги Ангоффа для задания, мы можем определить проходные баллы для каждого задания. Для получения дополнительной информации о модели Раша читателям рекомендуется обратиться к руководствам AMEE (Tavakol, Dennick, 2013; Tavakol, Dennick, 2012). Следует подчеркнуть: если задания не соответствуют модели Раша, это может повлиять на проходную оценку, так как несоответствующие задания сложнее, чем соответ-

ствующие. Еще один совет заключается в том, что в рамках модели Раша, когда предполагаемая сложность задания равна успеваемости студента, вероятность того, что студент ответит на задание правильно, составляет 50%. Кроме того, включение оценок сложности заданий в рейтингАнгоффа не влияет на определение стандартов на основе содержания (Taube, 1997).

Компенсационная и конъюнктивная стратегии определения проходного балла. Компенсационная стратегия/оценка использует совокупность оценок, которая сравнивается с определенным проходным баллом для принятия решения «сдал/не сдал». Например, на ОСКЭ, если у нас есть 20 станций с общим проходным баллом 65%, для измерения клинической успеваемости студентов вычисляют среднее значение баллов для всех станций, и те, кто получил оценку 65% или более, проходят ОСКЭ успешно. При таком подходе те, кто получил низкие оценки на одних станциях, но высокие на других, могут компенсировать свои низкие результаты и потому могут пройти весь ОСКЭ. Рассмотрим ОСКЭ с 4 станциями по неврологии, кардиологии,урологии и психиатрии. Если проходной балл по неврологии 20, по кардиологии - 25, по урологии - 20 и по психиатрии - 25, то студент, получивший оценку 15 по неврологии (не сдал), 30 по кардиологии (сдал), 18 по урологии (не сдал) и 30 по психиатрии (сдал), сдал бы ОСКЭ в целом. Эта стратегия полезна для модерирования оценок студентов, если модерационный комитет (эксперты по содержанию) обнаружил, что на некоторых станциях возникли проблемы, например ненадежность экзаменатора. Если оценка на станциях основана на одном конструкте, например на оценке клинической подготовки, среднее значение оценок станций

содержательно представляет интересующий экзаменаторов конструкт, и, следовательно, низкую оценку на одной или на двух станциях можно не учитывать, если общая успеваемость достаточная (Haladyna, Hess, 1999).

При конъюнктивной оценке каждая станция представляет собой отдельный конструкт с отдельными проходными баллами, и при оценке недопустим провал любой из этих станций, так как считается, что для безопасности пациента необходимо успешное выполнение всех станций. Оценки по одной станции не влияют на то, прошел ли студент другие станции. Для лицензионных экзаменов ответственные за оценку могут использовать конъюнктивную оценку, так как считается, что экзаменуемый должен быть компетентен в исследуемом конструкте. Следовательно, сумма оценок частей не имеет смысла при конъюнктивной оценке. Не сдавших кандидатов будет явно больше при конъюнктивной оценке, чем при компенсационной, потому что у кандидатов ожидается разная успеваемость на различных станциях. При использовании конъюнктивного подхода вышеуказанный студент не прошел бы ОСКЭ, так как он или она не прошли 2 станции (неврология и урология). Хотя конъюнктивный подход является основным для подтверждения компетентности и способностей врачей и направлен на обеспечение безопасности пациентов, потенциально он может привести к большему количеству несдач, что может быть проблематично с профессиональной точки зрения (Haladyna, Hess, 1999). Однако следует подчеркнуть, что компенсационный подход может иметь большее значение во многих предметных областях, так как студенты могут не одинаково успевать по всем компетенциям, при этом сильные

стороны могут компенсировать слабые ^еку, Репе, 2006).

НАДЕЖНОСТЬ И ВАЛИДНОСТЬ

Надежность и валидность - 2 важных аспекта измерения. Оценка может дать надежный результат только в том случае, если группа студентов может быть систематически ранжирована при многократной оценке. Полезная аналогия для понимания надежности - это «шум» при тесте. Все, что отвлекает от проводимых измерений, создает ошибки и шум в тесте и, следовательно, увеличивает ненадежность. Существуют разные подходы к измерению надежности результатов тестов (табл. 1).

Следует отметить, если оценка не имеет достаточной надежности, ее полезность всегда будет под вопросом. Что более важно, оценка может постоянно ранжировать группу студентов, но это ничего не говорит о том, что она должна измерять. Поэтому валидность - еще одно свойство теста, которое необходимо учитывать.

ВАЛИДНОСТЬ

Валидность отражает «степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов, полученных при предлагаемом использовании тестов». Учитывая это, эксперты должны четко понимать предлагаемую интерпретацию и использование оценок студентов. Например, если мы думаем, что студент отличился, правильно ответив на 95% вопросов в тесте, действительно ли это так? Или кто-то напрямую помогал студенту во время оценки?

Если некоторые вопросы не были основаны на целях обучения или некоторые вопросы не позволяли различать студентов с высокой и низкой успеваемостями, 95%

могут не быть хорошим показателем для интерпретации успеваемости студента. Следует подчеркнуть, что валидность не связана ни с оценочными вопросами, ни с результатами оценки. Она связана с выводами и с решениями по результатам оценки (Kane, 2002).

Традиционные виды валидности, которые включали содержательную, критериальную, и концептуальную валидность, были отвергнуты Стандартами образовательного и психологического тестирования, именуемыми далее Стандартами (Американская ассоциация исследований в области образования -American Educational Research Association, AERA et al., 1999). Вместо этого в этом документе описаны 5 видов доказательств валидности, которые обсуждаются ниже.

Доказательства на основе содержания оценки

Вопросы каждого теста представляют собой выборку из всех потенциальных экзаменационных вопросов, поэтому нам необходимо изучить, насколько хорошо такая выборка экзаменационных вопросов может быть обобщена на все возможные экзаменационные вопросы. Насколько хорошо экзаменационные вопросы соответствуют целям обучения? Насколько хорошо экзаменационные вопросы представляют исследуемые области знаний? Насколько хорошо экзаменационные вопросы составлены, написаны и классифицированы по темам? Насколько хорошо проводятся экзамены и выставляются оценки? Те, кто имеет опыт в предметной области, могут представить доказательства на основе содержания. Например, группа экспертов может интерпретировать репрезентативность выборки оценочных вопросов в тесте для данной группы студентов. Чтобы уточнить содержательную валидность экзаменационных вопросов с точки зрения

Таблица 1. Подходы к надежности результатов тестов

Подход Измерение Описание

Тест - повторный тест Стабильность теста Тот же тест дают тем же студентам в разное время. Корреляция между оценками 2 проверок дает нам оценку надежности результатов тестов

2 разных варианта теста дают тем же студентам в разное время. Корреляция между оценками 2 измерений дает нам „ меру эквивалентности между 2 тестами, это означает, что Параллельные _ _ ~ , р Эквивалентность 2 теста измеряют один конструкт. Это очень важно для тех, кто ф р имеет дело со стандартизированным тестом. Кроме того, если эксперты опасаются обмана во время тестирования, они создают 2 параллельные формы теста

Разделение пополам Внутренняя согласованность Из-за ошибок, связанных с проведением тестов дважды (например, утомляемость), проводят один тест, а надежность результатов тестов измеряют путем разделения заданий на 2 половины. Используя формулу Спирмена-Брауна, оценивают надежность результатов тестов (см. Руководство AMEE № 54, чтобы вычислить коэффициент надежности разделения пополам с использованием SPSS) (Tavakol, Dennick, 2011a)

Коэффициент Тест проводят 1 раз. Используя коэффициент альфа Кронбаха альфа В и формулу Кудера-Ричардсона, оценивают надежность результатов и формула у р тестов (см. Руководство AMEE № 54 для получения дополнительной „ согласованность ^ оп^о Г/т . . Кудера- информации с использованием SPSS для их оценки) (Tavakol, Ричардсона Dennick, 2011a)

Метод Хойта (Hoyt, 1941) Внутренняя согласованность Тест дают студентам 1 раз. Оценка надежности равна коэффициенту альфа Кронбаха, но ее оценивают с использованием подхода дисперсионного анализа (АЫОУА) или компонента дисперсии (УО). Формула следующая. Подход АЫОУА: 1 - средние квадраты для остатка/средние квадраты для студентов. Компонент дисперсии: (VС студентов / пв) / [^0 студентов / пв) + V остатка) / (пв х V остатка). См. Приложение А

Когда предположения для коэффициента альфа Кронбаха Коэффициент Внутренняя г ^^ . . ^ г ^^ ' г нарушаются, следует указывать коэффициент омега как показатель омега согласованность надежности результатов тестов

Коэффициент тета Надежность Валидность результатов тестов оценивают на основе факторного анализа основных компонентов с использованием первого собственного значения однофакторного решения. Расчетное значение - максимально возможное значение коэффициента альфа

Согласованность 2 или более экзаменатора независимо выставляют оценки Межэкспертная рейтингов успеваемости студентов (например, во время ОСКЭ), затем может надежность экзаменаторов быть рассчитана корреляция между оценками 2 экзаменаторов (согласован- или согласие как мера согласованности между ними. Если имеется более ность) среди 2 экзаменаторов, коэффициент альфа Кронбаха можно экзаменаторов использовать как показатель согласованности экзаменаторов

Теория обобщаемости Определяют согласованность и обобщаемость результатов тестов Этот подход использует статистическую модель для выделения и измерения различных источников ошибок, связанных с полученными оценками, что позволяет ответственным за оценку получать более четкую картину этих ошибок для интерпретации истинной оценки. Читателям рекомендуется обратиться к Руководству АМЕЕ № 66 для получения дополнительной информации

Таблица 2. Таблица нормирования для 30 вопросов теста по кардиологическому осмотру

Цели обучения

Содержание Знания Понимание Применение Анализ Синтез Суждение Всего

Кардиологический 2 1 2 Q 3Q

осмотр

Пороки клапанов 10 0 5 5 0 4 24

Хроническая сердечная недостаточность 8 0 0 0 0 2 10

Сердечные аритмии 5 0 0 0 0 5 10

Сердечнососудистые препараты 10 0 6 3 3 4 26

Всего 43 2 12 10 3 30 100

предметной области и целей обучения, составляется таблица нормирования.

Таблица нормирования. Предположим, вы хотите разработать 30 тестовых заданий для создания репрезентативной выборки по кардиологии. Эти вопросы должны основываться на целях обучения. Предположим, что содержание предмета включает оценку сердечной деятельности, пороки клапанов, хроническую сердечную недостаточность, сердечные аритмии и сердечно-сосудистые препараты, а цели обучения основаны на таксономии Блума (например,знания, понимание, применение,анализ, синтез и оценивание).

Мы хотим, чтобы оценочные вопросы кардиологического теста включали как содержание, так и цели обучения. Составление таблицы позволит нам отразить содержание и цели обучения. В табл. 2 показана гипотетическая таблица нормирования вопросов теста по кардиологии.

Цифры в каждой ячейке указывают относительный процент на основе целей обучения и содержания. Например, 30% оценочных вопросов теста по кардиологии (т.е. 9 вопросов) будут измерять кардиологи-

ческий осмотр, 24% - пороки клапанов, 10% -хроническую сердечную недостаточность, 10% - сердечные аритмии и 26% - сердечно-сосудистые препараты. Что касается целей обучения, эта таблица показывает, что 43% вопросов будут измерять знания, 2% - понимание, 12% - применение, 10% -анализ, 3% - синтез и 30% - суждение (т.е. 9 вопросов). Следует подчеркнуть, что процентное соотношение содержания курса и целей обучения в таблице должно отражать акценты в преподавании предмета (Miller et al., 2013).

Доказательства на основе процесса ответа

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Этот вид валидности требует доказательства того, насколько измеряемый конструкт соответствует характеру работы или ответа, в которых участвуют студенты. Например, эксперты разработали тест для измерения конструкта депрессии - соответствуют ли оценочные вопросы конструкту депрессии (т.е. представлению конструкта). Другой вопрос: связаны ли оценочные вопросы с другими факторами, не относящимися к конструкту депрессии (т.е. дисперсия,

связанная с конструктом). Поэтому валидность теста окажется под угрозой, если исследуемый конструкт будет недостаточно представлен или на него влияют факторы, не относящиеся к делу. Заинтересованные читатели могут найти дополнительную информацию о недостаточном представлении конструкта и дисперсии, не связанной с конструктом, в других источниках (Downing, 2002).

Существуют разные методы получения доказательств валидности процесса ответа. Эти методы основаны на методах сбора качественных данных, таких как устное интервью и интервью в фокус-группах. Например, проведение фокус-групп со студентами позволяет нам лучше понять релевантность задания и предполагаемый конструкт. Наблюдение за экзаменаторами при ОСКЭ позволяет нам понять, как они оценивают и интерпретируют успеваемость студентов. Эксперты должны убедиться, что экзаменаторы оценивают студентов на основе предполагаемых критериев,а не факторов, не имеющих к ним отношения. Качественный анализ тестовых заданий также можно найти в Руководстве AMEE № 54 (Tavakol, Dennick, 2011b).

Доказательства на основе внутренней структуры

Этот вид доказательства валидности основан на количественных методах, использующих психометрическо-статистические выводы. Мы хотим представить доказательства связи между заданиями и результатами оценки и измеряемого конструкта. Оценка может измерять один конструкт (одномерная) или несколько (многомерная). Если объединяющая теория подкрепляет одномерность теста, доказательства однородности выявляются при анализе, и поэтому

взаимосвязь заданий будет оценкой надежности результатов теста (AERA et al., 1999).

Для получения доказательств на основе внутренней структуры может применяться ряд методов. Например, анализ Раша - это один из методов, который позволяет нам определить психометрическую структуру оценочных вопросов. Анализ Раша был полностью описан в руководстве AMEE № 72 (Tavakol, Dennick, 2013). В отношении использования факторного анализа заинтересованные читатели могут обратиться к руководству AMEE № 66 (Tavakol, Dennick, 2012), в котором описывается, как определить внутреннюю структуру оценок.

Другой пример - исследование, изучавшее базовую внутреннюю структуру ОСКЭ с целью установления «скрытых структур, характеризующих измеряемые клинические навыки» (Volkan et al., 2004).

Дифференциальное функционирование заданий (Differential Item Function, DIF) очень полезно для определения того, являются ли оценочные вопросы справедливыми для разных категорий экзаменуемых (например, пол, раса и этническая принадлежность). Использование подхода DIFдля обнаружения предвзятости на экзаменах обсуждается ниже. Другой подход к предоставлению доказательств на основе внутренней структуры называется подходом контрастных групп, иногда также называемым подходом известных групп. При этом подходе тест проводят для 2 групп людей, которые имеют разные знания об исследуемом конструкте (чрезвычайно высокие и чрезвычайно низкие). Разница в оценках между группами рассчитывается с использованием подходящей статистической процедуры. Если есть статистическая значимость между средними показателями успеваемости двух групп, эксперт может рассматривать это как частичное

подтверждение конструктной валидности (Feher Waltz et al., 2010; Miller et al., 2013). Качественный подход - это когнитивное интервью, при котором студентов просят рассуждать вслух об экзаменационных вопросах по проверяемому конструкту. Это дает доказательства, «обогащающие определение конструкта» (AERA et al., 1999).

Доказательства на основе связей с внешними переменными

Другой подход, предложенный AERA для предоставления доказательств валидности, заключается в выявлении связи между результатами тестов и внешними переменными. Результаты 2 оценок коррелируют друг с другом, если обе оценивают один конструкт. Мы ожидаем получить положительную корреляцию между тестом на коммуникативные навыки и тестом по психиатрии и, возможно, низкую корреляцию между тестом на коммуникативные навыки и тестом по хирургии. Так же можно дать прогноз успеваемости студентов в будущем. Например, в процессе приема абитуриентов, если результаты по физике и математике сильно коррелируют с последующей успеваемостью в медицине, приемная комиссия может рассматривать физику и математику как требования для поступления на медицинские специальности. Здесь физика и математика называются критериями, а такой подход - критериальной валидностью. Поэтому фундаментальный вопрос заключается в том, «насколько точно результаты тестов соответствуют критериям» (American Educational Research Association et al., 1999). Описаны 2 типа критериальной валидности: диагностическая и прогностическая. В случае оценки диагностической валидности тест и критерий применяются одновременно. Рассчитывается корреляция между результатами теста и критериями

как коэффициент валидности. Например, для ОСКЭ можно рассчитать корреляцию между чек-листом и оценочной шкалой. Или провести тест в виде ситуационной задачи (Situational Judgement Test, SJT) и отдельную станцию ОСКЭ в течение одного дня экзамена, а затем сопоставить эти оценки. Прогностическая валидность использует результаты тестов для прогнозирования поведения студентов в будущем. Для получения коэффициента прогностической валидности проводят тест в исследуемой группе студентов, и после сбора критериальных оценок(например,через 6 мес) мы можем рассчитать корреляцию между результатами теста и критериальными оценками. Результаты теста также называют предиктором. Например, руководитель приемной комиссии в медицинском вузе может рассматривать уровень A по физике как хороший предиктор успеваемости в медицинском вузе (критерий), т.е. предполагается хорошая корреляция между предиктором (физика) и критерием (успеваемость студента). Такой подход позволяет прогнозировать поведение студентов в будущем с помощью предиктора. Если это так, мы можем установить прогностическую валидность наших оценочных вопросов. Следует подчеркнуть, что и предиктор, и критерий должны иметь высокую валидность, иначе мы можем получить неверное представление о прогностической валидности наших тестов.

Доказательства на основе результатов тестирования

Последний тип доказательств валидности, описанный в стандартах, основан на предполагаемых и непредвиденных последствиях результатов оценки. Как экзаменационные вопросы могут повлиять на

систему образования в целом? Как текущая, так и итоговая оценки направлены на улучшение успеваемости студентов. Улучшают ли они компетентность студентов? Повышают ли они мотивацию студентов? Улучшают ли они обучение? Ответы на эти вопросы могут дать доказательства валидности положительных последствий результатов оценки. Интерпретация результатов оценки может иметь ряд непредвиденных отрицательных последствий, например увеличение отсева студентов-медиков или избыточная сосредоточенность на тесте с игнорированием целей обучения. Также можно рассмотреть разработку теста для измерения успеваемости студентов по гинекологии и акушерству. Если тест необъективен и студентки успевают лучше студентов мужского пола, тест может иметь непреднамеренные последствия.

Вы также можете преподавать, основываясь на содержании оценки, и сосредоточиться на практических материалах с целью повышения удовлетворенности студентов. В целом, чтобы судить об интерпретации результатов оценки, преподаватели должны представить доказательства о последствиях своих оценок, особенно на экзаменах высокой значимости. Для измерения частоты, с которой возникают положительные и отрицательные последствия, проводятся описательные исследования (Goodwin, 2002).

АНАЛИЗ ЭКЗАМЕНАЦИОННЫХ ВОПРОСОВ

Анализ экзаменационных вопросов дает полезную информацию об оценках, полученных студентами на экзаменах. Оценки студентов могут вводить в заблуждение, если к оценкам добавляются ошибки. Оценочные задания низкого качества могут быть источником ошибки и причиной несправедливой оценки. Если составитель

теста назначил заданиям неправильный ответ в качестве верного, если задания имеют более одного лучшего ответа, если задания слишком сложны для группы студентов, мы получим вводящую в заблуждение оценку студента. Эти вопросы, которые иногда называют неэффективными/ мошенническими/некорректными, следует скорректировать до публикации оценок студентов. Для выявления неэффективных вопросов обычно используют 2 общих статистических показателя: сложность задания и показатель дискриминации задания. Сложность задания соответствует доле студентов, которые правильно ответили на вопрос. Дискриминация задания показывает, позволяет ли задание различать участников с высокими и низкими показателями. Подробное описание индивидуального анализа с использованием классической и стохастической теорий тестов (анализ Раша) можно найти в руководствах AMEE № 55 и 72 (Tavakol, Dennick, 2013; Tavakol, Dennick, 2011a). Считается, если 30% студентов ответили правильно на 1-й вопрос и 70% студентов ответили правильно на 2-й вопрос, то 2-й вопрос был легче, чем 1-й вопрос. Если значение сложности задания близко к нулю, задание необходимо изучить и, возможно, исключить, так как оно не дает информации о различиях между компетентностью студентов. Если значение сложности задания близко к единице или равно единице, задание необходимо изучить и, возможно, исключить, так как оно не дает информации о различиях между компетентностью студентов. Другими словами, слишком простые и слишком сложные вопросы не различают студентов с точки зрения оцениваемой успеваемости. Следует отметить, что когда значение сложности задания равно 0,5, дисперсия задания [дис-

криминация задания х (1 - сложность задания)] максимальна, это означает, что все оценочные вопросы должны иметь значение сложности задания 0,5. Однако если задания идеально коррелируют друг с другом и имеют значение сложности задания 0,5, 50% студентов получат идеальную оценку, а 50% студентов - нулевую оценку. Это указывает на то, что задания должны иметь разброс значений сложности, со средним значением около 0,5. Если оценка более однородна, т.е. средняя корреляция между заданиями составляет около 0,4 или более, требуется более широкий разброс сложности заданий. Более узкий разброс сложности заданий требуется, если средняя корреляция между заданиями меньше 0,3 (Непгуззеп, 1971).

Как судить о качестве экзаменационных вопросов? С психометрической точки зрения качество задания хорошее, если у него высокий показатель дискриминации. Низкое качество задания означает отсутствие дискриминации между лучшими и худшими студентами. Для расчета показателя дискриминации для заданий используют различные подходы. Ясно показано, что точечно-бисериальная корреляция (корреляция между оценкой задания и общей оценкой при исключении оценки задания из общей оценки) обеспечивает лучший показатель качества задания (КеНеу е1 а1., 2002). Читателям следует ознакомиться с Руководством АМЕЕ № 54 (Тауако1, Оепшск, 2011а) для получения более подробной информации о точечной бисериальной корреляции.

Значение показателя дискриминации задания должно быть положительным. Хорошее задание имеет точечно-бисери-альную корреляцию 0,25 или выше. Однако очень высокая точечно- бисериальная кор-

реляция указывает на то, что это задание просто повторяет некоторое задание в тесте. Такие задания не дают информацию, позволяющую различать студентов с высокой успеваемостью и студентов с низкой успеваемостью. Отрицательное значение показателя дискриминации указывает на то, что те, кто имеет плохую оценку, правильно ответили на это задание. Такие задания могут указывать, что в оценках студентов имеется ошибка (шум). Например, в задании может быть указан неправильный ответ в качестве верного или оно плохо сконструировано. Такие задания следует пересмотреть или исключить.

ОТБОР ЛУЧШИХ

ЭКЗАМЕНАЦИОННЫХ ВОПРОСОВ

Определение лучших вопросов для оценки - это забота руководителей оценки. Нам необходимо иметь некоторые знания о средних оценках заданий, стандартном отклонении для заданий и показателе надежности заданий, чтобы выбрать лучшие задания для оценки. Средняя оценка задания соответствует доле студентов, ответивших на вопрос правильно, это называется сложностью задания или р-значением в диапазоне от нуля до единицы. Стандартное отклонение для задания - это квадратный корень из р-значения х (1 - р-значение). Показатель надежности задания - это то-чечно-бисериальная корреляция между оценкой задания и общей оценкой теста, умноженная на стандартное отклонение для задания. Значения стандартного отклонения измеряют вклад заданий в надежность результатов теста. Следовательно, если 2 задания имеют одинаковые значения точечно-бисериального коэффициента, задание с большим значением стандартного отклонения вносит более значительный

вклад в надежность результатов теста (Crocker, ALgina, 2008).

ХАРАКТЕРИСТИЧЕСКИЕ КРИВЫЕ ЗАВИСИМОСТИ ЗАДАНИЙ И ОТВЕТОВ

Кривые зависимости заданий и ответов (Item Characteristic Curves, ICC) иллюстрируют взаимосвязь между компетентностью студентов и сложностью заданий теста (долей студентов, правильно ответивших на задание). Чтобы построить характеристический график задания, оценки студентов (компетентность студентов) помещают на горизонтальной оси, а значение сложности задания - на вертикальной оси (рис. 1). Как можно видеть из этого рисунка, это задание четко различает студентов, что означает: те, кто плохо справился со всем тестом, ответили на это задание неправильно. ICC разных вопросов могут быть изображены на одном графике. Предположим, вы хотите проанализировать 5 оценочных вопросов с помощью ICC для конкретного

теста, как показано на рис. 2. Вопрос 2-й -это неэффективное задание, так как оно не различает студентов по общим результатам теста. Вопрос 5-й также является некорректным заданием, так как он имеет отрицательную взаимосвязь с результатами всего теста. Вопросы Q3 и Q4 показали хорошие результаты для всего теста. Эти вопросы считаются «хорошими». По сравнению с Q3 и Q4 вопрос Q2 является слабым, это означает, что данный вопрос не сильно различал участников с высокими и низкими результатами для всего теста. Следует подчеркнуть, что крутизна ICC является показателем дискриминации задания (Allen, Yen, 2002).

Использование ICC также позволяет нам сравнивать задания с точки зрения их сложности. Если вопрос сдвигает ICC влево по оси способностей студентов, это будет простой вопрос, а сложный вопрос сдвигает ICC вправо. На рис. 2, следовательно, Q4 проще, чем Q3, а Q1 сложнее, чем Q3 и Q4. ICC также

о -

8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

Способность студентов Рис. 1. Кривая зависимости оцениваемого задания

0,5

с

о

10

12

14 16 18

Способность студентов

20

22

Q1

Q2

Q3

Q4

Q5

Рис. 2. Кривые зависимости для 5 гипотетических вопросов

позволяют отбирать лучшие вопросы согласно проходным оценкам. Например, если нас интересует отбор студентов с высокой оценкой, подойдет Q1. Если мы хотим отобрать студентов с низкими оценками, лучше подходят Q3 и Q4.

Еще одно назначение ICC - это измерение того, справедливо ли применяются оценки студентов к меньшинствам (например, расовым и этническим группам). Если 2 студента имеют одинаковый уровень компетентности для измеряемой компетенции (например, на экзамене ОСКЭ), но у них разный пол, раса или этническая принадлежность и они оцениваются по-разному на определенной станции, их оценки будут разными. Если это так, налицо предвзятость оценки на станции, что представляет угрозу для валидности экзамена ОСКЭ. DIF в основном используется для сравнения различий между группами с одинаковым уровнем успеваемости (De Beer, 2004). Следует отметить, что стохастическая модель теории тестов (Item Response Theory, IRT),

в частности модель Раша, использующая ICC, подходит для анализа DIF.

АНАЛИЗ DIF С ИСПОЛЬЗОВАНИЕМ МОДЕЛИ РАША

Полное объяснение модели Раша было приведено в Руководстве AMEE № 72 (Tavakol, Dennick, 2013). Вкратце, в моделях IRT, включая модель Раша, проверяется измеряемая успеваемость (или измеряемого базового конструкта), и уровень сложности задания соответствует компетентности студентов. Другими словами, студенты правильно отвечают на вопрос в зависимости от их компетентности и уровня сложности задания. Вероятность того, что студент ответит на вопрос правильно, можно построить графически с помощью ICC. DIF проводят как средство контроля качества оценок успеваемости. DIF позволяет выявить все оценочные вопросы и станции ОСКЭ, которые ведут себя по-разному для различных групп. Такие оценочные вопросы могут быть исключены из нашего банка экзаменационных вопросов (CamiUi, 2006).

0

8

I—

36

Способность студентов

Рис. 3. Анализ DIF-групп

ICC на основе модели Раша можно использовать для выявления отклонения экзаменационного вопроса (DIF) путем сравнения ICC 2 отдельных групп. Например, вы хотите убедиться в равенстве отношения к иностранным студентам по сравнению с местными студентами на конкретной станции ОСКЭ. Чтобы исследовать эту часть по этнической принадлежности, вам необходимо построить ICC для обеих групп, используя модель Раша (или другие модели IRT). Визуальная оценка (рис. 3) показывает, что для местных студентов эта станция была легче, чем для иностранных. Вероятность того, что местные студенты со способностью 0 логитов (единица измерения, используемая в стохастической теории тестов) пройдут эту часть, составляет 67%, тогда как вероятность прохождения для иностранных студентов со способностью 0 логитов составляет 55%.

Был ли экзаменатор мягким по отношению к местным студентам в сравнении с иностранцами? Следует ли эту станцию

уравнять/модерировать по этнической принадлежности? Если ICC пересекаются друг с другом (они не параллельны) в определенной точке (что называется неоднородной DIF), успеваемость студентов будет меняться в пределах диапазона успеваемости (способностей), но в определенной точке вероятность того, что они сдадут эту станцию, будет одинаковой.

Отсутствие DIF предполагает, что выводы об оценках станций валидны для исследуемых групп. Следовательно, если успеваемость групп (например, по полу, расе и этнической принадлежности) при использовании ICC одинакова (задание/часть не показывает DIF), то нет необходимости вычислять средние различия для исследуемых групп (Lane, Stone, 2006).

КРИВАЯ ХАРАКТЕРИСТИКИ ВАРИАНТОВ

Анализ ответов студентов с выбором правильных и неправильных вариантов в оценочных вопросах дает полезную ин-

0,5

- 4

- 2 0

Способность студентов

Альтернатива A Альтернатива C

Альтернатива B Альтернатива D

Альтернатива Е

Рис. 4. Линии трассировки для 5 альтернатив. Альтернатива Е правильная

формацию о правдоподобности вариантов и эффективности вопросов (Schmeiser, Welch, 2006). Частотное распределение ответов студентов на варианты ответов в вопросе можно проанализировать для суждения о правдоподобности дистракторов в тестовых заданиях с множественным выбором. Эффективность вопроса можно оценить с помощью точечно-бисериальной корреляции, т.е. соотнесения вариантов ответов с общей оценкой. Если существует отрицательная корреляция между правильным вариантом и общей оценкой теста, то у этого задания есть фундаментальная проблема, так как участники с низкой успеваемостью отвечают на вопрос правильно, а участники с высокой успеваемостью - неправильно. Функциональный дистрактор (правдоподобный неправильный ответ) имеет отрица-

тельную корреляцию с общей оценкой теста, если он действительно является дистрак-тором. Если студенты (с высокой и низкой успеваемостью) вообще не выбрали неправильный вариант, этот вариант следует исключить из вопроса. Функциональный дистрактор должен иметь частоту распределения более 5% для исследуемой когорты студентов (Haladyna, Downing, 1988).

Кривые характеристики вариантов или линии трассировки могут отображать функциональные и дисфункциональные дистрак-торы в вопросе. На рис. 4 показаны линии трассировки в вопросе с множественным выбором для группы студентов. Для альтернативы А показано, что тенденция к выбору этой альтернативы уменьшалась по мере увеличения компетентности студентов. Альтернативы B, C и D были выбраны не-

0

2

4

многими студентами, эти 3 неправильные альтернативы не были правдоподобными и легко исключались, это означает, что это задание не различало участников с высокой и низкой успеваемостью. Правильная альтернатива Е была выбрана большинством студентов, и выбор этой альтернативы становился более частым по мере роста компетентности студентов.

ЗАКЛЮЧЕНИЕ

Это руководство АМЕЕ показывает важность измерения и оценки в преподавании и обучении в медицине. Измерение работает с количественными понятиями, в то время как оценка направлена на измерение успеваемости и компетентности студентов. Мы измеряем обучение, чтобы улучшить качество учебной программы. Текущая оценка способствует преподаванию, обучению и обратной связи и помогает улучшить результаты обучения по конкретному курсу. Итоговая оценка, с другой стороны, используется для подтверждения компетентности студентов. Поэтому необходимо, чтобы разработчики стандартов предоставляли заслуживающие доверия и обоснованные проходные баллы, позволяющие разделить студентов на 2 группы: достигших и не достигших мастерства. Предоставление разработчикам стандартов обратной связи при использовании различных методов определения стандартов позволит минимизировать ошибки.

Ответственные за оценку должны представить доказательства надежности и ва-лидности, чтобы точно интерпретировать оценки студентов, что, в свою очередь, приводит к улучшению оценки достижения целей обучения в конкретном тесте. Составление таблицы нормирования показывает содержание и цели обучения, которые отражают валидность. Используя

различные подходы, особенно коэффициент омега, руководители оценки могут представить доказательства надежности своих оценок. Анализ отдельных оценочных вопросов или станций ОСКЭ может уменьшить ошибки измерения и избежать выставления несправедливой оценки. 1СС позволяют руководителям оценки выявлять неэффективные задания, а анализ обнаруживает отклонения оценочных вопросов для определенных групп (например, расовых и этнических). Характеристические кривые вариантов показывают частотное распределение ответов студентов на альтернативные варианты в вопросе. Эти графики показывают, правдоподобны ли эти варианты для дальнейшего использования.

ПРИЛОЖЕНИЕ A

Предположим, у нас есть 3 гипотетических задания: 0 - студенты ответили на задание неправильно и 1 - студенты ответили на задание правильно следующим образом:

Студент Задание 1 Задание 2 Задание 3

1 0 0 0

2 1 1 1

3 1 1 1

4 0 0 0

5 0 1 1

6 0 1 0

7 1 1 1

8 1 1 1

9 1 0 1

10 0 0 0

Чтобы выполнить ANOVA с использованием SPSS, приведенную выше таблицу изменяют следующим образом:

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Можно оценить надежность оценок, используя следующий путь меню в SPSS:

Анализировать > Общая линейная модель > Одномерная (Analyze > General Linear Model > Univariate).

Переместите «оценку» в «зависимую переменную», «задание» и «человек»- в «случайные факторы», а затем нажмите «ОК». Теперь создайте следующую таблицу, используя таблицу «Tests of Between-Subjects Effects».

Источник Сумма квадратов Степени свободы Среднеквадратичное значение

Студент 5,367 9 0,596

Задание 0,067 2 0,033

Студент х задание 1,933 18 0,107

Всего 7,367 29

Теперь можно рассчитать надежность результатов тестов, используя ANOVA следующим образом:

(СК студент - СК ошибка) / СК студент; (0,596-0,107) / 0,596 = 0,82. Также можно оценить надежность оценок, используя компонент дисперсии для студентов. Чтобы оценить его с помощью SPSS, перейдите в меню: Анализировать > Общая линейная модель > Компоненты дисперсии (Analyze > General Linear Model > Variance Components). Переместите переменные, как делали для ANOVA.

Компонент дисперсии для студентов составляет 0,163, а для взаимодействия студентов с заданием - 0,107. Надежность оценки составляет:

(0,163/10) / [(0,163/10) + (0,107/10(3)] = = 0,82.

Студент Задание Оценка

1 1 0

1 2 0

1 3 0

2 1

2 2

2 3

3 1

3 2

3 3

4 1 0

4 2 0

4 3 0

5 1 0

5 2 1

5 3 1

6 1 0

6 2 1

6 3 0

7 1 1

7 2 1

7 3 1

8 1 1

8 2 1

8 3 1

9 1 1

9 2 0

9 3 1

10 1 0

10 2 0

10 3 0

СВЕДЕНИЯ ОБ АВТОРАХ

Тавакол Мохсен (Tavakol Mohsen)* - PhD MClinEd, доцент кафедры психометрии медицинского факультета Ноттингемского университета. Сфера его интересов - оценка в медицинском образовании, психометрический анализ (классическая теория тестов, теория обобщаемости, стохастическая теория тестов, определение стандартов оценки, надежные статистические методы, многомерная статистика, многоуровневое моделирование, количественные и качественные методы исследования). E-mail: mohsen.tavakol0nottingham.ac.uk

Денник Рег (Reg Dennick) - PhD MEd FHEA, профессор медицинского образования Ноттингемского университета. Его основные интересы связаны с преподаванием и исследованиями в области медицинского образования, проблемно-ориентированным обучением, оценкой, клиническим мышлением, обучением персонала и разработкой учебных программ.

E-mail: reg.dennick0nottingham.ac.uk

ЛИТЕРАТУРА/REFERENCES

• Allen M., Yen W. Introduction to measurement theory. Long Grove, IL: Waveland Press, 2002.

• American Educational Research Association, American Psychological Association & National Council on Measurement in Education. The standards for educational and psychological testing. Washington, DC: American Educational Research Association, 1999.

• Black P., Wiliam D. Assessment and classroom learning. Assess Educ. 1998; 5: 7-73.

• Bowers J., Shindoll R. A comparison of the Angoff, Beuk and Hofstee methods for setting a passing score. Iowa: The American College of Testing Program, 1989.

• Brookchart S., Nitko A. Assessment and grading in classrooms. Upper Saddle River, NJ: Pearson Education, 2008.

• Buckendahl C., Davis-Becker S. Setting passing standards for Credentialing programs. In: R.L. Brennan, G.J. Cizek (eds). London: Routledge, 2006.

• Camilli G. Test fairness. In: R. Brennan (ed.). Educational Measurement. USA: ACE, 2006.

• Cizek G. Reconsidering standards and criteria. J Educ Meas. 1993; 30: 93-106.

• Cizek, G. Setting passing scores. Educ Meas Issues Pract. 1996; 15: 20-31.

• Cizek, G. An introduction to contemporary standard setting. In: G. Cizek (ed.). Setting Performance Standards. New York: Routledge, 2012.

• Clauser B., Mee J., Baldwin S., Margolis M., Dillon G. Judges' use of examinee performance data in an Angoff standard-setting exercise for a medical licensing examination: an experimental study. J Educ Meas. 2009; 46: 390-407.

• Crocker L., Algina J. Introduction to classical and modern test theory, Mason, Ohio: Cengage Learning, 2008.

• De Beer M. Use of differential item functioning (DIF) analysis for bias analysis in test construction. J Ind Psychol. 2004; 30: 52-8.

• Downing S. Threats to the validity of locally developed multiple-choice tests in medical education: construct-irrelevant variance and construct underrepresentation. Adv Health Sci Educ. 2002; 7: 235-41.

• Downing S., Tekian A., Yudkowsky R. Procedures for establishing defensible absolute passing scores on performance examinations in health Professions education. Teach Learn Med. 2006; 18: 50-7.

• Ebel R. Essentials of educational measurement. London: Prentice-Hall International, 1972.

• Epstein R. Assessment in medical education. N Engl J Med. 2007; 356: 387-96.

• Feher Waltz C., Stricland O., Lenz E. Measurement in nursing and health research. New York: Springer, 2010.

*Автор для корреспонденции.

Goodwin L. Changing conceptions of measurement validity: an update on the new standards. J Nurs Educ. 2002; 41: 100-6.

Haladyna T., Hess R. An evaluation of conjunctive and compensatory standard-setting strategies for test decisions. Educ Assess. 1999; 6: 129-53.

Haladyna T.M., Downing S. Functional distractors: implications for test-item writing and test design. 1988 [Electronic resource]. URL: http://files.Eric.Ed.Gov/fulltext/ed293851.pdf (date of access August 10, 2015) Hambleton R., Itoniak M., Copella J. Essential steps in setting Performance standards on educational tests and strategies for assessing the reliability of results. In: G. Cizek (ed.). Setting Performance Standards. London: Routledge, 2012.

Hambleton R., Pitoniak M. Setting performance standards. In: R.L. Brennan (ed.). Educational Measurement. USA: American Council on Education, 2006.

Henryssen S. Gathering, analyzing, and using data on test items. In: R. Thorndike (ed.). Educational

measurement. Washington, DC: American Council on Education, 1971.

Hoyt C.J. Test ability estimated by analysis of variance. Psychometrika. 1941; 6: 153-60.

Hurtz G., Auerbach M. A meta-analysis of the effects of modification to the Angoff method on cut-off scores

and judgment consensus. Educ Psychol Meas. 2003; 63: 584-601.

Kane M. Validating high-stakes testing programs. Educ Meas Issues Pract. 2002; 21: 31-41.

Kelley T., Ebel R., Linacre J. Item discrimination indices. Rasch Meas Trans. 2002; 16: 883-4.

Kolen M. Scaling and norming. In: R. Brennan (ed.) Educational Measurement. Westport, CT: American

Council on Education, 2006.

Lane S., Stone C. Performance assessment. In: R. Brennan (ed.) Educational Measurement. USA: ACE, 2006.

Margolis M., Clauser B. The impact of examinee performance information on judges' cut scores in modified Angoff standard-setting exercises. Educ Meas Issues Pract. 2014; 33: 15-21. Mcdonald M. Guide to assessing learning outcomes. New York: Jones and Bartlett Learning, 2014. Mckinley D., Norcini J. How to set standards on performance-based examinations: AMEE Guide No. 85. Med Teach. 2014; 36: 97-110.

Miller M., Linn R., Gronlund N. Measurement and assessment in teaching, Boston, Pearson, 2013. Norcini J., Dawson-Saunders B. Issues in recertification in North America. In: D. Newble, B. Jolly, R. Wakeford (eds). The Certification and Recertification of Doctors. Cambridge: Cambridge University Press, 1994.

Schmeiser C., Welch C. Test development. In: R.L. Brennan (ed.). USA: American Council on Education, 2006.

Shepard L. Classroom assessment. In: R. Brennan (ed.). Educational Measurement. Westport, CT: American Council on Education, 2006.

Sireci S.S., Robin F. Using cluster analysis to facilitate standard setting. Appl Meas Educ. 1999; 12: 301-5. Taube K. The incorporation of empirical item difficulty data into the Angoff standard-setting procedure. Eval Health Prof. 1997; 20: 479-98.

Tavakol M., Dennick R. Post-examination analysis of objective tests: AMEE Guide No. 54. [Electronic resource]. Dundee AMEE, 2001a. URL: www.amee.org

Tavakol M., Dennick R. Post examination analysis of objective tests. Med Teach. 2011b; 33: 447-58. Tavakol M., Dennick R. Post-examination interpretation of objective test data: monitoring and improving the quality of high-stakes examinations: AMEE Guide 66. Med Teach. 2012; 34: 161-75.

Tavakol M., Dennick R. Psychometric evaluation of a knowledge based examination using Rasch analysis: an illustrative guide: AMEE Guide No. 72. Med Teach. 2013; 35: 74-84.

Tavakol M., Dennick R. Post-examination analysis: a means of improving the exam cycle. Acad Med. 2016a; 91: 1324.

Tavakol M., Dennick R. Post-examination analysis: a means of improving the exam cycle. Acad Med. 2016b; 91: 1324.

Volkan K., Simon S., Baker H., Todres I. Psychometric structure of a comprehensive objective structured clinical examination: a factor analytic approach. Adv Health Sci Educ. 2004; 9: 83-92. Zieky M., Perie M. A primer on setting cut scores on tests of educational achievement [Elecrtonic resource]. ETS, 2006. URL: https://www.ets.Org/Media/Research/pdf/Cut_Scores_Primer.pdf [date of access June 10, 2016]

РУКОВОДСТВО AMEE № 119. ОСНОВЫ ИЗМЕРЕНИЯ И ОЦЕНКИ В МЕДИЦИНСКОМ ОБРАЗОВАНИИ (ПЕР. ПОД РЕД. АЛЕКСЕЕВОЙ А.Ю.) Текст научной статьи по специальности «Науки об образовании»

Аннотация научной статьи по наукам об образовании, автор научной работы — Тавакол Мохсен, Денник Рег

Похожие темы научных работ по наукам об образовании , автор научной работы — Тавакол Мохсен, Денник Рег

AMEE GUIDE # 119. THE FOUNDATIONS OF MEASUREMENT AND ASSESSMENT IN MEDICAL EDUCATION (TRANSLATION INTO RUSSIAN ED. BY ALEKSEEVA A.YU.)

Текст научной работы на тему «РУКОВОДСТВО AMEE № 119. ОСНОВЫ ИЗМЕРЕНИЯ И ОЦЕНКИ В МЕДИЦИНСКОМ ОБРАЗОВАНИИ (ПЕР. ПОД РЕД. АЛЕКСЕЕВОЙ А.Ю.)»