Технологии МООК в очном курсе: применимость пирингового метода
Кольбе А.С.
Национальный исследовательский университет «Высшая школа экономики»
kolbe. alice@gmail. сот
Аннотация. Тенденция укрупнения групп, изучающих дисциплину, а также сжатие сроков изучения оной затрудняют адекватную оценку знаний студентов. Решение вводить автоматизированный учет позволяет снизить субъективизм в оценке за счет исключения преподавателя, тем не менее влечет за собой ограниченность в преподавании. В данной работе рассмотрен эксперимент с применением метода кросс-рецензирования, проводимый в 2013 и 2014 годах.
Ключевые слова: кросс-рецензирование, peer review, контроль знаний, автоматизация
1 Введение
С присоединением МИЭМ к НИУ ВШЭ размеры групп и, как следствие, потоков заметно увеличились. Так, количество студентов, изучающих дисциплину «Компьютерная графика» в первом модуле второго курса, было равно 120 студентам в 2013 году и 180 студентов в 2014 году. При этом, до этого курс читался на кафедрах, при потоке в 40-50 студентов, и был вдвое больше по продолжительности. Данные факторы существенно усложнили качественный контроль знаний студентов. Для компенсации недостатков потокового обучения необходимо вводить учебную нагрузку с обратной связью. Поскольку самый распространенный способ контроля - тесты - не является объективным показателем знаний учащегося, было решено опробовать метод кросс-рецензирования (peer review) [1], исключающий преподавателя из проверки [2], [3].
Задачей данной работы является разработка подходящей системы обработки результатов рецензирования студентов, участие преподавателя в которой не будет обходимым.
2 Техническое исполнение
Эксперимент проводился на базе платформы Google Documents [4]: сбор рецензий производился посредством Google Forms, а дальнейшая обработка и хранение данных в Google Spreadsheets.
Проведение письменных работ имело ряд мер, увеличивающих количество рецензий на одну работу:
а. Заградительные меры для авторов работ: оценка за написанную работу начиналась с отрицательной отметки, что исключало заведомо
недобросовестные работы для поверки. Ь. Стимулирующие меры для рецензентов: за каждую проверку выставлялась оценка. При этом оценка зависела от качества проверки.
Итак, процесс проведения творческого задания строился следующим образом:
21)Студентам случайным образом распределялись темы для написания эссе из предложенного списка. Задание сопровождалось четко сформулированными критериями, а также сроками сдачи. Написание творческой работы не являлось обязательным заданием, если студент не писал работу, он не получал баллов, однако при написании писала начиналась с отрицательной отметки.
22) Сданные работы авторами случайным образом распределялись между студентами таким образом, что на каждого студента приходилось по три работы на проверку, а номера работ не повторялись и не являлись собственными. Работы проверялись по критериям, оценка состояла из нескольких компонент (четырех).
23)Рецензии сдавались через Google Forms, а после обрабатывались одним из рассмотренных ниже методов.
3 Методы обработки рецензий и расчета оценок
3.1 Метод О
Данный метод стал отправной точкой для следующих разработок и был комбинированным, то есть в нем принимал участие эксперт (преподаватель). Однако идеей было прибегать к мнению эксперта только в тех работах, где среднеквадратическое отклонение оценки рецензентов было максимальным.
Оценка эксперта в «спорных» работах нужна была для того, чтобы отсеять сильно несоответствующие проверки (в данном случае порогом было 50% соответствия). Итоговая оценка считалась как сумма средних арифметических значений, взятых по компоненте оценки каждого участвующего рецензента.
Данный метод имел бинарную шкалу отсева, которая не всегда убирала из выборки неадекватные проверки, а также требовала участия эксперта. Тем не менее, метод использовался в курсе в 2013 году.
3.2 Метод 1
По окончанию курса 2013 года было решено разработать все-таки автоматическую систему обработки рецензий (т.е. без участия эксперта), а также дававшую возможность отсеять недобросовестные проверки.
Вместо эксперта эталонной оценкой становилась оценка, взятая по компонентам, которая считалась как среднее арифметическое значение оценок рецензентов, но, при этом, из множества рецензентов,
формировавших эталонную оценку, исключались рецензенты с граничными (максимальными и минимальными) оценками за работу (оценка здесь - сумма компонент).
После все рецензенты сравнивались с полученной эталонной оценкой, каждому рецензенту присваивался коэффициент соответствия, а затем весовой коэффициент. Итоговая оценка считалась как взвешенная сумма оценок рецензентов.
Данный метод показал себя лучше, чем предыдущий, и имел более высокую корреляцию с экспертным мнением. На рис. 1 представлена диаграмма, иллюстрирующая результаты, полученные с помощью двух методов, а также их сравнение с экспертным мнением.
Сравнение предложенных методов (2013)
■ Эксперт ■ метод 1 ■ метод 0
20 15
| 10 6 0
1 2 3 4 5 6 7 Й 9 10 11 12 13 14 15 16 17 1в
работа
Рис. 7 Сравнение методов 2013 года с экспертной оценкой 3.3 Метод 2
В 2014 году было решено автоматизировать весь учет, также система обработки рецензий была написана с помощью скриптов. Вместе с тем, предложенный метод 1 был реализован иначе и уже становился не дискретным, а линейным. Здесь для каждой работы рассчитывалась шкала разброса оценок, а эталонной была средняя оценка - эталонная по мнению большинства. Далее каждой оценке присваивался вес в зависимости от удаленности от общего мнения.
Важно отметить, что неадекватные оценки не отсекались, а весовое распределение определялось большинством.
Данный метод не дал положительных результатов в 2014 году, поскольку аудитория была совершенно не мотивированна, а, как следствие, оценки были недобросовестны. Тогда было решено использовать все же мнение эксперта в качестве эталона для получения более объективных результатов.
3.4 Метод 3
По окончанию курса уже в 2014 году было снова решено разработать метод, позволяющий избежать ручную проверку, а также отсеять недобросовестные оценки. Мнение о том, что количество адекватных рецензий превалирует осталось неизменным.
Последний предложенный метод по сути своей был похож на метод 1, отличался расчетом эталонной оценки: покомпонентно брались медианы. Это позволило отсеять неадекватные оценки, доверяя большинству.
Сравнение методов 2014 года представлено на рис. 2.
Сравнение предложенных методов (2014)
■ эксперт ■ метод 2 (с мнением эксперта) ■ метод 3
30 22, S
1 I
а
1 2 3 4 5 6 7 В a 10 11 12 13 14 15 16
работа
Рис. 8 Сравнение методов 2014 года с экспертной оценкой
Заметно, что до восьмой работы (работы первой волны эссе, всего две) включительно результаты метода 3 отличаются от экспертной оценки, а также метода, зависящего от нее. Это объясняется тем, что, как было уже сказано выше, аудитория 2014 года не была мотивирована и проставляла оценки «не глядя».
4 Заключение
Из опробованных за два года методов было решено сосредоточиться на последнем - метод 3, где эталонной оценкой являются медианы, поскольку считается, что мнение большинства адекватно. Тем не менее, на фоне МООК заметна более низкая мотивация и культура рецензирования. Так, средний возраст студентов онлайн курсов примерно 22-34 года [5], чаще всего это люди, которые приходят изучать дисциплину осознанно и по собственному желанию. Ситуация с высшим образованием несколько иная: во-первых, другая возрастная категория, во-вторых, не всегда у студентов есть запрос на изучение всех дисциплин из учебного плана -отсюда и отсутствие интереса и мотивации.
Для борьбы с неадекватностью оценки рецензентов предлагается ввести корректировочный модуль в систему, подобный Calibrated peer review (CPR) [6] разработанный Coursera. Предлагаемое нововведение заключается в том, чтобы проводить тренировочные проверки, прежде чем приступать к настоящим, - это позволит ввести поправочные
коэффициенты для каждого рецензента, чтобы скорректировать его последующие оценки.
Список литературы
[1] Wing, J. М., Reviewing Peer Review. Communications Of The ACM, 54(7), 2011, doi: 10.1145/1965724.1965728, p. 10-11.
[2] Korolev D., Pavolotsky A., Implementation of MOOC methods to university classroom courses, Prt. 1: Innovative Information Technologies in Education. M.: HSE, 2014, p. 182-188.
[3] Kolbe A., The approach to development of private academic-style MOOC, Prt. 1: Innovative Information Technologies in Education. M.: HSE, 2014, p. 177-182
[4] Maria Mallette and Diane Barone, ON USING GOOGLE FORMS, The Reading Teacher, Vol. 66, No. 8 (May 2013) (pp. 625-630).
[5] Ksenia Kuzminykh, "Global Classroom" Experiment at Higher School of Economics: Who Takes MOOCs offered by Russian Universities?, Higher Education in Russia and Beyond, #1(3), Spring 2015
[6] C. Piech, J. Huang, Z. Chen, C. Do, A. Ng, D. Koller, Tuned Models of Peer Assessment in MOOCs, Proceedings of the 6th International Conference on Educational Data Mining, Memphis, Tennessee. 2013