П.П. Дьячук, И.П. Малова, В.М. Суровцев
КОМПЬЮТЕРНАЯ ДИАГНОСТИКА И УПРАВЛЕНИЕ ПРОЦЕССОМ ОБУЧЕНИЯ
В работе [1] рассматривались компьютерные системы управления процессом научения, в основе которых лежит механизм обратной связи. На основании сигналов управления и, поступающих от компьютера, управляющее «устройство» ученика, его мозг, перерабатывает информацию, поступающую в виде сигналов управления от компьютера, и изменяет управляющие воздействия, используя собственные исполнительные органы. Это проявляется в изменении характера взаимодействия обучающей компьютерной системы с учеником. Особенностью такого процесса управления является запаздывание во времени корректирующих воздействий.
В настоящей работе анализируется другая ситуация, когда в компьютерной системе управления процессом научения есть модуль, который играет роль исполнительного органа. В этом случае в основе управления деятельностью ученика лежит механизм компенсации неправильных действий обучаемого. Например, компьютер исправляет неправильные операции, совершаемые учеником, или устанавливает запрет на некоторые операции, совершаемые учеником через клавиатуру или мышку, и т.п. В этом случае компьютерная система компенсирует неопределенность объекта. Надо отметить, что исполнительные органы ученика действуют и в этом случае. Более того, компенсационные управляющие воздействия, которые произведены компьютером, воспринимаются учеником как сигналы управления, которые подвергаются перекодировке в управляющем устройстве ученика (в мозгу).
Таким образом, ученик рассматривается как неопределенный объект управления. Поведение ученика характеризуется рядом параметров, совокупность которых можно обозначить вектором 0. Вектор 0 может включать в себя неизвестные параметры объекта, неточно известные характеристики, неизмеряемые внешние возмущения и т.д.
Структурная схема компенсаторной системы управления, в которой реализуется оптимальный (в определенном смысле) процесс управления, представлена на рис.1.
Положим, что локальная цель управления состоит в том, чтобы обеспечить наименьшее значение некоторой величины (функционала) В,1, зависящей в общем случае от функций задающего Хв (Ь) и управляющего и(Ь), воздействий и от управляемой величины х(Ь), т. е.
ЯД хв (г), х(г),и(г)] = ят1п. Главная цель определяется целевым неравенством:
Я2(х,г) < А .
(1)
Эти цели должны быть достигнуты при наличии определенных ограничений, состоящих в том, что некоторые величины (функционалы) Fi, где I = 1, 2,..., m, не должны превосходить установленных для них значений, т. е.
^ [ хе (г), х(г), и(г), г (г)] < ^, (3)
где г(Ь) - возмущение, воздействующее на объект управления.
Роль функционалов Fi могут играть ограничения на время Т или число заданий И, отводимых на обучение студента. Управляемой величиной Я1 (формула (1)) является расстояние между текущим и целевым состоянием задачи в проблемном пространстве задачи. Целевое неравенство (2) определяется для функции ценности состояния Я2 [3] .
Рис.1. Структура управления обучающей и диагностирующей компьютерной системы с компенсационным механизмом:
ГЗ — генератор заданий; Аі — интерфейс ученика; А2 — управляющий модуль (адаптер); С — вычислительный модуль; ЗПД — запись продуктов деятельности ученика; Хв — задающее воздействие (задание); и — управляющее воздействие; 2 — возмущение; х — управляемая величина (действия ученика); х0 — компенсатор; Р — управление ГЗ; Иі и И — критерии оптимальности; — функционалы; у — корректирующее воздействие
Как уже говорилось выше, полная априорная информация относительно z(t) и x(t) отсутствует. В рассматриваемой системе управляющее устройство Ai представляет собой интерфейс студента, являющийся преобразователем входов х, Хв х0, у и выхода U. А2 может воздействовать на Ai, перестраивая его алгоритм. Основываясь на главной и локальных целях управления, устройство А2 с помощью алгоритмов обучения и по мере накопления опыта, который определяется совокупностью реакций Ai на возможные изменения режимов работы студента, вырабатывает воздействия y(t) и х0, которые все более и более приближаются к требуемым значениям. Требуемыми являются такие значения y(t), х0, которые в соответствии с получаемыми в вычислительном устройстве С значениями критериев оптимальности Ri и R2 (при ограничениях F*i) перестраивают алгоритм работы Ai таким образом, что выполняются условия (1) — (2). На вход вычислительного модуля С поступает информация о действиях студента х и о заданиях, которые генерируются модулем ГЗ. Вычислительный модуль С осуществляет слежение за деятельностью ученика при выполнении задания в режиме on-line. При этом на основании сравнения с критерием оптимальности Ri вычисляется функция вознаграждения [1; 3]. Это позволяет определить значение функции ценности состояния и выработать в модуле A2 корректирующее воздействие y(t), помогающее студенту достичь главной цели (2). Величину функции ценности состояния ученика y(t) модуль A2 изменяет в соответствии с относительной частотой правильных действий р, вычисляемой после каждого задания. Информация об окончании выполнения задания, так же, как и информация об окончании работы с системой, передается в модуль ГЗ по каналу P. Наряду с перечисленными функциями вычислительный модуль С производит не только слежение за действиями ученика, но и записывает информацию о деятельности, которая представляет собой протокол, включающий: 1) действие; 2) время; 3) «штраф» (—1) или «вознаграждение» (+1); 4) величину функции ценности состояния ученика R2. Продукты деятельности ученика записываются в текстовой файл (выход ЗПД) для последующей диагностики динамических характеристик процесса научения.
Рассмотрим математическую обработку продуктов деятельности, полученных в результате динамического тестирования студентов факультета физики, информатики и ВТ [4]. Динамическое тестирование проводилось по теме «Кривые второго порядка». Студенты должны были обучиться конструированию кривых второго порядка по заданным уравнениям.
В процессе научения решению задач обучаемый, решая серию аналогичных задач, совершает различные действия (Ay). В нашем случае эти действия связаны с операциями параллельного переноса, растяжения, сжатия и поворота. При этом множеству альтернатив Ay, соответствует множество вероятностных переменных Pj. Однако наибольший интерес представляют две альтернативы: A1 («правильные действия») и A2 («неправильные действия»), вероятности появления которых равны соответственно P и 1 — P.
Основные приближения математической модели состоят в том, что вероятность P в процессе выполнения i-го задания полагается постоянной и стохас-
тическая модель обучаемости линейная [2]. Последовательность событий Еі состоит из выполненных заданий, і — номер задания.
Отдельное событие Еі представляется строчным математическим оператором Qi, который записывается в виде:
где а и X — параметры, которые характеризуют обучаемого (X — предельное значение вероятности Р). Величина а принимает значения от —1 до 1 и показывает скорость выхода на уровень неподвижной точки (величина X), который принимает значения от 0 до 1.
Если до наступления события Еі вероятность события Аі есть Р, то QiP есть вероятность этой реакции после наступления события Еі. Следовательно, если событие Еі наступает еще раз, то необходимо применить оператор Qi к вероятности QiP. Полагая, что событие Еі наступает п раз, получаем общую формулу для случая п применений оператора:
Параметры а и X определяются методом «наименьшего квадратичного отклонения». Данное рекуррентное соотношение дает дискретное описание экспериментального временного ряда событий (рис. 2, графики 1, 2). Непрерывная аппроксимация решения рекуррентного уравнения (5) имеет вид:
где у — вероятность правильного действия на п+1 задании, X и а имеют тот же смысл, что и при рекуррентном соотношении.
1 — экспериментальная зависимость вероятности правильных действий от числа заданий;
2 — рекуррентная зависимость изображена точками (а =0,91, А=0,931);
3 — график функции (3), (а =0,95, А=0,935)
<2Р = аР + (1 -а)Л,
(4)
(5)
(6)
р
1
2, 3
п
Рис 2. Вероятность правильных действий в зависимости от числа заданий для испытуемого под номером 12:
Выражение (6) является разумной аппроксимацией, если величина 1-а мала по сравнению с единицей [2]. На рис. 2 аппроксимация экспериментальных данных с помощью формулы (6) представлена графиком под номером 3.
Динамическое тестирование процесса научения решению задач было произведено на выборке из 85 студентов факультета физики КГПУ. В результате получена гистограмма плотности распределения испытуемых по параметру X (рис. 3). Видно, что распределение имеет асимметричный характер с выраженным максимумом f = 7,53 при Х= 0,92. Среднее значение параметра X = 0,745 при ДХ = 0,03125, а дисперсия Б = 0,025.
Из гистограммы плотности распределения видно, что небольшая группа студентов имеет предельное значение вероятности правильных действий 0,5 — 0,6. Студенты этой группы, несмотря на достаточно большое количество выполненных заданий (свыше 30), не достигли «индуктивного порога» [3]. Их деятельность осталась на уровне метода проб и ошибок.
Полученные результаты подтвердили целесообразность использования линейного приближения для анализа экспериментальных временных рядов событий Ег, полученных при динамическом тестировании. Однако линейное приближение налагает жесткие ограничения на значения параметра а (см. выше).
Гистограмма плотности расп ределения (0 испытуемых по параметру лямбда (Л)
И
0,5
1 Л
Рис 3. Гистограмма плотности распределения обучаемых
по параметру X
Нелинейное описание снимает эти ограничения, однако в настоящее время
оно отсутствует.
Библиографический список
1. Дьячук, П.П. Интеллектуальные обучающие программы: материалы XII Всероссийского семинара «Нейроинформатика и ее приложения, 2004» / П.П. Дьячук, С.В. Бортновский. - Красноярск. - 2004. - С. 62-63.
2. Буш, Р. Стохастические модели обучаемости: пер. с англ. / Р. Буш, Ф. Мостеллер. -1-е изд. - М.: Гос. издат. физ.-мат. лит., 1962. - 482 с.
3. Люгер, Дж. Искусственный интеллект (стратегия и методы решения сложных проблем): пер. с англ. / Дж. Люгер. - 4-е изд. - М.: Изд. дом «Вильямс», 2003. - 864 с.
4. Дьячук, П.П. Динамическое тестирование процесса обучения: материалы VII Всероссийского семинара «Моделирование неравновесных систем. 2004» / П.П. Дьячук, С.В. Бортновский. - Красноярск, 2004. - С. 53-54.