В. В. Тульчий, В. А. Худик
Технология и алгоритмы оценки знаний обучающихся
в информационной среде дистанционной подготовки специалистов морского транспорта
В статье обсуждаются особенности создания технологий и алгоритмов оценки знаний обучающихся, которые получают знания путем дистанционных форм обучения. Алгоритмы оценки знаний подвергаются семантическому анализу, отражающему уровень когнитивного развития субъектов образовательной среды. Рассматриваются схемы структурирования информации и ее анализа.
In article features of creation of technologies and algorithms of an estimation of knowledge trained which receive knowledge by remote modes of study are discussed. Algorithms of an estimation of knowledge are exposed to the semantic analysis reflecting a level of development of subjects of the educational environment. Schemes of structurization of the information and its analysis are considered.
Ключевые слова: дистанционное обучение, программные продукты, информационная образовательная среда, оценка знаний, текст, семантический анализ.
Keywords: remote training, software products, the information educational environment, an estimation of knowledge, the text, the semantic analysis.
Дистанционные формы обучения приобретают в последнее время особую актуальность, поскольку позволяют оптимизировать информационную среду и способствовать становлению самостоятельности в освоении знаний обучающимися в условиях деятельности филиалов ведущего учебного заведения. Новороссийская государственная морская академия им. адм. Ф. Ф. Ушакова осуществляет подготовку специалистов морских профессий, в том числе и в условиях учебных подразделений (филиалов), поэтому разработка технологий и алгоритмов оценки успеваемости обучающихся представляется важной научно-прикладной задачей, явившейся результатом настоящего научного исследования. При этом полисемантическая характеристика знаний, представленная в реверсионной деятельности субъектов образовательной среды, может подлежать статистической обработке, что усиливает достоверность знаний обучающихся оцениваемых педагогом.
Анализ работ, по проблеме измерения и оценки семантической информации, позволяет констатировать, что моделируемый информационный объект отображается и преобразовывается в сознании субъектов образовательной среды (педагога и обучающегося), поэтому методики оценки семантической информации, которые могут быть ис-
124
пользованы для моделирования конкретного объекта, должны оценивать данную информацию применительно к мыслительным процессам человека, а не с точки зрения передачи информации. Последнему условию наиболее адекватно отвечают методики, разработанные В.П. Мизенцевым, Л.П. Леонтьевым, Н.М. Соломатиным,
П.В. Филипповым.
В результате анализа обучающей деятельности в рамках дистанционного процесса и процедуры диагностики знаний как одного из его элементов конкретизированы задачи автоматизированной диагностики:
1. Осуществление интерфейса между обучающимся, обучающим и алгоритмом с возможностью разграничения доступа между этими двумя первыми категориями пользователей.
2. Организация хранения формализованных эталонных моделей знаний-умений, используемых в ходе диагностики.
3. Организация хранения вопросов диагностики.
4. Сортировка учебной семантической информации, выдаваемой при ответе по видам: текст, рисунок, формула.
5. Приведение ответа обучающегося, полученного в ходе экзамена к форме эталонной модели (к форме графа).
6. Диагностика полученной графовой модели ответа обучающегося методом сравнения ее с эталонной моделью.
7. Формирование протокола диагностики и выдача его в качестве результата работы программы.
В ограничениях и допущениях, принятых в процессе разработки настоящего алгоритма, обусловлены три основные формы выражения учебной семантической информации, которые должен уметь анализировать субъект учения при создаваемом им программном продукте: связный текст; графическая информация; формулы.
Обобщение процесса реализации вышеприведенных задач привело к созданию составного алгоритма диагностики в дистанционной автоматизированной среде профессиональной подготовки специалистов морского транспорта, пошаговое толкование которого следующее:
Приведение учебной семантической информации, выдаваемой обучающимся в виде свободно конструируемого связного текста к форме эталонной графовой модели.
После определения методологической базы для успешного решения данной задачи необходимо перейти к формальному описанию носителя структурируемой информации, т. е. текста. В качестве методологического аналога выбран метод С. И. Гиндина [1]. Вершины, определенные эталонной графовой моделью, выражаются в тексте некоторыми словоформами, а соответственно, связи между ними - последовательностями текстовых цепочек, которые могут состоять как из отдельных словоформ, так и из предложений определенным образом связанных между собой. Следовательно, задачей разрабатываемого
алгоритма будет установление факта связности или же несвязности между вершинами, определенными заданной эталонной моделью.
В силу того, что связность как отдельных цепочек, так и целых участков текста носит случайный характер, его проявление зависит от разных объективных и субъективных причин. К объективным причинам возникновения связности можно отнести появление в тексте определенных синтаксических конструкций, называемых агентами связи. Определены следующие агенты связи:
Цл - «и», «а», «но» и т. д.;
Цп - «вот что», «следующее» и т. д.;
Р связи;
М-связи - повтор словоформы (подлежащее, сказуемое, определение и т. д.);
Р-связи - парадигмы (изменено окончание);
W-связи - словообразовательных гнезд (однокоренных слов);
Ж-связь - через повтор семантических параметров от словоформ;
Буп-связь - связь через синонимы;
А-связь - через антеценденты - заместители (он, оно, она, и т. д.).
Помимо объективных факторов, определяющих связность или несвязность текста, указанных выше, существует и субъективный фактор, заключающийся в разном восприятии тех или иных агентов связи. Последний ликвидируется в настоящем исследовании за счет активного применения в дистанционной автоматизированной среде профессиональной подготовки (ДАСПП) логико-речевой символики (ЛРС) [2].
Таким образом, принимая во внимание тот факт, что наличие или отсутствие связности между текстовыми цепочками носит случайный характер принято решение использовать методы математической статистики. Сама же процедура принятия решения о связности или несвязности между вершинами, заданными эталонной моделью, будет реализована на базе метода Байеса, что предполагает проведение статистического эксперимента по схеме испытаний Бернулли. Исходя из того, что случайная величина (связность двух цепочек при наличии определенного агента связи) распределена в этом случае по биноминальному закону, то возможно определить ее вероятность по формуле:
Р(Е:Н) = (пЩп-к)!)ркрп.к, (1)
где: п - количество испытаний; к - количество «успехов»; рк - вероятность «успеха»; рп-к - вероятность «неудачи».
Условие, собственно, одно: текст должен соответствовать направленности обучающихся - специалистов морского транспорта.
Определенный выше текстовой учебный материал был проанализирован на наличие агентов связи. При обнаружении какого-либо агента автор, исходя из своего личного опыта преподавания, делал вывод о наличии или отсутствии связности между текстовыми цепочками, соединенными этим агентом. Эксперимент продолжался до тех пор, пока количество реализаций по самому редко встречающемуся в тексте агенту не достигнет искомой частоты (в конкретном случае это число было выбрано равным 100). Результаты проведенного эксперимента сведены в табл. В этой таблице в столбце «Результат реализаций» количество успехов (наступление связности) помечено знаком «+», а количество неудач (отсутствие связности) - знаком «-».
Таблица
Результаты статистического эксперимента
Агенты связи Результат реализации Количество Реализаций - N
«+» «-»
Цл-связь 7 93 100
Цп-связь 11 89 100
М-связь (словоформы) 86 14 100
Р-связь (парадигмы) 91 9 100
W-связь (однокоренные) 92 8 100
Ж-связь (параметры) 43 8 50
А-связь (анцеденты) 90 10 100
Буп-связь (синонимы) 47 3 50
Анализ результатов эксперимента позволяет сделать вывод, что распространенность агентов связи в тексте не одинакова. Разной также является их способность передавать смысл от цепочки к цепочке. Опираясь на вышеизложенный материал, разработана логическая схема алгоритма (рис. 1), отражающая его основные функции [3].
Принятие решение о типе связи между цепочками
Рис. 1. Логическая схема алгоритма автоматизированной структуризации учебной информации
Исходные данные алгоритма:
Б - совокупный связный текст, выдаваемый в качестве ответа обучающимся;
W - элементы эталонной модели сформированной заранее преподавателем;
М - словарь (множество словоформ);
W = Т и В , где Т = {^Д2,...Дп} - множество текстовых последовательностей, определяющих связи эталон ной графовой модели;
В = {Ь1,Ь2,...,Ьп+1} с М — множество понятий (терминов), определяющих вершины эталонной графовой модели;
S = Т и В, где Т = {|Д2,...Дп} - множество текстовых последовательностей, определяющие связи в графовой модели ответа обучающегося;
В = {Ь1,Ь2,...,Ьп+1} с М — множество понятий (терминов), определяющих вершины графовой модели ответа обучаемого;
1 =1-|Д2,..Лк - текстовая последовательность (ее длина определяется количеством предложений в тексте, расположенных между терминами, определенными вершинами эталонной графовой модели), состоящая из текстовых цепочек t (в общем случае предложений).
Поэтапная реализация логики алгоритма состоит в том, что осуществляется:
а) вычленение из и текста ответа {Ь1, Ь2,..., Ьп}, причем, если Ьк = {Ьк1,Ьк2,.. .,Ьк|0}, (к<п), то проверяется связность между каждой из {Ьк1,Ьк2,...,ЬкЮ} и теми вершинами, связность с которыми задана в эталонной графовой модели учебного элемента. Если хотя бы одна из {Ьк1,Ьк2,...,Ьк|} связана с заданной эталонной моделью вершиной, то делается вывод, что Ьк в целом связана с этой вершиной;
б) определение {М2,..Лт} - множество текстовых последовательностей, определяющие связи эталонной графовой модели. Как было отмечено выше, данные последовательности, в свою очередь, состоят из некоторого конечного числа предложений ^^^...^.Таким образом, внешний вид эталонной модели, в соответствии с которой будет анализироваться ответ обучающегося, в графическом виде показан на рис. 2. Стрелками указывают направление анализа;
в) поиск в 1тк (т - номер текстовой последовательности, к - номер предложения в последовательности) агентов связи, определяющих тот
или другой вид связности. При определении того или иного агента связи происходит запись текущего состояния в рабочее поле памяти.
Для создания графовых эталонных моделей в созданной программе используется стандартный компонент, входящий в VCL среды разработки и носящий наименование TreeView. Он позволяет отображать любую древовидную структуру. В качестве вершин в данном компоненте могут быть описаны любые понятия из множества В={Ь1, Ь2,...,Ьп+1}. Помимо этого, поскольку количество символов для определения вершины данного компонента составляет 256, мы можем через запятую или иной разделитель записать некоторое количество синонимов, определяемых как словоформами, так и словосочетаниями.
В = {Ь,Ь2,...,Ьп} - множество вершин, выражаемое словоформами (как правило это терм ины изучаемой предметной области)
Т = {^,*2,..., 1т} - множество текстовых цепочек (состоящих, как правило, из совокупности предложений)
Рис. 2. Вершины эталонной графовой модели и текстовые цепочки, их связывающие
При наличии в эталонной модели синонимов необходимо проверить цепочку на Р и W-связь с учетом этих синонимов. И при положительном результате данная связь будет являться Syn-связью. При наличии в цепочках определенных выше агентов связи вычисляют вероятность связности всей цепочки по Байесу.
Далее проверяется условие: не содержит ли анализируемая текстовая цепочка словоформу, определяющую следующую вершину эталонной модели? В случае положительного результата происходит принятие решения о связности всей текстовой цепочки 1т, анализ на признак конца текста и запись результата в рабочее поле памяти. В качестве признака конца текста используется стандартный признак границы файла, содержащего данный текст.
На основании предыдущего шага принимается решение о связности двух смежных предложений. Далее осуществляется анализ следующей текстовой цепочки до окончания ответа.
В силу того, что разрабатываемый алгоритм автоматизированной диагностики обучаемых должен одинаково успешно работать как с учебной информацией, выдаваемой в виде связного текста, так и в виде графических объектов, то база эталонов должна состоять из двух частей, отвечающих за диагностику текстовой и графической информации соответственно. В состав данной базы будет входить также база вопросов, что в совокупности обусловливает определение правил, по которым будет строиться база эталонных моделей учебных элементов. Современные визуальные среды разработки программных продуктов позволяют, применяя определенные готовые формы из состава VCL, создавать удобные информативные формы, поддерживающие все вышеназванные вспомогательные базы данных (БД).
Наличие современных программных продуктов позволило, используя линейку графических примитивов, разработать алгоритм автоматизированной структуризации эталонных рисунков с целью приведения их к виду графа для дальнейшего их анализа с позиций методики, обоснованной выше.
Данный алгоритм необходим прежде всего для обеспечения максимального удобства преподавателя в период подготовки вопросов к автоматизированной диагностике. Представить текстовую учебную информацию в виде графовой модели значительно проще - подобные методики были известны ранее. А вот методика представления графической информации в виде графа менее проработанна и, самое главное, менее адаптированна к широкому применению. Поэтому было принято решение возложить данную функцию на персональную электронно-вычислительную машину (ПЭВМ).
Суть идеи такова.
Преподаватель, в общей эталонной модели ответа в тех узлах, в которых он считает нужным по логике ответа, указывает наличие рисунка при помощи определенных ключевых символов, отделяющих данное ключевое слово (например, «РИСУНОК 1») от терминов, заданных узлами эталонной модели. Определяется обязательность наличия рисунка (например, «-» — обязательно; «+» — желательно; «%» — необязательно и т. д.). В том случае, когда наличие рисунка определяется как обязательное, алгоритм будет проверять связность данного рисунка с тем понятием, суть которого он должен иллюстрировать согласно эталонной графовой модели. Это будет обеспечиваться проверкой графических примитивов «НАДПИСЬ», входящих в состав рисунка, а также проверкой удаленности иллюстрации по тексту ответа от иллюстрируемого понятия (на основании теоремы «о вставках»).
Далее преподаватель с использованием стандартных графических примитивов создает эталонные рисунки. При сохранении их в базе данных происходит запуск алгоритма автоматизированной структуризации графической информации, который приводит к тому, что в базе рисунки хранятся в виде графовых моделей. И по этим графовым моделям происходит анализ иллюстраций, встреченных в ответе обучающегося, который обеспечивается алгоритмом описанным выше.
Обобщенная схема алгоритма, приводящего эталонный рисунок, подготовленный преподавателем к виду графовой модели, приведена на рис. 3, блоки которого несут следующую нагрузку:
Блок 1. Определяет начало работы алгоритма. Алгоритм запускается при наличии сохраненного эталонного рисунка.
Рис. 3. Обобщенная схема алгоритма автоматизированной структуризации
графической информации
Блок 2. Осуществляет поиск в составе рисунка графических примитивов ^-множество графических примитивов).
Блок 3. Проверяет вхождение одного примитива в другой примитив (например «НАДПИСЬ» входит в «КВАДРАТ» и т. д.). Если такая ситуация имеет место, входящий примитив определяется нижестоящей вершиной в иерархической графовой модели рисунка (блок 4). Самая старшая вершина эталонной модели рисунка определяется идентификатором, указанным преподавателем в общей эталонной модели ответа (например «Рисунок 1»).
Блок 5. Формирует эталонную графовую модель рисунка и сохраняется в соответствующей базе.
Блок 6. Завершает работу.
Процесс создания эталонных моделей учебных элементов является в предлагаемой методике наиболее ответственным и трудоемким этапом в деятельности педагога.
Сам процесс диагностики заключается в сравнении модели ответа обучающегося с эталонной моделью, хранящейся в памяти ЭВМ. Сравнение происходит в результате перебора вершин и ребер, соответствующих ответу и эталону графов. Причем данный анализ производится сверху вниз, то есть, от вершины с наименьшим номером иерархии к вершинам расположенным на более низких уровнях. Другими словами, направление анализа, при таком подходе, будет направлено в сторону, обратную формированию модели знаний.
Список литературы
1. Гиндин С. И. Связный текст: формальное определение и элементы типологии. - М.: Ин-т рус. яз. АН СССР. Проблемная группа по экспериментальной и прикладной лингвистике. Предварительные публикации. - Вып. 24. - 1971.
2. Тульчий В. В., Тульчий В. И. Современный математический анализ: мо-ногр. - Армавир-Новороссийск: Изд-во АГПИ и НГМА, 2001. - 303 с.
3. Тульчий В. В., Филиппов П. В. Принципы и технология создания и функционирования дистанционных автоматизированных систем контроля уровня знаний при профессиональной подготовке специалистов морского транспорта: моногр. - Новороссийск: Изд-во НГМА, 2007. - 106 с.