них обычно небольшая - 5-6 бит. Однако даже такие значения разрядности увеличивают аппаратурные затраты при реализации блоков контрольных каналов.
Предположим, что для аппроксимации сигнала использовалась двухсвязная цепь Маркова. В этом случае аппаратурные затраты на реализацию блоков обработки данных в контрольных каналах при Як = 5 и 6 бит без построения многоступенчатой системы обработки данных будут равны приблизительно 34 Кбайт и 1 Мб, соответственно. При использовании трехсвязных цепей Маркова эти затраты уже составят 264 Кбайт и 16 Мб. Тогда как при построении многоступенчатой обработки данных в контрольных каналах и использовании двухсвязной и трехсвязной цепей Маркова при Як = 5 затраты составят 7 Кбайт и 39 Кбайт, а при Як = 6 - 47 Кбайт и 1 Мб, соответственно.
Таким образом, приведенные результаты наглядно доказывают, что использование предложенного способа реализации отказоустойчивых устройств обработки марковских сигналов на основе СОК позволяет значительно сократить аппаратурные затраты.
Литература
1. Акушский И.Я., Юдицкий Д.И. Организация обнаружения и исправления ошибок в ЭВМ в непозиционных системах // Давлет Исламович Юдицкий. Сер. Создатели отечественной электроники / под ред. Б.М. Малашевича [электронный ресурс]. ЦКЪ: http://www.computer-museum.ru/ Ъоокз/и<1^кц_3Л.р11£
2. Галанина Н.А. Методы и вычислительные устройства цифровой обработки сигналов в системе остаточных классов: дис. ... докт. техн. наук. Казань, 2011.
3. Иванова Н.Н. Устройства вычислительной техники для цифровой обработки сигналов, аппроксимированных цепями Маркова, в системе остаточных классов: дис. . канд. техн. наук. Казань, 2011.
ПЕСОШИН ВАЛЕРИЙ АНДРЕЕВИЧ. См. с. 276.
ИВАНОВА НАДЕЖДА НИКОЛАЕВНА. См. с. 276.________________________________________
УДК 378:004.9 ББК 74.4
М.В. ПЕТРОВА, Д.А. АНУФРИЕВА
ИССЛЕДОВАНИЕ ВОЗМОЖНОСТЕЙ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ ПРИ МОДЕЛИРОВАНИИ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА В ВУЗЕ
Ключевые слова: образовательный процесс, вуз, моделирование, Data Mining, искусственные нейронные сети, ЕГЭ, успеваемость студентов.
Исследованы возможности методов интеллектуального анализа данных (Data Mining) при моделировании образовательного процесса в вузе. С помощью искусственных нейронных сетей получены вычислительные модели связи между баллами, полученными студентами на ЕГЭ, и успеваемостью студентов на первых курсах.
M.V. PETROVA, D.A. ANUFRIEVA A STUDY OF POSSIBILITIES OF DATA MINING FOR MODELING OF EDUCATIONAL PROCESS IN HIGH SCHOOL
Key words: educational process, high school, modeling, Data Mining, artificial neural networks, exam, student performance.
Possibilities of Data Mining in the simulation of the educational process at the university are studied. Computational models of connections between scores obtained by students in the exam and academic performance of students in the first courses were obtained.
В декабре 2012 г. Правительством РФ утвержден план мероприятий («дорожная карта») «Изменения в отраслях социальной сферы, направленные на повышение эффективности образования и науки» (далее План).
По отношению к системе высшего образования План предусматривает изменения, направленные на повышение эффективности и качества услуг в сфере образования, совершенствование структуры и сети государственных образовательных организаций, со-
вершенствование структуры образовательных программ, и включает в себя, в частности, следующее: проведение ежегодного мониторинга эффективности образовательных организаций высшего образования; модернизацию системы лицензирования и аккредитации образовательных программ в системе высшего образования; введение прикладного бакалавриата в высшем образовании; обеспечение высокого качества программ магистратуры; создание новой модели аспирантуры на базе образовательных организаций высшего образования, активно участвующих в научно-исследовательской работе; поддержку программ развития сети национальных исследовательских университетов; реализацию программ стратегического развития образовательных организаций высшего образования; создание системы оценки качества подготовки бакалавров; разработку и внедрение механизмов эффективного контракта с научно-педагогическими работниками образовательных организаций высшего образования; информационное и мониторинговое сопровождение введения эффективного контракта с вузом.
В данной работе была поставлена задача исследования возможностей методов интеллектуального анализа данных (МИАД) (Data Mining и, в частности, искусственных нейронных сетей) для анализа выполнения некоторых мероприятий Плана, в частности, анализа состояния системы образования в вузе и прогнозирования ее развития [1].
Поиск в электронной библиотеке России elibrary.ru показал, что в России примеров применения МИАД при решении подобных задач нет. За рубежом такие примеры есть [6-8].
Методология исследований. Главным условием применения МИАД, реализующих «информационный подход» к задачам анализа и прогнозирования, является сбор данных об анализируемой системе. Источниками данных могут быть базы данных учетных систем вуза; данные, которые непосредственно или косвенно касаются участников образовательного процесса вуза, но которые отсутствуют в учетных системах и которые можно получить с помощью развернутых анкет-интервью участников образовательного процесса; внешние по отношению к вузу данные (макроэкономические показатели региона вуза, конкурентная среда, демографические и иные статистические данные).
Общие задачи, которые могут решать МИАД, следующие [2-5]: классификация - отнесение объектов (наблюдений, событий) к одному из заранее известных классов; регрессия, в том числе задачи прогнозирования - установление зависимости выходных параметров (целевых функций) от входных переменных (факторов); кластеризация - группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность этих объектов.
Проблемы анализа и моделирования образовательного процесса в вузе формулируются похожим образом, и решение большинства из них сводится к той или иной задаче Data Mining или к их комбинации.
Результаты анализа и моделирования образовательного процесса в вузе. На сайте http://mfi.chuvsu.ru/opros/ размещены анкеты-интервью, заполняемые в режиме он-лайн и содержащие около 100 вопросов по процессу образования в целом и качеству образовательного процесса. К настоящему времени собрано около 300 анкет (около 30 000 ответов). Данные ответов на вопросы анкет представляются в виде таблицы, затем проводятся их обработка, анализ и моделирование с помощью МИАД.
В таблице приведены результаты оценки корреляции между результатами ЕГЭ и результатами первой сессии студентов.
Корреляция между результатами ЕГЭ и результатами первой сессии студентов
Входные поля Корреляция с выходными полями
№ Баллы ЕГЭ по количество пятерок в 1-м семестре количество четверок в 1-м семестре количество троек в 1-м семестре
1 математике -0,4бб -0,499 0,414
2 физике 0,48б -0,511 -0,317
3 русскому языку 0,45б -0,282 0,405
В левом столбце «Входные поля» указаны факторы (баллы ЕГЭ по трем дисциплинам), в столбце «Корреляция с выходными полями» - в первой строчке название целевых функций - количество оценок «Отлично», «Хорошо», «Удовлетворительно», ниже - показатели корреляции (цифры в виде десятичной дроби со знаком + или -).
Результаты показывают, что непосредственной линейной связи между баллами ЕГЭ и оценками первой сессии студентов нет и что связь эта существенно нелинейная.
Для выявления этой связи были использованы искусственные нейронные сети, с помощью которых были построены вычислительные модели, позволяющие по баллам ЕГЭ прогнозировать успеваемость студентов в первую сессию. Результаты представлены на рис. 1 -3.
Результаты показывают следующее. Количество «пятерок» в первую сессию не зависит (близко к 0) от баллов ЕГЭ по математике до значения 70-75 (рис. 1). При баллах ЕГЭ более 75 количество «пятерок», полученных студентами в первую сессию, начинает резко расти, достигая максимума при баллах ЕГЭ более 85.
Рис. 1. Зависимость количества «пятерок» в первую сессию от результатов ЕГЭ по математике
Рис. 2. Зависимость количества «пятерок» в первую сессию от результатов ЕГЭ по физике
Рис. 3. Зависимость количества «пятерок» в первую сессию от результатов ЕГЭ по русскому языку
Зависимость количества «пятерок» в первую сессию от результатов ЕГЭ по физике практически не существует (рис. 2) - обратите внимание на то, что количество пятерок не превышает 0,6 (ось ординат). При анализе зависимости количества «пятерок» от баллов ЕГЭ по русскому языку (рис. 3) можно отметить следующую тенденцию: меньшие баллы ЕГЭ по русскому языку определяют большее количество «пятерок» в первую сессию, что, возможно, определяет отношение тех, кто больше внимания уделяет математике, к русскому языку.
В целом можно сделать вывод о том, что средние баллы ЕГЭ не могут служить основанием для определения «эффективности» вуза с точки зрения «качества образования», понимаемого как успеваемость студентов.
Были исследованы закономерности «траектории» качества учебной работы студентов в виде связей между оценками, полученными студентами на экзаменационных сессиях разных семестров (с 1-го по 4-й).
На рис. 4 представлен скриншот аналитической платформы Бе^йог. График отражает зависимость количества «пятерок» во 2-м семестре от количества «троек» в 1-м семестре. Он показывает, что 1-2 «тройки» («печальный опыт» 1-й экзаменационной сессии) приводит к тому, что во втором семестре студент учится практически на одни «пятерки».
Исследовались и другие различные комбинации связей между различными оценками, полученными на экзаменационных сессиях разных семестров. Но четкой связи выявлено не было. Можно отметить только, что связи между оценками, полученными на экзаменационных сессиях 3-го и 1-го семестров, 4-го и 1-го, 4-го и 2-го семестров, практически нет.
Решение задачи прогнозирования «траектории» качества учебной работы студентов по семестрам (в виде «траектории» качества оценок, полученных студентами на экзаменационных сессиях), требует дополнительного сбора данных.
Выводы. Работа в настоящее время продолжается. В дополнение к данным анкет-интервью планируется собрать данные по финансовому обеспечению образовательного процесса, экспертным оценкам итоговых аттестаций, российскому рейтингу вуза, уровню конкурсного отбора абитуриентов и т.д.
Предполагается решение комплекса задач, например:
- прогнозирование «траектории» учебной и научной работы студентов различных специальностей и направлений подготовки и определение мер, способствующих повышению качества учебной и научной работы студентов;
- кластеризация - группировка специальностей и направлений подготовки по качеству приема абитуриентов, качеству учебной и научной работы студентов, районам проживания абитуриентов и студентов с хорошим качеством учебной и научной работы, уровню востребованности выпускников различных специальностей и направлений подготовки;
- решение задач регрессии (получения многофакторных вычислительных моделей), устанавливающих зависимости таких целевых функций, как качество учебы по курсам и качество выпускных квалификационных работ, востребованность выпускников и уровень их заработной платы после трудоустройства, степень удовлетворенности участников процесса образования (студенты, аспиранты, преподаватели, учебно-вспомогательный персонал, административно-хозяйственный аппарат, потребители - работодатели, родители студентов и др.), от таких факторов, как потребность (федеральная, региональная) в специалистах; личностная потребность в высшем образовании, ресурсы вуза; бюджетное и внебюджетное финансирование; степень внедрения информационно-телекоммуникационных технологий; уровень требований при конкурсном отборе абитуриентов, степень участия преподавателей в НИР; уровень кадрового обеспечения образовательного процесса в целом; заработная плата преподавателей и учебно-вспомогательного персонала и т.п.
Рис. 4. Скриншот аналитической платформы Deductor.
Зависимость количества «пятерок» во 2-м семестре от количества «троек» в 1-м семестре
Авторы приглашают студентов, аспирантов и преподавателей вузов Чувашии к совместной работе.
Литература
1. Абруков В.С., Ефремов Л.Г., Кощеев И.Г. Новые подходы к разработке моделей системы поддержки принятия решений и управления вузом // Вестник Чувашского университета. 2013. № 1. С. 224-229.
2. Абруков В.С., Николаева Я.Г. Количественные и качественные методы: соединяем и властвуем! // СОЦИС. 2010. № 1. С. 142-145.
3. Анализ бизнес информации - основные принципы [Электронный ресурс]. URL: http://www.basegroup.ru/library/methodology/analysisbusinessdata (дата обращения: 15.04.2013).
4. Применение средств интеллектуального анализа данных (Data Mining) для исследования неполно определенных систем / В.С. Абруков, Я.Г. Николаева, Д.Н. Макаров и др. // Вестник Чувашского университета. 2008. № 2. С. 233-241.
5. Славутская Е.В., Абруков В.С., Славутский Л.А. Интеллектуальный анализ данных психодиагностики школьников предподрoсткового возраста // Вестник Чувашского университета. 2012. № 3. С. 226-231.
6. Goyal M. Applications of Data Mining in Higher Education // International journal of computer science. 2012. Vol. 9(2). P. 113.
7. Kovacic Z.J. Predicting student success by mining enrolment data // Journal of research in higher education. 2012. Vol. 15. P. 54.
8. Ranjan J. Effective educational process: a data-mining approach // Journal of information and knowledge management systems. 2007. Vol. 37(4). P. 502.
ПЕТРОВА МАРИНА ВЕНИАМИНОВНА - магистрант кафедры прикладной физики и нанотехнологий, Чувашский государственный университет, Россия, Чебоксары (vasilkovam@mail. ru).
PETROVA MARINA VENIAMINOVNA - master student of Applied Physics and Nanotechnology Chair, Chuvash State University, Russia, Cheboksary.
АНУФРИЕВА ДАРЬЯ АЛЕКСАНДРОВНА - магистрант кафедры прикладной физики и нанотехнологий, Чувашский государственный университет, Россия, Чебоксары (dashko-08@mail. ru).
ANUFRIEVA DARYA ALEXANDROVNA - master student of Applied Physics and Nanotechnology Chair, Chuvash State University, Russia, Cheboksary.
УДК 083.73 ББК 32.811.4
И.Г. СИДОРКИНА, В.В. КИЛЕЕВ
КОДИРОВКА СИМВОЛОВ ПЕРЕМЕННОЙ ДЛИНЫ В АЛГОРИТМЕ ДАМЕРАУ-ЛЕВЕНШТЕЙНА
Ключевые слова: строковая метрика, кодировка символов переменной длины, Юникод, алгоритм Дамерау-Левенштейна, обработка естественных языков.
Предложена модификация алгоритма Дамерау-Левенштейна для работы с кодировками переменной длины. Кодировки переменной длины отличаются тем, что один символ может кодироваться несколькими байтами, что требует дополнительных действий при работе с такими символами. Модификация алгоритма заключается в вычислении фактической длины символа и осуществлении операции сравнения не отдельных байт, а последовательности байт, кодирующих один символ. Данная модификация необходима для многих систем, работающих с естественными языками, в частности для систем верификации орфографии и грамматики. Среди языков, для которых будет полезна данная модификация и для которых отсутствуют однобайтовые кодировки, можно выделить восточные финноугорские языки, такие, как марийский, удмуртский, коми.
I.G. SIDORKINA, V.V. KILEEV VARIABLE LENGTH CHARACTER ENCODING IN DAMERAU-LEVENSHTEIN ALGORITHM Key words: string metric, variable length character encoding, Unicode, Damerau-Leven-shtein algorithm, natural language processing.
The paper is considering modification of Damerau-Levenshtein algorithm to work with variable length character encodings. Variable length character encodings are distinguished by the symbols that could be encoded in several bytes that requires additional actions to be done during the work with such symbols. Modification of the algorithm consists of calculation of actual symbol length and making comparison not of the bytes but of sequences of bytes, which encode one symbol. This modification is required for many systems that work with natural languages especially for spell and grammar verification systems. Among the languages for which this modification would be useful, it is possible to mention eastern Finno-Ugric languages such as Mari, Udmurt and Komi.
Актуальность решения задачи построения эффективного алгоритма [3] определяется задачами, которые перед этим алгоритмом ставятся. Так в теории информа-