Научная статья на тему 'Разработка методики формализованного анализа требований к специалистам и содержания образовательных программ'

Разработка методики формализованного анализа требований к специалистам и содержания образовательных программ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
180
47
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МОДЕЛЬ ТЕКСТА / СЕМАНТИЧЕСКАЯ СЕТЬ / СОПОСТАВЛЕНИЕ / TEXT MODEL / A SEMANTIC NETWORK / COMPARISON

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Пикулин В. В., Усачёв Ю. Е., Яшина Е. Н.

Рассматривается методика формализованного смыслового сопоставления текста требований работодателей, содержащихся в профессиональных стандартах и описаниях вакансий, с текстами образовательных стандартов и других документов образовательных программ. Методика основана на создании в автоматическом режиме иерархической структурной модели текста документа с помощью комплексного смыслового анализатора текста программы Text Analyst. Предлагаются показатели для количественного оценивания результатов сопоставления текстов документов

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Пикулин В. В., Усачёв Ю. Е., Яшина Е. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF THE TECHNIQUE OF THE FORMALIZED ANALYSIS REQUIREMENT TO EXPERTS AND CONTENTS OF EDUCATIONAL PROGRAMS

The technique of the formalized semantic comparison of the text of requirements of the employers containing in professional standards and descriptions of vacancies, with tests of educational standards and other documents of educational programs is considered. The technique is based on creation in an automatic mode of hierarchical structural model of the text of the document by means of the complex semantic analyzer of the text programs Text Analyst. Indexes for the quantitative estimation of results of comparison of texts of documents are offered

Текст научной работы на тему «Разработка методики формализованного анализа требований к специалистам и содержания образовательных программ»

УДК 004.912

РАЗРАБОТКА МЕТОДИКИ ФОРМАЛИЗОВАННОГО АНАЛИЗА ТРЕБОВАНИЙ К СПЕЦИАЛИСТАМ И СОДЕРЖАНИЯ ОБРАЗОВАТЕЛЬНЫХ ПРОГРАММ

В.В. Пикулин, Ю.Е. Усачёв, Е.Н. Яшина

Рассматривается методика формализованного смыслового сопоставления текста требований работодателей, содержащихся в профессиональных стандартах и описаниях вакансий, с текстами образовательных стандартов и других документов образовательных программ. Методика основана на создании в автоматическом режиме иерархической структурной модели текста документа с помощью комплексного смыслового анализатора текста - программы Text Analyst. Предлагаются показатели для количественного оценивания результатов сопоставления текстов документов

Ключевые слова: модель текста, семантическая сеть, сопоставление

Прогресс в области вычислительной техники требует оперативного реагирования образовательных учреждений (ОУ) профессиональной подготовки различного уровня на систематическое изменение требований работодателей в сфере информационных технологий (ИТ). Указанная «реакция» ОУ подразумевает разработку новых и пересмотр реализуемых основных образовательных программ (ООП), начиная с образовательных стандартов и заканчивая содержанием рабочих программ, методических изданий и т. п. То же относится и к ОУ, осуществляющим переподготовку специалистов, повышение квалификации, проведение сертификационных испытаний и т.п. Выполнение этой работы должно включать анализ требований работодателей, содержащихся в профессиональных стандартах (ПрофСт) [1] и описаниях вакансий, публикуемых в средствах массовой информации и Интернете; кроме этого, следует учитывать и перспективы развития анализируемой отрасли. Цель такого сопоставительного анализа заключается в выявлении общности и различий в документах и выработке рекомендаций по содержанию документов, составляющих ООП. Аналогичные задачи требуется решать при коррекции действующих профессиональных и федеральных государственных образовательных стандартов (ФГОС). Сопоставление содержания ООП с актуальными требованиями работодателей в регионе позволяет делать выводы о соответствии компетенций (знаний, умений, навыков) выпускников современным региональным требованиям, оценивать востребованность специалистов.

Пикулин Василий Васильевич - ПГТА, канд. техн. наук,

доцент, тел. (8412) 44-44-17, e-mail: pvv@pgta.ru

Усачев Юрий Евгеньевич - ПГТА, канд. техн. наук,

доцент, тел. (8412) 31-36-94, e-mail: uje1@pgta.ru

Яшина Елена Николаевна - ПГТА, студент, e-mail:

lena_shpilka@mail.ru

Процесс сопоставительного анализа указанных документов является очень трудоёмким, поскольку количество описаний вакансий, содержащих требования работодателей, очень велико, структура текстов разнородна; в описания требований к специалистам достаточно часто вносятся изменения; сопоставительный анализ следует проводить в сжатые сроки, поскольку его результаты могут потерять актуальность. Кроме того, такой процесс требует привлечения специалистов высокой квалификации. Программы, применяемые для сравнения текстов, в общем случае не подходят для решения указанных задач, поскольку в настоящее время тексты указанных документов не идентичны.

Таким образом, актуальной является задача разработки математических моделей, методики и инструментальных средств, позволяющих автоматизировать процессы решения ряда родственных задач, связанных с сопоставлением смыслового содержания документов, характеризующих определённую сферу деятельности, например:

1) описаний вакансий специалистов и профессиональных стандартов,

2) профессиональных стандартов и ФГОС,

3) ФГОС и документов ООП,

4) описаний вакансий специалистов, профессиональных стандартов и ООП.

В настоящее время разработаны методы извлечения знаний из документов, представленных в текстовом виде [2, 3], которые позволяют автоматизировать поставленную задачу сопоставительного анализа текстов.

В данной работе изложена методика, позволяющая автоматизировать процесс решения поставленных задач.

Содержательная постановка задачи рассматривает описания квалификационных требований к специалистам для конкретных рабо-

чих мест, и профессиональные стандарты (например, в области информационных технологий [1]) как структурированные документы, поскольку в них можно выделить следующие разделы: характеристика направления дея-

тельности специалиста; должностные обязанности и квалификационные требования (знать, уметь, владеть); наименование должностей; требуемый уровень профессионального образования и обучения и другие. Поэтому можно считать, что следует разработать математические модели и методику для сопоставления структурированных документов. Такие модели должны обеспечивать решение в автоматическом или автоматизированном режиме задачи сравнения содержания ООП с содержанием документов, включающих требования работодателей, с целью выделения совпадений и различий в знаниях, умениях, навыках специалиста и других требованиях к работнику, а также определять степень их совпадения и существующие различия.

Формальная модель текста документа базируется на представлении о том, что человеческие знания имеют сложную иерархическую или сетевую многоуровневую структуру, являющуюся отображением структур материального и духовного миров. Каждому объекту духовного и материального мира соответствует понятие. Если понятие является сложным, его смысл раскрывается, как правило, с использованием в его определении других понятий [3]. Понятие, смысл которого раскрывается в определении, называется «раскрываемым», а раскрывающие понятия, входящие в определение, называются «определяющими». Раскрываемое понятие находится в отношении «определение» с подмножеством определяющих понятий.

Структуру S совокупности знаний можно определить как совокупность множества понятий предметной области М и отношения «определение» Я; Я с М2 :

£ = {М,Я}. (1)

В качестве формальной модели структуры знаний можно использовать семантическую сеть (ориентированный граф с помеченными вершинами)

а = [б,у ), (2)

где Е - множество вершин, взаимно однозначно соответствующих элементам множества понятий М; каждой вершине е е Е соответствует метка [1е, значение которой - текст

понятия;

V - множество ориентированных ребер (дуг); дуга V = (х,у) е V; (х е Е Л у е Е) выходит из вершины х, соответствующей раскрываемому понятию, и входит в вершину у, соответствующую определяющему понятию.

Поскольку в тексте документа не для всех понятий дано определение, то вместо отношения «определение» будем использовать отношение «смысловая («семантическая») связь» Б, позволяющее рассматривать в качестве раскрывающих понятия, которые в тексте документа семантически связаны с определяемым понятием. В составе множества М должно быть выделено подмножество «основных понятий» А с М, имеющих наиболее существенное значение для предметной области. Формально элементы подмножества А выделяются по критерию превышения показателем «вес значимости» понятия ра порогового значения Рпор, которое назначается экспертом.

В результате анализа текста документа:

- устанавливается вес значимости 1 < ра < 100 для каждого понятия а е А ,

- выделяется множество основных понятий А с М ; V а е А(Ра * Рпор ) ,

- для каждого понятия а е А определяется множество понятий Ва С А, которые

часто используются в тексте в сочетании с понятием а е А ,

Vа е АЗ Ва \ Ва С МЛ (VЬе Ва,аБЬ), (3)

- для каждого понятия Ь е Ва устанавливается вес значимости рЬ в тексте,

- для каждого понятия Ь е Ва устанавливается вес связи ра ,Ь с понятием а .

Таким образом, множество понятий

предметной области М следует рассматривать как объединение определённых групп множеств

т

М = А и В; В = и В,,т =\А\. (4)

I =1

Если для понятия а е А определены: вес значимости ра ; множество связных понятий

Ва С А ; веса значимости рЬ для каждого понятия Ь е Ва ; веса связей ра ,Ь каждого понятия Ь е Ва с понятием а , то каждому а е А можно поставить в соответствие модель в виде графа (2) с весами при вершинах и дугах (табл. 1, рис. 1).

Рис. 1. Модель «заданного» понятия «умение» в виде взвешенного ориентированного графа

В свою очередь для каждого Ь є Ва может быть определено множество понятий СЬ, удовлетворяющих условию (3), приводит к формированию более сложных моделей; например, для понятия «программист» на основе варианта описания вакансий профессий (таблица 2, документ 1) сформированы:

— множество понятий предметной области М = /программист (а^; опьщЯ2); программирования на (а3); язык (а4); работы (а5); разработке (а6); знаний (а7);^йыт разработки

Ы};

— множество выделенных понятий А =

/аі};

— множество понятий Ва={а2; а3; а4; а5};

— множество понятий СЬ=/а5; а6; а1; а4},

затем построена графовая модель понятия

(рис. 2).

Здесь не рассматриваются правила формирования указанных множеств понятий; для этого используется комплексный нейросетевой анализатор текстовой информации ТехіЛпаіу8І

[4]. При этом существует возможность получения транзитивного замыкания на моделирующем графе при анализе взаимосвязанных понятий (табл. 2).

Аналогично может быть сформирована семантическая сеть (граф Н = (Х,У), соответствующий (2, 3,4)) для того же понятия, определённого в другом документе (табл. 2). Полученные модели документов можно использовать для оценивания степени их семантической близости.

Можно определить два вида соответствия моделей С и Н: структурное и структурнопараметрическое .

Под структурным соответствием понятий а и с , определённых в документах Б1 и Б2,

будем понимать изоморфизм графов С и Н.

«программист»

Если графы С и Н моделей понятий а и

с изоморфны (с учётомм^ок вершин [1е), то

эти понятия можно считать семантически тож-^двотвенными. Если графы С и Н моделей по-

Р02—~ ,

нятий а и с частично изоморфны, то следует количественно оценить степень изоморфизма и, соответственно, степень семантического соответствия понятий. Рз=51

^ По^^структурно-параметрическим соответствием будем понимать изоморфизм графов С и Н, и совпадение весов вершин и дуг. Если графы С и Н моделей понятий а и с , изоморфны (с учётом меток вершин [іе), и веса взаимно однозначно соответствующих друг другу вершин и дуг равны между собой, то понятия а и с можно считать семантически

тождественными и имеющими одинаковую степень важности для предметной области.

Таким образом, если определено множество понятий М = \а1 ,а2 ,...ап } основного

(базового) документа Б, содержащего квалификационные требования к специалисту, то на множестве М = {а1,а2,...ап } задана семантическая сеть, представленная в виде ориентированного графа (2). И если имеются документы К, структура которых задана аналогичными семантическими сетями на множестве М = {а1 ,а2,...ап}, то задача установления

соответствия понятий документа К с понятиями базового документа сводится к определению изоморфизма графов семантической сети основного документа и семантической сети документа К

Обозначим = (Ба,Уа) - граф, пред-

ставляющий одно из основных понятий а є А, А с М в документе Б. Аналогично, понятию Ь є А, А с М в документе К соот-

ветствует граф НЬ = (ХЬ,УЬ) . Тогда, если для каждого Са е С существует изоморфный ему граф (или подграф) НЬ е Н (без учёта

весов вершин и дуг), где С = и С.

УаеЛ

Н = и НЬ , то документ К; идентичен доку-

УЬеА

менту Б по множеству основных понятий А с М без учёта степени важности рассматриваемых понятий для предметной области.

Определим дифференциальный (Та) и интегральный (Т) показатели близости степеней важности для предметной области тождественных понятий из сравниваемых документов

Та = (Ра - РЬ) ;

(5)

Т = 77] £ ( Ра - Рь)

I I УаеА&Ь^а •

(6)

Если Та = 0 для всех а е А, то степени

важности тождественных понятий для предметной области одинаковы.

Если Та > 0 для всех а е А, то степени

важности тождественных понятий для предметной области выше в основном документе (Б); если Та < 0, то - в документе К;.

Интерпретация значений интегрального

показателя (Т) достаточно очевидна, поскольку это оценка математического ожидания значений дифференциального показателя.

Для более полного анализа соответствия тождественных понятий друг другу по показателям, характеризующим степени важности для предметной области и степень смысловой близости понятий, следует вычислить значения показателей, аналогичных (5) и (6), и относящихся к весам всех вершин и дуг

Ра,Ь графов Са е С и Нь е Н .

Методика сопоставления документов, содержащих требования к профессии, базируется на определённых выше моделях и использовании в качестве инструментального средства комплексного смыслового анализатора текста Тех1Лпа1у81 [5]. При выполнении анализа документа программа Тех1Лпа1у81 создает семантическую сеть понятий; при этом она выделяет множества значимых и связанных с ним ассо-

циативными связями понятий, как это рассмотрено выше (табл. 1 и 2, рис. 1 и 2).

Процедура сопоставления документов включает следующие этапы:

1. Выбор основного (Б) и сопоставляемого (рецензируемого) документа; например, основной документ - ПрофСт «Специалист по информационным системам» [1], сопоставляемый документ - ФГОС по направлению подготовки 230700 «Прикладная информатика».

2. Выделение множества А с М основных понятий в документе (Б); анализ отношений понятий в выбранной предметной области и определение весов понятий и отношений (Ра, РЬ, РаЬ).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. Подготовка дополнения в словарь Тех-1Лпа1у81;, включающего выделенные термины;

4. Предварительный анализ рецензируемого документа с целью определения совпадения терминологии, используемой в основном документе и рецензируемом;

5. Корректировка терминов рецензируемого документа с целью приведения к единой терминологии (в случае необходимости);

6. Автоматическое построение семантической сети (смыслового портрета текста) в терминах основных понятий и их смысловых связей.

7. Вычисление значений показателей, характеризующих степени важности понятий для предметной области и степень смысловой близости понятий.

8. Формирование заключения о степени соответствия рецензируемого документа основному.

В заключение следует отметить, что методика может быть полезна для проведения смыслового анализа объемных документов или совокупности документов, с целью определения наличие в них или отсутствия знаний, содержащихся в основном документе.

Литература

1. Профессиональные стандарты в области информационных технологий. - М.: АП КИТ, 2008. - 616 с.

2. Башмаков А.И., Башмаков И.А. Интеллектуальные информационные технологии: Учеб. пособие. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. - 304 с.

3. Ивлев Ю.В. Логика: Учебник для вузов. - М.: Логос, 2000. - 272 с.

4. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. ТехЬЛпа1у81 - комплексный нейросетевой анализатор текстовой информации. - М.: Вестник МГТУ им. Н.Э. Баумана. - 1998. - № 1, с. 32 - 36.

Таблица 1

Модель «заданного» понятия «умение» в виде взвешенного ориентированного графа

«Заданное» понятие «Определяющие» понятия, Ba Вес понятия Вес связи

aop - умение; pa=91 b1 - разрабатывать 72 72

b2 - инсталлировать 6S 3S

b3 - формировать 31 33

Таблица 2

Результаты анализа текстов документов

Документ 1 Документ 2

Родитель Подчиненный Вес Родитель Подчиненный Вес

а1 - программист 99 а1 - программист 99

а2 - опыт 71 а2 - опыт 61

а3 - программирования на 47 а3 - программирования на 37

а4 - язык 37 а7 - знаний 61

а5 - работы 72 а5 - работы 32

а2 - опыт 100 а3 - программирования на S3

а6 - разработке 34 а4 - язык 49

а5 - работы SS а2 - опыт 49

а3 - про-граммирова-ния на S0 аб - разработке 99

а4 - язык 39 а2 - опыт S0

а1 - программист 39 а8 - опыт разработки 71

Пензенская государственная технологическая академия

DEVELOPMENT OF THE TECHNIQUE OF THE FORMALIZED ANALYSIS REQUIREMENT TO EXPERTS AND CONTENTS OF EDUCATIONAL PROGRAMS

V.V. Pikulin, JU.E. Usachyov, E.N. Jashina

The technique of the formalized semantic comparison of the text of requirements of the employers containing in professional standards and descriptions of vacancies, with tests of educational standards and other documents of educational programs is considered. The technique is based on creation in an automatic mode of hierarchical structural model of the text of the document by means of the complex semantic analyzer of the text - programs Text Analyst. Indexes for the quantitative estimation of results of comparison of texts of documents are offered

Key words: text model, a semantic network, comparison

i Надоели баннеры? Вы всегда можете отключить рекламу.