Научная статья на тему 'Система программно-алгоритмической поддержки мультилингвистической адаптивно-обучающей технологии'

Система программно-алгоритмической поддержки мультилингвистической адаптивно-обучающей технологии Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
189
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
МУЛЬТИЛИНГВИСТИЧЕСКАЯ АДАПТИВНО-ОБУЧАЮЩАЯ ТЕХНОЛОГИЯ / ИНФОРМАЦИОННЫЙ БАЗИС / ЧАСТОТНЫЙ СЛОВАРЬ / ADAPTIVE TRAINING TECHNOLOGY / VOCABULARY BASIS / MULTILINGUAL / DICTIONARY

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Карасева Маргарита Владимировна

Показано, что для разработки системы программно-алгоритмической поддержки многоязычной (мульти-лингвистической) адаптивно-обучающей технологии, кроме проектирования непосредственного программного компонента системы, необходима разработка информационно-терминологического базиса указанной технологии. В области аэрокосмической техники данный базис представляет собой коллекции электронных частотных профессионально-ориентированных многоязычных словарей, подключение которых к обучающей системе обеспечивает достаточный уровень проведения процесса обучения иностранной терминологической лексике. Для персонификации процесса формирования электронных частотных словарей необходим многоуровневый анализ мультилингвистической информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Карасева Маргарита Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Multilingual algorithmic and software support system for adaptive-training technology

It is shown that for development of multilingual software-algorithmic support system for adaptive-training technologies, except designing the program component of system, is necessary the development of specified technology information-terminological basis. In the domain of aerospace technology the given basis presents the collections of electronic frequency professional-orientated multilingual dictionaries, connection which to training system provides the sufficient level of the foreign terminological lexicon education process. For personification of the electronic frequency dictionaries forming process is necessary deep analysis of multilingual information.

Текст научной работы на тему «Система программно-алгоритмической поддержки мультилингвистической адаптивно-обучающей технологии»

аналогичного параметра [1]. Однаш выражение плотности вероятности, представленное в данной статье является уточняющим и наиболее полно отражает реальную ситуацию.

Особенностью любой инвариантной системы, основанной на принципе инвариантной относительной амплитудной модуляции, является то, что по каналу передаются амплитудно-модулированные сигналы, образованные 1ЫУ/и Л' .. Передача этих сигналов обеспечивается на основе классических алгоритмов обработки информации и имеет невысокую помехоустойчивость.

Кривая 4 на рис. 2 соответствует вероятности ошибки Р~ , являющейся аналогом вероятности попарного перехода Рпер и рассчитываемой по известным формулам [2]. И только после обработки этих сигналов в соответствии с алгоритмом частного по выражению (1), можно получить оценку инварианта, по сути являющуюся числом, а не сигналом.

Вероятность попарного перехода в инвариантной системе определяется величинами 10 . 10 19. При тех же

значениях сигнал-шум вероятность ошибочного приема единичного символа в классических системах лежит в пределах 10 [... 10 7 (см. рис. 2).

Проведенный анализ инвариантной системы передачи информации показывает, что такая система при слабой корреляции отсчетов аддитивной помехи обладает высокой помехоустойчивостью, вероятность ошибки классического алгоритма с амплитудной модуляцией как минимум на два порядка больше вероятности попарного перехода в инвариантной системе. Поэтому данную систему следует использовать в телекоммуникационных системах, системах телеуправления и других системах, предъявляющих высокие требования к помехоустойчивости.

Библиографический список

1. Инвариантный метод анализа телекоммуникационных систем передачи информации : монография / В. Б. Малинкин, Е. И. Алгазин, Д. Н. Левин, В. Н. Попанто-нопуло. Красноярск, 2006.

2. Теплов, Н. Л. Помехоустойчивость систем передачи дискретной информации/Н. Л. Теплов. М.: Связь. 1964.

3. Левин, Б. Р. Теоретические основы статистической радиотехники/Б.Р. Левин. 3-еизд.М. :Радиоисвязь. 1989.

E. I. Algazin, A. P. Kovalevsky, V. B. Malinkin

l lll NOISE IMMUNITY OF THE INVARIANT SYSTEM OF INFORMATION TRANSMISSION IN THE PRESENCE OF WEAK CORRELATION CONTACTS

The invariant system of information processing based on synchronous detection is considered. It is assumed that by the parameters estimation of such a system the nearest readings of the subcarrier are interfered with the additive noise; these readings are weakly correlated. The comparison of the quantitative estimation of such a system operation with quantitative indications of the known invariant system by non-correlation of noise readings is realized.

Keywords: noise immunity, invariant, invariant relative amplitude modulation, probability of pairwise transition, signal/noise relation, coefficient of correlation.

УДК62-506.1

М. В. Карасева

СИСТЕМА ПРОГРАММНО-АЛГОРИТМИЧЕСКОЙ ПОДДЕРЖКИ МУТЬТИЛИНГВИСТИЧЕСКОЙ АДАПТИВНО-ОБУЧАЮЩЕЙ ТЕХНОЛОГИИ

Показано, что для разработки системы программно-алгоритмической поддержки многоязычной (мулъти-лингвистической) адаптивно-обучающей технологии, кроме проектирования непосредственного программного компонента системы, необходима разработка информационно-терминологического базиса указанной технологии. В области аэрокосмической техники данный базис представляет собой коллекции электронных частотных профессионально-ориентированных многоязычных словарей, подключение которых к обучающей системе обеспечивает достаточный уровень проведения процесса обучения иностранной терминологической лексике. Для персонификации процесса формирования электронных частотных словарей необходим многоуровневый анализ мультилингвистической информации.

Ключевые слова: мультилингвистическая адаптивно-обучающая технология; информационный базис; частотный словарь

Развитие Сибирского государственного аэрокосми- как инновационного аэрокосмического вуза с разветв-ческош университета имени академика М. Ф. Решетнева ленной инфраструктурой образовательной, научно-тех-

нической и производственной деятельности требует решения ряда задач, связанных с совершенствованием интегрированной подготовки элитных специалистов в области высоких технологий и современного менеджмента, а также развития гибкой многоуровневой системы непрерывного образования. Современные задачи персонификации информационного базиса в области аэрокосмической терминологии связаны, во-первых, с расширением профессиональных образовательных программ, учитывающих потребности развития предприятий аэрокосмической отрасли, гражданской авиации и высокотехнологичных производств. Во-вторых, указанные задачи непосредственно связаны со становлением университета в качестве полноправного участника мирового образовательного пространства на основе расширения международной академической мобильности преподавателей и студентов, организации подготовки иностранных студентов по программам высшего и послевузовского профессионального образования и международной аккредитации профессиональных образовательных программ.

В этих условиях профессионально-ориентированной языковой подготовке уделяется все более существенное внимание, а одним из важных ее аспектов становится повышение эффективности изучения многоязычной терминологической лексики в области аэрокосмической техники. На структуру и состав многоязычного информа-ционно-терминологического базиса влияет и то, каким образом в вузе происходит формирование инновационной научно-образовательной системы. Более того, данная система является адаптивной к изменяющимся условиям среды и на основе современных образовательных технологий и структурной интег рации образования, науки и производства обеспечивает генерацию новых знаний и, как следствие, нового терминологического базиса, что важно для воспроизводственного цикла подготовки компетентных специалистов как в аэрокосмической, так и в других высокотехнологичных отраслях.

Ранее в [1] было показано, что проблема разработки системы программно-информационной поддержки многоязычной (мультилингвистической) адаптивно-обучаю-щей технологии, кроме проектирования непосредственного программного компонента системы, включает и разработку информационного базиса указанной технологии. Этот базис представляет собой коллекции электронных частотных профессионально-ориентированных многоязычных словарей, подключение которых к обучающей системе обеспечивает должный уровень проведения процесса обучения иностранной терминологической лексике [ 1; 2]. При этом ключевыми этапами подготовки обучающей мультилингвистической (МЛ) информации являются, во-первых, анализ и обработка информации, которые приводят к формированию требуемых словарей, а во-вторых, структурирование и персонификация информации, частично осуществляемые непосредственно перед началом и в течение сеанса обучения [2].

Для персонификации процесса формирования электронных частотных словарей необходим многоуровневый анализ мультилингвистической информации [3]. Известно, что каждый языково-статистический анализ начинается с выбора и подготовки соответствующей тек-

стовой базы. Далее анализ следует осуществлять на уровне терминов.

При работе с лексикой иностранной научно-техничес-кой литературы наибольшу ю трудность для понимания и перевода представляют многокомпонентные термины терминологические словосочетания, созданные лексическим и синтаксическим способом и представляющие собой словосочетания, образованные по определенным моделям. Способ создания терминов в виде цепочки слов все шире входит в практику. Не является исключением и терминология аэрокосмической отрасли. Это происходит по объективным причинам, связанным с тем, что, во-первых, у любого языка существуют ограниченные ресурсы в плане лексических единиц и, во-вторых, результаты научно-технической революции приводят к новым открытиям и явлениям, требующим точных определений и наименований. Замечено, что в эпоху научно-технической революции пополнение лексики языка осуществляется в основном за счет специальной терминологии, которая является наиболее подвижной частью лексикосемантической системы языка; ежегодно такое увеличение составляет около 1 ООО новых терминов.

Особую трудность при переводе представляют беспредложные терминологические словосочетания, которые могут нести больший объем информации. Они состоят из цепочки слов, не связанных между собой какими-либо служебными словами. В беспредложном терминологическом словосочетании главным словом является последнее, а все слова, стоящие слева от него, играют второстепенную роль роль определения. Перевод беспредложных терминологических словосочетаний следует начинать с главного слова (рис. 1).

1. life test

чего?

,г -«------------------------ Т

срока службы испытание

Перевод: испытание на срок службы

2. radio wave propagation

каких? чего?

' ч ’ ’ -4

радио волн распространение

Перевод: распространение радиоволн

Рис. 1. Пример перевода беспредложных терминологических словосочетаний

Терминологические словосочетания обычно классифицируются по их лексическому составу. Существуют терминологические словосочетания, состоящие из одних существительных, из прилагательных и существительных, а также из различных комбинаций причастий, существительных, наречий, герундия, инфинитивов и т. д.

Работа с научно-техническими текстами в предметно-ориентированных областях показывает, что наиболее частотными терминологическими словосочетаниями являются те, которые состоят из 2-3 компонентов, что

является характерным для любой отраслевой терминологии. На практике встречаются и такие терминологические словосочетания, которые состоят из четырех и большего числа компонентов. Терминологические словосочетания позволяют передавать информацию в более сжатом виде, а тенденция к свертыванию речевого сообщения является характерным признаком стиля научно-технической литературы, в том числе и в аэрокосмической отрасли, поскольку в любом сообщении (высказывании) имеется определенная степень избыточности. Более того, терминологические словосочетания позволяют осуществлять межфразовые связи между предложениями и абзацами.

Анализ терминологических словосочетаний показывает, что их модели определяются числом компонентов, что, в свою очередь, влияет на мотивированность терминологического словосочетания.

Автором предлагается система автоматизированного анализа и обработки информации для формирования мультилингвистического базиса «Build Dictionary» [3]. При формировании словарей, кроме общеизвестных этапов анализа и обработки информации, включающих определение статистических элементов (слова, словосочетания, предложения), планирование контроля (выбор и определение выборочного пробы, установление абсолютной частоты элементов единичной выборочной пробы, расчет относительной частоты), изложение результатов в списках, таблицах или графиках и обобщение результатов, в данной системе реализован этап оптимальной разбивки информационно-терминологического базиса (ИТБ) на равновеликие модули. Модель оптимального разбиения ИТБ построена на основе теории цепей Маркова с использованием критерия минимальной суммарной трудоемкости.

Помимо этого, в рамках определенной предметной области выделены следующие процедуры, поддерживаемые разработанными средствами автоматизации.

1. Выбор текста (группы текстов), соответствующего предметной области составляемого частотного словаря, и его (их) частотный анализ. Например, для создания словаря по системотехнике и системному анализу в аэрокосмической отрасли выбираются электронные учебники, статьи, книги большого объема именно по указанной тематике для того, чтобыулучшить достоверность составляемого словаря. Здесь прослеживается закономерность: чем больше объем анализируемого текста, тем точнее получается словарь. Что касается вопроса об оптимальном объеме обрабатываемого текста (группы текстов), то рекомендуется рассматривать тексты объемом не менее 5 ООО слов.

2. Отсев ненужных слов (это могут быть как предлоги, так и слова, не входящие в предметную область).

3. Просмотр оставшихся слов и сопоставление однокоренных, а также приведение всех слов к нужному виду. Например, такие слова как стола (в контексте «нет стола») и столы являются одним и тем же словом стол.

После того как данный этап закончится, получается множество слов, отвечающих заданной предметной области на одном из изучаемых языков. Далее шаги 1-3 выполняются несколько раз (их количество обусловлено

требуемой структурой частотного словаря) для других языков.

4. Сопоставление слов разных языков. Например, рассматривая данные слова, взятые из частотного словаря, одинаковые по значению, но разные по языковой принадлежности (topology - Topologie - топология), можно перевести два из них английский русский, немецкий -русский и потом сопоставить по общим полям или же можно сразу сопоставлять слова из разных языковых множеств. Второй метод наименее трудоемкий.

5. Непосредственный перевод несопоставленных слов.

В связи с тем что разработанная система не привязана

к какому-либо конкретному языку (или языкам), в ней не происходит автоматического поиска однокоренных слов.

Для сопровождения разработанной программы, согласно представленной выше структуре, необходим один администратор и один-два специалиста в выбранной предметной области для переводов слов (словоформ). Для работы системы используются ОС Windows 95 и выше, СУБД Microsoft Access 97 и выше, а также DBE Administrator. Кроме того, данная система поддерживает динамическую коррекцию словаря, подключение к сети Интернет и использование любых электронных текстов и стандартных двуязычных словарей.

Практическая реализация результатов работы представлена в сформированном трехъязычном словаре [4]. В результате проведенного статистического исследования и описания текстов по системному анализу в области аэрокосмической техники объемом около 30 ООО слов был составлен список из 2 500 слов, адекватность которых была установлена для всех трех языков, а затем около 2 ООО слов были включены в частотный словарь, являющийся непосредственным компонентом компьютерной системы, реализующей мультилингвистическую технологию. Так как почти все частотные словари одноязычны, что значительно снижает степень активности слова при его определенном значении в словарном минимуме, то был проведен анализ многоязычных текстов на систематическом уровне. Словарь организован как англо-немецко-русский, однако принцип его построения в виде мультилингвистической базы данных обеспечивает возможность использования его как двуязычного в любом выбранном варианте.

Представленная программа автоматизированного анализа и обработки мультилингвистической информации была принята в опытную эксплуатацию на факультете информатики и систем управления Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева, в Сибирском институте бизнеса, управления и психологии и в Красноярском институте социальных наук, где она использовалась для подготовки информационного базиса системы «Virtual Teacher 1.0» для обучения терминологической лексике студентов ряда специальностей.

Очевидно, что правильность составления словарей, т. е. выбор терминов, и определение их частотных характеристик существенно влияет на эффективность работы алгоритма обучения [2]. Как уже было сказано выше, особенностью информационной базиса предложенной технологии прежде всего является многоязычность (муль-

тилингвистичность) терминологических понятий [5]. Это приводит к тому, что базисный информационный компонент мультилингвистической технологии, являясь основой информационной модели данных, представляет собой совокупность многоязычных элементов обучающей информации и их частотных свойств.

Современные программно-алгоритмические средства разработки компьютерных обучающих систем требуют применения оригинальных методик при формировании информационной модели данных, используемых при обучении. В основном это методики, которые базируются на основных идеях структурного системного анализа и на структурных методологиях, относящихся к классу методологий, ориентированных на данные [1; 3]. Примером этого подхода является DSSD-методология (Data-Stmctured Systems Development), предложенная Варнье-Орром и ориентированная на разработку систем со структурными данными [5].

Так, терминологическое множество, соответствующее базисному информационному компоненту мультилингвистической обучающей технологии, может быть описано следующим образом:

MJI-компонент = {терминяз_1, термин яз_2,..., термин яз_М. частота яз_1. частота яз_2,частота яз_Ы |.

Структурная методология DSSD использует аналогичную нотацию - множественную скобку (рис. 2).

термин яз_1 термин яз_2

МЛ-компонент

На этой диаграмме применены две базовые конструкции диаграмм Варнье-Орра: иерархия и последовательность. Они могут интерпретироваться следующим образом: МЛ-технология в качестве первого этапа содержит выбор сеансного состава МЛ-компонентов, в качестве второго этапа - определение характеристик и требований, в качестве третьего этапа обучение. Предлагаемая информационно-логическая организация МЛ-технологии фактически содержит этапы обработки информации.

выбор сеансного состава

МЛ-компонентов

альтернативное формирование БД; ранжирование БД; выбор БД;

- на логическом частота;

характеристики и уровне обученность;

требования скорость

забывания;

модель обучаемого

на физическом достигаемая

уровне обученность;

формирование термин яз_1;

альтернативного

терминологического термин яз_]Ч;

ряда

адаптация алгоритм;

обучение параметров процедура;

модели результат

приложения;

термин a.3_N частота яз_1 частота яз 2

частота яз_К

Рис. 2. Применение нотации DSSD к мультилингвистической технологии

При построении модели в DSSD используются диаграммы сущностей (DFD) для определения системного контекста и диаграммы Варнье-Орра (assembly-line diagrams) в качестве основного средства моделирования. Базовым элементом диаграммы Варнье-Орра является множественная скобка. Детализация элементов данных производится слева направо, а предполагаемая последовательность действий осуществляется слева направо и сверху вниз. Такая нотация удобна для представления композиции структур, определения структур данных, спецификации форматов файлов и может быть использована для иллюстрирования структуры программы и иерархии модулей (структур данных на модули или файлы, а на нижних уровнях - на подпрограммы, DO-циклы, условные и другие операторы), являясь в этом случае неким аналогом визуального языка проектирования типа FLOW-форм [4].

Таким образом* основные этапы методологии DSSD с помощью диаграмм Варнье-Орра позволяют определить логику обработки данных, продуцируя структуру программ обработки с целью реализации обучающих алгоритмов МЛ-технологии (рис. 3).

Рис. 3. Диаграмма Варнье-Орра

На первом этапе при выборе сеансного состава МЛ-юмпонентов ставится задача непосредственной реализации словаря в виде мультилингвистической базы данных, включающей: альтернативное формирование базы данных (БД) с учетом соотношений терминов и их частот; ранжирование БД, т. е. отбор наиболее употребительных терминов; выбор сформированной БД для сеанса обучения.

На логическом уровне второго этапа определяются требования к частоте и обученности и характеристики,, включающие начальные значения скорости забывания терминов. На физическом уровне второго этапа строится модель обучаемого и задается уровень достигаемой (в реальной обстановке) обученности.

На третьем этапе - этапе обучения формируется альтернативный набор терминов, образующий порцию обучающей информации. Формирование альтернативного терминологического ряда также находится на логическом уровне обработки информации. На физическом уровне этапа обучения происходит адаптация параметров модели обучаемого согласно алгоритму обучения, пошаговой процедуре и в итоге - в зависимости от результата обучения (значения критерия обучения).

Указанные выше этапы обработки обучающей информации и непосредственно адаптивный алгоритм обучения реализованы в системе «Virtual Teacher 1.0» [4], к которой подключаются ранее сформированные мультилин-гвистические частотные словари. Данная система также успешно применена на практике как в Сибирском госу-

дарственном аэрокосмическом университете имени академика М. Ф. Решетнева, так и ряде других вузов Красноярска.

Очевидно, что персонификация процесса адаптивного обучения, т. е. индивидуальная подготовка мультилин-гвистического словаря по определенной предметной области для конкретного пользователя, может быть осуществлена то лью при интеграции указанных систем, так как необходимое согласование информационной и функциональной моделей обучающей технологии достигает в этом случае высшего уровня. Система «Build Dictionary» [1], направленная на формирование информационно-термино-логического базиса в заданной пользователем предметной области и оптимальное разбиение базиса на блоки, интегрируется с обучающей системой «Virtual Teacher 1.0», в которой реализован алгоритм обучения, осуществляющий адаптацию параметров модели обучаемого с учетом индивидуальных свойств его памяти (рис. 4).

Build Dictionary

П ользователь

Z

Virtual Teacher

расширения ИТБ

Блок обучения и тестирования МЛ технологии

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

і г

Тесгир ование

I

Админи стр атор ИТБ

Система анализа и обработки МЛ информации

Блок

оптимизации

ИТБ

Internet ресурс Электронная информация

Таким образом, при тщательном подборе комплекса программ, а именно: программ обучения другим языковым навыкам, редактора текста со встроенной программой проверки орфографии, браузера Интернета, обычных электронных словарей и энциклопедий (особенно с интерфейсом на изучаемом языке, что обеспечивает более интенсивное погружение в иноязычную среду) - существует возможность создания компьютерной обучающей среды как интегрированного средства изучения иностранного языка на базе описанной выше системы.

Для разработанной компьютерной системы необходим один администратор и, как правило, два-три специалиста в выбранной предметной области для перевода слов и словоформ.

Библиографический список

1. Карасева,М. В. Информационно-терминологичес-кое обеспечение мультилингвистической адаптивно-обучающей технологии/М. В. Карасева//ВестникСибГАУ Вып. 3. Красноярск, 2002. С. 106-112.

2. Растригин, JI. А. Адаптивное обучение с моделью обучаемого / JI. А. Растригин, М. X. Эренштейн. Рига, 1988.

3. Ковалев, И. В. Системные аспекты организации и применения мультилингвистической адаптивно-обучаю-щей технологии/И. В. Ковалев, М. В. Карасева, Е. А. Суз-далева //Образовательные технологии и общество : Меж-дунар. журн. Восточ.-Европ. подгруппы «IEEE Learning Technology Task Force». 2002. №5 (2). С. 198-212.

4. Ковалев, И. В. Англо-немецко-русский частотный словарь по системному анализу / И. В. Ковалев, М. В. Карасева. Красноярск: Изд-во «Лечат, технологии», 2004.

5. Ковалев. И. В. Программно-алгоритмические средства персонификации информационно-терминологичес-кого базиса в области аэрокосмической техники / И. В. Ковалев, С. С. Огнерубов, П. М. Лохмаков // .Авиакосмическое приборостроение. 2007. № 9. С. 67-71.

Рис. 4. Интеграция систем в мультилингвистической адаптивно-обучающей технологии

М. V Karaseva

MULTILINGUAL ALGORITHMIC AND SOFTWARE SUPPORT SYSTEM FOR ADAPTIVE-TRAINING TECHNOLOGY

It is shown thatfor development of multilingual software-algorithmic support system for adaptive-training technologies, except designing the program component of system, is necessary the development of specified technology information-terminological basis, In the domain of aerospace technology the given basis presents the collections of electronic frequency professional-orientated multilingual dictionaries, connection which to training system provides the sufficient level of the foreign terminological lexicon education process. For personification of the electronic frequency dictionaries forming process is necessary deep analysis of multilingual information.

Keywords: adaptive training technology, vocabulary basis, multilingual, dictionary.

i Надоели баннеры? Вы всегда можете отключить рекламу.