Научная статья на тему 'Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса'

Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
85
34
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Ковалев И. В., Карасева М. В., Лесков В. О.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Алгоритмизация процедур включения связанных лексем в структуру информационно-терминологического базиса»

ния системы в заданном состоянии. Показано, что такая задача сводится к задаче нелинейной оптимизации скалярной функции многих переменных. Указано на трудность получения как аналитического решения данной задачи, так и прямого использования численных методов ввиду возможной большой размерности задачи. Предложен метод приближенного нахождения границ интервала неопределенности для требуемой вероятности, использующий аппарат матричной алгебры, который с вычислительной точки зрения представляется более простым, чем прямое решение оптимизационной задачи. Действительно, операции даже с матрицами размера 10x10 проще, чем поиск экстремума функции 20 и более переменных при наличии ограничений типа неравенств.

Литература

1. Гнеденко Б.В., Коваленко И.Н. Введение в теорию массового обслуживания. М.: Наука, 1987.

2. Куликов Г.Г., Флеминг П.Дж., Брейкин Т.В., Арьков В.Ю. Марковские модели сложных динамических систем: идентификация, моделирование и контроль состояния (на примере цифровой САУ ГТД). Уфа: УГАТУ, 1998.

3. Бояринов Ю.Г., Мищенко В.И. Основные направления повышения эффективности полумарковских моделей производственно-экономических систем // Программные продукты и системы. 2009. № 2. С. 144-148.

4. Вентцель Е.С., Овчаров Л.А. Теория случайных процессов и ее инженерные приложения. М.: Наука, 1991.

5. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. М.: Наука, 1974.

6. Дьяконов В.П., Круглов В.В. MATLAB 6.5 SP1/7/7 SP1/7 SP2 + Simulink 5/6. Инструменты искусственного интеллекта и биоинформатики. М.: СОЛОН-ПРЕСС, 2006.

АЛГОРИТМИЗАЦИЯ ПРОЦЕДУР ВКЛЮЧЕНИЯ СВЯЗАННЫХ ЛЕКСЕМ В СТРУКТУРУ ИНФОРМАЦИОННО-ТЕРМИНОЛОГИЧЕСКОГО БАЗИСА

И.В. Ковалев, д.т.н.; М.В. Карасева, к.т.н.; В.О. Лесков

(Сибирский государственный аэрокосмический университет им.. академика М.Ф. Решетнева,

г. Красноярск, [email protected])

В статье рассмотрены вопросы модификации адаптивного алгоритма структурирования базисного информационного компонента мультилингвистической адаптивно-обучающей технологии для применения методики обучения иностранной лексике посредством построения внутриязыковых ассоциативных полей.

Ключевые слова: мультилингвистическая адаптивно-обучающая технология, информационно-терминологический базис, частотность, лексически связанные компоненты.

Методика обучения иностранной лексике на основе лексически связанных (ЛС) компонентов (ЛСК-методика) [1] строится на специально подготовленной информационно-терминологической базе. Особенность данной методики состоит в том, что она позволяет искусственно формировать строго организованные системы внутриязыковых ассоциативных связей непосредственно в процессе обучения иностранной лексике. Являясь при этом частью мультилингвистической адаптивно-обучающей технологии [2], ЛСК-методика также учитывает языковые аналоги изучаемых лексем на всем множестве языков, с которыми работает [3].

Построение информационно-терминологического базиса (ИТБ) [4] как совокупности лексически связанных компонентов (ЛС-компонентов) -задача сама по себе неоднозначная. Многое зависит от требований, которые предъявляются к базису лингвистами и специалистами предметных областей, привлеченными к разработке. Такими требованиями могут быть фиксированное количество основных лексем или связанных лексем в компоненте, время разработки базиса, его качество, оцениваемое по некоторым критериям, и т.д.

Перед тем как перейти непосредственно к алгоритмам формирования ИТБ ЛСК-методики,

следует кратко описать структуру ЛС-компонен-тов.

ЛС-компонент

Структура ЛС-компонента схематично представлена на рисунке.

Лексему, связанную со всеми без исключения лексемами ЛС-компонента ИТБ, принято называть

| Ц12

( 1: VI

Ц15

5: у5Т

ЛС-компонент ИТБ Лексемы: 1 - основная лексема; 2, 3, 4, 5 - связанные лексемы; лексические связи: 1-2, 1-3, 1-4, 1-5; количественные характеристики: V! - абсолютная частота 1-й лексемы, ц1к -абсолютная частота сочетания 1-й и к-й лексем.

основной лексемой, лексемы, имеющие только одну связь, - связанными лексемами.

Нисходящий алгоритм формирования ЛС-компонентов

Рассмотрим разработанный ранее [1] нисходящий алгоритм (Н-алгоритм) формирования ЛС-компонентов.

1. Подготовка ИТБ.

1.1. Для каждой лексемы ИТБ вычисляется значение Ь

0,7

ХЧкМш

к—-+1

Ц=е к ^тах .

где ц|к - относительная частота сочетания ¡-й и к-й лексем, отражающая силу ассоциативной связи; qi - относительная частота, выражающая долю лексической единицы в тексте, подвергшемся статистической обработке при составлении частотно-

тах

го словаря, 0^<1, , где ч1'"м=тах ч'чп,

qн,..., qi„} - абсолютная частота появления лексической единицы в тексте; qil, qi2,•••, qi„ - частоты из мультилингвистического словаря, если речь идет о мультилингвистической адаптивно-обучающей технологии [4].

1.2. ИТБ упорядочивается по убыванию значения Ц (таким образом, чем меньше будет порядковый номер лексемы, тем выше вероятность образования на ее основе ЛС-компонента).

1.3. Данные о лексических связях упорядочиваются по убыванию значения (|кц|к (тем самым увеличивается вероятность попадания в ЛС-ком-понент тех из связанных лексем, которые более всего могут улучшить качество ИТБ).

2. Поиск оптимального количества основных лексем.

2.1. Осуществляется перебор возможного количества основных лексем к от 1 до значения, равного объему ИТБ (возможно сужение интервала поиска разработчиком).

2.2. Для текущего значения к определяются основные лексемы (к первых лексем ИТБ).

2.3. Для выбранных основных лексем определяются связанные лексемы (как правило, задается максимум их количества).

2.4. Подсчитывается значение функции каче-

0,7 кк-+1

ства. Ь(п)=у\|.с к —»тах, Ь(п) показывает сумму взвешенных вероятностей знания лексем по всему базису, естественно, чем больше эта сумма, тем более удачно построен базис.

2.5. Если перебор окончен, переходим к пункту 2.6, иначе - возврат к пункту 2.1.

2.6. Определяем максимум функции качества (оптимальное число основных лексем ктах).

3. Формирование ИТБ как совокупности ЛС-компонентов (искомый ИТБ получается при прохождении пунктов 2.2 и 2.3 для ктах основных лексем).

Восходящий алгоритм формирования ЛС-компонентов

В целом данный алгоритм показывает неплохие результаты как по качеству ИТБ, так и по времени исполнения. Тем не менее, если обратиться к пунктам 2.2 и 2.3, становится очевидным, что связанные лексемы определяются согласно порядку основных лексем. Это может быть нерационально: естественно, что связанная лексема, являясь частью одного ЛС-компонента, уже не может быть частью другого, даже если она подходит ему больше (речь идет о конечном значении Ь(„)). Таким образом, возникает задача о нахождении наиболее подходящих связанных лексем для ЛС-компонентов в процессе их формирования.

Эту задачу можно решить от обратного, то есть не подбирая для основных лексем связанные.

Алгоритмы формирования ЛС-компонентов, реализующие данный принцип, будем называть «Восходящими» (В-алгоритмы). При этом данные о лексических связях (п. 1.3 Н-алгоритма) можно не упорядочивать. Итак, структура В-алгоритма будет следующей.

1. Подготовка ИТБ.

1.1. Для каждой лексемы ИТБ вычисляется значение Ь

1.2. ИТБ упорядочивается по убыванию значения Ь (таким образом, чем меньше будет порядковый номер лексемы, тем выше вероятность образования на ее основе ЛС-компонента).

2. Поиск оптимального количества основных лексем.

2.1. Осуществляется перебор возможного количества основных лексем к от 1 до объема ИТБ (возможно сужение интервала поиска разработчиком).

2.2. Для текущего значения к определяются основные лексемы (к первых лексем ИТБ).

2.3. Осуществляется перебор неосновных (потенциально связанных) лексем, и для каждой неосновной лексемы выбирается наиболее подходящая основная (из множества, сформированного в п. 2.2) по критерию:

0,7

Ч^+ХЧкЦш

(к-^-)+1

к

I. ->та\ .

Таким образом, вычисляется максимальный прирост Ь(„), который обеспечивается вхождением текущей неосновной ^й лексемы как связанной в ЛС-компонент, образованный 1-й лексемой (как правило, задается максимум количества связанных лексем).

2.4. Подсчитывается значение функции качества.

2.5. Если перебор окончен, переходим к пункту 2.6, иначе - возврат к пункту 2.2.

2.6. Определяем максимум функции качества (оптимальное число основных лексем ктах).

3. Формирование ИТБ как совокупности ЛС-компонентов.

3.1. Незадействованные в ЛС-компонентах лексемы из числа основных (ктах) помечаем как неосновные. Нахождение наиболее подходящих связанных лексем порождает свободные элементы из числа потенциально основных лексем, что во многом ухудшает Ь(„); поэтому не задействованные в ЛС-компонентах лексемы из числа основных (ктах) помечаем как неосновные.

3.2. Для полученного значения ктах основных лексем осуществляем шаги 2.2 и 2.3 и тем самым получаем искомый ИТБ.

Сравнительный анализ приведенных алгоритмов

Проведем сравнение алгоритмов на трех ИТБ одинаковой структуры, но различного объема [5].

Настраиваемые параметры базиса:

максимальное количество связей, приходящихся на одну лексему (10);

- максимальное значение абсолютной частоты лексем (100/50000);

- максимальное значение частоты сочетаний лексем (20/50000);

- объем материала, по которому произведен частотный анализ (50000);

- коэффициент связанности лексем (1).

В таблице 1 приведены результаты теста 1 (объем базиса - 1000 терминов).

В таблице 2 - результаты теста 2 (объем базиса - 2000 терминов).

В таблице 3 - результаты теста 3 (объем базиса - 5000 терминов).

Результаты тестирования для времени исполнения и Ь(„) приведены в сводной таблице 4.

Таблица 1

Таблица 2

Параметры Н-алгоритм В-алгоритм

выхода

min L(n) 3,994799407656066 0,994799407656066

max L(n) 3,994799517816764 0,994799524607485

Количество:

- основных

лексем 410 394

- свободных

элементов 545 538

- итераций 19930343 21542653063

Время испол- 30:00:18:22 00:23:28:16

нения

(ч:м:с:сс)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Таблица 3

Параметры Н-алгоритм В-алгоритм

выхода

min L(n) 2,47712640220252 2,47712640220252

max L(n) 2,47712664878646 2,47712666142042

Количество:

- основных

лексем 845 822

- свободных

элементов 1867 1886

- итераций 124568303 253340376005

Время испол- 00:01:17:50 04:35:58:57

нения

(ч:м:с:сс)

Таблица 4

Показатели Н-алгоритм В-алгоритм

качества

AL(n) (1000) 0,00000005150401 0,000000055906935

AL(n) (1000), % 100 108,54

AL(n) (2000) 0,000000110160698 0,000000116951419

AL(n) (2000), % 100 106,16

AL(n) (5000) 0,00000024658394 0,0000002592179

AL(n) (5000), % 100 105,12

At (1000), % 100 38,34 * 102

At (2000), % 100 76,7 * 102

At (5000), % 100 213,65 * 102

Оценить, насколько улучшает структуру базиса тот или иной алгоритм, невозможно ввиду ограничений и специфики Ь(„), которая служит для нахождения оптимального числа основных лексем и не может использоваться как абсолютный показатель качества ИТБ; но можно, используя экстремальные значения этой функции, сравнить алгоритмы формирования ЛС-компонентов между собой.

В таблице 4 приведены результаты трех экспериментов (ДЬ(п)=тахЬ(п)-ттЬ(п)), согласно которым В-алгоритм превосходит Н-алгоритм на 8,54; 6,16; 5,12 %, соответственно. Снижение этого превосходства сложно объяснить, поскольку проведено всего три эксперимента. Можно предположить, что негативное влияние свободных элементов из числа основных лексем (которые записаны как связанные) на Ь(„) становится сильнее

Параметры выхода Н-алгоритм В-алгоритм

min L(n) 0,496118513639315 0,496118513639315

max L(n) 0,496118565143325 0,496118569546250

Количество:

- основных лексем 188 172

- свободных элементов - итераций 320 4981096 324 2000498500

Время исполнения (с) 3,41 130,75

с ростом ИТБ и постепенно подавляет положительное влияние наиболее подходящих связанных лексем. Поскольку ИТБ, с которыми работает ЛСК-методика, предметно-ориентированы и их объем, как правило, не превышает 5000 терминов, ограничимся тем, что В-алгоритм превосходит Н-алгоритм по качественным показателям на 5-10 %.

По времени исполнения заметна тенденция: при увеличении объема ИТБ в п раз время исполнения алгоритмов возрастает в геометрической прогрессии, причем для В-алгоритма это время возрастает в п раз быстрее (исключая помехи на больших объемах ИТБ).

Несмотря на большую негативную разницу по времени исполнения, В-алгоритм формирует более качественную структуру ИТБ. Поскольку операция формирования ИТБ выполняется только один раз, показатель качества много важнее времени исполнения алгоритма.

Таким образом, В-алгоритм может успешно использоваться при формировании ИТБ как совокупности ЛС-компонентов. Единственным его серьезным недостатком является не время исполнения, а то, что заранее невозможно предугадать, сколько именно основных лексем будет в ИТБ. Когда же разработчик выставляет жесткие требования к количеству основных лексем (ЛС-компонентов) или когда важно время исполнения (очень большие объемы ИТБ), следует использовать Н-алгоритмы формирования ЛС-компонен-

тов, в противном случае предпочтение следует отдавать В-алгоритмам.

Подытоживая, отметим, что в данной статье проанализирован нисходящий алгоритм формирования ЛС-компонентов, выявлены его негативные стороны, сформулирована задача улучшения качества ИТБ. В рамках ее решения разработан конкретный В-алгоритм, а также сформулированы общие принципы работы восходящих алгоритмов формирования ЛС-компонентов. Проведен сравнительный анализ алгоритмов формирования ЛС-компонентов восходящего и нисходящего видов на базе экспериментов над ИТБ различных размеров.

Литература

1. Ковалев И.В., Лесков В.О., Карасева М.В. Внутриязыковые ассоциативные поля в мультилингвистической адаптивно-обучающей технологии // Системы управления и информационные технологии. 2008. № 3.1 (33). С. 157-160.

2. Ковалев И.В. Системная архитектура мультилингви-стической адаптивно-обучающей технологии и современная структурная методология // Телекоммуникации и информатизация образования. 2002. № 3. С. 83-91.

3. Карасева М.В., Лесков В.О. Автоматизация формирования информационной базы мультилингвистической адаптивно-обучающей технологии // Вестник СибГАУ. 2007. № 4 (17). С. 117-124.

4. Ковалев И.В., Огнерубов С.С., Лохмаков П.М. Программно-алгоритмические средства персонификации информационно-терминологического базиса в области аэрокосмической техники // Авиакосмическое приборостроение. 2007. № 9. С. 67-72.

5. Лесков В.О. Комплекс программного моделирования КПМ V. 1.0 М.: ВНТИЦ, 2008. № 50200802242.

ПРИМЕНЕНИЕ УНИФИЦИРОВАННЫХ ПРОГРАММНЫХ МОДУЛЕЙ ПРИ РАЗРАБОТКЕ ТРЕНАЖЕРНЫХ СИСТЕМ

А.Н. Привалов, к.т.н.

(Тульский артиллерийский инженерный институт, [email protected])

Рассмотрена проблема разработки специального программного обеспечения тренажерных систем на основе унифицированных программных модулей. Сформулированы модели оптимизации специального программного обеспечения по критерию минимума избыточности программных модулей. Сформулированы математические модели унификации программных модулей.

Ключевые слова: тренажерная система, специальное программное обеспечение, унифицированный программный модуль, синтез оптимальных типовых модулей, задача унификации программных модулей.

Одной из задач при проектировании тренажерных систем (ТС) является разработка специального программного обеспечения (СПО). На основе анализа процессов, протекающих в подсистеме вычислительных средств (ВС) ТС при проведении тренировок, можно выделить следующие задачи СПО:

математическое моделирование функций управления специалистов, реакции управляемой системы, динамики, бортовых систем и условий функционирования управляемых объектов;

• организация управления параллельно проводимых тренировок на базе ТС.

К СПО следует отнести программы, обеспечивающие выполнение задач ВС ТС (планирование ресурсов ТС, реконфигурация вычислительной системы, организация новых тренировок, ведение информационной базы ТС и т.д.).

В ТС предъявляются высокие требования к программной устойчивости при искажениях информации, сбоях и частичных отказах аппаратуры, возникающих в процессе ее функционирования.

i Надоели баннеры? Вы всегда можете отключить рекламу.