Научная статья на тему 'Анализ проблемы разработки правильных и ошибочных вариантов ответов для системы генерации тестовых заданий по иностранному языку'

Анализ проблемы разработки правильных и ошибочных вариантов ответов для системы генерации тестовых заданий по иностранному языку Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
82
14
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
СТАТИСТИЧЕСКАЯ МОДЕЛЬ ЕСТЕСТВЕННОГО ЯЗЫКА / ГЕНЕРАЦИЯ ЕСТЕСТВЕННОГО ЯЗЫКА / ШАБЛОНЫ ГЕНЕРАЦИИ / STATISTICAL MODEL OF NATURAL LANGUAGE / GENERATION OF NATURAL LANGUAGE / GENERATION TEMPLATES

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Личаргин Д. В., Маглинец А. Ю., Амосова Н. С., Рыбков М. В.

Предлагается модель программы подбора типичных грамматических, лексических, синтаксических и других ошибок и создания на их основе заданий с правильными и неправильными вариантами ответов для учебных тестов. Предложенная модель программы позволяет разработать тестовые задания по различным разделам языка, автоматически генерировать ответы на эти задания, что может значительно упростить процесс контроля успеваемости у студентов и школьников, изучающих иностранный язык, в частности, английский.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Личаргин Д. В., Маглинец А. Ю., Амосова Н. С., Рыбков М. В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Analysing the Problem of Elaborating Correct and Incorrect Variants of Answers for Educational Test Tasks OF Automatic Generation

A principle for generation software of typical grammatical, lexical, syntactic, and other errors, and of creating correct and incorrect variants of answers for educational tests based on them for the lessons of a foreign language is proposed. The given principles of the software functioning allow developing test tasks in different branches of the language and automatic generation of answers to these tasks, which can greatly simplify the process of monitoring the educational progress among school and university students who study a foreign language, particularly English.

Текст научной работы на тему «Анализ проблемы разработки правильных и ошибочных вариантов ответов для системы генерации тестовых заданий по иностранному языку»

Программные редктва и информационные технологии

ком. А именно, процесс декодирования связан с перебором «дерева» возможных вариантов расшифровки на основе тех или иных преобразований. В результате обнаружения варианта, являющегося осмысленным с точки зрения лексики, грамматики или семантики, делается вывод об успешности декодирования. Предложенный же метод при декодировании дает «дерево» вариантов расшифровки, где все или почти все варианты дешифровки являются осмысленными и имеют приемлемые частотные характеристики.

В случае ограничений на комбинаторику слов из семантически связных классов предлагается метод построения векторизованного «дерева» слов с ограничениями, так, например, при сочетании группы слов «цвета» = {«красный», «желтый», «синий», ...} и группы слов «цветы» = {«розы», «ромашки», «тюльпаны», ...} будет иметь место соотношение 1) «красная» 1.1) «роза» и 1) «красный» 1.3) «тюльпан», но будет отсутствовать потенциальная ветвь «дерева» 1) «красная» 1.2) «ромашка». Таким образом, кодирование необходимо производить блоками, для каждого из которых будет иметь место определенное (непостоянное) количество «листьев» векторизованного «дерева» слов с ограничениями.

Для достижения соответствующих частотных характеристик в словах текста стеганографического контейнера предлагается использовать следующий метод. Для ряда слов языка (например, в алфавитном порядке) существует функция частотного распределения F(wi), необходимо, чтобы значения F(wi) стремились к соответствующим значениям F(ci) в словах текста стеганографического контейнера. Для этого используем динамически изменяющуюся проекцию Р^и ci) кодируемого текста на текст стеганографического контейнера, каждому интервалу Г = [4,4+1] соответствует ключ из множества всех возможных

ключей S(K(Pt)), каждый ключ однозначно задает проекцию кодируемого текста на стеганографический шифр. Необходимо сузить это множество до подмножества ST4(KT\Pt)), такого, что для интервала времени T, соответствующего множеству блоков шифрования с различными проекциями одного слова на другое, ключ KT уменьшает разрыв между F(w) и F(c) с учетом привычного математического ожидания и дисперсии употребления слов.

В работе выполнен анализ проблемы использование генерируемого текста на естественном языке в качестве стеганографического контейнера программными системами. Предлагается метод шаблонов генерации осмысленной речи. Учитывается корреляция между выбираемыми системой подстановками из семантически связных классов слов. Предлагается использование системы динамически изменяемых ключей для сохранения естественного вероятностного распределения слов в конечном стеганографическом тексте.

Библиографическая ссылка

1. Личаргин Д. В. Методы и средства порождения семантических конструкций естественно-языкового интерфейса программных систем : дис. ... канд. техн. наук : 05.13.17. Защищена 05.07.2004 ; утв. 10.12.2004; № 137428. Красноярск, 2004, 154 с.

References

1. Lichargin D. V. Metody i sredstva porozhdenija semanticheskih konstrukcij estestvenno jazykovogo interfejsa programmnyh sistem (The methods and tools for the génération of semantic structures in the natural language interface of software systems). Krasnoyarsk, 2004, 154 p.

© Личаргин Д. В., Кучеров М. М., 2013

УДК 81'32

АНАЛИЗ ПРОБЛЕМЫ РАЗРАБОТКИ ПРАВИЛЬНЫХ И ОШИБОЧНЫХ ВАРИАНТОВ ОТВЕТОВ ДЛЯ СИСТЕМЫ ГЕНЕРАЦИИ ТЕСТОВЫХ ЗАДАНИЙ

ПО ИНОСТРАННОМУ ЯЗЫКУ

Д. В. Личаргин, А. Ю. Маглинец, Н. С. Амосова, М. В. Рыбков

Сибирский федеральный университет Россия, 660074, Красноярск, ул. Киренского, 28

Предлагается модель программы подбора типичных грамматических, лексических, синтаксических и других ошибок и создания на их основе заданий с правильными и неправильными вариантами ответов для учебных тестов. Предложенная модель программы позволяет разработать тестовые задания по различным разделам языка, автоматически генерировать ответы на эти задания, что может значительно упростить процесс контроля успеваемости у студентов и школьников, изучающих иностранный язык, в частности, английский.

Ключевые слова: статистическая модель естественного языка, генерация естественного языка, шаблоны генерации.

Решетневскуе чтения. 2013

ANALYSING THE PROBLEM OF ELABORATING CORRECT AND INCORRECT VARIANTS OF ANSWERS FOR EDUCATIONAL TEST TASKS OF AUTOMATIC GENERATION

D. V. Lichargin, A. Yu. Maglinets, N. S. Amosova, M. V. Rybkov

Siberian Federal University 28, Kirenskiy str., Krasnoyarsk, 660074, Russia

A principle for generation software of typical grammatical, lexical, syntactic, and other errors, and of creating correct and incorrect variants of answers for educational tests based on them for the lessons of a foreign language is proposed. The given principles of the software functioning allow developing test tasks in different branches of the language and automatic generation of answers to these tasks, which can greatly simplify the process of monitoring the educational progress among school and university students who study a foreign language, particularly English.

Keywords: statistical model of natural language, generation of natural language, generation templates.

На сегодняшний день широко распространены и разрабатываются разнообразные электронные курсы и программы изучения иностранных языков, в том числе программы контроля и оценки усвоенных знаний. Проблема электронного обучения и создания автономных программ и курсов по иностранному языку давно и широко исследуется различными авторами, в частности, в работах В. В. Кручинина рассматривается вопрос о создании учебных компьютерных программ, современных методов контроля обучения и предлагаются способы автоматической генерации тестовых заданий по английскому языку.

Однако вопрос создания автоматических программ контроля успеваемости у обучающихся иностранным языкам требует дополнительных исследований, в частности, привлечения методов генерации осмысленных высказываний по методу Палмера, генерации текстов со ссылками на поля баз данных по методу Филиппа Паркера, метод семантической классификации, метод векторизации многомерных данных (OLAP-системы и другие) [1]. В работах Т. Д. Фи-тикидеса, Г. А. Вейхмана и др. перечислены наиболее распространенные грамматические и лексические ошибки, допускаемые иностранцами в процессе изучения английского языка. В рамках учебного теста программа-генератор правильных и неправильных вариантов ответов автоматически может составлять задания типа multiple choice (выбор одного варианта ответа из многих), multiple select (выбор нескольких правильных ответов из многих), rearrangement (задания на упорядочение), matching (задания на перекрестный выбор), multiple matching (задания на множественное соответствие) и др.

Рассмотрим метод Палмера как средство генерации осмысленной речи наряду с предлагаемым методом использования расширенных подстановочных

таблиц Палмера с колонками неправильных вариантов ответов (см. таблицу, рисунок).

В каждой колонке располагаются колонки без вариантов для генерации фраз, а также варианты, основной, он же правильный вариант, и дополнительные как неправильные.

Такая система позволяет осуществлять настройки шаблона генерации и избегать возможных несоответствий, например, слово «have» может означать как «есть (еду)», так и «иметь (одежду и т. п.)». Таким образом, слово «have» нужно исключить из такого шаблона во избежание многозначности.

Предполагается, что такая таблица будет давать возможность программной системе сгенерировать принципиально любые из очень большого числа возможных вариантов заданий по иностранному языку. Отметим, что сгенерированные задания рекомендуется просмотреть на предмет устранения незначительного количества ошибок или стилистических неточностей. Приведем примеры заданий, полученных в результате генерации при помощи данной программы.

Task 1. Insert the proper word into the following sentence:

I happen to play_

3. Hockey

4. Mollusk

5. People

6. Pest

Каждый тип генерируемого учебного задания соответствует своему программно-реализуемому алгоритму. При построении классификации множества алгоритмических правил программной системы генерации учебных заданий необходимо учитывать типичные грамматические, лексические, синтаксические и другие ошибки для создания на их основе заданий с правильными и неправильными вариантами ответов для генерации учебных тестов по иностранному языку.

Расширенная таблица Палмера по теме «Еда» с ошибочными вариантами

my ... мой... ... (e)s ... taste пробовать Вариант 1 (правильный) Вариант 2 (неправильный) Вариант 3 (неправильный)

relative родственник adore to обожать eat есть the . .. этот... the ... этот... the . .. этот...

parent родитель love to любить cook готовить food пища piece of clothes одежда building здание

ancestor предок like to нравиться fry жарить cuisine кухня costume костюм, одежда plant предприятие

Проралшные редктва и информационные технологии

С подстрочником | Только с транскрипцией | Только с переводом Только текст | Задания | Информация

8.) niy triplet sister appears to eat the loaf -

9.) niy Mummy happens to boil the turnip

10.) my Daddy wishes to boil the pear

11.) my ancestor likes to eat the pearl-barley -

< У

Конструктор Просмотр таблиц | Неправильные варианты | Таблица вопроса | Теория | Выбор зааания | Словарь | 0 программе

I мой ...- my ....... (e)s- есть - have - этот ... -the ... - □

родственник - relative - обожать - adore to - пробовать-taste - пища-food -

родитель - parent- любить - love to - есть - eat- кухня - cuisine -

предок-ancestor - нравиться - like to - готовить- cook- закуска-snack-

теща - mother-in-law - быть склонным - tend to - жарить - fry - блюдо - course -

свекровь - mother-in-law - не любить - dislike to - варить - boll - первое - first course -

невестка - sister-in-law - ненавидеть - hate to - тушить - roast- второе - second course -

невестка - sister-in-law - страстно желать - desire t< третье - third course -

золовка - sister-in-law - желать - wish to - десерт - dessert -

свояченица - sister-in-law - хотеть - want to - блюдо - dish -

мать - mother- планировать - plan to - суп - soup -

мама- Mummy- решил - decided to - гарнир - garnish -

J. . ..у-. . , , , ,

|русский-английский-транскрипция i J

Таблица Палмера в программе генерации осмысленных фраз и заданий на английском языке на основе семантической классификации слов

В работе выполнен анализ проблемы обеспечения качественной генерации и синтеза предложений как составляющих учебных заданий и тестов на основе привлечения классификации неправильных вариантов ответов. Предложена модель генерации расширенных таблиц Палмера с колонками ошибок на основе семантической классификации слов естественного языка.

Библиографическая ссылка

1. Личаргин Д. В. Методы и средства порождения семантических конструкций естественно-языкового

интерфейса программных систем : дис. ... канд. техн. наук : 05.13.17. Защищена 05.07.2004 ; утв. 10.12.2004; № 137428. Красноярск, 2004, 154 с.

References

1. Lichargin D. V. Me tody i sredstva porozhdenija semanticheskih konstrukcij estestvenno jazykovogo interfejsa programmnyh sistem (The methods and tools for the generation of semantic structures in the natural language interface of software systems). Krasnoyarsk, 2004, 154 p.

© Личаргин Д. В., Маглинец А. Ю., Амосова Н. С., Рыбков М. В., 2013

УДК 004.9

СТАТИСТИЧЕСКИЕ И ПАРАДИГМАТИЧЕСКИЕ МЕТОДЫ АНАЛИЗА ЕСТЕСТВЕННОГО ЯЗЫКА И ПРОБЛЕМА ИХ ГИБРИДИЗАЦИИ

Д. В. Личаргин, А. Ю. Маглинец

Сибирский федеральный университет Россия, 660074, Красноярск, ул. Киренского, 28

Рассматривается проблема определения семантического метрического расстояния между фрагментами текста на естественном языке с использованием шаблонов генерации осмысленных фраз языка в интеграции с применением анализа корпусов текстов на основе модели марковских процессов. Проблема давно рассматривается с точки зрения методов компьютерной лингвистики, искусственного интеллекта, традиционной лингвистики, информатики.

Ключевые слова: статистическая модель естественного языка, генерация естественного языка, шаблоны генерации.

i Надоели баннеры? Вы всегда можете отключить рекламу.