УЧЕБНЫЙ КОРПУС (LEARNER CORPUS) КАК БАЗА ДЛЯ ЛИНГВИСТИЧЕСКОГО И ЛИНГВОДИДАКТИЧЕСКОГО АНАЛИЗА В РАМКАХ МЕТОДИКИ ПРЕПОДАВАНИЯ ИНОСТРАННЫХ ЯЗЫКОВ
М. С. МАЛЬЦЕВА
В рамках данной статьи предлагаем рассмотреть понятие учебного корпуса, вопрос о его использовании зарубежными и отечественными исследователями, критерии построения и организации учебных корпусов, а также цели и возможности их использования в процессе обучения иностранным языкам.
Ключевые слова: учебный корпус (Learner Corpus), критерии построения учебного корпуса, инструменты корпусного анализа, анализ ошибок обучаемых, лингвистический и лин-гводидактический анализ.
Стремительное развитие инновационных компьютерных технологий способствует все более активному их использованию в сфере научных исследований, в том числе и в области лингвистики. Одним из наиболее перспективных направлений стала корпусная лингвистика, открывающая новые возможности для лингвистического анализа. Формирование различных типов лингвистических корпусов вносит новые коррективы не только в области лингвистических исследований, но и в сфере исследований по методике обучения иностранным языкам. Кроме использования в обучении корпусов текстов, авторами которых являются носители языка, осуществляется также применение учебных корпусов (learner corpora), которые позволяют решать ряд важных задач в процессе обучения иностранному языку.
Учебный корпус (Learner Согрш) представляет собой электронный корпус текстов, авторами которых являются лица, изучающие иностранных язык.
Следует отметить, что на данном этапе развития зарубежные исследователи в этой области значительно опережают отечественных. Если среди российских авторов можно назвать лишь немногих (В. П. Захаров, Е. П. Сосина, В. В. Рыков, О. Н. Кашмилова и др.), среди зарубежных активных исследований можно привести примеры С. Гренджер, Дж. Лича, Дж. Милтона, а также множества крупных проектов в этой области корпусной лингвистики, таких как Cambridge Learner Corpus (Кембриджский учебный корпус), ICLE (Международный корпус для изучающих английский язык), LLC (учебный корпус Лонгман) и пр.
Кроме того, в последнее время стали разрабатываться специализированные учебные корпусы зарубежных составителей, например, параллельных текстов (Learner Parallel Corpora), которые с успехом применяются в переводческой практике, при анализе переводов и коррекционной методике обучения студентов межъязыковому переводу.
Наиболее распространено построение учебных корпусов в Азии и Европе. Среди самых известных - международный англоязычный корпус ICLE (International Corpus of Learner English), созданный в начале 1990-х гг. в Бельгии, который представляет эссе студентов продвинутого языкового уровня [5]. Данный корпус главным образом предназначен для дискурсивного анализа и статистического анализа вокабуляра учеников, сопоставительных исследований. Также к числу самых известных относят корпус С. Гранже, содержащий эссе носителей 14 национальных языков; Гонконгский корпус письменных текстов студентов, изучающих английский язык - Academic English (2002), Мичиганский корпус Michigan Corpus of Academic Spoken English (MICASE), корпус ELFA (English as Lingua Franca in Academic Settings) в Тампере, создаваемый группой под руководством Анны Мауранен т др.
Корпусы текстов речепроизведений обучающихся иностранному (английскому) языку, начали создавать еще в 90-х гг. прошлого века. Их предшественниками таких были картотеки ошибок, составлявшиеся в рамках метода анализа ошибок (Error Analysis), которые редко превышали размер 2000 словоупотреблений, а количество информантов было не более десятка.
Как справедливо заметила О. Н. Кашмилова, очевидное преимущество корпуса текстов обучающихся иностранному языку по количественному признаку - далеко не единственное его достоинство. Известные инструменты работы с текстовыми корпусами (частотные списки, конкордансы, парсеры и пр.) дают возможность не только «анализировать типичные ошибки», но и описать актуальный словарь и актуальную грамматику, которая реально усваивается в процессе обучения и обеспечивает общение на иностранном языке [1].
Поскольку родные языки обучающихся предположительно оказывают индивидуальное влияние на речепроизводство (output) на иностранном языке, то подобные корпуса предоставляют возможность для качественно иного сопоставительного анализа: сравнения того, как ведут себя (в речевом отношении) носители и неносители языка в сопоставимых ситуациях [6].
В качестве примера представительного специального корпуса подобного рода можно привести корпус Эли Хинкель [7], который состоит из 434 768 словоупотреблений. Данный корпус использовался в основном для контрастивного анализа риторических стратегий студентов - носителей языка и студентов-инофонов (with other linguistic background).
К настоящему этапу развития корпусных технологий практика построения учебных корпусов внесла свои коррективы, определив основные параметры их построения и организации.
Распространенное мнение о том, что формирование корпуса текстов подразумевает коллекцию текстов из всевозможных источников, является ошибочным. Корпусы текстов формируются по определенным принципам или критериям.
Во-первых, необходимо определить языковую направленность (общеязыковой или специальный), тип собираемого материала (устный или письменный), а также принадлежность текстов корпуса носителям языка или обучаемым. Последнее как раз относится к интересующим нас учебным корпусам.
Во-вторых, необходимо соблюсти все правила, присущие выбранному типу корпуса. Если перед составителем корпуса стоит дополнительная цель - предназначить корпус для сравнительного анализа с другим корпусом, соблюдаются дополнительные правила, согласно которым корпусы должны быть одинакового размера и иметь сходный принцип построения.
Итак, построение учебного корпуса характеризуется единой процедурой отбора текстов обу-
чаемых. Как утверждает В. В. Рыков, следует учитывать классификационные признаки текстов, в связи с чем предлагается использовать известные в теории классификации понятия таксон и мерон. Таксон - группа объектов с общими свойствами в составе некоторой системы, классификации. Совокупность свойств объектов, составляющих таксон, называется мероном [2].
Применимо к рассматриваемым учебным корпусам, в данном случае чаще всего используются два вида таксонов - письменные и устные тексты, внутри которых осуществляется деление по жанрам (монолог, диалог, письмо, эссе и т. д.). Меронами текстов в рамках разных жанров в этом случае является уровень владения языком, размер текста, тема, родной язык обучающегося.
По мнению С. Гранже и Н. Несселхауф, критерии построения учебного корпуса зависят, во-первых, от исследовательских целей составителя, во-вторых, от ограничений коллекции данных [5; 10].
В свою очередь, исследовательская цель или совокупность подобных целей могут стать доминантой для создания специальных корпусов следующих типов [1]:
а) корпуса учащихся;
б) корпуса научно-технических текстов;
в) корпуса методических текстов;
г) корпуса художественных текстов;
д) корпуса устных диалогов;
е) корпуса личных писем;
ж) корпуса журнальных статей.
С. Гранже предложен ряд специальных критериев, релевантных как для текста, так и для его автора [5]:
Learner Corpus design criteria
Shared features Variable features
Age Sex
Learning context Mother tongue
Level Region
Medium Other foreign languages
Genre Practical experience
Technicality Topic
Task setting
Данные критерии, на которых основывается регламентация параметров для текста, касаются типа коммуникации - устная / письменная (medium); учета жанровой специфики (внутри каждого типа коммуникации могут быть разные жанры); объединяющей темы, поскольку она определяет выбор лексики; языковой техники авторов текста - частоты пассивов, сложности ИГ и т. п. (technicality) и степени подготовленности речевого продукта,
фиксированного в тексте (подготовленная / неподготовленная речь - Task setting).
Основной целью организации учебных корпусов является их анализ на предмет выявления способов и эффективности освоения изучаемого языка (Language Acquisition) [3].
Что касается объема рассматриваемых в рамках данной статьи учебных корпусов, исходя из анализа существующих учебных корпусов, большинство из них состоят из 5GGGG-i5GGGG слов (например, Granger Learner Corpora (i998)). Однако существуют и более крупные учебные корпусы (например, the Quebec learner corpus), включающие 25GGGG слов и более.
Как правило, учебный корпус отражает результаты типичной учебной деятельности, представляя одинаковые письменные задания, выполненные обучаемыми из эквивалентных групп. Иногда учебный корпус делят на секции по языковым уровням обучаемых (pre-elementary, elementary, pre-intermediate, intermediate, advanced ESL learner или High, Medium, and Beginner levels) по выбору составителя.
Учебный корпус позволяет анализировать продукты учебной деятельности студентов, выявляя их успеваемость, наиболее типичные лексические, стилистические и грамматические ошибки, пробелы в знаниях, на которые следует направить особое внимание преподавателям в дальнейшей работе с обучаемыми.
Ценность учебного корпуса заключается в том, что работы студентов первоначально не подвергаются коррекции, что позволяет наиболее объективно оценивать результаты учебной деятельности.
Когда коллекция работ обучаемых достигает значительного объема, учебный корпус трудно интерпретировать без соответствующего компьютерного обеспечения, которое позволяет осуществлять ряд функций лингвистического анализа, например, подсчет слов, выявление частотности, коллокационных и синтаксических моделей. К числу наиболее часто используемых у зарубежных исследователей инструментов корпусного анализа относятся Mike Smith's Wordsmith [9], Paul Nation's VocabProfile [i3], Cobb T. The Com-pleat Lexical Tutor [4], Web Concordancer [ii], Web Frequency Indexer [i2] и др.
Учебные корпусы используются для лингвистического анализа на предмет выявления лексических, грамматических или синтаксических ошибок при освоении иностранного языка.
Некоторые учебные корпусы более ориентированы на выявление грамматических ошибок,
тогда как другие больше предназначены для выявления и анализа лексических или стилистических ошибок. Тем не менее, и те, и другие помогают установить частотность тех или иных типов языковых ошибок, характерные контексты, что позволяет внести коррективы в разработку планов и методических приемов для дальнейшего обучения иностранному языку.
Выбор способа классификации ошибок, методики их кодирования в корпусе для последующей автоматической либо ручной разметки (error tagging), а также методики количественного автоматизированного подсчета ошибок по типам принципиально важен при построении учебного корпуса. Поскольку это определяет потенциальную возможность проведения всестороннего лингвистического и лингводидактического анализа.
В вопросе о классификации ошибок и их кодирования, на наш взгляд, необходимо обратиться к развернутой систематизации ошибок, предложенной О. А. Фирсовым, которая уже зарекомендовала себя, успешно используясь в учебных корпусах некоторых отечественных авторов (например, в электронном учебном корпусе переводов RuTLC (Russian Translation Learner Corpus) Е. П. Сосиной).
Таким образом, согласно классификации О. А. Фирсова, к лексическим ошибкам относятся все случаи неправильного словоупотребления: нарушение норм лексической сочетаемости слова, неправильное определение значения слова и т. д.
К грамматическим ошибкам относятся случаи несоблюдения грамматических, а именно морфологических и синтаксических норм языка. К ним относятся ошибки в роде, числе и падеже (в том числе нарушение их согласования), неправильное употребление глагольно-временных форм, отсутствие согласования между ними, употребление неправильных синтаксических конструкций.
К стилистическим ошибкам следует отнести нарушение требований функционального стиля, например, употребление разговорной лексики в технических или научных описаниях, неуместное использование просторечных выражений в научных текстах, чрезмерное использование эмоционально окрашенных слов в тех случаях, где обычно принята нейтральная лексика [3].
Подводя итоги выше сказанному, мы пришли к следующим выводам:
- учебный корпус является репрезентативной базой для лингвистического и лингводидак-тического анализа, благодаря тому, что отражает реальную картину процесса обучения иностранному языку, так как содержит наиболее полные и
объективные данные о разных аспектах изучаемого языка;
- лингвистический и лингводидактический анализ продуктов учебной деятельности на базе учебного корпуса (Learner Corpus based analysis) позволяет судить об эффективности используемой методики обучения иностранному языку, как на определенном этапе, так и в динамике, анализируя работы обучаемых до и после внесенных в процесс обучения коррекций;
- компьютерное обеспечение учебных корпусов способствует оптимизации процесса обучения иностранному языку, позволяя решать те задачи, выполнение которых практически невозможно без использования корпусных менеджеров (инструментов анализа на базе корпусов);
- создание учебных корпусов разных групп обучаемых, например, английскому языку, родным языком которых являются разные языки, расширяет горизонты сравнительного лингвистического и лингводидактического анализа, направленного на выявление особенностей обучения английскому языку носителей разных языков, формирования их интерязыка, а также интерференции родного языка;
- использование учебных лингвистических корпусов в методике преподавания иностранных языков открывает новые перспективы развития лингвистики и лингводидактики, обусловливая необходимость разработки соответствующих методик обучения иностранному языку, направленных на достижение большей эффективности процесса обучения.
Литература
1. Камшилова О. Н. Иностранные языки в дистанционном обучении: мат-лы III Междунар. науч.-практ. конф. Т. 2 (Пермь, 23-25 апр. 2009 г.). URL: http://window.edu.ru.
2. Рыков В. В. Корпус текстов и речевая деятельность - проблемы подобия // Корпусная лингвистика -2006: тр. междунар. конф. 10-14 окт. 2006 г., Санкт-Петербург. СПб., 2006. С. 347-355.
3. Соснина Е.П. Прикладная Лингвистика. О разработке и использовании российского учебного корпуса переводов. URL: http://ling.ulstu.ru.
4. Cobb T. The Compleat Lexical Tutor. URL: http://132.208.224.131/
5. Granger S. (ed). Learner English on computer. London: Addison Wesley Longman.
6. Granger S. The computer learner Corpus: a versatile new source of data for SLA research // Learner English on Computer. L., 1998.
7. Hinkel E. Second language writers' text. Mah-wah, NJ, 2002.
8. International Corpus of Learner English. URL: http://juppiter.fltr.ucl.ac.be/FLTR/GERM/ETAN/CECL/ cecl.html
9. Mike Smith's Wordsmith website, Liverpool University. URL: http://www.liv.ac.uk/~ms2928/wordsmith/
10. Nesselhauf N. Learner Corpora and their Potential in Language Teaching, in J. M. Sinclair (ed). How to use Corpora in Language Teaching. Amsterdam, 2004. Pp. 125-152.
11. Web Concordancer URL: http://132.208.224.131/ Concord.htm
12. Web Frequency Indexer. URL: http://www.er. uqam.ca/nobel/r21270/textools/web_freqs.cgi
13. Web VocabProfile. URL: http://www.er.uqam.ca/ nobel/r21270/cgi-bin/webfreqs/web_vp.cgi
* * *
LEARNER CORPUS AS THE BASIS FOR LINGUISTIC AND LINGUO-DIDACTIC
ANALYSIS IN FOREIGN LANGUAGES TEACHING METHODOLOGY
M. S. Maltseva
In this article we are going to consider the idea of Learner Corpus, the question of its use by foreign and Russian researchers, the design and organization criteria of Learner Corpora, as well as the aims and opportunities of their use in foreign languages teaching.
Key words: Learner Corpus, Learner Corpus design criteria, tools for Corpus Analysis, learners mistakes analysis, linguistic and linguo-didactic analysis.