УДК 81'322
ОБ ИСПОЛЬЗОВАНИИ ПРОГРАММ ОБРАБОТКИ ТЕКСТА ДЛЯ ОБУЧЕНИЯ ИНОСТРАННЫМ ЯЗЫКАМ
С.О. Шереметьева
TOWARDS THE APPLICATION OF NLP SYSTEMS TO FOREIGN LANGUAGE TEACHING AND LEARNING
S.O. Sheremetyeva
Предлагается использовать программный инструментарий лингвистических исследований для целей преподавания и изучения иностранных языков. Описывается программа автоматического извлечения именных групп из текстов на английском языке, характеризующаяся быстродействием и высоким качеством результатов. Даны конкретные рекомендации по использованию программы преподавателями и студентами как в очном учебном процессе, так и в самостоятельной работе.
Ключевые слова: лингвистический программный инструментарий, автоматическая обработка языка, иностранные языки, преподавание, обучение.
The paper suggests using linguistic research computer applications for the purpose of teaching and learning foreign languages. It presents a particular tool for the automatic extraction of nominal terminology from texts in the English language, which features intelligent output and computationally attractive properties. The paper demonstrates how the tool can be used by both language teachers and language learners in their class work and self-study.
Keywords: linguistic research tool, natural language processing, foreign language, teaching, learning.
Введение
В связи с развитием компьютерной технологии в состав технических средств обучения иностранному языку вошел качественно новый инструментарий, предоставляющий обучающемуся беспрецедентную возможность получения знаний в индивидуальном режиме. Компьютерная технология обучения убирает из учебного процесса большую часть рутинной работы, повышая интенсивность обучения и облегчая усвоение учебного материала. Публикации по интеграции компьютеров в процесс обучения иностранным языкам охватывают широкий круг вопросов, от психологопедагогических моделей и дидактических проблем информационных технологий1 до практических методик разработки эффективных сценариев обучения2, специализированных программных оболочек и инструментально-программных учебных
3 4 5
комплексов .
Мы хотим обратить внимание педагогов на возможность использования в обучении иностранных языков еще одного класса программ, а именно программ автоматической обработки текста и
представляем программу ЬапЛ-Кеу6 (автоматический экстрактор именных фраз из текста на английском языке7), используемую в учебном процессе на факультете лингвистики ЮУрГУ.
Функциональный спектр
программы LanA-Key
По умолчанию8 в качестве конечного результата программа выдает список 1-, 2-, 3- и 4-словных именных фраз с показателем их релевантности в обработанном тексте (рис. 1).
Именные фразы, к которым относятся и однословные существительные, - самый частотный слой лексики, наиболее тесно связанный с содержанием текста9. Овладение именно этой частью лексики иностранного языка значительно повышает эффективность процесса обучения. Существенным преимуществом программы является извлечение многокомпонентных именных фраз, которые особенно трудны для понимания и перевода.
Показатель релевантности - это количественная характеристика фразы, которая позволяет сортировать извлеченные единицы в зависимости от
Шереметьева Светлана Олеговна, доктор филологических наук, доцент, профессор кафедры лингвистики и межкультурной коммуникации, Южно-Уральский государственный университет (г. Челябинск). E-mail: [email protected]
Svetlana O. Sheremetyeva, PhD (Habilitation), professor of the Linguistics and Intercultural Communication department, South Ural State University (Chelyabinsk). E-mail: [email protected]
Рис. 1. Основная страница интерфейса LanA-Key с окнами для введения параметров настроек и выдачи результата. Релевантность вычислена на основе комбинации параметров (частоты, длины, положения в тексте и др.). Закладки в верхней части интерфейса открывают страницы с промежуточными результатами
аспекта, находящегося в фокусе конкретного учебного задания. К числу таких характеристик относятся, например, частота самой фразы, совокупная частота ее компонентов, длина, частота вхождения в более длинные фразы, место в тексте (больший вес присваивается фразам, встречающимся в начале текста), количество параграфов, в которых встретилась фраза, а также общепринятые критерии статистической релевантности10. Программа позволяет вычислять релевантность на основе одной из перечисленных характеристик или на базе определенной пользователем их комбинации в зависимости от конкретной учебной задачи.
ЬапЛ-Кеу дает доступ к результатам промежуточных этапов обработки текста, которые также могут быть использованы в учебном процессе.
В частности, программа извлекает списки всех 1-, 2-, 3- и 4-грам11 с количественными характеристиками, где список 1-грам, например, - это полный частотный словарь обработанного текста. Списки 2-, 3- и 4-грам выдаются в двух вариантах: полном и сокращенном, содержащем в основном именные фразы, и дают представление о приоритетной сочетаемости лексики текста. В дополне-
ние к именным фразам, представленным в результирующем списке, 1-, 2-, 3- и 4-грамы отражают жанровую специфику текста (рис. 2 и 3).
Большое количество лингвистической информации о композиционном строе фраз текста содержится в матрице расширений, которую строит программа на следующих этапах обработки текста (рис. 4).
LanA-Key поддерживает ранжирование промежуточных и результирующих списков извлеченных слов и словосочетаний по алфавиту в обратном порядке (в алфавитном порядке окончаний) и по частоте, что позволяет судить о продуктивности лексем, аффиксов, деривации, фразеологических и терминологических гнездах и т. д.
На вход программы можно подавать отдельные файлы или целые папки файлов в различных форматах .txt, .xml, .html, что позволяет включать в обработку Интернет-страницы и оперативно получать информацию о современном срезе языка. В случае обработки целой папки форматы файлов необязательно должны быть одинаковыми. Формат выходного файла (.txt, .xml, .html) задается вне зависимости от форматов входных файлов, что
Фонетика и прикладная лингвистика
Total 1-gr: | 71765
Diff 1-gr:
1866
Total 2-gr: | 6498І|
Diff 2-gr:
Total 3-gr: 58917І
8963
Diff 3-gr: \ 15906І
Total 4-gr: | 52310|
Diff 4-gr: І 18895І
the (5339) л. a(4198) of (2563) in (1975) wherein (1711) to (1708) claim (1568) location (1539) said (1470) and(1408) as(1308) system (1191)
wherein the (1179) recited in (1162) in claim (1159) as recited (1122) a method (614) of the(607) method as (560) the wireless (509) location system (402) of claim (399) wireless location (392) a wireless (378)
recited in claim (1141) a as recited in (1122) a method as (559) method as recited (555) wireless location system (38i system as recited (317) the wireless location (202) centralized database system the step of (190) a wireless location (163) the wireless transmitter (150 wireless communications syst
as recited in claim (1101) method as recited in (555) a method as recited (555) system as recited in (317) the wireless location system (202) a wireless location system (163) the method of claim (147) a system as recited (142) a centralized database system (14C database system as recited (117) centralized database system as (11 wherein the step of (112)
Рис. 2. Фрагменты исходные списков ^грам. В скобках дана их частота
Total 1-gr: | 31149
Diff 1-gr: І Ї:
Total 2-gr: I 12719]
Diff 2-gr: І 1708І
Total 3-gr: | Diff 3-gr:
1009
Total 4-gr: I 139б|
Diff 4-gr: І 440І
location (1539) a system (1191) -recited (1162) — wireless (1048) method (862) signal (722) mobile (514) transmitter (503’ information (405 receiver (364) transmission (35' means (352)
location system (402) -a wireless location (392) wireless transmitter (272 signal collection (257) location estimate (210) centralized database (1? database system (193) base station (174) location processing (171’ mobile transmitter (163) communications system ( wireless communications
wireless location system (38E a centralized database system wireless communications syst signal collection system (90) signal collection systems (79] mobile communication unit (7 modified transmission sequer receiving pager apparatus (E call receiving pager (53) standalone dedicated contro multiple pass location (43) signal collection system/ante
call receiving pager apparatus (53) a multiple pass location processing (3 time difference of arrival (28) radio frequency channel informatioi standalone dedicated control chanr standalone dedicated control chanr number of bit errors (18) list of signal collection (18) satellite navigation system receiver dedicated control channel assignme multiple signal collection systems (1 voice channel assignment informatii
Рис. 3. Фрагменты сокращенных списков ^грам. В скобках дана их частота
IS LanA - Key ЕІ
И— і
N-grams N-grClean EM Result Index (General)
(x) - N-gram frequency [x] • N-gram present in x sentences EM 0 Frequency О О Reverse ABC Candidates
Q antenna(210)[191] rf antenna (4) [4] El antenna ports (13) [12] multiple antenna ports (3) [3] E antenna port (40) [40] antenna port wi (1) [1] El antenna port selection (1) [1] antenna port selection method (1) [1] El multiple antenna (4) [4] multiple antenna ports (3) [3] El multiple antenna elements (1) [1] reference antenna (3) [3] B antenna selection (2) [2] antenna selection method (2) [2] anhann3 mrsfim wahinn Ttl system (1191) a method (862) information (406) wireless location system (388) transmission (359) data (320) processing (313) estimate (285) wireless transmitter (272) ms (253) call (239) device (228) wls (227) signals (215) number (215) message(213) location estimate (210) antenna (210)
Рис. 4. Фрагмент матрицы расширений (слева) и списка результирующих именных фраз (справа), ранжированных по частоте (ср. с ранжировкой по релевантности на рис. 1)
может быть полезно как для презентации результатов, так и для их автоматической загрузки в другое программное обеспечение (например, программу х1) для дальнейшей обработки. Результирующий список фраз автоматически сохраняется в файле с заданными параметрами. Промежуточные списки можно сохранить по желанию.
LanA-Key в учебном процессе
Программный продукт ЬапЛ-Кеу в качестве инструмента образовательного процесса может быть использован как учащимся, так и преподавателем. Наиболее очевидный аспект использования программы ЬапЛ-Кеу преподавателями - это отбор учебного материала, отражающего явления изучаемой области иностранного языка, что вручную требует больших затрат труда и времени.
Опыт применения программы для создания (в дополнение к стандартным учебникам) содержательных, хорошо проработанных учебных материалов, способных стимулировать процесс самообразования учащихся и, таким образом, повысить его эффективность, имеется на лингвистическом факультете Южно-Уральского государственного университета, где ЬапЛ-Кеу применяется, в частности, для построения общих и профессиональных словарей, тезаурусов и онтологий, извлечения ключевых словосочетаний и терминологической лексики, анализа морфологических, лексических и грамматических особенностей текстов различной тематики с учетом ее количественных характеристик и последующим использованием извлеченной информации при отборе учебных текстов, снабжении их комментариями для снятия трудностей при
понимании и переводе, разработке упражнений, лабораторных работ, тестов и т. д. Преимуществом программы является возможность загрузки целых папок файлов (текстов) в разных форматах, в частности .html, что позволяет обрабатывать Интернет-страницы и таким образом включать в учебный процесс наиболее современный языковой информационный материал, делая обучение наиболее интересным и эффективным.
Еще одной возможностью использования программы LanA-Key является разработка учебных заданий, выполнение которых предполагает применение этой программы студентами, например:
Задание 1 (морфология)
1. Обработайте текст программой LanA-Key и отсортируйте список слов (исходных 1-грам) в обратном порядке.
2. По суффиксам (окончаниям) определите части речи, к которым может относиться слово и его возможные грамматические характеристики (род, число, время и т. д.). Сделайте выводы об однозначности (многозначности) суффиксов (окончаний).
Задание 2 (лексика)
1. Обработайте текст программой LanA-Key.
2. Переведите гнезда словосочетаний в матрице расширений.
3. Отсортируйте результирующий список фраз в алфавитном (обратном или по релевантности) порядке и переведите именные фразы.
Программа LanA-Key может быть использована также при выполнении учащимися лабораторных работ (проектов), без которых глубина понимания и усвоения материала и способность применения полученных знаний не могут быть признаны удовлетворительными.
Темы работ могут быть связаны, например, с составлением современного лексического минимума для чтения текстов определенной тематики (спорт, экономика, шоу-бизнес и т. д.) на базе определенного корпуса текстов. Тексты могут быть предложены преподавателем или подобраны студентом самостоятельно, например из Интернета, откуда можно брать и технические статьи. Овладение современной, постоянно обновляющейся английской технической терминологией - неотъемлемая часть образования как переводчиков, так и студентов технических факультетов.
Различные количественные характеристики лексических единиц, полученные с помощью программы LanA-Key, могут быть положены в основу определения жанровых особенностей текстов, например, в рамках курсовых или дипломных работ.
Заключение
ЬапЛ-Кеу представляет собой инструмент автоматической обработки текста многоцелевого назначения, отличающийся быстродействием и высоким качеством результатов, и может быть широко использован как студентами, так и преподавателями в дистанционном обучении английскому языку. Большим достоинством программы является легкий в работе пользовательский интерфейс, позволяющий менять настройки программы в зависимости от типа текста и поставленной задачи.
1 Соловов А.В. Дидактический анализ проблематики электронного обучения // Материалы IEEE International Conference on Advanced Learning Technologies (ICALT 2002). С. 212-216.
2 Мифтахова Н.Х., Э.М. Муртазина, Ю.Н. Зиятдинова. Синтез традиционных и новых подходов в обучении иностранным языкам // Материалы IEEE International Conference on Advanced Learning Technologies (ICALT 2002). С. 342-345.
3 Соколова Е.И. К вопросу о практическом применении сети Интернет в учебном процессе // Новые технологии в преподавании иностранных языков. СПб.: РГПУ, 1998. С. 76-80.
4 Sheremetyeva S. An MT Learning Environment for Linguistics Students // Proceedings of the 6th European Association for Machine Translation Workshop “Teaching Machine Translation”, Manchester, England, 2002.
5 Карамышева Т.В. Изучение иностранных языков с помощью компьютера. В вопросах и ответах. СПб.: Изд-во «Союз», 2001. С. 192.
6 LanA-Key является аббревиатурой от Languge analysis and Acquisition of Key lexicon.
7 Sheremetyeva S. On Extracting Multiword NP Terminology for MT. Proceedings of the 13th Conference of European Association for Machine Translation. Barcelona, Spain, 2009.
8 Настройки программы могут быть изменены так, чтобы результат включал другие слои лексики.
9 Автоматическое извлечение именных фраз - нетривиальная и, несмотя на ее важность, далеко не решенная проблема. Объем и тематика настоящей статьи не позволяют обсудить роль именных фраз в АОТ и результаты исследований по их автоматическому извлечению. Отметим только, что программа LanA-Key, разработана на основе новаторского сочетания статистических и лингвистических методик АОТ и позволяет извлекать именные фразы с корректностью 98 %, что является очень высоким показателем.
10 Smadja, F. 1993. Retrieving collocations from text. Xtract. Computational Linguistics 7(4):143-177.
11 1-, 2-, 3- и 4-грамы - это цепочки 1, 2, 3 и 4 последовательных слов текста.
Поступила в редакцию 14 марта 2012 г.