Электронный журнал «Вестник Новосибирского государственного педагогического университета» 2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
© И. И. Саженин
УДК 81
СЛОВАРНЫЙ КОРПУС КАК ЭЛЕМЕНТ ОПТИМИЗАЦИИ ИССЛЕДОВАТЕЛЬСКОГО ПРОЦЕССА *
И. И. Саженин (Новосибирск, Россия)
В статье проводится исследование в области корпусной лингвистики. Исследование предполагает анализ ряда лексикографических источников с целью разработки технологии создания словарного корпуса как инструмента оптимизации исследовательского и учебного процессов в рамках дисциплины «Современный русский язык. Лексикология». Объектом исследования является словарь как инструмент лингвистических исследований.
Предметом исследования является информация, содержащаяся в лексикографических источниках, которая позволит разработать интерактивный ресурс, снабженный специализированной поисковой системой с целью оптимизации исследовательского и учебного процессов.
Цель исследования - разработка технологии создания интерактивного ресурса, снабженного поисковой системой в соответствии с особенностями курса «Современный русский язык. Лексикология», со спецификой и объемом включенных в него словарей, возможными исследовательскими и дидактическими потребностями пользователей - ученых-лингвистов и студентов филологических специальностей.
Ключевые слова: корпусная лингвистика, корпус, лексикография, лемма, параметр, поисковая система, помета, разметка, словарь.
Корпус текстов является одним из ключевых понятий так называемой корпусной лингвистики. Корпусной лингвистикой, по определению В. П. Захарова, является раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов
текстов) с использованием компьютерных технологий. [1, с. 9]. М. В. Копотев и
А. Мустайоки, так же замечают «Дело в том, что сам по себе он (термин) имеет два значения. Это, во-первых, теория и методика создания корпусов и, во-вторых, корпусные исследования, т.е. исследования языка с помощью корпусных методов» [2, с. 12].
* Статья подготовлена в рамках реализации Программы стратегического развития ФГБОУ ВПО «НГПУ» на 2012-2016 гг., конкурс молодых ученых.
Саженин Игорь Игоревич - аспирант кафедры современного русского языка, Новосибирский государственный педагогический университет.
E-mail: [email protected]
Электронный журнал «Вестник Новосибирского государственного педагогического университета» 2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
В. П. Захаров под лингвистическим или языковым корпусом текстов понимает большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач [1, с. 23].
Как целостный инструмент
лингвистических исследования корпус, имеет две основных составляющих, а именно: непосредственно массив данных (текстов); корпусный менеджер (специализированная поисковая система), которая и позволяет производить отбор необходимых
исследователю единиц из всего массива данных, на основании разметки (аннотации).
Корпус - это, прежде всего, инструмент для решения определенных лингвистических задач [3]. Однако, в качестве содержательной базы для корпуса в основном используются тексты, которые представляют язык в самых различных его проявлениях (различные периоды создания текста, разнообразные жанры, стили, авторы, формы бытования текста и т.п.). Но, не следует забывать, что ученый-лингвист в своих изысканиях опирается не только на языковой материал, извлеченный им из различных источников, включая разного рода корпусные данные, но и на материал различных типов словарей, выбор которых зависит, прежде всего, от темы исследования, а так же от целей, которые ученый ставит перед собой. Метод анализа словарных дефиниций -неотъемлемая часть исследовательского процесса. Различные типы словарей могут предоставить исследователю самую разнообразную информацию о тех или иных единицах языка. Проводя какое-либо исследование, ученый-преподаватель или же студент зачастую тратят большое количество
времени на поиск в словаре (а чаще в нескольких словарях сразу) интересующей его информации. Одним из путей оптимизации учебного и исследовательского процессов является создание так называемого Словарного корпуса, снабженного специализированной поисковой системой, поисковыми параметрами для которой стали бы виды информации о лексической единице, содержащейся в различных типах словарей.
Прежде всего, необходимо обозначить, что же такое Словарный корпус в нашем понимании. Определение ему следует дать, на наш взгляд, исходя из уже существующих определений корпуса, как инструмента исследований. Признаки корпуса:
1) большой массив языковых данных;
2) электронный;
3) унифицированный;
4) структурированный;
5) размеченный;
6) филологически компетентный;
7) снабженный специализированной
поисковой системой.
В нашем случае большим филологически компетентным массивом
языковых данных будет комплекс словарей (о
его объеме речь пойдет далее),
существующий в электронной форме,
размеченный в соответствии с факторами, которые будут определять параметры
поисковой системы, предназначенный так же для решения конкретных лингвистических задач (исследовательского и дидактического характера).
На данный момент нами создана демонстрационная версия словарного
корпуса, как своего рода шаблон. В процессе ее создания мы отработали технологию,
которая в дальнейшем позволит сравнительно легко создать мощный целостный
инструмент, позволяющий в значительной
Электронный журнал «Вестник Новосибирского государственного педагогического университета» 2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
мере облегчить процессы исследования и
обучения языку.
Итак, разработка технологии как сопутствующая задача при создании
демонстрационной версии Словарного корпуса, требовала решения нескольких последовательных задач технического и научно-аналитического характера. И прежде всего, необходимо было определить объем и содержание массива данных (какие именно словари и в каком количестве должны быть использованы, чтобы ресурс мог отвечать условиям репрезентативности и
компетентности).
Особое значение для адресата имеет структура словарной статьи, набор ее компонентов, обеспечивающих достоверную информацию о слове. В компонентах и структуре словарной статьи отражается объективная сложность описываемых
словарных единиц, своеобразие
лексикографических жанров, совокупным объектом, которых является открытое множество лексических единиц. Таким образом, словари русского языка систематизируют наши знания о языке и мире. Эти знания воплощаются в типе словаря, объеме словника, в способе представления лексикографического
материала, в структуре и объектах словарной статьи. Исходя из этого, мы сделали вывод о том, что, по крайней мере, одним из критериев выбора того или иного лексикографического источника для включения его в массив данных может стать тип словаря. С другой стороны каждый из словарей одного типа имеет свои, свойственные лишь ему, особенности. Как то: система помет, объем словника, структура словарной статьи и структура самого словаря, способы толкования лексического значения, хронологический пласт, включенных в
словарь лексических единиц и т.д. Полноценный же анализ предполагает
обращение к нескольким лексикографическим источникам, в том числе и к словарям, принадлежащим к одному типу. Кроме того, словари разных типов могут содержать идентичные типы информации об одной и той же лексической единице, содержательно же данная информация может в них отличаться: быть шире или уже, или же быть качественно иной.
Поэтому мы сочли продуктивным
включить в массив данных как словари
разных типов, так и словари одного типа в количестве не менее двух. В итоге мы воспользовались материалами следующих словарей: СОШ: Ожегов СИ., Шведова Н.Ю. Толковый словарь русского языка. 4-е изд., доп. М., 1997; МАС: Словарь русского языка: в 4-х т./Гл. ред. А.П. Евгеньева. 2-е изд., испр. и доп. М., 1981 - 1984; Фасмер М.
Этимологический словарь русского языка. М., 1986-1987. Т.1-4.; Крысин П.Л. Толковый словарь иноязычных слов. 2-е изд., доп., М., 2000.
Следует дополнительно пояснить наш выбор применительно к каждому лексикографическому источнику в отдельности. Так, мы выбрали три толковых словаря, (Толковый словарь Ожегова, Словарь иноязычных слов Крысина, Малый академический словарь) так как, несмотря на свою принадлежность к одному типу, данные источники описывают лексические единицы в различных аспектах: Словарь Крысина описывает такой специфический пласт лексики русского языка, как заимствования. Малый академический словарь и словарь Ожегова, описывая лексику современного русского языка, имеют, тем не менее, различия в объеме словника, структуре словарных статей, системе помет и т.д.
Электронный журнал «Вестник Новосибирского государственного педагогического университета» 2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
Ценность корпуса определяется не только его объемом, но и его функциональной составляющей -
специализированной поисковой системой, которая позволит исследователю оперативно извлекать нужную ему информацию из всего объема информации, содержащейся в представленных словарях. Задача
формирования параметров поисковой системы стала определяющей для реализации как демонстрационной версии словарного корпуса. Решив поставленную задачу, мы тем самым создали базу, опираясь на которую, в дальнейшем станет возможным создание условно полного корпуса с возможностью пополнения его содержательной
составляющей, а это, в свою очередь даст основания для формирования новых возможностей оперативного извлечения дополнительных видов информации.
Для решения данной задачи, прежде всего, необходимо было определить, какие факторы должны обеспечить выбор параметров поисковой системы. Цель работы с любым лексикографическим источником, так или иначе, сводится к извлечению из него какой-либо информации. Чаще всего исследователь обращается непосредственно к содержанию словарной статьи, описывающей нужную ему единицу языка, то есть проводит дефиниционный анализ. При этом, как правило, исследователем используется не один источник, а несколько, дабы результат был как можно более объективным. Данная процедура отнимает у исследователя время, которое он мог бы потратить, например, непосредственно на анализ. По этой причине мы сочли необходимым ввести так называемый поиск по лемме, иначе - по заголовку словарной статьи. То есть пользовательский интерфейс был снабжен специальным полем, в которое пользователь
может вносить заголовок словарной статьи, и по запросу будут выводиться все словарные статьи с этим заголовком.
Но основной задачей все же являлась выработка профессионально ориентированных параметров поисковой системы. Для решения данной задачи необходимо было выявить, какие факторы должны обеспечить выбор поисковых параметров. Учитывая, что Словарь - это инструмент исследования, содержащий определенную информацию о входящих в его состав лексических единицах, предназначенный для сопровождения как учебного, так и исследовательского процессов, можно было сделать вывод, что наиболее очевидными факторами, которые обусловливают выбор параметров, являются содержательно-целевой (то есть, во-первых, необходимо было учесть, какую информацию может предоставить исследователю тот или иной лексикографический источник в зависимости от своего типа, структуры, содержания и целевой направленности, во-вторых, поиск информации зависит от цели, которую исследователь ставит перед собой в своей работе) и дидактический (учитывает то, что студент не только должен решать поставленные перед ним задачи с помощью лексикографических источников, но и должен научиться пользоваться самими источниками; не менее важно использование Словарного корпуса преподавателем для создания упражнений и отбора материала для лекционных и практических занятий). Следовательно, параметры поиска, с учетом данного фактора, должны быть ориентированы в определенной степени на методическую составляющую учебного процесса.
Конечно, следует отдавать себе отчет, что данные факторы ни в коей мере не являются самостоятельными, взаимоисклю-
Электронный журнал «Вестник Новосибирского государственного педагогического университета» 2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
чающими явлениями. Однако целевое назначение ресурса может влиять на выбор параметров. Например, на данный момент, существует ряд устоявшихся взглядов на определенные аспекты языкознания, как-то: способ токования лексического значения. Создание параметров поисковой системы, основанных на существующей
классификации способов толкования
лексического значения, возможно, не будет представлять интереса для исследователей, но студент-филолог должен освоить данную информацию, а потому для сопровождения учебного процесса наличие данного параметра будет иметь смысл.
Итак, в соответствии с определенными факторами, нами были обозначены следующие поисковые параметры,
применительно к различным словарям:
1. Применительно к Толковому словарю иноязычных слов Л. П. Крысина:
Данный ресурс описывает слой заимствованной лексики русского языка, хронологический диапазон бытования которой XVI - XXI вв. Структура словарной статьи включает в себя толкование значения языковой единицы, различного характера пометы, указания на путь заимствования: язык-источник и язык-посредник, если, по мнению составителей словаря, таковое посредничество имело место.
Итак, в ходе анализа нами были определены следующие виды информации, содержащиеся в данном словаре:
1) толкование значения лексической
единицы;
2) язык источник;
3) путь заимствования;
4) принадлежность заимствованной
лексической единицы к определенной тематической группе.
Основываясь на приведенном списке видов информации, мы обозначили следующие параметры поисковой системы:
1) поиск по лемме (универсальный,
применим ко всему массиву данных);
2) поиск по языку-донору;
3) поиск по статусу языка-донора:
(источник, посредник);
4) поиск по сфере функционирования.
2. Применительно к Этимологическому словарю Фасмера
Итак, данный лексикографический
источник может предоставить исследователю информацию о типе русской лексики (исконно русская или заимствованная), о языке-источнике заимствованного слова.
В соответствии с данным перечнем видов информации, можно обозначить следующие параметры поисковой системы применительно к данному словарю:
1) поиск по лемме;
2) поиск по виду лексики с точки зрения ее происхождения;
3) поиск по языку-донору.
Учитывая тот факт, что зачастую в словарной статье приведены несколько возможных языков-источников, то создание параметров запроса по языку-донору, как это было сделано в случае со Словарем Крысина, не представляется возможным. Однако нетрудно заметить, что автор, приводя возможные языки-источники того или иного слова, называет языки, принадлежащие к одному языковому объединению, (в зависимости от точек зрения исследователей, на которые он опирается). Таким образом, параметрами поисковой системы,
решающими проблему, могут стать элементы генеалогической классификации языков (макросемьи, семьи, группы и т.д.).
Электронный журнал «Вестник Новосибирского государственного педагогического университета» 2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
В результате данной коррекции получается, что параметрами поисковой системы применительно к данному лексикографическому источнику могут быть:
1) принадлежность языковой единицы к тому или иному языковому объединению в соответствии с существующей генеалогической классификацией языков;
2) лексика с точки зрения ее происхождения.
Создание вышеописанных параметров позволит, прежде всего, оперативно собирать словарный материал для исследований в области этимологии слова, освоения заимствованных на разных этапах лексических единиц, исследований функционирования слов, заимствованных из определенных языков или языковых объединений.
3. Применительно к Малому академическому словарю и Толковому словарю Ожегова.
Два представленных лексикографический источника, на наш взгляд, следовало по ряду причин анализировать вместе. Оба словаря принадлежат к одному типу, имеют схожие систему помет, структуру словарных статей, и до определенной степени похожий состав. То есть, данные лексикографические источники могут предоставить исследователю одинаковую в типологическом отношении информацию. Тем не менее, по каждому из перечисленных пунктов можно выделить и ряд различий. И это является принципиальным. Так, например, до сих пор нерешены многие проблемы метаязыка словаря. Мы попытались проанализировать систему помет данных словарей, исключая грамматические. Авторы словаря Ожегова, например, вообще не вводят в свою систему помет такую помету, как Трад.-поэтич.
Авторы словарей под стилистическими объединили самые разные пометы, характеризующие и семантику, и употребление слов, и его хронологическую перспективу. По этой причине в современной лексикографии существует ряд не решенных до конца вопросов: обладают ли такие
пометы достаточной информативностью, являются они монофункциональны или же полифункциональны, какую функцию они выполняют семантическую или
стилистическую, несмотря на название? Если сравнивать набор и семантику помет в различных типах толковых словарей, формально количество помет будет одинаковым, но по содержанию (семантике) они будут отличаться: одна и та же помета может иметь в словарях разный смысл. Таким образом, в современной лексикографии есть множество нерешенных проблем, связанных с метаязыком словаря. На наш взгляд, создание параметров поисковой системы в соответствии с существующими системами помет позволит оперативно отбирать материал для анализа, и продуктивно работать в направлении стандартизации критериев для разметки лексики русского языка в пределах толковых словарей.
Помимо этой задачи, посредством предлагаемой нами разметки можно решать задачи отбора языкового материала для исследований в других областях языкознания, где исследователю может понадобиться определенный пласт лексики, имеющей соответствующие границы употребления.
Создание и функционирование полноценного ресурса, по нашему мнению, поможет в решении ряда проблем лексикографии, этимологии и некоторых других областей лингвистики. Для этого, необходимо, на наш взгляд, провести более полный анализ возможностей корпуса на
Электронный журнал «Вестник Новосибирского государственного педагогического университета»
2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
предмет использования его в конкретных комплекса проблем, существующих на
областях лингвистики и в преподавании данный момент в языкознании и, в частности,
лингвистических дисциплин. Одним из в лексикографии.
основных шагов к этому должен стать анализ
СПИСОК ЛИТЕРАТУРЫ
1. Захаров В. П. Корпусная лингвистика: учебно-метод. пособ. - СПб., 2005.
2. Копотев М. В., Мустайоки А. Современная корпусная русистика. // Инструментарий русистики: корпусные подходы. - Helsinki University Press, 2008. - С. 7-24.
3. Национальный корпус русского языка. - [Электронный ресурс]. - URL: http://ruscorpora.ru
4. Hartmann R.R.K. Contrastive textology and corpus linguistics: On the value of parallel texts //
Language Sciences, Volume 18, Issues 3-4, July-October 1996. - рр. 947-957.
5. Hunston S. Corpus Linguistics // Encyclopedia of Language & Linguistics (Second Edition),
2006. - рр. 234-248.
6. Cheng Winnie, Warren Martin, Xun-feng Xu The language learner as language researcher:
putting corpus linguistics on the timetable // System, Volume 31, Issue 2, June 2003. -рр.173-186.
Электронный журнал «Вестник Новосибирского государственного педагогического университета» 2(12) 2013 www.vestnik.nspu.ru ISSN 2226-3365
© I. I. Sazhenin
UDC 81
VOCABULARY CORPUS AS ELEMENT OF OPTIMIZATION OF RESEARCH
I. I. Sazhenin (Novosibirsk, Russia)
This work is devoted to study of corpus linguistics. The study involves the analysis of a number of lexicographical sources to develop a technology of the corpus as a tool for vocabulary optimization research and training processes within the discipline of «Modern Russian Language. Lexicology». The object of study is a dictionary as an instrument of linguistic research. The subject of this study is to set information in the lexicographical sources, which will develop an online resource provided with a specialized search engine to optimize the research and processes of study. The purpose of research -development of technology to create interactive resource, equipped with search engine in accordance with the characteristics of the course «Modern Russian Language. Lexicology» with specificity and capacity of the included dictionaries, possible research and didactic needs of users - linguists and students of philological specialties.
Keywords: corpus linguistics, corpus, lexicography, lemma, setting, search engine, litter, markup, dictionary
REFERENCES
1. Zakharov V. P. Corpus Linguistics / Training Manual. - SPb, 2005.
2. Kopotev M. V., Mustajoki A. Modern philology Russia corpus. // Russian Studies
Instrumentation: corpus approaches. - Helsinki University Press, 2008. - pp. 7-24.
3. Russian National Corpus. - URL: http://ruscorpora.ru
4. Hartmann R.R.K. Contrastive textology and corpus linguistics: On the value of parallel texts //
Language Sciences, Volume 18, Issues 3-4, July-October 1996. - рр. 947-957.
5. Hunston S. Corpus Linguistics // Encyclopedia of Language & Linguistics (Second Edition),
2006. - рр. 234-248.
6. Cheng Winnie, Warren Martin, Xun-feng Xu The language learner as language researcher:
putting corpus linguistics on the timetable // System, Volume 31, Issue 2, June 2003. -рр.173-186.
Sazhenin Igor’ Igorevich - the post-graduate student of faculty of modern Russian language, Novosibirsk State Pedagogical University.
E-mail: [email protected]