Семантическое поле термина «Corpus data» (предметная область «Корпусная лингвистика»)

Сергеева Татьяна Николаевна

УДК 81 '1

Т.Н. Сергеева СЕМАНТИЧЕСКОЕ ПОЛЕ ТЕРМИНА «CORPUS DATA» (предметная область «корпусная лингвистика»)

Автор статьи, опираясь на дефиниции термина «Corpus Data», определяет семантические отношения данного термина с другими терминами предметной области «корпусная лингвистика» и приводит тезаурусную модель этих отношений.

Ключевые слова: корпусная лингвистика, тезаурусное моделирование, метаязык, термино-поле, корпусные данные.

КЬрпусная лингвистика представляет собой раздел компьютерной лингвисти-.ки, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий [1, с. 3].

Актуальность исследования английской терминологии корпусной лингвистики вызывается необходимостью изучения метаязыка корпусной лингвистики. Изучаемый лингвистом язык называется языком-объектом, а язык, на котором формулируется теория - это метаязык. Метаязык корпусной лингвистики обладает сложной, нечеткой информационно-семиотической природой. В свою очередь информационно-семиотическая природа предполагает выявление терминополя английской корпусной лингвистики и соотнесение его соответствующей терминосистеме, а также установление семантических отношений, сложившихся в предметной области «корпусная лингвистика». Терминополе - это система понятий некой предметной области. Оно представляет собой экстралингвистическую сферу, с которой соотносится термин, означающий какое-либо понятие. Терминополе выступает как системное образование плана содержания, которому в плане выражения соответствует совокупность языковых средств (лексические единицы, словообразовательные морфемы, синтаксические приёмы), а также парадигматических и синтагматических связей. Совокупность всех средств плана выражения назовём терминосистемой [2, с. 67-83].

Выявление терминополя и терминосистемы английской корпусной лингвистики позволит сконструировать ее тезаурусную модель, которая отражает информационно-семиотическую природу английской терминологии корпусной лингвистики.

Тезаурус - это пронумерованная компиляция слов с похожими, связанными и противоположными значениями. Другими словами, это усовершенствованная разновидность словарей общего

или специального словарного состава, в которых даны семантические отношения (синонимы, антонимы, паронимы, гипонимы, гиперонимы и тому подобное) между лексическими единицами. Таким образом, тезаурусы, в особенности в электронном виде, считаются одним из самых эффективных инструментов для описания отдельных предметных областей.

При выявлении семантического поля рассматриваемого нами термина мы пользовались следующими методами:

1) метод компонентного анализа словарных дефиниций английских лингвистических терминов;

2) метод лингвистического конструирования тезаурусной модели исследуемой предметной области.

В предметной области «корпусная лингвистика» термин «Corpus Data» (корпусные данные) обозначает информацию любого рода, то есть данные, а в частности текст, содержащийся в корпусе. Рассмотрим дефиниции данного термина, приводимые в различных словарях (см. табл. 1).

Также мы рассмотрели дефиниции других терминов словаря A Glossary of Corpus Linguistics авторов Бейкер, Г арди и Макэнери, связанные с термином «Data» (см. табл. 2).

Подобным образом рассмотрим дефиниции терминов, связанные с понятием «data» в словаре Cambridge Advanced Learner's Dictionary (см. табл. 3).

Для начала отметим отсутствие у этого термина каких-либо синонимических связей. На первый взгляд с этим можно поспорить, так как в большинстве словарей приводится следующее: термин «Corpus Data» сопоставляется с термином «Information». Лишь в одном словаре [7] приводится четкое разделение этих терминов, благодаря чему мы можем определить, что они являются антонимами, ведь «Information» (информация) - это не что иное, как данные («Data»), приведенные к определенной системе, то есть организованные.

190

Вестник КГУ им. Н.А. Некрасова ♦ № 4, 2009

Таблица1

Словарь Дефиниция

A Glossary of Corpus Linguistics Data. Information of any kind. Specially, in corpus linguistics, data is the text contained in corpora, so we may speak of “a million words of spoken data” etc. Data may also refer to statistics, concordances or collocations extracted from corpora. Natural language data is text which has been produced in the “real world”. Artificial data is any language data, which is not natural. (See also attested data, modified data, intuitive data.) [3, с. 54]

Wikipedia Raw data is a collection of numbers, characters, images or other outputs from devices to convert physical quantities into symbols, in a very broad sense. Such data is typically further processed by a human or input into a computer, stored and processed there, or transmitted (output) to another human or computer. Raw data is a relative term; data processing commonly occurs by stages, and the "processed data" from one stage may be considered the "raw data" of the next. [9]

The DICT Development Group Data in everyday language is a synonym for information. In the exact sciences there is a clear distinction between data and information, where data is a measurement that can be disorganized and when the data becomes organized it becomes information. Data may relate to reality, or to fiction as in a fictional movie. Data about reality consists of propositions. [7]

Compact Oxford English Dictionary data /dayts/ noun 1 facts and statistics used for reference or analysis. 2 the quantities, characters, or symbols on which operations are performed by a computer. [4]

MSN Encarta data [ dayts, datts ] noun Definition: 1. factual information: information, often in the form of facts or figures obtained from experiments or surveys, used as a basis for making calculations or drawing conclusions 2. information for computer processing: information, e.g. numbers, text, images, and sounds, in a form that is suitable for storage in or processing by a computer [8]

Encyclopedia Britannica Online Information processing ( in information processing: Recording techniques ) Digitally stored information is commonly referred to as data, and its analog counterpart is called source data. Vast quantities of nondocument analog data are collected, digitized, and compressed automatically by means of appropriate instruments in fields such as astronomy, environmental monitoring, scientific experimentation and modeling, and national security. [5]

Cambridge Advanced Learner's Dictionary Data group noun [U] information, especially facts or numbers, collected for examination and consideration and used to help decision-making, or information in an electronic form that can be stored and processed by a computer: The data was/were collected by various researchers. Now the data is being transferred from magnetic tape to hard disk. [6]

Из дефиниции термина «Corpus Data» глоссария по корпусной лингвистике [3] мы выявили первую гиперо-гипонимическую связь данного термина с такими понятиями, как «Natural language data» и «Artificial data», которые являются антонимами по отношению друг к другу. При дальнейшем изучении этого словаря мы обнаружили синонимы данных терминов. Синонимами термина «Natural language data» являются «Attested data», «Authentic data» и «Actual data», которые являют собой данные, возникающие сами собой, без влияния человеческого фактора. И наоборот, синони-

мами термина «Artificial data», являются «Intuitive data», «Introspective data» и «Invented data», которые обозначают данные, выявленные специально, для иллюстрации определенного лингвистического понятия. Существует еще одно понятие, отличающееся от обоих вышеназванных терминов: «Modified data». Оно основано на реальных данных, которые были каким-либо образом изменены (например, упрощены) для устранения не нужной информации. Этот термин отличается от вышеуказанных, и, соответственно, является антонимом по отношению к ним.

Таблица 2

Термин Дефиниция

Annotation The process of applying additional information to corpus data. See encoding, tagging. [3, с. 13]

Attested data Also actual or authentic data. This term denotes data that occur naturally and have been transcribed or recorded accordingly, without intervention from the researcher (See also modified data and intuitive data.) [3, с. 16]

Data-driven learning Sometimes also referred to as “discovery learning”, this is a technique used in language teaching whereby the student takes a pro-active role in their own learning process by carrying out and analyzing a series of concordances from a corpus. [3, с. 54]

Database The term “database” may be used to refer to a large collection of texts. Unlike corpora, databases are not made up of samples but instead constitute an entire population of data. [3, с. 55]

Frequency The concept of frequency underpins much of the analytical work that is carried out within the remit of corpus linguistics. Frequencies can be given as raw data... Frequency counts are also used in the calculation of collocational and dispersion data as well as the type/token ratio of a corpus. [3, с. 75]

Grammar ...Both these sorts of grammar may use corpus data as a basis for their claims. [3, с. 79]

Informational retrieval The study and use of computers as a means to isolate particular information from a large amount of data, such as corpus, a database, or a network of text... [3, с. 90]

Intuitive data Also introspective or invented data. Unlike attested or modified data which are based on real life examples, intuitive data are invented to illustrate a particular linguistic point. [3, с. 95]

Metadata The texts in a corpus are data, so information about the texts in a corpus is referred to as “metadata” (data about data)... [3, с. 115]

Modified data Data that are based on attested data but have been modified in some way (for instance simplified) to exclude aspects which are extraneous. (See also intuitive data.) [3, с. 116]

Relational database A database that stores data in a number of separate data tables, that are linked by means ofkeys that identify particular records. [3, с. 138]

Tool A term given to any piece of software that can automatically manipulate electronic (usually textual) data. [3, с. 160]

Таблица 3

Термин Определение

Data processing The use of a computer to perform calculations on data: a data-processing bureau [6]

Data capture Any method of collecting information and then changing it into a form which can be processed by a computer [6]

Data bank A large collection of information which can be searched through quickly, especially by a computer [6]

Еще одним видом данных являются метаданные, то есть данные о данных, структурированные данные, представляющие собой характеристики описываемых сущностей для целей их идентификации, поиска, оценки, управления ими. Изучив статью этого термина, мы выявили, что он является гипонимом по отношению к термину «Corpus Data» и гиперонимом по отношению к термину «Annotation» (разметка), так как разметка является одной из составных метаданных, дополнительной информацией о корпусе.

Из статьи термина «Data», приведенной в словаре Wikipedia, мы обнаружили третью гиперо-гипонимическую связь данного термина. Его гипонимами являются термины «Raw data» («сырые», необработанные данные) и «Processed data» (обработанные данные), которые являются антонимами по отношению друг к другу. В первом случае данные являются необработанными, могут содержать ошибки или быть различного формата. Во втором случае имеются в виду данные, подвергшиеся обработке и анализу. Как уже

192

Вестник КГУ им. Н.А. Некрасова ♦ № 4, 2009

было сказано выше, такие данные являются информацией, соответственно мы выявляем синонимическую связь между терминами «Processed data» и «Information». Здесь выявляется еще одна связь между терминами «Processed data» и «Data processing». С одной стороны эти термины можно считать дериватами, с другой же стороны они имеют ассоциативную связь «Предмет - процесс». Тут необходимо отметить очевидную связь терминов «Corpus Data» и «Data Processing», которую можно назвать «Предмет - процесс».

Теперь перейдем к связи рассматриваемого нами термина с таким понятием, как «Database». «Database» (база данных) - структурированный организованный набор данных, описывающих характеристики каких-либо физических или виртуальных систем. Термины «Corpus data» и «Database» связаны между собой ассоциативной связью, которую можно назвать «Предмет-организация». Рассматривая дефиниции терминов, связанные с понятием «Corpus data» в словаре Cambridge Advanced Learner's Dictionary, мы обнаружили синоним термина «Database» - «Data bank», который является полным синонимом предыдущего термина.

В словаре A Glossary of Corpus Linguistics авторов Бейкер, Гарди и Макэнери мы обнаружили термин «Relational database» (реляционная база данных) и выявили, что он является гипонимом по отношению к термину «Database». Реляционная база данных используется для нормализации баз данных. Целью нормализации является устранение недостатков структуры базы данных, приводящих к вредной избыточности в данных, которая в свою очередь потенциально приводит к различным аномалиям и нарушениям целостности данных.

Со всеми последующими терминами термин «Corpus data» связывают различные ассоциативные отношения. К примеру, возьмем термин «Frequency» (частота), описываемый в глоссарии по корпусной лингвистике. Здесь речь идет о частотных словарях. Частотный словарь (или частотный список) - набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Обычно частотные словари строятся на основе корпусов текстов: берется набор текстов, представительный для языка в целом, для некоторой предметной области или данного автора и из него извлекаются словоформы, леммы и части речи (последние извлекаются в случае,

если корпус имеет морфологическую разметку). Из всего этого мы видим, что данные два термина соотносятся друг с другом ассоциативной связью «Предмет - свойство предмета», ведь частота - это одно из свойств корпусных данных.

Следующий термин - «Data capture» (сбор данных). Из определения можно понять, что здесь имеется в виду любые методы сбора сведений и подготовка для их дальнейшей обработки. Соответственно, с термином «Corpus data» данный термин объединяется ассоциативной связью «Предмет - процесс».

Из статьи термина «Grammar» (грамматика) в глоссарии по корпусной лингвистике можно видеть, что дескриптивная грамматика и теоретическая грамматика могут использовать корпусные данные в своих утверждениях. Значит термины «Corpus data» и «Grammar» соединяются друг с другом ассоциативной связью «Предмет - использование».

В словаре «A Glossary of Corpus Linguistics» можно найти следующий термин, связанный с понятием «Corpus data»: «Data-driven learning». Этот термин являет собой метод изучения иностранного языка, в котором используются корпусные данные. Из этого можно сделать вывод, что эти понятия соотносятся ассоциативной связью «Метод - материал».

Со следующим термином «Informational retrieval» (информационный поиск), рассматриваемый нами термин объединяется ассоциативной связью «Предмет - процесс». Информационный поиск - это процесс поиска неструктурированной документальной информации и наука об этом поиске. Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех таких, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные. Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление необходимой информации заинтересованным лицам.

Можно также проследить связь термина «Informational Retrieval» с такими понятиями, как «Information» и «Data processing». С первым понятием имеется наглядная ассоциативная связь «Предмет - процесс», а во втором случае можно видеть меронимическую связь между тер-

Вестник КГУ им. Н.А. Некрасова ♦ № 4, 2009

Data Bank

■ syn. — Database

iCC.СБ. предакт-арганнзация

1вд. предмет-

ною льзаЕаннй Grammar

Т асс.сЕ.

КеМйИа!

Database

Frequercy

ICC. СЕ .ЩК дяет - СЕ-ВО Щ'.

h>p

Tool

Corpus

Data

Attested

Data

Authentic

Data

syn.

Natiial

Language

Data

art

Artificial

Data

5>Tl

syn.

Invented

Daia

Introspective

Data

Actual

Dab.

— syn.

syn. _

Intuitive

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Data

Informational

Retrieval

4jCC.CE.

предггат-

лроцесс

smt

ire- h

hyp.

brfcmmticm

Metadata

Raw

Data art

syti.

1

Processed

Data

typ.

....I.....

Annotation

acc .ce.

ПрОВДЙСС-

рез-т

art ant

•"I......: "T

aicc. ce.

пр«дгяет-

процесс

Data

Processing

Modified

Data

Рис. Семантическая сеть отношений термина Corpus Data

минами, ведь обработка данных есть не что иное, как часть информационного поиска. Соответственно термин «Informational Retrieval» является голонимом по отношению к термину «Data Processing», который, в свою очередь, является его меронимом.

Еще одна ассоциативная связь объединяет термин «Corpus data» с термином «Tool» (инструмент). Эту связь можно назвать «Предмет -использование» и выявляется она из словарной статьи термина «Tool» в глоссарии по корпусной лингвистике. В корпусной лингвистике под понятием «Tool» подразумевается любая программа программного обеспечения, которая может автоматически управлять электронными данными.

Для наглядности изобразим результаты наших исследований в виде семантической сети отношений термина Corpus Data (см. рис.).

Итак, мы выявили семантическое поле термина «Corpus Data», в котором изображены многочисленные семантические отношения, соединяющие анализируемый термин с другими терминами предметной области. Семантическую сеть взаимоотношений данного термина, изображенную в виде тезауруса, необходимо рассматривать как лингвистическую модель, показывающую метаязык корпусной лингвистики в системноструктурированном виде. В результате использования тезаурусного подхода, метаязык корпусной лингвистики предстает в формализованном виде, приобретает ясную экспликацию и подроб-

ную характеристику, что является обязательным условием для полного исследования и овладения этим метаязыком в процессе профессиональной подготовки специалистов-филологов. Таким образом, тезаурус корпусной лингвистики составляет ядро информационной базы обучающего лингвистического автомата, предназначение которого заключается в развитии профессиональной компетенции языковеда.

Библиографический список

1. Захаров В.П. Корпусная лингвистика: Учеб. пособие. - СПб.: Изд-во СПбГУ, 2005. - 48 с.

2. Пиотровский Р.Г., Билан В.Н., Боркун А.К. Методы автоматического анализа и синтеза текста: Учеб. пособие. - Мн.: Выш. шк., 1985. - 222 с.

3. Baker P., Hardie A., McEnery T. A Glossary of Corpus Linguistics. - Edinburgh: Edinburgh University Press Ltd, 2006. - 187 p.

4. Compact Oxford English Dictionary. Режим доступа: www.askoxford.com.

5. Encyclopedia Britannica Online. Режим доступа: www.britannica.com.

6. Cambridge Advanced Learner's Dictionary. Режим доступа: www.cambridge.org.

7. The DICT Development Group. Режим доступа: www.dict.org.

8. MSN Encarta. Режим доступа: www.encarta.msn.com.

9. Wikipedia. Режим доступа: www.wikipedia.com.

УДК 81'373 (470.631)

М.Х. Токмакова

ПРОБЛЕМЫ ЭМОТИВНОЙ ЛЕКСИКИ КАБАРДИНО-ЧЕРКЕССКОГО ЯЗЫКА (на материале произведений А. Кешокова)

Работа посвящена эмотивной лексике кабардино-черкесского языка. Эмотивная лексика выполняет различные функции: обозначает, выражает и описывает эмоции. Основные проблемы данной лексики кабардино-черкесского языка заключаются в сложности разграничения обозначения и выражения, выражения и описания эмоций.

Ключевые слова: эмотивная лексика, эмотивные фразеологизмы, обозначение, выражение, описание, аффективы.

ныгъэ «буйство, неистовство», гужьей «паника», ук1ытэ «стыд» и т.д.), прилагательные (гууз «печальный, скорбный», хьэгъуэфыгъуэ «завистливый», нэжэгужэ «веселый» и т.д.), глаголы (пы-дыхьэшхык1ын «усмехаться, ухмыляться», гъэт-хъэн «рассмешить, развеселить», къызэщ1эвэн «вспыхнуть (о чувстве)», къилъын «вспылить,

Эмотивная лексика кабардино-черкесского языка, выражающая различные эмоциональные состояния человека, остается на сегодняшний день слабо изученной. Словарный состав эмоций в кабардино-черкесском языке представлен целым спектром лексических единиц: существительные (дыхьэшх «смех», етэ-

Семантическое поле термина «Corpus data» (предметная область «Корпусная лингвистика») Текст научной статьи по специальности «Языкознание и литературоведение»

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Сергеева Татьяна Николаевна

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Сергеева Татьяна Николаевна

Текст научной работы на тему «Семантическое поле термина «Corpus data» (предметная область «Корпусная лингвистика»)»