Научная статья на тему 'Проблемы однозначности идентификации классификационных признаков (на примере классификации синтаксических структур аффективной речи)'

Проблемы однозначности идентификации классификационных признаков (на примере классификации синтаксических структур аффективной речи) Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
126
21
i Надоели баннеры? Вы всегда можете отключить рекламу.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Беляева E. И.

В статье рассматриваются методы оценки однозначности выделения экспертами первичных классификационных признаков лингвистической классификации на примере классификации синтаксических структур аффективной речи. Оценка осуществляется на основании анализа инструкций по идентификации классификационных признаков. Описывается параметр, применение которого позволяет делать объективные выводы о качестве исходных инструкций и путях их корректировки.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Проблемы однозначности идентификации классификационных признаков (на примере классификации синтаксических структур аффективной речи)»

в Past Continuous. Все указанные действия связаны друг с другом отношением полной одновременности. Вместе с тем сложноорганизованное событие Е (Е = F1 + F2 + F3 + F4) имеет в качестве аллоцентрической точки отсчета 'had held' в Past Perfect, относительно которой событие Е выражает тонкальное следование.

В примере (8) сложноорганизованное событие Е, состоящее также из нескольких одновременных (параллельных) действий/ фактов F: F1 'were reading', F2 'was dozing', F3 'was knitting', F4 'was reading' в Past Continuous, выражает тон-кальную одновременность относительно аллоцентрической референциальной точки 'passed', представленной формой Past Simple:

(8) I went into the billiard-room and knocked the balls about for a little while and then on my way upstairs passed through the lounge. The two red-faced gentlemen were reading the evening paper and the elderly lady was dozing over a novel. The party of three sat in a corner. Mrs St Clair was knitting, Miss Porchester was busy with embroidery, and Mr St Clair was reading aloud in a discreet but resonant tone [7].

Таким образом, будучи формой со сложной глубинной структурой, Past Continuous проявляет в речи темпоральную поливалентность, развиваемую на основе системного значения количественной темпоральности. Функционируя в прямой речи, Past Continuous выражает значение нонкального предшествования качественной темпоральности, значение длительности количественной темпораль-ности и значение многократности/повторяемости качественно-количественной темпоральности. В повествовательной рамке макроконтекста, в которой отсутствует непосредственная связь с MP, действия в форме Past Continuous, выражая взаимный порядок действий, соотносятся не с нулевой референциальной точкой, а с аллоцентричес-кой, вспомогательной референциальной точкой.

Примечания

1. Закамулина, М. Н. Категория темпоральности в неродственных языках (сопоставительное исследование временных форм во французском и татарском языках) [Текст] : автореф. дис. ... д-ра филол. наук / М. Н. Закамулина. Казань, 2001. С. 10.

2. Maugham, W. The Outstation [Text] / W. Maugham // English Story. М.: Manager, 2004. P. 246.

3. Maugham, W. Virtue [Text] / W. Maugham // Selected Short Stories. М.: Manager, 2005. P. 165.

4. Poutsma, H. A. Grammar of Late Modern English [Text] : part II / H. A. Poutsma. Groningen, 1914. Part II: The Parts of Speech. 384 p.

5. Maugham, W. The Force of Circumstance [Text] / W. Maugham // Selected Short Stories. М.: Manager, 2005. P. 4.

6. Ibid. P. 17.

7. Maugham, W. The Round Dozen [Text] / W. Maugham // Selected Short Stories. М.: Manager, 2005. P. 232-233.

Е. И. Беляева

ПРОБЛЕМЫ ОДНОЗНАЧНОСТИ ИДЕНТИФИКАЦИИ КЛАССИФИКАЦИОННЫХ ПРИЗНАКОВ (НА ПРИМЕРЕ КЛАССИФИКАЦИИ СИНТАКСИЧЕСКИХ СТРУКТУР АФФЕКТИВНОЙ РЕЧИ)

В статье рассматриваются методы оценки однозначности выделения экспертами первичных классификационных признаков лингвистической классификации на примере классификации синтаксических структур аффективной речи. Оценка осуществляется на основании анализа инструкций по идентификации классификационных признаков. Описывается параметр, применение которого позволяет делать объективные выводы о качестве исходных инструкций и путях их корректировки.

Составление классификации исследуемых элементов является частью большинства лингвистических исследований. Относя объект к какому-либо классу, разработчик классификации действует в соответствии со своим пониманием сходства и различия между рассматриваемыми элементами. При этом, как отмечает Р. М. Фрумкина, автор классификации является профессионалом, воспринимающим объекты как «гештальт, т. е. как целое, не разлагаемое на части и несводимое к сумме частей» [1]. Отличительная черта профессионала - «способность к "схватыванию" гешталь-тобъекта в максимальной полноте свойств и их связей» [2]. Однако для того, чтобы экстериори-зировать свое понимание, т. е. сделать свою классификацию доступной к использованию другими экспертами-лингвистами, профессионал должен адекватно «вербализовать свое чутье, т. е. вывести свой гештальт вовне» [3]. Иными словами, перед профессионалом встает задача адекватно преобразовать гештальты, которыми он мыслит, в оптимальное для восприятия признаковое описание, в инструкцию, следуя которой средний эксперт смог бы правильно определять классификационные признаки, выделенные профессионалом в его классификации.

Таким образом, проблемы категоризации (отнесения объекта к какому-либо классу) и проблемы описания классификационных признаков непосредственно связаны с проблемами воспроизводимости классификации. Большое значение приобретает разработка методики, которая, во-первых, позволила бы оценить качество первичных инструкций по идентификации классификационных признаков (т. е. признаковых опи-

БЕЛЯЕВА Екатерина Ивановна - аспирант кафедры английской филологии Нижегородского государственного лингвистического университета им. Н. А. Добролюбова

© Беляева Е. И., 2008

саний, составленных профессионалом - автором классификации) и, во-вторых, предоставила бы объективные данные для последующих корректировок и улучшения инструкции. Следует особо отметить, что разрабатываемая методика призвана оценить качество именно инструкций, а не качество самой классификации: предполагается, что классификационные признаки выделены правильно и рассматриваемая классификация обладает прогностическим потенциалом, однако для дальнейшего применения классификации необходимо достичь однозначности идентификации классификационных признаков любым экспертом.

Создание однозначного признакового описания, позволяющего любому эксперту безошибочно идентифицировать признаки - сложный многоступенчатый процесс, требующий наличия ряда условий:

1) во-первых, в распоряжении исследователя должна быть разработанная классификация, описывающая лингвистические элементы простым перечислением признаков, являющихся своеобразным кодом элемента в рамках данной классификации (по-видимому, большинство лингвистических классификаций имеют именно такую структуру);

2) во-вторых, необходимо разработать методологию оценки качества исходной инструкции по идентификации классификационных признаков и найти параметр (или параметры), позволяющий путем объективных сравнений результатов серии тестирований устанавливать наличие или отсутствие динамики при корректировке инструкций;

3) в-третьих, необходимо привлечь к тестированию группу экспертов, то есть специалистов, чей уровень знаний достаточно высок для того, чтобы они могли, основываясь на полученных инструкциях, не только принимать решения по наличию или отсутствию классификационных признаков в предлагаемом языковом материале, но и объяснять мотивы своих решений;

4) в-четвертых, исследователь должен иметь возможность обработки больших объемов данных для ведения расчетов.

Данная статья посвящена первому этапу подобного исследования, а именно методам оценки качества исходных инструкций по идентификации первичных классификационных признаков и описанию параметра, применение которого позволяет наметить пути и перспективы корректировки инструкций.

В центре внимания - классификация синтаксических структур аффективной речи, разработанная на базе английского языка в работах Т. Н. Синеоковой [4]. Данная классификация позволила выявить статистически значимые корреляционные связи между реализуемыми в речи синтаксическими структурами и типом психологического состояния и полом говорящего. Таким образом, можно утверждать, что классификация обладает прогностическим потенциалом и классификационные признаки выделены правильно. В эксперименте принимает участие группа экспертов из числа преподавателей, аспирантов и выпускников НГЛУ им. Н. А. Добролюбова. Для целей исследования был разработан ряд специальных компьютерных программ, позволяющих значительно упростить процедуру обработки полученных результатов.

Общая методология тестирования состоит в следующем. Шести экспертам, привлеченным к тестированию, предлагалась представленная в письменном виде инструкция по идентификации первичных структурных признаков аффективной речи. Инструкция содержит название признака, его код, которым эксперты впоследствии обозначали признаки при идентификации, признаковое описание, примеры высказываний, в которых содержится признак, некоторые примечания и перекрестные ссылки между признаками, как видно из табл. 1.

Вместе с инструкцией экспертам предъявлялось 30 высказываний и предлагалось провести идентификацию первичных структурных признаков данных высказываний на основании полученных инструкций. Поскольку классификация содержит 40 первичных признаков, а экспертам предстоит

№ Название и характеристика признака Примеры Примечания

1 Потенциально сочиненные предложения (1Ы1) Имеет место частичное сохранение соединительной функции союзов Biff, with rising agitation: And whenever spring comes to where I am, I suddenly get the feeling, my God, I'm not getting' anywhere! (Miller) Типичны также конструкции типа: and + now, whenever, somewhere, then и др.

2 Апеллирующие изолированные сочиненные предложения (1Ы2) Союз предваряет высказывание, представляющее собой прямое обращение к собеседнику Charles (fiercely): And who the hell do you suppose cares a tinker's curse for the House of Stuart? (Carswell)

Таблица 1

Фрагмент инструкции по определению первичных признаков, входящих в классификационную группу «Изолированные элементы» (!Ь)

принять решение по наличию или отсутствию каждого из этих признаков в 30 высказываниях, то каждый из экспертов принимает 30 • 40 = 1200 решений по наличию/отсутствию признаков, а вместе они совершали 1200 • 6 = 7200 идентификаций.

Результаты работы эксперты представляли в виде таблиц, содержащих высказывания и соответствующие им символьные строки, или рубрикаторы, состоящие из перечня кодов признаков, составляющих, по мнению экспертов, структуру высказываний. Пример заполнения рубрикатора экспертами представлен в табл. 2:

Таблица 2

Пример заполнения рубрикатора экспертом

Высказывания Рубрикатор

Miss Mosie. Then you'll just have to close with him, and hold him till the constable comes. Halibut (panic-stricken). Close with him? Hold him till the constable comes? ER34/EB02/IP11 ДЕ12

John. My appeal was heard last Wednesday. Sentence reduced. ED02/ IE12

Полученные результаты затем обрабатывались компьютерной программой, которая сначала формировала эталонный рубрикатор для каждого высказывания, а затем определяла отклонения от эталона в рубрикаторе каждого высказывания у каждого эксперта.

Формирование эталонного рубрикатора осуществлялось по мажоритарному принципу: поскольку непогрешимого эксперта, идентификация которого может быть принята за эталон, нет и не может быть, а известны идентификации нескольких независимых экспертов, которым свойственно совершать ошибки, за эталон была принята идентификация, сделанная большинством экспертов. Расчеты показывают, что если вероятность совершить ошибку при идентификации данной структуры для каждого из экспертов в отдельности все же меньше 50%, то надежность их совокупного решения Рд = (1 - Ад), где Ад - вероятность ошибки, будет очень быстро приближаться к единице, по мере роста числа экспертов N. Примем, для иллюстрации, что все эксперты одинаковы (вероятность ошибки Ад < 0.5 одинакова для всех экспертов). Тогда вероятность ошибки мажоритарного решения Лмаж может быть вычислена, исходя из того, что число т совпадений в решениях экспертов соответствует биномиальному распределению с параметрами т, Рд) [5]. Вероятность ошибки в мажоритарном решении приведена в табл. 3:

Таблица 3 Вероятность Аэ = (1 - Рэ) ошибки идентификации при принятии решения по мажоритарному правилу

\Рэ 0,5 0,4 0,3 0,2 0,1 0,0

1 0,5 0,4 0,3 0,2 0,03 0,0

3 0,5 0,35 0,22 0,10 0,01 0,0

5 0,5 0,32 0,16 0,06 0,01 0,0

7 0,5 0,19 0,13 0,03 «0,01 0,0

Из таблицы видно, что уже при 5 экспертах не очень высокого класса эталон может быть восстановлен с высокой степенью надежности.

Поскольку в тестировании принимали участие шесть экспертов, то в случае разделения мнений экспертов поровну (три эксперта выделяют в высказывании признак X и три не выделяют) за эталон принималось решение, которое поддержал «привилегированный» первый эксперт, профессионал, автор исходной классификации.

Отклонения от эталона классифицировались как два типа ошибок: ошибка типа «пропуск признака» (далее ПП) - признак есть в эталонном рубрикаторе, но его нет в рубрикаторе эксперта, и ошибка типа «ложное обнаружение признака» (далее ЛО) - признака нет в эталонном рубрикаторе, но эксперт его выделяет.

Важно подчеркнуть, что именно такой дифференцированный подход к типам отклонений от эталона, а также анализ результатов тестирования отдельно по каждому признаку (а не по каждому эксперту, например) позволяет выявлять признаки, которые чаще всего неправильно идентифицируются экспертами, и принимать решения об эффективности корректировок их описаний в инструкции.

Основной задачей текущего этапа исследования стал выбор параметра оценки и его апробация.

В качестве параметра оценки принята усредненная характеристика ошибок типа ПП и ЛО. Данный параметр, называемый «приведенной вероятностью ошибки», учитывает частотность признака в тесте. Для его расчета необходимы следующие исходные данные: количество экспертов, количество фиксаций признака в мажоритарном эталоне тестирования, количество ошибок типа ПП и ЛО по всем экспертам.

Далее определяется максимально возможное количество ошибок ПП и ЛО, которое эксперты могли бы сделать в данном тестировании. Например, если согласно мажоритарному эталону признак X встречается в тесте 4 раза (Э = 4), то при 6 экспертах не может быть более Э • 6 = 24 ошибок типа ПП или более (30 - Э) • 6 = 156 ошибок типа ЛО. Если в тесте в

действительности сделано 2 ошибки типа ПП №пп =2) и 15 ошибок типа ЛО (Мло = 15), то условные вероятности ошибок по рассматриваемому признаку в данном тесте равны

и (это

ш Э-6 ((30-Э)-6 v

точечные, выборочные значения, которые колеблются вокруг среднего от теста к тесту). За меру неоднозначности принимается «приведенная вероятность ошибки» по рассматриваемому признаку в данном тесте, равная полусумме условных вероятностей пропуска признака и ложного обнару-

Р +Р

жения признака . В рассматривае-

мом примере «приведенная вероятность ошибки»

„ „ 0.083 + 0.096 ппоо.

признака л равна .

Параметр «приведенная вероятность ошибки» преобразует результаты реального теста к фиксированным идеальным условиям тестирования: если представить себе искусственную выборку, где исследуемый признак входит в половину всех примеров теста, то приведенная вероятность -это вероятность ошибочных решений экспертов по этому признаку в этом тесте.

К настоящему моменту было проведено десять тестирований по 30 высказываний в каждом. Таким образом, первичные классификационные признаки классификации синтаксических структур аффективной речи были выделены в 300 высказываниях. Из 40 первичных признаков были получены данные по 39 признакам, так как один признак, согласно инструкции, экспертами в рубрикатор не вносился. Были проанализированы сводные результаты по всем десяти тестированиям относительно каждого признака (т. е. учитывались данные общего количества фиксаций признака в эталонах всех десяти тестов, общее количество ЛО и ПП), а также результаты каждого из десяти тестирований в отдельности и динамика результатов от первого к десятому тестированию по каждому признаку.

Применение параметра «приведенная вероятность ошибки» позволило получить следующие результаты:

1. По критерию однозначности идентификации 39 прошедших тестирование первичных признаков рассматриваемой классификации можно разделить на 3 группы:

1) признаки с низкой оценкой однозначности идентификации (ошибка 0,2 - 0,3 - 14 признаков);

2) признаки со средней оценкой однозначности идентификации (ошибка 0,1 - 0,2 - 21 признак);

3) признаки с высокой оценкой однозначности идентификации (ошибка менее 0,1 - 4 признака).

По-видимому, корректировке должны быть подвергнуты прежде всего инструкции по идентификации признаков первой группы, а также частотных признаков двух других групп.

2. Основной тип ошибки при идентификации признаков - «пропуск признака». Условная вероятность ПП в несколько раз превышает условную вероятность ЛО. Это свидетельствует о том, что в инструкциях уделено значительное внимание предотвращению ошибки ложного обнаружения, в то время как предупреждение ситуаций пропуска признака менее разработано. По-видимому, корректировка инструкций должна пойти по пути сокращения ошибок типа ПП за счет, например, разработки алгоритма идентификации признаков в высказывании.

Проведенное тестирование подтверждает эффективность применения параметра «приведенная вероятность ошибки». Предложенная методика позволяет получить объективные данные об исходном качестве инструкций и наметить пути их корректировки. В ходе дальнейшего исследования планируется применить параметр «приведенная вероятность ошибки» для оценки динамики однозначности идентификации признаков при корректировке инструкций.

Примечания

1. Фрумкина, Р. М. Психолингвистика [Текст] / Р. М. Фрумкина. М.: Академия, 2003. С. 92.

2. Там же. С. 96.

3. Там же.

4. Синеокова, Т. Н. Парадигматика эмоционального синтаксиса [Текст] : монография / Т. Н. Синеокова. Н. Новгород: Изд-во ННГУ им. Н. И. Лобачевского, 2003. 244 с.

5. Подробнее см. в: Синеокова, Т. Н. Математическая статистика в лингвистике. Что это такое и зачем она нужна? Ч. I. Основные задачи и основные понятия теории вероятностей [Текст] / Т. Н. Синеокова, М. М. Райнер. Н. Новгород: НГЛУ им. Н. А. Добролюбова, 2006. 117 с.; Синеокова, Т. Н. Математическая статистика в лингвистике. Что это такое и зачем она нужна? Ч. II. Вычисления и использование справочников [Текст] / Т. Н. Синеокова, М. М. Райнер. Н. Новгород: НГЛУ им. Н. А. Добролюбова, 2007. 103 с.

i Надоели баннеры? Вы всегда можете отключить рекламу.