Научная статья на тему 'Опыт применения количественной оценки результатов тестирования классификации на однозначность идентификации классификационных признаков'

Опыт применения количественной оценки результатов тестирования классификации на однозначность идентификации классификационных признаков Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
49
5
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Опыт применения количественной оценки результатов тестирования классификации на однозначность идентификации классификационных признаков»

!Х. проблемы методики преподавания филологических дисциплин

е.и. Беляева

ОПЫТ ПРИМЕНЕНИЯ КОЛИЧЕСТВЕННОЙ ОЦЕНКИ РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ КЛАССИФИКАЦИИ НА ОДНОЗНАЧНОСТЬ ИДЕНТИФИКАЦИИ КЛАССИФИКАЦИОННЫХ ПРИЗНАКОВ

Сставление классификации исследуемых объектов является неотъемлемой астью большинства научных исследований. Одним из основных требований к любой классификации, наряду с информативностью или прогностическим потенциалом, является высокая степень однозначности идентификации первичных классификационных признаков любым экспертом. Тестирование классификации на однозначность идентификации классификационных признаков, таким образом, - необходимый и естественный этап исследовательской работы. Однако организация подобного тестирования зачастую представляется весьма затруднительной. Во-первых, исследователю необходимо разработать первичную методологию тестирования (которая при апробации может подвергнуться существенным корректировкам); во-вторых, привлечь к тестированию довольно большую группу (от 4 до 10) экспертов, то есть специалистов, чей уровень знаний достаточно высок для того, чтобы они могли не только принимать решения по наличию/ отсутствию признака в предлагаемом материале, основываясь на полученных инструкциях, но и объяснять мотивы своих решений; в-третьих, такое тестирование предполагает машинную обработку больших объемов данных, ведение трудоемких расчетов и, в конечном итоге, большие временные затраты.

В настоящее время в НГЛУ им. Н.А. Добролюбова сложились необходимые условия для проведения подобного исследования, которое проводится на базе разработанной классификации синтаксических структур аффективной речи [1] с привлечением 6 экспертов из числа преподавателей, аспирантов и выпускников НГЛУ Целью исследования является разработка и апробация тестирования на однозначность таких лингвистических классификаций, в которых по итогам классифицирования каждый из объектов может быть описан простым перечислением первичных классификационных признаков, являющихся своеобразным кодом объекта в рамках данной классификации.

Классификация синтаксических структур аффективной речи, положенная в основу исследования, была разработана на базе английской ненейтральной речи. Предполагается, что структура любого высказывания, совершенного говорящим в состоянии эмоционального напряжения, может быть представлена в виде перечня составляющих ее синтаксических признаков, образующих своеобразный алфавит или код. При этом сочетание признаков может быть существенно, но решение о наличии/отсутствии признака в конкретном высказывании производится вне зави-

симости от ранее выявленных в нем признаков. По-видимому, большинство классификаций могут быть представлены именно в такой форме, поэтому разрабатываемый подход к их тестированию может считаться достаточно универсальным.

Общая схема организации тестирования инструкции к классификации синтаксических признаков аффективной речи на однозначность идентификационных признаков с привлечением экспертов рассматривалась в [3; 4; 5]. Остановимся лишь на основных моментах:

1. Шести экспертам предъявлялись случайные выборки по 30 высказываний, сделанных говорящим в состоянии эмоционального напряжения, и предлагалось провести идентификацию структурных признаков высказываний с использованием инструкции.

2. Полученные данные затем обрабатывались с помощью компьютерной программы. За эталонную принималась идентификация большинства экспертов (то есть эталон формировался по мажоритарному принципу). В случае разделения мнений экспертов поровну (три эксперта выделяют в высказывании признак Х, а другие три эксперта его не выделяют) за эталон принималось решение, которое поддержал «привилегированный» первый эксперт, составивший базу данных и заполнивший первичную идентификацию.

3. Относительно эталона по каждому из исследуемых признаков определялось и анализировалось количество ошибок типа «пропуск признака» (далее 1111) и «ложное обнаружение признака» (далее ЛО).

Важно подчеркнуть, что разрабатываемая методика отличается от ранее предложенных, где оценивалась классификация в целом: результаты дифференцировались по экспертам, но не по признакам, не учитывался тип ошибки - ПП или ЛО. Подобная недифференцированная оценка дает мало материала для решения основной задачи - корректировки и улучшения инструкций по идентификации первичных признаков классификации: поскольку полная однозначность идентификации недостижима, а вопрос, насколько нужно к ней приблизиться, - вопрос субъективных предпочтений исследователя, сама по себе количественная оценка малоинформативна.

Ценность количественной оценки, как представляется, состоит в возможности использовать ее данные в объективных сравнениях для принятия мотивированных решений, например, об эффективности проводимых корректировок инструкций, об отборе «проблемных» признаков, инструкции по которым должны быть подвергнуты корректировке в первую очередь, а также для выявления корреляционных связей между некоторыми характеристиками признаков (например, связь между ошибками идентификации разных типов) и пр. Понимаемая таким образом оценка должна проводиться по каждому признаку отдельно. Основной задачей текущего этапа исследования стал выбор параметра оценки и апробация этого параметра.

I. Выбор параметра оценки. В качестве параметра для оценки принята усредненная характеристика ошибок типа ПП и ЛО. Данный параметр, называемый «приведенной вероятностью ошибки», учитывает частотность признака в тесте. Для его расчета необходимы следующие исходные данные: количество высказываний в тесте (каждый тест содержал 30 высказываний), количество экспертов (в проведенных тестированиях всегда участвовало 6 экспертов), количество фиксаций признака в мажоритарном эталоне тестирования, количество ошибок типа ПП и ЛО по всем экспертам. Далее определяется максимально возможное количество ошибок ПП и ЛО, которое эксперты могли бы сделать в данном тесте. Например, если

согласно мажоритарному эталону признак встречается в тесте 4 раза (обозначим эту величину «Э»), то при 6 экспертах не может быть более ошибок типа ПП или более (30 - Э) = 156 ошибок типа ЛО. Если в тесте в действительности сделано 2 ошибки типа ПП N ) и 15 ошибок типа ЛО (^ЛО), то условные вероятности ошибок по рассматриваемому признаку в данном тесте равны

Э •б

рт = ^¡Пт =0,083 и

■ ПП

N

р =_ЛО_=0 096

Рло (30 - Э)-6 0,096

(это точечные, выборочные значения, которые колеблются вокруг среднего от теста к тесту). За меру неоднозначности принимается «приведенная вероятность ошибки» по рассматриваемому признаку в данном тесте, равная

Р + Р

Р= пп 2 Л0 [2].

Параметр «приведенная вероятность ошибки» преобразует результаты реального теста к фиксированным идеальным условиям тестирования: если представить себе искусственную выборку, где исследуемый признак входит в половину всех примеров теста, то приведенная вероятность - это вероятность всех ошибочных решений экспертов по этому признаку в этом тесте.

Важно отметить, что для получения значимых данных по каждому признаку объем информации, предоставляемый отдельным тестом из 30 высказываний, мал. Существуют отклонения в значении наблюдаемой приведенной вероятности от теста к тесту (заметим: наблюдаемые значения - выборочные, они несколько колеблются от теста к тесту вокруг среднего, «истинного», значения, характеризующего ситуацию в целом). Чтобы судить о степени значимости изменений параметра оценки, например, изменений вследствие корректировки инструкции по идентификации признака, необходимо знать доверительный интервал (ДИ) или, что почти то же, стандартное отклонение этого параметра. В работе применялась специальная программа для расчета ДИ на основе представления о биномиальной природе возникновения ошибок.

II. Апробация выбранного параметра и некоторые результаты проведенной работы. Проведенный к настоящему моменту объем тестирования (6 экспертами были идентифицированы первичные классификационные признаки в 300 высказываниях в течение 10 тестов по 30 высказываний в каждом) достаточен для того, чтобы оценить существующую классификацию синтаксических структур аффективной речи и наметить пути для корректировки инструкций по идентификации первичных признаков. По итогам тестирований были сделаны следующие выводы:

1. В отношении однозначности идентификации 40 первичных признаков рассматриваемой классификации можно разделить на 3 группы: 1) признаки с низкой оценкой однозначности идентификации (ошибка 0,2-0,3 - 14 признаков), 2) признаки со средней оценкой однозначности идентификации (ошибка 0,1-0,2 - 21 признак), 3) признаки с высокой оценкой однозначности идентификации (ошибка менее 0,1-4 признака). Ниже приводятся примеры признаков, характерных для каждой группы:

Пример признака 1 группы (низкая оценка однозначности идентификации)

Признак EB02 (разрыв-эмфатизатор)

Инструкция Приведенная вероятность Стандартное отклонение

Описание признака Примеры

Разрыв вызван стремлением говорящего выделить наиболее информативные элементы высказывания. Эмфатическая пауза делается перед словами, несущими с точки зрения говорящего особую информативную нагрузку. Выделению могут подвергаться все элементы высказывания при его повторной реализации. При этом подвергаемые повторной номинации предложения могут находиться как в реплике собеседника (1), так и в речи самого говорящего (2). При этом пауза оформляется либо финальными знаками препинания, либо тире. (1) Gutman: Casanova, you have received a letter. Perhaps it' s the letter with the remittance check in it! Jacques (in a hoarse, exalted voice): Yes! It is! The letter! With the remittance check in it! (Williams) (2) Harry (banging his hand on the table in rapid succession with the words, like a child in anger, hating to be like a child, and shrieking): I WAN' THAT ENVELOPE. Now. This instant. I - wan' - that - enve- 0,181 0,04

lope! (Wesker)

Пример признака 2 группы (средняя однозначности идентификации)

Признак EM04 (контактоустанавливающие материально избыточные элементы)

Инструкция Приведенная вероятность Стандартное отклонение

Описание признака Примеры

Реализуемые в составе предложения элементы hey, listen, look, see, eh, right, well,I .say, I tell (am telling) you, I warn you, etc. Выполняют функцию привлечения внимания собеседника к высказыванию Biff, with rising agitation. This farm I work on, it's spring there now, see? (Miller) 0,0995 0,03

Пример признака 3 группы (высокая однозначности идентификации)

Признак ER14 (повтор - артикуляционные персеверации)

Инструкция Приведенная вероятность Стандартное отклонение

Описание признака Примеры

Артикулярным персеверациям подвергаются короткие односложные слова, слоги и отдельные звуки. Являются контактно расположенными интериорными персеверациями. Это равнообъемные полные многократные повторения, семантическая ценность которых равна нулю. Martha (a howl which weakens into a moan) NOOOOOOoooooo. (Woolf) 0,043 0,03

2. Основной тип ошибки при идентификации признаков - пропуск признака. Условная вероятность пропуска признака РПП по всем признакам в несколько раз превышает условную вероятность ложного обнаружения признака РЛО Это свидетельствует о том, что в инструкциях уделено значительное внимание предотвращению ошибки ложного обнаружения, в то время как предупреждение ситуаций пропуска признака менее разработано. По-видимому, корректировка инструкций должна пойти по пути сокращения ошибок типа IIII за счет, например, разработки алгоритма идентификации признаков в высказывании.

3. Анализ зависимости наблюдаемых ошибок идентификации от номера теста показал, что процесс обучения экспертов отсутствует: эксперт сразу же воспринимает инструкцию и дальнейшего обучении не требуется. Ранее предполагалось, что к 3-4 тесту количество ошибок, совершаемых экспертами, значимо уменьшится, однако, расчеты показали, что отклонения от усредненного значения приведенной вероятности не превосходят порога статистической значимости.

4. Анализ динамических графиков раздельно по типу ошибки обнаруживает подобие в отношении ошибок типа ЛО и IIII (значимую положительную корреляцию между ними) только для одного признака - сужающий повтор ER19):

Г.А. КАЖИГАЛИЕВА

Подобие графиков ЛО и ПП в данном случае можно, вероятно, объяснить тем, что у признака «сужающий повтор» существует один или несколько «признаков-побратимов», которые легко с ним спутать. Если в какой-либо тест эти признаки случайно попадают в большем, чем в других тестах, количествах, это ведет к появлению ошибок замещения и, соответственно, к одновременному увеличению числа ошибок типа ПП и ЛО, т.е появляется корреляция между Рпп и Рло для каждого признака и между приведенными вероятностями обоих «признаков-побратимов». Этот эффект может быть использован для выявления таких признаков, а так же в качестве подсказки при корректировке соответствующих инструкций идентификации.

Таким образом, проведенное тестирование подтверждает эффективность применения параметра «приведенная вероятность ошибки» для количественной оценки однозначности идентификации признаков и для улучшения соответствующих инструкций. Попытка применить полученные результаты для корректировки инструкций идентификации классификационных признаков синтаксических структур аффективной речи будет предпринята на следующем этапе работы.

Литература

1. Синеокова Т.Н. Парадигматика эмоционального синтаксиса: Монография. Нижний Новгород: Изд-во ННГУ им. Н.И. Лобачевского, 2003.

2. Синеокова Т.Н. Математическая статистика в лингвистике. Что это такое и зачем она нужна? Часть I. Основные задачи и основные понятия теории вероятностей. Нижний Новгород: НГЛУ им. Н.А. Добролюбова, 2006.

3. Синеокова Т.Н., ЛавроваА.А., ЧернышоваЕ.И. Лингвометодический аспект классифицирования структурных форм ненейтральной речи // Теоретические и прикладные аспекты изучения речевой деятельности: Сборник научных статей. Выпуск 1. Н. Новгород: Нижегородский государственный лингвистический университет им. Н.А. Добролюбова, 2006. С. 40-58.

4. Синеокова Т.Н., Чернышова Е.И. Методологические аспекты проверки однозначности выделения классификационных признаков аффективной речи // Теоретические и прикладные аспекты изучения речевой деятельности: Сборник научных статей. Вып. 2. Нижний Новгород: НГЛУ им. Н.А. Добролюбова, 2007. С. 80-98.

5. Чернышова Е.И. Некоторые аспекты корректировки инструкции по идентификации синтаксических признаков аффективной речи // Теоретические и прикладные аспекты изучения речевой деятельности: Сборник научных статей. Вып. 2. Нижний Новгород: НГЛУ им. Н.А. Добролюбова, 2007. С. 123-135.

г.А. кажигалиева

ХУДОЖЕСТВЕННЫЙ ТЕКСТ КАК ЕДИНИЦА ЯЗЫКОВОГО ОБУЧЕНИЯ

Пложение о художественном тексте (далее - ХТ) как единице языкового обуче-ия можно охарактеризовать как традиционное в лингводидактической сфере. Простой количественный анализ практической части действующих учебников по языку, различных учебных пособий как школьных, так и вузовских показывает, какой большой процент отводится под учебные художественные тексты. То есть позиции ХТ как дидактической единицы давно признаны и неоспоримы. Поэтому речь

i Надоели баннеры? Вы всегда можете отключить рекламу.