УДК 81'42
Р. К. Потапова, М. В. Хитина
Потапова Р. К., д-р филол. наук, проф., академик МАИ, зав. каф. прикладной и экспериментальной лингвистики, директор Института прикладной и математической лингвистики ФГПН МГЛУ; e-mail: [email protected]
Хитина М. В., д-р филол. наук, доц., проф. каф. прикладной и экспериментальной лингвистики института прикладной и математической лингвистики ФГПН МГЛУ; e-mail: [email protected]
ЗАВИСИМОСТЬ ПЕРЦЕПТИВНО-СЛУХОВОГО ИЗВЛЕЧЕНИЯ СМЫСЛА ТЕКСТА ОТ ВИДОВ РЕЧЕВОЙ ДЕЯТЕЛЬНОСТИ (в условиях шума)
В статье рассматриваются вопросы перцептивно-слухового анализа различных видов речевой деятельности (чтения, спонтанных монологов, диалогов, полилогов) в затрудненных условиях (белом шуме при различных соотношениях сигнал / шум - 0 дБ, 10 дБ). Анализируются результаты проведенного эксперимента, описываются методы их оценки. Полученные выводы позволяют говорить о том, что при одних и тех же условиях прослушивания наиболее адекватно воспринимаются диалоги (полилоги).
Ключевые слова: перцептивно-слуховой анализ; затрудненные условия; различные виды речевой деятельности; белый шум.
Potapova R. K., Khitina M. V.
Potapova R. K., Doctor of Philology, Professor; Director of the Institute of Applied and Mathematical Linguistics, MSLU; Head of the Department of Applied and Experimental Linguistics, MSLU; e-mail: [email protected]
Khitina M. V., Doctor of Philology, Professor, Department of Applied and Experimental Linguistics, the Institute of Applied and Mathematical Linguistics, MSLU; e-mail: [email protected]
DEPENDENCE OF AUDITORY-PERCEPTUAL RETRIEVAL OF TEXT MEANING FROM SPEECH ACTIVITIES (in noisy conditions)1
The paper presents issues of perceptual-auditory analysis of various types of speech activity (reading, spontaneous monologues, dialogues, polylogues) in noisy
1 Работа выполнена в рамках НИР «Теоретико-экспериментальное исследование распознавания вербального контента устной речи в затрудненных для восприятия условиях». Задание № 2014/102 Минобрнауки России. Науч. рук.: д-р филол. наук, проф. Р. К. Потапова.
conditions (white noise at various signal/noise ratios - 0 dB, 10 dB). The results of the experiment are analyzed, and methods for their evaluation are described. The findings suggest that under the same conditions of listening, dialogues (polylogues) are most adequately and best perceived.
Key words. perceptual-auditory analysis; noisy conditions; various types of speech activity; white noise.
В работе основное внимание уделено исследованию восприятия звучащих осмысленных текстов в затрудненных условиях (при различных уровнях шума). При восприятии текста фонограммы в качестве конечной цели предполагается определение его смысла. При этом возможные искажения информации, помехи, пропуски затрудняют этот процесс. В связи с этим важной является задача по оценке точности принятой информации в сравнении с исходной (переданной). Решение данной задачи предполагает проведение экспериментальных исследований по слуховому восприятию звучащего материала при различных соотношениях сигнал / шум, при использовании шума разного качества, а также в качестве материала различных видов речевой деятельности.
Теоретической основой для проведения исследований послужили работы в области читательской деятельности, восприятия текстов художественной литературы (проблем зависимости восприятия, понятности и результатов сохранения информационных и научных текстов), а также работы психолингвистов, отмечающих зависимость восприятия текста от его структуры и экстралингвистических знаний [12]. Отечественные и зарубежные психологи также выдвинули идеи относительно предвосхищения или вероятностного прогнозирования смысла текста в ходе восприятия.
В более поздних исследованиях были получены данные об особенностях восприятия текстов разных жанров и функциональных стилей, а также подтверждена активная роль читателя. При этом главными задачами при исследовании восприятия текста стали следующие:
- изучение основных закономерностей механизма восприятия;
- разработка модели восприятия текста;
- описание результата его восприятия.
Подобные работы стали появляться после того, как А. А. Леонтьев определил проблемы восприятия «как проблемы построения в сознании индивида многомерного образа мира, образа реальности» [6, с. 6]. Комплексные исследования подобного рода предполагали
учет наряду со структурой текста особенности личности, отношение к данному воспринимаемому объекту, установки, потребности, желания, прошлый опыт, знания о предмете. Что касается звучащей (устной) речи, то, как отмечает Р. К. Потапова [7, с. 189], это часть «общей семиотической системы межличностной коммуникации», она является одной из субсистем, которая при этом «обладает своими субсистемами: артикуляторно-фонационной, акустической и перцептивно-слуховой, наделенными целым рядом своих признаков и функций, позволяющих осуществлять саму межличностную коммуникацию» [7, с. 190] в онлайн и оффлайн режимах.
В данной статье основное внимание уделено анализу перцептивно-слуховой субсистемы. Подобные исследования на материале связных текстов проводились достаточно редко в связи со сложностью проведения экспериментов, подбора экспериментального материала и аудиторов, а главное, в связи с недостаточно отработанной методикой оценки полученных данных. Следует отметить, что изначально оценкой восприятия звучащих материалов в затрудненных условиях занимались специалисты, исследующие качество трактов связи. Оценивалась, например, формантная разборчивость, звуковая, словесная, реже - фразовая. В качестве материала использовались специальные тесты, построенные по определенным принципам (например, с учетом требования представленности всех звуков русской речи в наборе из нескольких таблиц или же с учетом статистической представленности звуков в текстах, полученной на основе специальных исследований).
Одним из важных вопросов в подобных работах был вопрос об устойчивости тех или иных компонентов речевого сигнала. Например, в работах А. С. Штерн на основании многочисленных экспериментов были выделены такие наиболее значимые для восприятия слова факторы, как ударная гласная, звонкость / глухость, начальный звук, консонантная нагрузка, длина (в фонемах, слогах, морфемах), часть речи, объективная и субъективная частота, ритмика и др. Так, исследование автора [13] показало сходство процессов восприятия независимо от типа помехи и различие результатов в зависимости от ее тяжести, языка и степени владения языком, различия в восприятии изолированного отрезка и отрезка, включенного в контекст, а также параллельное восприятие отрезка целиком и по частям. Кроме того, автор отмечает одновременную работу всех лингвистических уровней
вне зависимости от уровня воспринимаемого отрезка, встречную активность воспринимающего, выделяются оперативные единицы и единицы принятия решения. Дисперсионный анализ данных по восприятию осмысленных и бессмысленных речевых отрезков позволил выявить иерархически упорядоченный набор значимых лингвистических факторов, рассматриваемых как оперативные единицы восприятия, а их градации как единицы принятия решений [13]. Что касается материалов фраз и текстов, то определенные наработки существуют и в этой области. В частности, показано, что тексты с более сложной синтаксической организацией в шумах воспринимаются хуже, а специально преобразованные в диалоги монологические тексты приводят к улучшению восприятия.
Рассмотрим несколько понятий, которые будут использоваться в дальнейшем. Под информацией, вслед за Л. Р. Зиндером [5], будем понимать то новое, что присутствует в сообщении для участников коммуникации. Еще одно свойство (избыточность) позволяет восстанавливать утраченные элементы и с этой точки зрения является полезной. При смысловом восприятии звучащего текста аудитор опирается на опорные признаки речевых отрезков, сочетаемость единиц в пределах более сложного фрагмента, вероятностный механизм, речевую избыточность, картину мира и др. Все эти составляющие позволяют даже в сложных для восприятия условиях получить значимые для исследования результаты.
Работы по восприятию звучащей речи в затрудненных условиях проводились в МГЛУ в течение длительного времени [1; 2; 9; 10; 14]. В предлагаемом исследовании материалом для пилотного эксперимента послужили три спонтанных монолога дикторов-мужчин на общебытовые (общеизвестные) темы (реклама, электроэнергия, спорт), с количеством слов от 170 до 430 (из УРБД, см. [3; 4]). На данные монологи был наложен белый шум (соотношение сигнал / шум 0 дБ, 10 дБ и 20 дБ). Аудиторы (п=22): возраст 20-22 года, родной язык -русский, изучают два иностранных языка (английский и немецкий).
Эксперимент проходил следующим образом. Аудиторам без предварительной подготовки и без ознакомления с темами монологов предлагалось прослушать их при трех уровнях шума, начиная с наихудших условий. Каждый из монологов прослушивался один раз, причем аудиторы должны были фиксировать все единицы, которые
смогли разобрать в ходе прослушивания. Второй задачей было построение текста на основе зафиксированных единиц. В этом случае время не ограничивалось. Полученные данные обрабатывались с помощью специально разработанной программы. Результаты эксперимента фиксировались в базе данных реляционного типа (на основе Microsoft Excel).
Анализ полученных результатов предполагал проведение их статистической обработки. Было просчитано:
- количество слов, зафиксированных каждым аудитором в фонограмме;
- число слов, внесенных аудитором в список, отсутствовавших в исходном монологе;
- определение среднего количества распознанных слов для каждой из фонограмм;
- установление среднего количества внесенных слов для каждой фонограммы;
- определение (в %) отношения количества опознанных слов к числу внесенных слов (для каждой фонограммы);
- подсчет общего количества распознанных частей речи для всех аудиторов;
- вычисление среднего количества распознанных частей речи для выборки аудиторов (n=4) для каждого монолога.
Полученные результаты позволяют сделать следующие предварительные выводы.
1. При соотношении сигнал / шум 0 дБ для всех монологов было распознано незначительное число слов при наличии у некоторых аудиторов 1-2 внесенных слов, не относящихся к исходному монологу. В среднем было распознано примерно одинаковое количество единиц, относящихся к следующим частям речи: имя существительное, наречие, местоимение, союз, предлог. Глагол был распознан в малом числе случаев, а существительное в роли предиката и числительные не распознал ни один аудитор.
2. При соотношении сигнал / шум 10 дБ аудиторы распознали большее число слов, причем в основной массе они принадлежали исходным монологам. Количество внесенных слов было незначительным, у ряда аудиторов они отсутствовали. Среди слов, относящихся к различным частям речи, наиболее часто опознавались следующие:
имя существительное, глагол, местоимение, предлог. Хуже других опознавались частицы, вводные слова, деепричастия. Как и в предыдущем режиме, существительное в роли предиката и числительное не были опознаны.
3. При соотношении сигнал / шум 20 дБ основная масса опознанных слов относилась к исходным монологам. Однако около четверти зафиксированных слов можно считать внесенными, при этом, как и в других режимах, у ряда аудиторов они отсутствовали. Среди опознанных слов, относящихся к различным частям речи, чаще всего встречались имена существительные, глаголы; средние показатели характеризовали прилагательные, наречия, местоимения и предлоги.
4. Анализ имеющихся модификаций воспринятых слов показал, что были возможны отличия от исходных по роду, числу, падежу (например, множественное число могло заменяться единственным, а косвенные падежи - именительным, очень редко наблюдалось обратное). В основном подобные модификации отмечались при худших условиях восприятия (0 дБ и 10 дБ).
Таким образом, полученные результаты позволяют говорить о том, что при восприятии спонтанных монологов лучше опознавались имена существительные (во всех режимах прослушивания) и глаголы (при средних и лучших условиях). Эксперимент также показал, что одна часть аудиторов вносила слова, не относящиеся к исходному тексту, другая - не вносила. Это можно объяснить, во-первых, возможным неточным опознанием слова, неправильным прогнозом или фиксацией аудиторами единиц, вызывающих сомнения в точности их восприятия. Естественно, худший режим потенциально предполагал возможность появления большего количества внесенных слов. Тем не менее даже при режиме 0 дБ этих единиц оказалось немного. Еще одну сложность для аудиторов представляла методика однократного прослушивания материала, при которой, помимо условий усложняющих опознание слов, работал фактор памяти (и скорости фиксации услышанного). Отметим, что аудиторы в подобных экспериментах ранее участия не принимали.
Вторая часть эксперимента предполагала оценку восприятия звучащих текстов, относящихся к разным видам речевой деятельности (чтению и говорению). В эксперименте участвовало две группы аудиторов (п=8), характеристики которых были представлены ранее.
В качестве материала были использованы звукозаписи чтения текстов, спонтанных монологов, диалогов и трилогов (полилогов) из УРБД [3; 4] от двух групп дикторов (студентов и преподавателей-мужчин). Записи подавались при соотношении сигнал / шум 10 дБ. Для оценки результатов прослушивания использовалась трехчастная шкала, на которой отмечалось количество воспринятых слов (словоформ), словосочетаний и квазипредложений. Также было определено количество этих единиц, зафиксированных при аудировании. На основе проведенного эксперимента можно сделать следующие выводы.
1. Анализ результатов первой группы аудиторов показал, что по количеству воспринятых единиц «лидируют» диалоги и полилоги. Тем не менее следует отметить меньший объем читаемых текстов и монологов по сравнению с диалогами и полилогами. Наиболее стабильны результаты восприятия полилогов. При этом важна тема и качество читаемого текста (если она интересна для диктора, то чтение становится осмысленным и эмоциональным). И наоборот, хуже воспринимаются диалоги и полилоги при их эмоциональной реализации.
2. Наибольший разброс значений отмечается у монологов, а также у диалогов. Оценка могла меняться в зависимо сти от темы, диктора, аудитора. Для полилогов все аудиторы выделили не менее 15 единиц (по темам «литература», «музыка», «отдых»), причем лучшие результаты были получены для тем «литература» и «отдых». Таким образом, данный эксперимент дает возможность сделать предположение, что при тех же дикторах и условиях восприятия существенно лучше будут восприниматься диалоги и полилоги. Это касается и количества воспринимаемых единиц, и их качества - фиксируется большее число словосочетаний и квазипредложений.
3. Анализ результатов прослушивания фонограмм дикторов-преподавателей (темы «отдых», «спорт», «учеба») показал, что данные по восприятию читаемого материала предполагают значительный разброс значений (аудиторов условно можно разделить на две группы). Для этих дикторов отмечается увеличение количества воспринятых единиц и увеличение числа словосочетаний и квазипредложений. При этом худшие результаты отмечаются у монологов. Как и в предыдущем случае, оказалось, что лучше воспринимаются диалоги и полилоги.
Подводя итоги, можно говорить о том, что в затрудненных условиях при тех же условиях восприятия при восприятии диалога
(полилогов) были получены наиболее адекватные результаты. Эксперимент подтвердил работоспособность предложенной трехчаст-ной шкалы (подсчет числа воспринятых словоформ, словосочетаний и квазипредложений). Следует отметить, что важную роль при восприятии звучащего материала играет тема (представляющая интерес или не представляющая интереса для дикторов и аудиторов), эмоциональная окраска текста, подготовленность / неподготовленность диктора к процессу чтения.
Дальнейшая работа по данной проблеме предполагает привлечение большего числа дикторов и аудиторов, увеличение объема анализируемого материала, использование различных градаций шума [8].
СПИСОК ЛИТЕРАТУРЫ
1. Абрамов Ю. В., Потапова Р. К., Хитина М. В. Анализ результатов прослушивания фонограмм в шумах с учетом степени информативности // Акустика речи. Медицинская и биологическая акустика : сб. тр. XXII сессии РАО. - Т. 3. - М. : ГЕОС, 2010. - С. 15-18.
2. Абрамов Ю. В., Потапова Р. К., Хитина М. В. Анализ результата прослушивания фонограмм в шумах с учетом степени информативности // Речевые технологии. - № 3. - М., 2010. - С. 3-7.
3. Абрамов Ю. А., Потапова Р. К., Хитина М. В., Маслов А. В., Бобров Н. В. Создание устно-речевой базы данных (УРБД) спонтанных речевых сообщений (на материале русского языка) // Акустика речи. Медицинская и биологическая акустика : сб. тр. XXII сессии РАО. - Т. 3. - М. : ГЕОС, 2010. - С. 91-94.
4. Абрамов Ю. А.. Потапова Р. К., Хитина М. В., Маслов А. В., Бобров Н. В. Создание устно-речевой базы данных (УРБД) спонтанных речевых сообщений (на материале русского языка) // Речевые технологии. - № 3. -М., 2010. - С. 119-122.
5. Зиндер Л. Р. Очерк общей теории письма. - Л. : Наука, 1987. - 112 с.
6. Леонтьев А. А. Восприятие текста как психологический процесс // Психолингвистическая и лингвистическая природа текста и особенности его восприятия. - Киев : КГУ, 1979. - С. 18-30.
7. Потапова Р. К. Звучащая речь как субсистема в общей семиотической системе межличностной коммуникации // Фонетика: проблемы и перспективы. - М. : ФГБОУ ВПО МГЛУ, 2014. - С. 189-196. - (Вестн. Моск. гос. лингвист. ун-та; вып. 1 (687). Серия Языкознание).
8. Потапова Р. К., Потапов В. В. Теоретические основы нового подхода к реконструкции смыслового контента зашумленной русской речи //
Русский язык: исторические судьбы и современность : труды и материалы V Междунар. конгресса. - М. : Изд-во Моск. ун-та, 2014. - С. 577.
9. Потапова Р. К., Потапов В. В., Хитина М. В. К опыту смыслового восприятия звучащей речи в условия акустического шума // Речевые технологии. - № 2. - М., 2010. - С. 3-18.
10. Потапова Р. К., Потапов В. В., Хитина М. В. Исследование перцептивно-слухового восприятия звучащих текстов в затрудненных условиях // Акустика речи. Медицинская и биологическая акустика : сб. тр. XXII сессии РАО. - Т. 3. - М. : ГЕОС, 2010. - С. 19-22.
11. Потапова Р. К., Потапов В. В., Хитина М. В. Исследование перцептивно-слухового восприятия звучащих текстов в затрудненных условиях // Речевые технологии. - № 3. - М., 2010. - С. 8-13.
12. Ширинкина Л. В. Восприятие текста как психологический феномен : автореф. дис. ... канд. психол. наук. - Пермь, 2004. - 23 с.
13. Штерн А. С. Статистическая модель восприятия слова по лингвистическим признакам // Экспериментальная фонетика: автоматическое распознавание и синтез речи. - М. : Изд-во Моск. ун-та, 1989. - С. 61-80.
14. Potapova R. K., Potapov V. V., Khitina M. V. Auditory perception of spoken Russian language in noise // Когнитивное моделирование в лингвистике : сб. XII Междунар. конф. - 2010. - C. 378-385.