В.Б. Кузнецов КАК МЫ ПРЕДСТАВЛЯЕМ СЕБЕ ЗВУКИ РЕЧИ
Все сидят, задумались. Тишина. Слышно только,
как тихо бормочет Фирс. Вдруг раздался
отдаленный звук, точно с неба, звук лопнувшей
струны, замирающий, печальный.
Любовь Андреевна. Это что?
Лопахин. Не знаю. Где-нибудь далеко в шахтах
сорвалась бадья. Но где-нибудь очень далеко.
Гаев. А может быть, птица какая-нибудь... вроде цапли.
Трофимов. Или филин...
Любовь Андреевна (вздрагивает). Неприятно почему-то.
А.П. Чехов «Вишневый сад»
С чем могут ассоциироваться звуки речи? В своем знаменитом цветном сонете «Гласные» Артюр Рембо дал прямой и недвусмысленный ответ. Для него звучание гласных звуков ассоциируется с цветом. Это весьма распространенная ассоциация. Вообще цвет легко связывается со звуком. Самый простой пример - цветомузыка.
Связь звука с другими чувствами не столь очевидна, хотя, конечно же, возможна. Мы, однако, не замечаем самую главную связь. Это связь звука со смыслом. Для начала давайте вспомним междометия. В их звучании уже заложен пусть не ясный смысл, но намек на него. Выражаемое междометиями эмоциональное или, шире, душевное, а то и просто физическое состояние человека не просто несет некую информацию о говорящем, но будит фантазию и дает намек на более содержательные моменты того, что он стремится выразить. Вот так и «звук лопнувшей струны, замирающий, печальный» не просто сообщил о сорвавшейся где-то бадье, но и выразил подспудный смысл - understatement - всего происходящего в вишневом саду.
Обыватель, пожалуй, решит, что этим ограничиваются смысловые возможности звука. Он, однако, как и Журден, не знает, что говорит прозой. Он не представляет, что постоянно использует смыслоразличитель-
ную функцию звука. Именно с помощью качества звука могут различаться пары (пол - пел) или даже ряды слов: пол, пул, пал, пил...
Есть вещи, которые можно разглядеть, выглянув из окна или наблюдая происходящее вокруг. Иные нельзя охватить таким непосредственным взглядом через прямое восприятие наличной действительности. Нам далеко не очевидно, что мысль и мышление не могут не «звучать» хотя бы потому, что облекаются в слова и речь. Даже внутренняя, не артикулируемая внешне речь может быть осмысленной как раз благодаря ее «воображаемому звучанию». Так что мысль - это воображаемая речь, а внутренняя речь - воображаемость мысли.
При изучении действительно звучащей речи (область научных интересов автора) в качестве объектов выделяют соответственно речепроизводство (артикуляторная фонетика), акустику речи (акустическая фонетика) и речевосприятие (перцептивная фонетика). Однако прежде чем обратиться к этим аспектам изучения речи, нужно хотя бы в самых общих чертах понять, чем является слух как биологическая и человеческая способность.
Слуховая система
Слуховая система - последняя сенсорная система, приобретенная позвоночными выше рыб. Она понадобилась им, когда они вышли из моря на сушу. Чтобы выжить, нужно было по звуку (изменению давления воздуха) определять местоположение источника опасности, возможной добычи и партнера по спариванию. Звуки были краткими и изменяющимися. Для пространственной локализации и распознавания подобных звуков необходимо было иметь два уха.
Интересно сопоставить некоторые характеристики слуховой и зрительной системы человека. В одном ухе имеется около 15 тыс. слуховых рецепторов, подсоединенных к 15 тыс. волокон слухового нерва, в глазу -около 130 млн. рецепторов, которые коммутируют приблизительно 1 млн. волокон зрительного нерва. Несмотря на эту огромную разницу, ресурсы, выделяемые мозгом на обработку зрительной и слуховой информации, идентичны: около 100 млн. нейронов в слуховой и зрительной зоне каждого полушария мозга [Handel, 1989].
О возможностях слуховой системы можно судить, в частности, по следующему факту. Человек определяет положение источника звука, находящегося спереди, с точностью до 1-2 градусов, что требует различать время прихода сигнала к ушам в 13 микросекунд [Journey. б. г.]!
Впечатление о звуке может основываться на трех видах информации:
• информация об источнике звука, порождающем изменения звукового давления;
• информация об изменяющемся звуковом давлении;
• информация о слуховом восприятии звука.
269
Первые знания о звуках речи были получены при изучении процессов артикуляции, или, говоря иначе, синтеза речи.
Искусство производства звуков
Во времена Античности и Средних веков наделение неживых объектов способностью говорить вызывало у современников впечатление чудесного и страшного. Этим эффектом широко пользовались служители религии. В трудах нескольких античных авторов упоминается говорящая статуя Мнемнона, мифологического персонажа Древнего Египта. Предполагается, что речепроизводство обеспечивали сами жрецы с помощью волноводов. До нас дошли многочисленные легенды о говорящих головах: голова Орфея на острове Лесбос, голова Одина в Скандинавии, говорящая медная голова, сконструированная папой Сильвестром II [Brewster, 1832].
Началом подлинно научного изучения звуков речи можно считать 1779 год, когда Петербургская академия наук предложила в рамках ежегодного конкурса следующую задачу: 1) объяснить природу гласных звуков [и, э, а, о, у] и различия между ними; 2) создать устройство, подобное регистру органа vox humana, воспроизводящее эти гласные. Конкурс выиграл датский ученый Христиан Кратценштейн. Для производства гласных он предложил ряд резонаторов, внутренний объем и размер отверстия которых соответствовали параметрам голосового тракта, типичным для этих гласных. Внизу резонаторов размещался язычок, вибрирующий в воздушной струе и таким образом создающий звучание (см. рис. 1).
Рис. 1.
Акустические резонаторы Х. Кратценштейна для синтеза гласных звуков
Более значительные научные и прикладные результаты были получены Вольфгангом фон Кемпеленом. В 1791 г. он опубликовал работу «Механизмы речи, а также описание говорящей машины» [Von Cempelen, 1791].
270
Рис. 2.
Конструкция говорящей машины фон Кемпелена
Устройство говорящей машины представлено на рис. 2. На схеме изображен не авторский вариант машины, а реконструкция, выполненная спустя 60 лет английским физиком Чарльзом Уитстоном на основе опубликованного описания. Перед нами фактически антропоморфный артику-ляторный синтезатор речи, в котором фон Кемпелен воплотил существующие на тот момент знания о речепроизводстве.
О глубине знаний фон Кемпелена об артикуляции звуков можно судить хотя бы по тому факту, что при производстве бокового звука [л] в резонатор, имитирующий ротовую полость, вводились два пальца для разделения воздушного потока на два. Благодаря подробному описанию говорящая машина фон Кемпелена реконструировалась несколько раз вплоть до наших дней [ЫепаЫ, 1967].
Звуковой спектр
Что же касается акустических характеристик звуков речи, то прогресс в их изучении связан в определенной степени с именем немецкого ученого Германа фон Гельмгольца [Гельмгольц, 1875]. Выдающийся физиолог, физик и математик, он разработал теорию резонанса, на основе которой в середине XIX в. был изобретен резонатор, называемый резонатором Гельмгольца (см. рис. 3). Резонатор характеризуется собственной частотой колебания. Она определяется геометрией резонатора: его объемом, длиной и сечением открытой горловины. Резонатор усиливает во много раз амплитуду спектральных компонентов периодических и апериодических сигналов, частота которых близка к его собственной частоте.
271
Располагая набором резонаторов с разными собственными частотами, исследователь может проводить спектральный анализ звуковых сигналов. По вполне понятным причинам (длительность и стабильность звучания, воспроизводимость) методики спектрального анализа, использующие резонаторы Гельмгольца, отрабатывались сначала на звуках музыкальных инструментов, а затем применялись к звукам речи - в первую очередь, к гласным.
Первоначально спектральный анализ выполнялся следующим образом: в резонаторе на противоположной стороне от горловины создавался отросток, который исследователь вставлял в ухо; прослушивая исследуемый звук с помощью набора таких резонаторов, ученый мог определить, какие тоны и с какой громкостью присутствуют в данном звуке. Несмотря на явную ограниченность такого метода, исследователям удалось определить с хорошей точностью характерные области усиления спектральных составляющих (формант) для гласных звуков.
Рис. 3.
Слева набор резонаторов Гельмгольца, справа камертон и резонатор - один из 10 аналогичных элементов гармонического синтезатора Гельмгольца
Следующий шаг в развитии техники спектрального анализа был сделан через несколько лет Рудольфом Кёнигом [Огееш^е, 1992]. Используя набор настраиваемых резонаторов Гельмгольца, он смог обеспечить визуализацию спектрального анализа с помощью изобретенной им в 1862 г. манометрической капсулы. Принцип действия капсулы состоял в следующем: в одну из половин капсулы, разделенной эластичной мембраной, подавался светильный газ, в другую половину поступал звук, и таким образом колебания звукового давления модулировали высоту пламени в капсуле: чем больше амплитуда колебания, тем выше пламя. На рис. 4 представлен аппарат Кёнига и результат его работы - спектры гласных
272
звуков. Кроме восьми резонаторов и соответствующего количества рожков манометрических капсул, находящихся слева, можно видеть также систему из четырех зеркал, закрепленных на вращающейся раме, позволяющую отобразить изменение спектра во времени. В ходе анализа собственные частоты резонаторов настраивались на частоты основного тона и гармоник исследуемого звука.
Слева - прибор Р. Кёнига - прототип спектроанализатора, справа - спектры гласных [а, о, и], произнесенных на разной высоте
После появления спектрального анализа у Гельмгольца возникла идея синтеза гармонических звуков, музыкальных и речевых, путем воспроизведения их спектров с помощью камертонов и резонаторов.
Синтезатор Гельмгольца состоял из 10 электрически возбуждаемых камертонов, расположенных возле входного отверстия резонаторов (см. рис. 3 справа). Собственные частоты камертонов и резонаторов совпадали. При включении этого гармонического синтезатора все камертоны звучали одновременно. Громкость звучания системы «камертон - резонатор» регулировалась утоплением одной из десяти управляющих клавиш. Таким образом формировалась спектральная огибающая.
Звуковой спектр можно было услышать, но можно было и увидеть (см. рис. 4 справа). Спектр звука можно было представить в виде изменения звукового давления. После изобретения в 40-х годах XIX столетия не-
» V I '
V
Рис. 4.
Визуализация звука
273
мецким физиологом Карлом Людвигом кимографа («волнописца») стала возможна волновая визуализация. Однако широкое практическое применение подобная визуализация получила только во второй половине прошлого века.
Этапное изобретение в области спектрального анализа и визуализации звуков было совершено американскими учеными. Они создали новый тип спектрографа, названый Сонографом [Koenig, Dunn, Lacey, 1946]. Широкой популярности этого прибора среди исследователей речи способствовала появившаяся через год книга «Видимая речь» - первый альбом сонограмм звуков речи [Potter, Kopp, Green, 1947].
Рис. 5.
Слева - блок-схема спектроанализатора «Сонограф», справа - осциллограмма и спектрограмма, полученные с помощью компьютерной программы
На рис. 5 приводится принципиальная схема Сонографа и образец спектрограммы и осциллограммы, полученные с помощью компьютерной программы. Фактически Сонограф завершил век аналоговой техники спектрального анализа. Разработанный тип визуализации динамической спектрограммы, получаемой путем прожига пером электрочувствительной бумаги, остается неизменным до сегодняшнего дня.
Как и в XIX в., новая технология спектрального анализа дала толчок для изобретения синтезатора нового типа, Pattern Playback [Cooper, Liberman, Borst, 1951]. Ученые Хаскинских лабораторий интерпретировали синтез речи как процесс, зеркальный по отношению к спектральному анализу: в последнем случае мы от звука переходим к спектрограмме, а в первом - от стилизованной спектрограммы к звучанию (см. рис. 6).
274
LENS
45s MIRROR
_LIGHT COLLECTOR
Ç~ AND PHOTOCELL y) (REFLECTION)
4M )
У
LIGHT CYL. TONE SOURCE LENS WHEEL
LIGHT COLLECTOR [TRAN SMISSICN)
PATTERN PLAYBACK
AMPLIFIER _Q^j
LOUDSPEAKER
Рис. 6.
Блок-схема синтезатора Pattern Playback
Синтезатор Pattern Playback представляет интерес не столько с точки зрения практического синтеза речи, сколько с точки зрения возможностей, впервые предоставленных исследователю для контроля параметров синтезируемого сигнала. Благодаря этому синтезатору были проведены многочисленные эксперименты по оценке перцептивной значимости акустических характеристик звуков речи.
Переходя к вопросам речевосприятия, следует констатировать, что на сегодняшний день не существует общепринятой и полной теории восприятия речи. Одно из ведущих мест занимает концепция восприятия речи, развиваемая в Хаскинских лабораториях. Это так называемые моторная теория восприятия речи и теория прямого восприятия. Согласно первой теории человек декодирует речевой сигнал путем воссоздания той артикуляторной деятельности, которая произвела воспринимаемый сигнал. Таким образом, осуществляется анализ речи через синтез породившей ее артикуляторной программы [A motor theory. 1963]. Если в моторной теории предполагается обработка акустического сигнала, то сторонники прямого восприятия полагают, что человек непосредственно, напрямую слышит артикуляторные жесты, а акустический сигнал является всего лишь ближайшей и непосредственной средой, которая структурируется динамическими изменениями в речевом тракте [Fowler, 1986]. В качестве аналогии приводится зрительное восприятие окружающего мира: человек видит не световой поток, модулированный его взаимодействием с предметами, а сами предметы [Gibson, 1979]. Очевидно, что такой способ восприятия может доминировать при декодировании речи. Когда мы восхи-
Восприятие речи
275
щаемся пением соловья, вряд ли предметом нашего восторга является работа соответствующих органов птицы, а не эстетические свойства создаваемого звука.
Изучение восприятия речи далеко от своего завершения. Идет интенсивное накопление экспериментальных данных, которые лягут в основу новых гипотез и теорий о том, как мы воспринимаем и представляем себе речь.
Озвучивание мысли
Настало время возвратиться к тому, с чего начиналась статья. Звук, особенно звук человеческой речи, способен стать исходным стимулом для бесконечного порождения образов и смыслов. Звук лопнувшей струны вызывает чувство тревоги. Открытый звук А заставляет поэта вообразить черноту, мохнатость и рой «жужжащих мух над грудою зловонной». Закрытый звук И - «пурпур, кровь плевка, смех, гневом озаренный».
По мере развития человеческого голоса и артикуляции, расширения способностей людей порождать звуки с помощью музыкальных и иных инструментов звук перестает быть всего лишь механическими колебаниями передающей среды, воздуха. Он становится для людей знаком, за которым встают эмоция, образ, смысл. Звуки могут быть знаками любого типа: от индексов до символов, от условных знаков до прямого воплощения смыслов.
Можем ли мы надежно связать звуки и смыслы? Да, если сможем представить звук в ином обличии. Современные технологии позволяют не только визуализировать речь, но дать комплексное представление мысли и мышления через интегральные звуко-визуальные образы. Повторю - есть вещи, которые можно разглядеть, выглянув из окна или наблюдая происходящее вокруг. Иные нельзя охватить таким непосредственным взглядом через прямое восприятие наличной действительности. Наша растущая способность не только услышать, но увидеть звук и разложить его на ясные приметы - это одно из условий того, чтобы за наличной звучащей действительностью обнаружить нечто большее. Звуки открывают для нас мир мыслей и чувств. Стоит лишь включить воображение.
Литература
A motor theory of speech perception // Proceedings of the Symposium on speech communication seminar / Liberman A.M., Cooper F.S., Harris K.S., MacNeilage P.J. - Stockholm: Royal institute of technology, 1963. - Paper D3, vol. 2.
BrewsterD. Letters on natural magic. - L.: John Murray, 1832. - 351 p.
Cooper F.S., Liberman A.M., Borst J.M. The interconversion of audible and visible patterns as a basis for research in the perception of speech // Proceedings of the National academy of science. - Washington, 1951. - Vol. 37. - P. 318-325.
276
Fowler C.A. An event approach to the study of speech perception from a direct-realist perspective // Journal of phonetics. - L., 1986. - Vol. 14. - P. 3-28.
Gibson J.J. The ecological approach to visual perception. - Boston: Houghton mifflin, 1979. -332 p.
Greenslade Th.B. The acoustical apparatus of Rudolph Koenig // Physics teacher. - N.Y., 1992. -Vol. 30. - P. 518-524.
Handel St. Listening. An introduction to the perception of auditory events. - Massachusetts: The MIT Press. - 576 p.
Helmholtz H. von. On the sensations of tone as a physiological basis for the theory of music / H. von Helmholtz, A.J. Ellis. - L.: Longmans, 1885. - 576 p.
Kempelen W. von. Le mecanisme de la parole, suivi d'une description de la machine parlante. -Vienne: B. Bauer, 1791 .- 464 p.
Koenig W., Dunn H.K., Lacey L.W. The sound spectrograph // The journal of the Acoustical society of America. - N.Y., 1946. - Vol. 18. - P. 19-49.
Lienard J.S. La synthese de la parole; historique et realisations actuelles // Revue d'acoustique. -P., 1970. - N 11. - P. 204-213.
Potter R.K., Kopp GA., Green H.C. Visible speech. - N.Y.: Van Nostrand, 1947. - 450 p.
Journey into the world of hearing. - Mode of access: http://www.cochlea.org/en/spe/external-ear.html (Дата посещения: 07.11.2011.)
Артюр Рембо, пер. М. П. Кудинова Гласные
А - черный, белый - Е, И - красный, У - зеленый, О - синий... Гласные, рождений ваших даты Еще открою я... А - черный и мохнатый Корсет жужжащих мух над грудою зловонной.
Е - белизна шатров и в хлопьях снежной ваты Вершина, дрожь цветка, сверкание короны; И - пурпур, кровь плевка, смех, гневом озаренный Иль опьяненный покаяньем в час расплаты.
У - цикл, морской прибой с его зеленым соком, Мир пастбищ, мир морщин, что на челе высоком Алхимией запечатлен в тиши ночей.
О - первозданный Горн, пронзительный и странный. Безмолвье, где миры, и ангелы, и страны, - Омега, синий луч и свет Ее Очей.
Arthur Rimbaud Voyelles
A noir, E blanc, I rouge, U vert, O bleu: voyelles, Je dirai quelque jour vos naissances latentes: A, noir corset velu des mouches éclatantes Qui bombinent autour des puanteurs cruelles,
Golfes d'ombre ; E, candeurs des vapeurs et des tentes, Lances des glaciers fiers, rois blancs, frissons d'ombelles; I, pourpres, sang craché, rire des lèvres belles Dans la colère ou les ivresses pénitentes;
U, cycles, vibrements divins des mers virides, Paix des pâtis semés d'animaux, paix des rides Que l'alchimie imprime aux grands fronts studieux;
O, suprême Clairon plein des strideurs étranges, Silences traversés des Mondes et des Anges: - O l'Oméga, rayon violet de Ses Yeux !
277