СТАТЬИ
О.Ф.Кривнова, С.В.Князев, Е.В.Моисеева
Исследования просодического
членения звучащего текста на материале русского языка
Статья посвящена исследованию просодического членения звучащего текста на материале русского языка. Введение содержит краткое описание базовых понятий, связанных с проблематикой данной области фонетических описаний. В основной части приводятся сведения о фонетических и нефонетических коррелятах просодических границ и их иерархической организации. В заключении характеризуется текущее состояние дел в данном сегменте современной фонетики, формулируются основные задачи, стоящие перед исследователями просодического членения русской звучащей речи.
Ключевые слова: фонетика, интонация, звучащая речь, просодическое членение, просодические границы, глубина просодических швов, фонетические и нефонетические показатели.
This paper deals with the problem of prosodic phrasing in a spoken text. The introductory section provides a brief description of the background, clarifies basic terms and explains the concept of prosodic break and word boundary strength. The second section contains the analysis of the current state of research in this area of phrasal prosody, highlights the main directions of the modern fundamental studies and applications, notes their relevance and the need to expand their empirical base. The third section deals with the issues related to the local markers of prosodic phrasing, their hierarchy and phonetic means of realization. In the conclusion, the material, methods and results of the experimental studies discussed in this paper are compared, the current trends in the use of the data are highlighted, the prospects and challenges for further studies of prosodic phrasing in speech are outlined.
Key words: phonetics, spoken language, prosodic phrasing, prosodic break, word boundary strength, pause marker, perception, instrumental analysis.
0. Введение
Целью данного обзора является анализ теоретических и прикладных исследований по тематике проекта «Иерархия просодического членения звучащей речи: контролирующие факторы и средства реализации» 15-0606103, поддержанного в 2015 г. РФФИ, - в том числе анализ способов и детализации представления просодического членения в речевых корпусах на материале русского языка, представленных в русскоязычных и англоязычных литературных источниках. Будет дана также оценка текуще-
го состояния знаний в области просодической макросегментации речи и определены актуальные направления дальнейшей работы над данной проблемой в рамках проекта.
В фонетике под просодическим членением (ПЧ) звучащего текста (устной речи) понимается членение текста на фонетически организованные фрагменты разной размерности (от слога до сверхфразового единства), которое осуществляется говорящим с помощью звуковых средств просодической природы, в соответствии с общими принципами фонетической организации речи и с учетом смысловой и синтаксической структуры текста. В русскоязычной литературе для обозначения данного явления используется также термин «макросегментация речи». ПЧ на фразовом уровне (ср. термины «синтагматическое, интонационное членение») представлено составляющими, превосходящими по размеру фонетические слова, и имеет определенную внутреннюю иерархию (структуру). Границы между фразовыми просодическими составляющими при их артикуляционно-акустической реализации образуют просодические швы (разрывы, далее ПШ) в звучащем тексте (англ. «prosodic breaks»). Просодический шов в более глубинном и узком смысле - это абстрактный показатель границы между просодическими составляющими, который имеет определенное фонетическое (акустическое) воплощение с возможной вариативностью, а также перцептивные корреляты в виде субъективного ощущения определенной степени автономности смежных слов и групп слов в звучащем тексте. В несколько иной формулировке просодический шов можно рассматривать как абстрактный показатель сегментирующего потенциала словораздела, который реализуется в тексте с разной вероятностью и с разной сегментирующей силой, что создает различную глубину ПШ и просодического членения текста в целом1.
В соответствии с изложенной интерпретацией глубина ПШ понимается как абстрактный количественный показатель сегментирующей силы соответствующего словораздела, которая реализуется в устной речи с помощью разных просодических средств между и на краях фразовых просодических составляющих. Разная глубина ПШ является также отражением внутренней иерархии просодического членения. В интонационной
1 В современных зарубежных моделях ПЧ признается, что любая граница (словораздел) между словами имеет определенный сегментирующий потенциал, который может реализоваться в звучащем тексте с разной вероятностью и силой в зависимости от контекстных условий и контролирующих факторов локальной и глобальной природы.
фонологии многие исследователи разделяют точку зрения, согласно которой иерархический статус просодической составляющей однозначно соответствует глубине ПШ, завершающего эту составляющую, т. е. чем выше фразовый уровень составляющей, тем больше глубина ПШ в ее конце, и наоборот. Это положение так называемой строгой поуровневой гипотезы (Strict Layred Hypothesis SLH) разделяется, однако, не всеми интонологами и никогда не проверялось экспериментально на сколько-нибудь представительном речевом материале; см. [Ladd, 1986; Ladd, Campbell, 1991; Sanderman, 1996; Selkirk, 1984].
В отечественной лингвистике впервые обратил внимание на ПЧ и его особую природу академик Л.В. Щерба. Он писал о том, что в европейских языках (а возможно, и во многих других) самым важным средством выражения связи между словами и группами слов является «интонация», «фразировка» в самом широком смысле слова [Щерба, 1915]. Л.В. Щерба обозначил практически все отличительные особенности этого явления, которые в настоящее время являются предметом исследования во многих работах по фразовой просодии, однако не описаны и не объяснены полностью ни для одного из европейских языков. Это относится, в частности, и к иерархической природе ПЧ: «Синтагмы могут объединяться в группы высшего порядка с разными интонациями <...> и в конце концов образуют фразу - законченное целое, которое может состоять из группы синтагм, но может состоять и из одной синтагмы, и которое нормально характеризуется конечным понижением тона» [Щерба, 1963: 87]. В этой же работе приведены авторские транскрипции русского стиха, наряду с французскими примерами, где используются 4 маркера для фразовых ПШ разной глубины: в завершении фоносинтагм ], полуфраз {, фраз |, сверхфразовых единств ||. Отмечена также зависимость реализации ПЧ от стиля и темпа произнесения, т. е. от установки говорящего на степень выразительности речи. Обосновывая необходимость выделения в фонетике особого раздела «Синтаксической фонетики», Л.В. Щерба подчеркивал динамическую, деятельностную природу ПЧ как в спонтанной, так и в репродуцированной речи (в режиме чтения текста), глубинную связь с «процессом речи-мысли», с активной грамматикой говорящего. Эта идея интенсивно развивается в настоящее время в психолингвистике, когнитивной лингвистике и анализе дискурса. Л.В. Щерба отмечает также, что ПЧ зависит от стиля и жанра текста, ср. [Светозарова, 2000]. В литературе описывается корреляция между типом устной речи (чтение или спонтанная речь) и членением предложений на синтагмы: в спонтан-
ной речи просодические синтагмы короче, чем при чтении (и составляют в среднем 2,7 слова против 4,2 слова) [Иомдин, Лобанов, 2009].
Очевидно, что характер просодического членения зависит от идиолекта [Светозарова, 1982]. Существует и связь между просодическим членением и эмоциональным состоянием говорящего, а также индивидуальным темпом речи, установкой на степень выразительности речи или чтения. Как показали результаты проведенных экспериментов, особенности паузирования тесно сопряжены с более общей проблемой вариативности манер чтения, проблема произносительной нормы в области интонации в связи с ПЧ рассматривается в [Кривнова, Чардин, 1999].
О.Ф. Кривнова [Кривнова, 1995] описывает четырехбалльную шкалу глубины ПШ, которые соответствуют просодическим составляющим, большим, чем фонетическое слово, следующим образом:
• Просодическая / фонетическая синтагма;
• интонационная фраза2;
• интонационно-смысловой комплекс;
• высказывание.
Данная шкала3 представляется нам наиболее адекватным инструментом описания и разметки просодического членения и фонетической организации предложения, так как с ее использованием информанты при проведении перцептивного эксперимента определяли текстовую локализацию и глубину ПШ согласованно [Кривнова, 1995].
Специальный анализ показал, что длительность физической паузы на словоразделе коррелирует с глубиной ПШ [Кривнова, 1995], равно как и частотностью его обнаружения [Кривнова, 2015]. Так, при минимальном по глубине ПШ1 пауза может отсутствовать и часто действительно отсутствует; эти швы имеют, по-видимому, ритмическую мотивацию, чем и отличаются от всех остальных. На швах большей глубины пауза присутствует всегда, причем больше 200 мс [Кривнова, 1995]. Таким образом, 200 мс (или один слог в случае относительной длительности) - ключевой момент для перцептивной и функциональной категоризации физической длительности пауз.
Несмотря на интересное и продуктивное обсуждение иерархической
2 Связный, грамматически организованный фрагмент текста (предложение или его часть), которому при синтезе речи приписывается одна интонационная модель [Кривнова, 1998].
3 4-балльная шкала глубины ПШ соответствует 5-балльной шкале сегментирующей силы словоразделов, принятой в стандартной системе просодической разметки текстов ТОВ1.
природы ПЧ и контролирующих его факторов в русской текстологической литературе ХХ в., до 1980-1990-х гг. конкретных исследований ПЧ в речи было очень мало как на материале русского, так и на материале других языков.В 1980-1990-е гг. в фонетике и в лингвистике в целом произошел «просодический бум», тесно связанный с переходом от преимущественно структурного подхода к функциональной и когнитивной научной парадигме, изучению устного дискурса, «языка в действии», интересом к компьютерным моделям языка и устной речи, к разработкам по автоматическому синтезу речи, невозможному без понимания функций и природы ПЧ.
Основные направления исследования ПЧ в современной лингвистике сформулированы О.Ф. Кривновой следующим образом: «главные направления исследований ПЧ (теоретических, экспериментально-инструментальных, прикладных) группируются вокруг следующих проблем:
Локальные маркеры (границы, просодические швы) ПЧ - текстовая локализация, глубина создаваемого членения (сегментирующая сила границ, их иерархия), средства фонетической реализации.
Квантованная / блочная природа просодических составляющих, их иерархический статус, интегрирующие просодические схемы разного уровня, их фонетическая реализация.
Функциональный аспект ПЧ, контролирующие факторы: коммуникативные, семантико-синтаксические, психофизиологические (когнитивные, речепроизводящие)» [Кривнова, 2015: 329].
В конкретных исследованиях ПШ могут анализироваться при интерпретации уже озвученного текста, то есть с позиции Слушающего, который воспринимает текст (в прикладных системах распознавание «Речь-Текст»), или с позиции говорящего, который порождает или читает письменный текст (в прикладных системах синтез «Текст-Речь»).
Центральной, однако, является позиция фонетиста-исследователя, задача которого состоит в том, чтобы выявить факторы, контролирующие ПЧ, и описать в явной форме их взаимодействие не только в отношении текстовой локализации и глубины ПШ, но и в аспекте их просодической реализации (локальной и интегральной). Эти сведения важны как для фонетической науки, так и для разработки прикладных речевых систем.
Во всех указанных исследовательских ситуациях возникает проблема выбора речевого материала, который может рассматриваться как адекватная эмпирическая база для изучения и моделирования ПЧ. Достаточно очевидно, что ПЧ в спонтанной речи должно изучаться и описываться
отдельно от репродуцированной речи (озвучивания готового письменного текста). Однако и в последнем случае, в силу стилистической и индивидуальной вариативности ПЧ, эта проблема актуальна, особенно для современных речевых технологий синтеза и распознавания речи, которые используют вероятностно-статистические методы и обучаются обработке устной речи на материале представительных речевых корпусов с экспертной разметкой ПЧ [Кодзасов и др., 2008; Продан и др., 2009; Лобанов, 2010; Кривнова, 2008; Лобанов, Цирульник, 2008]. Именно в этих исследованиях рассматривается задача поиска и определения критериев выбора «золотого стандарта», т. е. звучащего текста, который по своим семантико-снтаксическим и просодическим характеристикам в наибольшей степени отражал бы научные представления о функциях и фонетике ПЧ [Кривнова, Чардин, 1999].
Принципиальная трудность в поиске золотого стандарта ПЧ состоит в том, что оно в значительной степени вариативно. Так, Е.А. Брызгунова отмечает необходимость разграничения обязательных и факультативных ПШ (границ ПЧ): «Пауза... при синтагматическом членении возможна, но не обязательна. Наибольшие возможности паузы при синтагматическом членении проявляются в тех высказываниях. где слово на границе членения может быть отнесено и к предшествующей, и к последующей синтагмам, граница уровней тона которых выражена недостаточно» [Брызгунова, 1980: 98-99]. Однако и условия обязательности ПЧ, и его вариативность на материале русского языка изучены недостаточно. К сожалению, нам не удалось найти обстоятельного анализа этого важного для описания ПЧ разграничения, хотя возможно, что в неявной форме оно признается и проявляется в исключительном внимании исследователей к феномену темпорального паузирования звучащего текста.
Действительно, необходимость правильного интонационного членения текста с помощью физических пауз, например в автоматическом синтезе речи, обусловлена тем, что физические паузы как яркое средство реализации ПШ принимают участие в передаче определенных синтаксических и смысловых отношений, часто выступая в функции смыслоразли-чения, а при восприятии звучащего текста слушающему необходимо иметь определенные временные ресурсы для того, чтобы текущим образом производить лингвистическую обработку текста и отдельных предложений в нем, запоминать ее результаты и строить смысловую текстовую структуру. Процесс такой обработки и понимания текста значительно облегчается при наличии физических пауз [Кривнова, Чардин, 1999].
Наряду с темпоральными паузами в русскоязычной литературе анализируются различные фонетические и нефонетические корреляты просодических швов, которые будут описаны ниже в основном на материале работ по автоматическому синтезу речи, для которого необходимы эксплицитные алгоритмы задания локализации и акустической реализации ПЧ.
Текстовая локализация ПШ фразового уровня составляет одну из главных задач лингвистической предобработки письменного текста в целях его последующего озвучивания. В ходе ее решения для каждого предложения в тексте необходимо определить нейтральный вариант ПЧ и соответствующий ему вариант физической реализации, в частности физической паузации. Для этого надо уметь находить в тексте те контексты и ситуации, в которых на интонационной границе4, коррелирующей с синтаксической, появляется физическая пауза, и уметь оперировать ее длительностью. В конечном итоге нужно научить систему синтеза расставлять в любом письменном тексте, по крайней мере те просодические границы, которые сопровождаются всегда или в подавляющем большинстве случаев (в чтении разных людей) физическими паузами и уметь задавать их длительность [Кривнова, Чардин, 1999].
В дальнейшей части обзора Раздел 1 будет посвящен нефонетическим коррелятам ПШ в письменном тексте, а раздел 2 - фонетическим средствам реализации ПШ в звучащем тексте.
1. Нефонетические корреляты просодических швов в тексте
1.1. Просодически значимые маркеры ПШ в письменном тексте
Согласно имеющимся экспериментальным данным, в письменном тексте границы самых крупных просодических составляющих однозначно коррелируют с границами абзацев и при этом всегда оформляются при помощи физических пауз и других просодических средств [Светоза-рова, 2000: 120; Чардин, 1999: 66].
Первичное грубое членение текста при синтезе речи обычно опирается на знаки препинания (ЗП). Это естественное решение, так как в письменном тексте ЗП выступают в качестве формальных показателей сег-
4 В русскоязычных публикациях по синтезу речи авторы, в отличие от зарубежных коллег, вместо термина и понятия «просодический шов» используют термин «интонационная граница», часто отождествляя к тому же это понятие с паузой. На наш взгляд, желательно все-таки придерживаться более четкого и однозначного употребления этих базовых терминов.
ментирующей силы словоразделов (word boundary strength), и при этом они не только членят текст на когерентные фрагменты, но и указывают в определенной степени на их относительный иерархический статус, т. е. выполняют в письменном тексте функцию, аналогичную просодическим швам в устной речи. Соответствующая процедура реализована в программе русскоязычного синтеза «Мультифон» [Цирульник, Лобанов, Си-зонов, 2008], в системе синтеза речи по тексту «Оратор» [Вольская и др., 2005] и «Vital Voice» [Хомицевич, Соломенник, 2010] (две последние -разработки компании «Центр речевых технологий»), в «Открытом корпусе» [Бочаров и др., 2012], системах «Агафон» [Захаров, Зиновьева, Кривнова, 1995], «Агафья» и др.
По данным [Иомдин, Лобанов, 2009], некоторый знак препинания соответствует концу просодической синтагмы в 90% случаев. Н.Д. Светозарова разделяет знаки препинания по контекстам их употребления на три группы:
• внешние («.»5, «?», «!», «...») и их комбинации, то есть ЗП, соответствующие границе самостоятельного предложения,
• внутренние («:», «;», «-»,«,-») и
• {без названия} («запятая, парные тире и скобки»).
По имеющимся данным каждая группа ЗП соотносится с паузами различной длительности [Светозарова, 2000: 124]. Так, пауза при внешних ЗП («.», «?», «!», «...») имеет большую длительность, чем при внутренних («:», «;», «-», «,-»), и возникает в 99% случаев [Чардин, 1999: 66], а запятая, парные тире и скобки соответствуют наименьшей паузе [Свето-зарова, 2000: 124].
Несколько иная классификация знаков препинания представлена в [Лобанов, 2010]. В соответствии с реализацией пауз различной длины Б.М. Лобанов выделяет следующие группы ЗП и других графических маркеров (длительность пауз по убыванию):
• «суперабзац» между параграфами, главами (пауза 2-5 сек);
• абзац (1-2 сек);
• знаки конца предложения [ . ], [ . - ], [ ...], [.... - ], [ !], [ ! ...], [ !!!], [ ? ], [? - ], [?!] (0,5-1 сек);
• части сложного предложения [ ( ) ], [ - / - ], [ ; ], [ : ], [ - ] (0,2-0,5 сек);
5 В данную группу не включается точка при сокращениях. Случаи, когда знак (прежде всего точка) не соответствует концу предложения, рассматриваются в [Кудинов и др., 2011; Ровинская, 2000].
• запятая при отсутствии паузы или крайне незначительной ее длительности (0-0,2 сек).
В группу графических маркеров можно также отнести заголовки (подзаголовки) и кавычки: «[«], [»] - знаки цитации или иронии» [Лобанов, 2010].
Следуя вышеизложенным наблюдениям, на основе графики абзацев и внешних ЗП при первичной просодической разметке текста могут быть выделены крупные просодические составляющие (фразы6, фоноабзацы)7. Гораздо сложнее проблема членения письменного текста на просодические синтагмы и интонационные фразы, и именно ей посвящена значительная часть существующей русскоязычной литературы. В частности, отмечается, что локализация ПШ далеко не всегда совпадает с просодической границей и наоборот. Например, ЗП при вводных словах чаще не соответствует просодической границе, чем соответствует ей [Чардин, 1999: 66-67]. Обычно при озвучивании текста не выделяются паузами краткие графически обособленные конструкции конечно, может быть [Чистиков и др., 2014: 28], «частица мол "снимает" запятую» [Светозаро-ва, 2000: 125] и т. п. Запятую снимают обычно и одиночные обращения, например: Здравствуйте, ребята!
1.2. Когнитивный и физиологический факторы просодического членения
Помимо графических маркеров обязательного / факультативного ПЧ в тексте, многие исследователи обращают внимание на наблюдаемые ограничения в фонетический длине просодической синтагмы. В частности, отмечается , что пауза обязательна в любой фразе, содержащей более 8 слов. Кроме того, имеется тенденция к уменьшению количества пауз во фразе, включенной в контекст, по сравнению с изолированным произнесением той же фразы [Дозорец, 1971]. Существенную роль для предсказания наличия или отсутствия ПШ может играть расстояние между просодическими границами в графических и фонетических словах, и длительность предыдущего и последующего отрезков относительно данной точ-
6 Определенную проблему при автоматическом определении границ предложений представляют омонимичные знаки препинания, к примеру, точка в обозначениях даты и времени, при сокращениях, многоточие, обозначающее пропуск части текста. В этих случаях существенно улучшить качество просодической сегментации позволяет статистический подход [Урюпина, 2008].
7 О проблеме разбиения на графические слова в связи с использованием графических знаков в письменном тексте см. [Бочаров и др., 2012].
ки [Светозарова, 2000; Цирульник, Лобанов, Сизонов, 2008; Хомицевич, Соломенник, 2010].
Традиционно считается, что существенным фактором, влияющим на ПЧ, является дыхательный ритм: средняя частота дыхательных пауз в речи составляет 16-20 в минуту [Потапова, Блохина, 1986], следовательно, в среднем после отрезка речи длиной 3-3,75 секунд можно ожидать появление ПШ с дыхательной паузой.
Однако Л.Р. Зиндер пишет в связи с этим: «Человек, у которого органы речи находятся в нормальном состоянии <...>, делает вдох во время пауз между теми или иными синтаксическими единицами, определяющимися смыслом речи. Механизм дыхания предоставляет для этого широкие возможности благодаря постоянному наличию в легких достаточного запаса воздуха, позволяющего при необходимости значительно продлить время фонации» [Зиндер, 1979: 277]. Этот вывод подтверждается и экспериментально, так что в современной фонетике принята точка зрения, согласно которой дыхание пассивно подстраивается под интонационно-смысловые паузы, которые возникают в процессе развертывания высказывания по независимым от потребностей дыхания причинам. Это, однако, не совсем так, учитывая ограничения на длину просодических синтагм и фраз, которые, возможно, связаны с когнитивно-физиологическими механизмами речи [Кривнова, 2007].
В разработках по синтезу речи в алгоритмах ПЧ при отсутствии знаков препинания в длинном текстовом фрагменте определяется количество фонетических слов в нем. Если их достаточно много, то в таком фрагменте необходима дополнительная внутренняя граница, разделяющая фрагмент на просодические синтагмы. Длина последовательности знаменательных / фонетических слов, внутри которой постулируется необходимость просодической границы, определяется разными исследователями по-разному:
• 6 [Светозарова, 2000: 125];
• «более 4 слов» [Цирульник, Лобанов, Сизонов, 2008];
• более 5 слов для системы паузации «Оратор» [Хомицевич, Соломенник, 2010].
На конкретном материале со статистическими данными этот вопрос исследован в работах О.Ф. Кривновой [Кривнова, 1989; Кривнова, 2007]: «Вероятность появления интонационной паузы без вдоха растет с увеличением длины речевого отрезка, предшествующего паузе. По нашим данным, полученным на материале связной речи, 70% текста покрывается
интонационными фразами (ИФ) длиной от 2 до 6 полнозначных слов. В то же время максимальная длина ИФ в нашем материале составляет 1012 графических слов, считая служебные» [Кривнова, 2007: 122].
1.3. Лексические и грамматические маркеры (сигналы) просодического членения в тексте
Аналогично знакам препинания некоторые лексемы также задают границы просодических синтагм и фраз или, наоборот, их отсутствие. Последнее характерно для служебных / функциональных слов8, которые образуют закрытый список и к тому же очень частотны. Словоразделы между ними и знаменательными словами в звучащем тексте практически никогда не маркируются просодическими швами: на=столе, о=погоде, Таня=же» [Светозарова, 1982: 125].
Невелика вероятность просодической границы после союзов и вводных слов, даже в том случае, когда за ними следует запятая [Лобанов, Гецевич, 2011]. Однако в целом принадлежность слова к определенной части речи влияет на вероятность появления после него ПШ в значительно меньшей степени, чем наличие знака препинания на словоразделе [Лобанов, Гецевич, 2011].
В качестве потенциальных лексических и грамматических маркеров ПШ между просодическими синтагмами при отсутствии ЗП разными авторами выделяются:
• союзы и, да, или (граница ставится перед ними) [Светозарова, 2000: 125; Цирульник, Лобанов, Сизонов, 2008; Лобанов, Гецевич, 2011];
• личная форма глагола: «пауза ставится перед личной формой глагола или на одно (два) слова левее», если эти слова зависят от формы глагола [Светозарова, 2000: 125];
• предложная группа (граница ставится перед ней) [Светозарова, 2000: 125];
• последнее из следующих подряд имен собственных (граница после него) [Цирульник, Лобанов, Сизонов, 2008];
• аббревиатуры (граница после) [Цирульник, Лобанов, Сизонов, 2008];
8 Согласно так называемому chunks'n'chinks-алгоритму, предложенному для расстановки интонационных границ в английском тексте, минимальная просодическая группа выделяется как последовательность функциональных (function) слов (chinks), за которой следует последовательность знаменательных (content) слов, (chunks) [Liberman and Church, 1992].
• названия разрядов чисел (граница после) [Цирульник, Лобанов, Сизонов, 2008];
• названия месяцев, слов «час, минута» при расшифровке даты и времени (граница после) [Цирульник, Лобанов, Сизонов, 2008];
• фразеологические словосочетания (краеугольный камень, брать в свои руки, душа в душу и т. п.), внутри них нет просодического шва. Сюда же может быть отнесена большая группа словосочетаний, не являющихся фразеологизмами, но по многим параметрам эквивалентных слову. В [Рогожникова, 1991] такие словосочетания определяются как «устойчивые сочетания, характеризующиеся «целостностью значения, преимущественно постоянной, неизменной формой», в речевом потоке имеющие «обычно одно словесное ударение» [Иомдин, Лобанов, Гецевич, 2011: 4]. Ср. например, такие употребительные выражения, как «вот что; ничего себе; вместе с тем и многие другие».
Как нетрудно видеть, лексико-грамматические маркеры ПЧ образуют весьма пеструю группу. При синтезе речи по тексту они определяются эмпирическим путем и задаются списком [Лобанов, 2008]. К сожалению, никакой статистики, подтверждающей укзанные выше эмпирические наблюдения, авторы разработок по синтезу речи не приводят.
Относительно союзов и, или дополнительно отмечается, что они бывают «открывающими» в словосочетаниях типа и то, и другое, и третье. Другие союзы (или / да /либо / ни /то / не то /то ли) также могут исполнять открывающую роль - при итерации [Окатьев, Ерехинская, Ратанова, 2010]. В этих случаях союз не выступает в качестве маркера просодической границы.
Словораздел, являющийся потенциальным местом ПШ во всех случаях, рассмотренных выше, соответствует одновременно концу текстового фрагмента слева и началу некоторого фрагмента справа. Эксплицитных данных о том, какой из описанных маркеров важнее или же важна комбинация характеристик левого и правого контекстов словораздела, в литературе, посвященной просодическому членению в русском языке, обнаружить не удалось. В психолингвистике считается более значимой маркировка конца, так как это больше соответствует инкрементной стратегии порождения речи вне условий полного знания конца создаваемого / произносимого предложения, тот же результат получен в ^аМегтаи, 1996].
Ситуация в устной спонтанной речи несколько иная: здесь в качестве дополнительных пограничных маркеров могут выступать дискурсивные
частицы вот, как бы, ага, ну и вот; границы в этом случае могут оформляться с одной стороны или же с обеих сторон частиц, в последнем случае образуя отдельное высказывание [Рыко, Степанова, 2009; Корота-ев, 2009].
1.4. Структурные синтаксические показатели просодических границ при отсутствии знаков препинания и лексико-грам-матических маркеров
Д.Э. Розенталь сформулировал некоторые синтаксические правила для расстановки ПШ в тех местах предложения, где знаки препинания отсутствуют [Розенталь, 1994]:
• между группой подлежащего и группой сказуемого;
• после обстоятельственных слов, обычно со значением места, времени, причины:
• после дополнений, стоящих в начале предложения;
• перед союзом и, если при трех и более однородных членах он объединяет два последних.
В литературных источниках на основе анализа морфосинтаксической структуры текста и просодических наблюдений выделяются определенные «грамматико-смысловые словосочетания / синтаксические группы», внутри которых, как правило, не может находиться граница просодической синтагмы. В частности, единую синтаксическую и просодическую группу, по данным Б.М. Лобанова, известного специалиста по синтезу речи, составляют:
• согласованное определение и следующее за ним существительное,
• наречие с последующим инфинитивом,
• глагол и следующий за ним инфинитив и многие другие [Лобанов, 2008].
Иначе говоря, в группу бинарных словосочетаний со словоразделом, никогда не маркируемым просодически, включаются пары слов, находящихся в непосредственном линейном контакте и тесно связанных по смыслу и синтаксически.
В системе Мультифон паузы определенной длины расставляются на основе полной морфосинтаксической разметки предложения (полное линеаризованное дерево зависимостей). Дерево строится при помощи программы автоматического синтаксического анализа ЭТАП-3, а в синтезе речи по тексту с его использованием устанавливаются синтагматические
просодические границы и эмфатически выделенные элементы [Иомдин и др., 2011].
В работе [Хомицевич, Соломенник, 2010] описан алгоритм расстановки пауз на границах просодических синтагм9 в системе синтеза «Vital Voice» (разработка компании «Центр речевых технологий»). В текстовых фрагментах без знаков препинания анализируются синтаксические зависимости. Дерево зависимостей не строится полностью, но выявляются часто встречающиеся синтаксические сочетания на основе следующей информации:
• частеречной принадлежности слов,
• их дополнительных грамматических характеристик,
• некоторых семантических признаков слов.
Между всеми словами текстовой последовательности устанавливаются синтаксические связи двух типов: те, которые могут быть разорваны, и те, которые не могут быть разорваны (например, связи в последовательностях предлог + существительное, согласованное определение + существительное разорваны быть не могут).
Определенные синтаксические группы и грамматические классы слов обрабатываются специальными алгоритмами паузирования. К ним относятся:
• однородные члены предложения (например, «пять, шесть или семь»);
• обозначения дат, времени (например, «двадцатого мая две тысячи десятого года»);
• неразрывные идиоматические последовательности («задом наперед», «бог весть» и т. п.);
• вводные слова («например», «наверно», «в частности» и т. п.);
• междометия («ну», «ах» и т. п.);
• обращения (например, «до свидания, господа»);
• сложные предлоги, энклитики, послелоги, союзы («несмотря на», «спустя», «уж», «бы» и т. п.);
Пауза потенциально ставится там, где синтаксические связи или связь может быть разорвана, по мнению авторов данной системы. При этом учитывается также длина получившихся отрезков: к примеру, считается, что получившаяся часть не может состоять из одного слова [Хомицевич, Соломенник, 2010].
9 В данной системе синтеза паузы всегда соответствуют синтагматическим границам, поэтому они употребляются в указанной статье как синонимы.
В.И. Подлесская на материале анализа речевых данных, представленных в различных корпусах русского языка, (вслед за [Croft, 1995]) отмечает, что границы просодических и синтаксических составляющих в русских предложениях часто не совпадают: так, в синтаксических конструкциях с относительными придаточными определяемое слово синтаксически связано с придаточным, а просодическая граница находится обычно между ними [Podlesskaya, 2012]. При этом вероятность просодической границы между опорным словом главного предложения и зависимым от него придаточным зависит от типа придаточного (границы чаще фиксируются, а паузы бывают более длительными перед относительными придаточными (RC), чем перед придаточными других типов) [Коротаев, 2009а]: "pausation patterns convincingly demonstrate the strong prosodie break on the left edge of RSc" [Podlesskaya, 2012: 534], при этом "discontinuous RCs and RCs with the pipe-piping effect can aggravate the separation of the relative clause from the head noun both syntactically and prosodically" [Podlesskaya, 2012: 535].
1.5. Статистические методы предсказания просодических границ в автоматическом синтезе речи
Автоматическое предсказание просодических границ в тексте по экспертным, лингвистическим правилам с использованием определенных текстовых ключей, о которых шла речь выше в разделах 1.1-1.5, даже при ограничении достаточно простыми текстами и нормами золотого произносительного стандарта затруднено при синтезе речи по тексту следующими принципиальными особенностями русского языка:
• свободным порядком слов;
• богатой словоизменительной морфологией и, следовательно, сложностью автоматической морфологической и синтаксической разметки текста перед его озвучиванием;
• наличием значительного числа омонимов и омографов [Khomitse-vich, Chistikov, 2013].
Указанные особенности русского языка привели разработчиков синтеза русской речи к необходимости применения статистических методов при создании алгоритмов разбиения синтезируемого текста на просодические составляющие. При этом были выделены следующие группы информативно и статистически значимых текстовых признаков - предикторов локализации просодических границ:
• пунктуационные;
• количественные (число слов / слогов в просодической единице);
• грамматические: частеречная принадлежность, падеж, имя собственное / нарицательное, наличие согласования между соседними словами (каждый признак анализируется для данного слова, а также двух предшествующих и двух последующих).
Отмечается, что просодическое членение часто вариативно: для трех дикторов совпадение границ составляет лишь около 70% [Khomitsevich, Chistikov, 2013]. При этом неверно считать, что просодические швы должны быть только в местах полного совпадения - в этом случае их будет слишком мало. Еще сложнее определить необходимую длительность для каждой из граничных пауз [Khomitsevich, Chistikov, 2013]. Алгоритмы, использующие вероятностно-статистические модели ПЧ, дают, по мнению разработчиков синтеза, более адекватный результат предсказания текстовой локализации ПШ по сравнению с алгоритмами, основанными на правилах [БШсй, 1997].
Таким образом, при решении прикладных задач синтеза речи по тексту «самые перспективные алгоритмы и правила базируются на статистических моделях, параметры которых определяются по размеченному тек-сто-фонетическому речевому корпусу. Идеальным вариантом для учета многофакторной природы просодического членения является такая база данных, которая содержит информацию, статистически значимую по объему, а список учитываемых параметров включает все значимые факторы (смысловой, синтаксический, пунктуационный, психофизиологический)» [Кривнова, Чардин, 1999: 101].
2. Средства фонетической реализации просодических
границ
Просодическому шву в речевом сигнале может соответствовать или не соответствовать физический перерыв, обусловленный перерывом в артикуляции, и явления резкой смены тональных и других просодических характеристик (количественно-динамических, фонационных, артикуляционных) на соответствующем словоразделе или в его окрестности, на краях пограничных просодических составляющих. В этой связи Л.К. Цеплитис [Цеплитис, 1974] предложил отграничивать от темпоральных пауз нетемпоральные, то есть такие, в реализации которых нет перерыва в артикуляции. В последнем случае термин «пауза» и даже более подходящий вариант «перцептивная пауза» представляются весьма неудачными, поскольку речь идет именно о беспаузальной реализации ПШ.
Четко сформулировать, какие именно контрасты интенсивности, ЧОТ и длительности создают обязательный эффект нетемпоральной паузы, пока не удалось. При этом просодический контраст воспринимается как разрыв плавности звучания только в тех точках текста, которые разрешаются интонационным членением, т.е. там, где локализован ПШ как абстрактный маркер просодической границы [Каспарова, 1965].
В [Кибрик, Кодзасов, Худякова, 2009] выделяются следующие фонетические параметры, которые значимы для слушающего и могут быть использованы при детектировании и идентификации просодических швов в звучащем тексте и их акустической реализации в случае автоматического синтеза речи:
• наличие физических пауз, «в том числе абсолютных и заполненных», а также их длительность;
• синтаксические акценты, прежде всего тональные (между двумя такими акцентами обычно наличие ПШ);
• некоторые значимые движения тона за пределами акцентов, в частности, граничные тоны;
• квазисегментные явления (ларингализация, придыхание) и элементы речевого дыхания);
• изменение тонального регистра (возвращение на базовый уровень, т.н. resetting);
• замедление темпа произнесения перед ПШ (финальное продление), ускорение после него;
• уменьшение интенсивности перед ПШ, увеличение после;
• особенности фонетической реализации фонем (отсутствие редукции в конечных открытых слогах);
• эмфатическая просодия [Кибрик, Кодзасов, Худякова, 2009].
В качестве наиболее очевидного пограничного сигнала в литературе и соответствующих исследованиях выделяются темпоральные (физические) паузы10 (подробный обзор вопросов, связанных с паузированием при автоматическом синтезе речи, см. [Чардин, 1999]). Паузы подразделяются на грамматические (имеющие отношение к смыслу и синтаксису предложения) и неграмматические (хезитационные и выделительные) [Светозарова, 1982].
10 Как уже было сказано выше, зачастую в литературе это слово употребляется не терминологически, а как синоним любой просодической границы, что, на наш взгляд, нежелательно, так как приводит к терминологической путанице.
Собственно паузы (темпоральные или чем-то заполненные) не являются обязательным коррелятом границы просодических синтагм, но очень вероятны на границах предложений [Коротаев, 2009]. Вероятность наличия паузы в качестве средства реализации ПШ повышается при произнесении предшествующих просодических синтагм без пауз между ними [Коротаев, 2009]. Особую группу физических пауз представляют собой дыхательные паузы (ДП) - это интонационно-смысловые паузы с включенным в них вдохом (при этом физиологически обусловлена необходимость включения вдоха в некоторые темпоральные интонационные паузы, но не сами по себе дыхательные паузы).
Длительность темпоральных пауз коррелирует с глубиной членения [Гвоздев, 1949]. Интервал длительностью от 3 до 25 мс воспринимается аудиторами как помеха; от 25 до 100 мс - как нарушение в звучании, но не пауза [Каспарова, 1971]. Достаточно надежное восприятие паузы в речевом сигнале происходит при длительности 150-200 мс. Среднее значение длины паузы в мс для внутренних пауз меньше, чем для пауз на границах предложения, и для последних - меньше, чем для пауз на границах абзацев [Чардин, 2009]; паузы длительностью от 60 до 600 мс маркируют межсинтагменные границы; от 600 до 1800 мс - межфразовые [Потапова, Блохина, 1986]11. Перцептивно особенно важны паузы с длительностью не менее 200 мс: в области значений длительности пауз от 200 до 300 мс находится значимая категориальная граница, разделяющая поверхностно-артикуляторные паузы, отражающие ритмические швы, и паузы, являющиеся «рефлексом глубинных пауз-остановок в работе фонетического процессора», типичные для собственно интонационных швов [Кривнова, 2015].
Предпочтительное (но не единственное) место дыхательных пауз -конец предложения или конец клаузы внутри предложения [Шейкин, 1966; Златоустова, 1968; Дозорец, 1971]. Эта тенденция взаимодействует с когнитивными характеристиками дикторов, при этом в организации речевого дыхания отражается иерархическая структура текстовых единиц; вероятность вдоха уменьшается на границах текстовых фрагментов следующим образом: абзац (100%), самостоятельное предложение внутри
11 Одной из основных причин вариативности в перцептивной категоризации длительности пауз являтся темп речи. Ее уменьшение достигается переводом абсолютной длительности пауз в относительную. При чтении длительность краткой паузы (между интонационными фразами) соответствует длительности фонетического слова.
абзаца (94%), клауза внутри предложения (65%), компонент внутри клаузы (34%); варьируется и длительность ДП (10 - 5 - 3 - 3 слога соответственно) [Кривнова, 2014: 52-53, 57]. При этом текстовая локализация дыхательной паузы (ДП) является главным фактором, определяющим ее длительность, а значимых корреляций между длительностью ДП и такими факторами, как длина последующей и предшествующей дыхательной группы и длительность предшествующей ДП, в экспериментах не обнаружено [Кривнова, 2014: 57-58].
Интересно отметить, что ДП с разной текстовой локализацией имеют не только разную длительность, но также и различное акустико-физио-логическое наполнение (носовой вдох, ротовой вдох, сглатывание) и разную интенсивность дыхательного шума [Кривнова, 2014: 54, 59-60].
В качестве физического показателя просодической границы может выступать удлинение конечных гласных последнего слова в синтагме [Потапова, Блохина, 1986; Качковская, 2015].
Другой возможный показатель - просодическая акцентуация или так называемое синтагматическое и фразовое ударение в русской фонетике. По мнению Л.В. Щербы, объединение слов в синтагме достигается «легким усилением последнего ударения и той или другой выразительной интонацией, объединяющей все это в единое целое» [Щерба, 1957: 87]. Он же говорит об иерархии разных типов объединяющих метрических схем, выстраивая их в следующем порядке: ритмическое ударение - синтагматическое ударение - фразовое ударение. Таким образом, важен не только факт локального наличия просодического акцента на конечном слове синтагмы, а создание метрического контраста между словами в синтагме, который функционирует как интегрирующая просодическая схема.
Эксперименты на русском материале показывают, что почти в 90% случаев граница просодической синтагмы в прозаическом тексте находится сразу после акцентированного слова [Иомдин, Лобанов, 2009]. Поэтому достаточно часто, особенно в англоязычной просодической литературе, такое слово называют носителем ядерного (nuclear) синтаксического акцента [Selkirk, 1984]. «Остальные 10% акцентных выделений, не совпадающих с концом синтагмы, приходятся на индивидуальную, синтаксически немотивированную установку границы синтагмы после не-акцентированного слова» [Иомдин, Лобанов, 2009: 347]: Полтора часа *назад \ из *Вены пришло *сенсационное *известие \, которое грозит *крупным международным *скандалом \ и должно *повлиять \ на судьбу
арестованного в *Австрии | сотрудника |1 международного управления *РосКосмоса |||12. "
Таким образом, хотя и не любое выделенное слово сигнализирует о просодической границе, но если граница есть, то в 90% случаев перед ней находится просодически акцентированное слово, по крайней мере в выразительной репродуцированной речи. Метрическая вершинность конечного, предграничного синтагматического / фразового ударения (синтаксического акцента) нарушается только в синтагмах с сильно выделенными смысловыми акцентами. Однако, как показала Т.М. Николаева [1982, 2000], полной нейтрализации синтагматического/фразового ударения не происходит: в границах синтагмы/фразы могут сосуществовать оба функциональных типа фонетического выделения. Интересно отметить, что по экспериментальным данным [Кривнова, 1995] средняя плотность сильных словесных ударений в прозаическом тексте равна 2,8, т. е. одно ударение на три фонетических слова, что хорошо согласуется с универсальными эвритмическими требованиями и предпочтением ямбического типа ритма. Это можно рассматривать как свидетельство влияния ритмического фактора на формирование просодического членения в прозе.
3. Заключение
Обзор имеющихся в русскоязычной литературе данных показывает, что состав и взаимодействие факторов, влияющих на текстовую локализацию ПШ и их фонетическую реализацию, изучены недостаточно полно, даже для текстов, озвученных в режиме чтения. На сегодняшний день выявлены лишь определенные тенденции, а не закономерности, но и для них нет строгого, формализованного и статистически достоверного описания текстовых ключей для автоматической расстановки интонационных границ и пауз. Недостаточно также накоплено и статистических данных, которые позволяли бы отделять нормативное (нейтральное) прочтение текста от допустимого (не нейтрального) или же ошибочного. Существует явная потребность в проведении специальных исследований интонационно-смыслового членения и паузирования в русском языке, ориентированных на задачи автоматического синтеза и распознавания речи, а также обучения носителей языка выразительной речи. Представ-
12 (знаком «|||» обозначен конец предложения, «||» - пауза между синтагмами, «|» - беспаузальная граница между синтагмами, «*» - просодически выделенные слова).
ляется интересным опробовать на материале русского языка наиболее успешные из эвристических подходов, применяемых в системах синтеза для иностранных языков, оценить доступность технологической базы, необходимой для создания аннотированных речевых корпусов и использования статистических методов.
Намечая перспективные направления дальнейших исследований, нужно отметить, что состав факторов, оказывающих влияние на ПЧ при чтении текста, можно считать достаточно хорошо установленным: большинством исследователей признается, что интонационное членение и использование пауз для маркировки его границ мотивировано семантически, синтаксически и фонетически, а также до некоторой степени определяется когнитивными и физиологическими причинами. Однако вопрос о том, каков относительный вес этих факторов и как они взаимодействуют между собой, по-прежнему остается открытым: результаты исследования корреляции между параметрами пауз и факторами, определяющими паузирование, нельзя считать полными и удовлетворительными [Кривнова, Чардин, 1999].
Возможно, основные усилия должны быть направлены на определение параметров, задающих «автоматические синтаксические паузы» [Goldman-Eisler, 1961], то есть такие, использование которых достаточно жестко регулируется правилами, так что паузальное оформление текста у разных чтецов будет одинаковым.
Список литературы
Бочаров В. В., Алексеева С.В., Грановский Д.В., Остапук Н.А., Степанова М.Е., Суриков А.В. Сегментация текста в проекте «Открытый корпус» // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2012. Брызгунова Е.А. Интонация // Русская грамматика. Т. 1. М., 1980. Вольская Н., Коваль А., Коваль С., Опарин И., Погарева Е., Скрелин П., Смирнова Н., Таланов А. Синтезатор русской речи по тексту нового поколения // Компьютерная лингвистика и интеллектуальные технологии: Труды междунар. конф. «Диалог'2005» (Звенигород, 1-6 июня, 2005 г.). Под ред. И.М. Кобозевой, А.С. Нариньяни, В.П. Селегея. М., 2005. С. 234-237.
Дозорец Ж. А. Эксперимент по определению связи между ритмом дыхания и паузами в речи // Уч. записки МГПИ. № 423. М., 1971.
Гвоздев А.Н. О фонологических средствах русского языка. М., 1949.
Жарков И.В., Слободянюк С.Л., Светозарова Н.Д. Автоматический акцентно-интонационный транскриптор произвольного русского текста // Бюллетень фонетического фонда русского языка. 1995. № 3. Бохум; СПб., 1995. С. 58-70.
Захаров Л., Зиновьева Н., Кривнова О. Программный синтез русской речи (синтезатор АГАФОН) // Труды междунар. семинара Диалог'95 по компьютерной лингвистике и ее приложениям / Под ред. А.С. Наринь-яни. М., 1995.
Зиндер Л.Р. Общая фонетика. М., 1979.
Златоустова Л.В. Некоторые замечания о речевом дыхании // Исследования по речевой информации. М., 1968.
Иомдин Л.Л., Лобанов Б.М. Синтаксические корреляты просодически маркированных элементов предложения // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конференции «Диалог». М., 2009.
Иомдин Л.Л., Лобанов Б.М., Гецевич Ю.С. Говорящий «ЭТАП»: Опыт использования синтаксического анализатора системы ЭТАП в русском речевом синтезе // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2011.
Каспарова М.Г. О механизме речевой паузы. Сообщение II. Восприятие паузы при «непрерывном» звучании речи // Новые исследования в педагогических науках. 1965. №3. С. 154-155.
Каспарова М.Г. О речевой паузе // Исследование языка и речи. Уч. записки МГПИИЯ им. М. Тореза. № 60. М., 1971. С. 146.
Качковская Т.В. Взаимодействие сегментных и просодических факторов, влияющих на степень и локализацию предпаузального удлинения в русском языке: Автореф. дисс. ... канд. филол. наук. СПб., 2015.
Кибрик А. А., Кодзасов С.В., Худякова М.В. Просодическая транскрипция: уровни детализации // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2009.
Кодзасов С.В., Архипов А.В., Захаров Д.М., Кривнова О.Ф. База данных «Интонация русских информационных текстов» // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2008.
Кодзасов С.В., Архипов А.В., Захаров Л.М., Кривнова О.Ф. База данных «Интонация русских повествовательных текстов» // Компьютерная
лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2009.
Коротаев Н.А. Отсутствие пауз на границах элементарных дискурсивных единиц: опыт корпусного исследования // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Ме-ждунар. конф. «Диалог». М., 2009.
Коротаев Н.А. Синтаксис и просодия в системе средств дискурсивной связности текста: Дисс. ... канд. филол. наук. М., 2009а.
Кривнова О. Ф. Автоматический синтез русской речи по произвольному тексту (2-я версия с женским голосом) // Труды междунар. семинара по компьютерной лингвистике и ее приложениям «Диалог'98». Таруса, 1998.
Кривнова О. Ф. Временная структура синтагмы в связном тексте // Экспериментальный фонетический анализ: проблемы и методы. Л., 1989.
Кривнова О.Ф. Глубина просодических швов в звучащем тексте (экспериментальные данные) // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Труды междунар. семинара по компьютерной лингвистике и ее приложениям «Диалог'98». «Диалог» (Москва, 27--30 мая 2015 г.). Вып. 14 (21). М., 2015.
Кривнова О. Ф. Научная речь как объект и материал фонетического исследования // Вестник Моск. ун-та. Сер. 9. Филология. 2008. № 6. С. 57-70.
Кривнова О. Ф. Общая фонетическая картина дыхательных пауз в репродуцированной русской речи (на материале чтения) // Фонетика и грамматика: настоящее, прошедшее, будущее: к 50-летию научной деятельности С.К. Пожарицкой. М., 2010. С. 61-70 (Вопросы русского языкознания. Т. 13).
Кривнова О.Ф. Перцептивная и смысловая значимость просодических швов в связном тексте // Проблемы фонетики II. М., 1995. С. 228-238.
Кривнова О.Ф. Речевое дыхание: локализация и фонетические характеристики дыхательных пауз в репродуцированной речи // Проблемы фонетики VI. М., 2014.
Кривнова О. Ф. Ритмизация и интонационное членение текста в процессе «речи-мысли» (опыт теоретико-экспериментального исследования) М., 2007.
Кривнова О.Ф. Смысловая значимость просодических швов в связном тексте // Проблемы фонетики III. М., 1999.
Кривнова О.Ф. Фактор речевого дыхания в интонационно-паузальном членении речи // «Лингвистическая полифония»: Юбилейный сб. к 70-летию проф. Р.К. Потаповой. М., 2007.
Кривнова О.Ф., Чардин И. С. Паузирование при автоматическом синтезе речи // Теория и практика речевых исследований (АРСО-99). М., 1999.
Кудинов А. С., Воропаев А.А., Калинин А.Л. Высокоточный метод распознавания концов предложений // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2011.
Лобанов Б.М. Алгоритм сегментации текста на синтаксические синтагмы для синтеза речи // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2008.
Лобанов Б.М. Пунктуационная структура художественных произведений и ее роль в синтезе выразительной речи по тексту // Труды Междунар. конф. «Компьютерная лингвистика и интеллектуальные технологии» («Диалог'2010»), 26-30 мая 2010. М., 2010.
Лобанов Б.М., Гецевич Ю.С. Статистические характеристики синтагматического членения предложений в приложении к синтезу выразительной речи по тексту // Труды Междунар. конф. «Компьютерная лингвистика и интеллектуальные технологии» («Диалог'2011»), Бека-сово 25-29 мая 2011. Вып. 10 (17). М., 2011.
Лобанов Б.М., Цирульник Л.И. Автоматизация анализа просодических характеристик для экспериментальных исследований и синтеза речи по тексту // Второй междисциплинарный семинар «Анализ разговорной русской речи» АР3-2008, 27-28 августа 2008 года. СПб., 2008.
Николаева Т.М. О существующих принципах отбора речевого материала при исследовании фразовой интонации // Русская разговорная речь. Саратов, 1970.
Николаева Т.М. О синтаксических отношениях единиц интонационного уровня и о соотношении фразовой интонации и синтаксиса языка // Теоретическая фонетика и обучение произношению. М., 1975.
Николаева Т.М. Семантика акцентного выделения. М., 1982.
Николаева Т.М. Смысловое членение текста и его индивидуальные варианты // Semiotyka 1 struktura tekstu. Warszawa, 1973.
Николаева Т.М. От звука к тексту. М., 2000.
Окатьев В.В., Ерехинская Т.Н., Ратанова Т.Е. Тайные знаки пунктуации // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2010.
Подлесская В.И., КибрикА.А. Речевые сбои и затруднения // Кибрик А. А., Подлесская В. И. (ред.) Рассказы о сновидениях: Корпусное исследование устного русского дискурса. М., 2009. С. 177-218.
Потапова Р. К. Просодические характеристики макросегментации слитной речи // Экспериментальная фонетика / Под ред. Л.В. Златоустовой. М., 1989.
Потапова Р.К., Блохина Л.П. Средства фонетического членения речевого потока в немецком и русском языках. М., 1986.
Потапова Р.К., Потапов В.В. Речевая коммуникация. От звука к высказыванию. М., 2012.
Продан А.И., Корольков Е.А., Опарин И.В., Таланов А.О. Особенности использования многоуровневой разметки звукового корпуса // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2009.
Ровинская М. Точка как проблема // Материалы Междунар. конф. «Диалог». М., 2000.
Рогожникова Р.П. Словарь эквивалентов слова: наречные, служебные, модальные единства. М., 1991.
Розенталь Д.Э. Справочник по правописанию, произношению, литературному редактированию. М., 1994.
Рыко А. И., Степанова С. Б. Стратегии членения спонтанной речи на синтаксические единицы // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2009.
Светозарова Н.Д. Роль фразовой интонации в речевой деятельности и возможности ее моделирования // Фонология речевой деятельности. СПб., 2000.
Светозарова Н.Д. Интонационная система русского языка. Л., 1982.
Урюпина О. Автоматическое разбиение текста на предложения для русского языка // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2008.
Хомицевич О.Г., СоломенникМ.В. Автоматическая расстановка пауз в системе синтеза русской речи по тексту // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2010.
Цеплитис Л.К. Анализ речевой интонации. Рига, 1974.
Цирульник Л.И., Лобанов Б.М., Сизонов О.Г. Алгоритм интонационной разметки повествовательных предложений для синтеза речи по текс-
ту// Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2008.
Чардин И.С. Проблема паузирования при автоматическом синтезе речи: Дипломная работа. М., 1999.
Чистиков П.Г., Хомицевич О.Г., Рыбин С.В. Статистические методы автоматического определения мест и длительности пауз в системах синтеза речи // Известия высших учебных заведений. Приборостроение. Т. 57. 2014. № 2 (февраль).
Шейкин Р.Л. К механизму возникновения пауз в речи // Механизмы рече-образования и восприятия сложных звуков. М.; Л., 1966.
Щерба Л.В. Восточнолужицкое наречие. Пг., 1915.
Щерба Л.В. Фонетика французского языка. М., 1963.
Dutoit T. An introduction to text-to-speech synthesis. Dordrecht, 1997.
Goldman-Eisler F. The distribution of pause durations in speech // Language and Speech. 1961. Vol. 4. №4.
Ladd D. Robert (1986). Intonational phrasing: the case for recursive prosodic structure, Phonology Yearbook 3: 311-340.
Ladd D. R., Campbell N. Theories of prosodic structure: evidence from syllable duration // Proc. of the 12th Congress of Phonetic Sciences, 1991. Aix-en- Provance, France. P. 290-293.
Liberman M.J., Church K.W. Text Analysis and Word Pronunciation in Text-To-Speech Synthesis // Advances in Speech Signal Processing, S. Furui, M.M. Sondhi eds. Dekker, New-York, 1992. P. 791-831.
Podlesskaya V.I. Relative clauses in spoken Russian and elsewhere: a corpus approach // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2012.
Khomitsevich O.G., Chistikov P. G. Using statistical methods for prosodic boundary detection and break duration prediction in a Russian TTS system // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Междунар. конф. «Диалог». М., 2013.
Sanderman A. Prosodic Phrasing (production, perception, acceptability and comprehension). Eindhoven, 1996.
Selkirk E. Phonology and syntax: the relation between sound and structure. Cambridge, 1984.
Сведения об авторах:
Кривнова Ольга Федоровна, докт. филол. наук, ведущий науч. сотрудник кафедры теоретической и прикладной лингвистики филологического факультета МГУ имени М.В. Ломоносова. E-mail: [email protected].
Князев Сергей Владимирович, докт. филол. наук, профессор кафедры русского языка филологического факультета МГУ имени М. В. Ломоносова, профессор школы лингвистики факультета гуманитарных наук НИУ ВШЭ, профессор кафедры компьютерной лингвистики и формальных моделей языка МПГУ. Email: [email protected].
Моисеева Елена Владимировна, канд. филол. наук, ст. преподаватель кафедры русского языка для иностранных учащихся филологического факультета МГУ имени М.В. Ломоносова. E-mail: [email protected]