ДОКЛАДЫ АКАДЕМИИ НАУК РЕСПУБЛИКИ ТАДЖИКИСТАН ___________________________________2009, том 52, №5________________________________
ИНФОРМАТИКА
УДК 410:51+414.7+491.550
Академик АН Республики Таджикистан З.Д.Усманов, Х.А.Худойбердиев
О СИНТЕЗЕ ТАДЖИКСКОЙ РЕЧИ С РУСИЗМАМИ
1. О слоговой структуре русских слов. В настоящее время в таджикском языке присутствует большое количество слов, заимствованных из русского языка, в основном - от имен существительных. Русизмы присутствуют и в других частях речи - глаголах, прилагательных и т.д., однако их образование подчиняется соответствующим правилам образования таджикских частей речи. В этой связи синтезатор речи, настроенный на озвучивание только таджикских слов, см. [1], неизбежно может столкнуться с такой ситуацией, когда послоговое фрагментирование встретившегося по тексту русского слова произвести не удается.
Для того чтобы понять, по каким причинам это может происходить, в данной статье предпринята попытка получить представление о слоговой структуре русских слов. С этой целью, всего лишь ради удобства, из Интернета была извлечена случайная выборка текстов на русском языке из серии "Знаменитые писатели России" объемом около 100 страниц (108 510 слов). Так же, как и в случае текстов на таджикском языке, вначале была осуществлена перекодировка всей выборки с использованием цифр 1 и 0 соответственно для гласных и согласных букв, см. [2]. Затем была выполнена обработка закодированного текста на предмет выявления частоты встречаемости русских слов, представленных в форме слоговых структур.
Установлено, что в рассмотренной случайной выборке общее число различных слов, представленных в форме слоговых структур, равно 2 379. Оказалось, что из этого числа 50% текста покрываются 26 словами (они показаны в табл. 1). Кроме того, 75%, 90% и 95% текста покрываются соответственно 103-мя, 323-мя и 595-ю словами в форме слоговых структур.
Таблица 1
Частота встречаемости русских слов в форме слоговых структур
№ Структура Частота, %
1 0 5.52
2 01 4.85
3 1 3.80
4 0101 3.21
5 01010 2.97
6 001 2.68
7 010101 2.51
8 01001 2.49
9 010010 2.26
10 010 2.11
11 0100101 2.02
12 101 1.93
13 00101 1.63
№ Структура Частота, %
14 0101010 1.60
15 10 1.22
16 001010 1.21
17 001001 1.03
18 0101011 0.93
19 0010101 0.92
20 0100 0.89
21 01001010 0.86
22 0101001 0.83
23 010001 0.80
24 1001 0.78
25 101001 0.69
26 01010101 0.67
Каждая из 595 обнаруженных слоговых структур русских слов, осуществлявших 95%-ое покрытие текста. разделялась на слоги “вручную” (в согласии с разделением на слоги тех русских слов. которые подпадали под те или иные структуры).
Таблица 2
Слоговые структуры русских слов
№ Слог Пример
11 1000 есть
12 00010 стряп
13 00100 смысл
14 01000 текст
15 001000 власть
16 000010 взгляд
17 000100 вплоть
18 001000 спасть
19 0010000 свойств
20 0000100 всплеск
№ Слог Пример
1 0 в
2 1 я
3 01 ты
4 10 он
5 010 как
6 100 аст
7 0100 курс
8 001 кру
9 0010 слад
10 0001 стро
В результате разбиения на слоги 2 379 русских слов, выявленных в исследуемой случайной выборке и представленных в форме слоговых структур, было обнаружено 20 слоговых структур. см. табл. 2. Под номерами 2-7 (в таблице они закрашены серым цветом) отмечены 6 слоговых структур таджикского языка.
Таким образом, даже предварительные исследования показывают, что русский язык обладает большим разнообразием слоговых структур, нежели таджикский язык (по крайней мере, на 14 структур больше). Следовательно, при желании создать синтезатор таджикско-русских текстов на основе конкатенации слогов потребуется существенным образом расширить слоговую базу таджикского языка за счет добавления к ней не встречающихся русских слогов.
2. Об алгоритме озвучивания таджикского текста с русизмами. В связи с присутствием в таджикских текстах большого количества слов, заимствованных из русского языка, возникает естественная задача об озвучивании смешанных текстов. Если, по возможности, охватить из них наиболее часто встречающиеся и затем осуществить их фрагментирование на слоги, дополняя последними таджикскую базу “слог-звук”, мы получим реальную возможность синтезировать таджикские тексты с включениями русских слов.
Алгоритм, о котором идет речь в данном пункте, по существу не отличается от алгоритмов безударного озвучивания таджикского текста [3]. Однако, первое, что надобно было бы предусмотреть, так это дополнить таджикскую базу “слог-звук” озвученными русскими слогами.
3. Результаты вычислительных экспериментов. В этом пункте дано описание результатов экспериментов с озвучиванием таджикского текста с русскими заимствованиями. Соответствующая база русизмов, использованная для озвучивания, включала в себя имена,
географические названия, научные и компьютерные термины, интернациональные слова. При этом в базу включались такие слова, которые содержали, по крайней мере, один слог, не присущий таджикскому языку.,см. табл. 3.
Таблица 3
Русские слова. использованные в экспериментах по озвучиванию
№ Слово Закодированный вариант Слоговая структура Разбиение на слоги
1 Владимир 00101010 001-01-010 Вла-ди-мир
2 Дмитрий 0010010 0010-010 Дмит-рий
3 Свердловск 0010001000 00100-01000 Сверд-ловск
4 Курск 01000 01000 Курск
5 Владивосток 00101010010 001-01-010-010 Вла-ди-вос-ток
6 президент 001010100 001-01-0100 пре-зи-дент
7 профессор 001010010 001-010-010 про-фес-сор
8 квадрат 0010010 0010-010 квад-рат
9 трактор 0010010 0010-010 трак-тор
10 троллейбус 0010010010 0010-010-010 трол-лей-бус
11 кроссворд 001000100 00100-0100 кросс-ворд
12 бригадир 00101010 001-01-010 бри-га-дир
13 клавиатура 0010110101 001-01-1-01-01 кла-ви-а-ту-ра
14 принтер 0010010 0010-010 прин-тер
15 сканер 001010 001-010 ска-нер
16 спирт 00100 00100 спирт
17 скрепка 0001001 00010-01 скреп-ка
В этой таблице во второй колонке записаны русские слова, в третьей - их представления в форме слоговой структуры, в четвертой - результат разбиения слов на слоги (структуры слогов, отличные от таджикских, закрашены в серый цвет), в пятой - те же слова, но уже разделенные на слоги.
Экспериментально установлено, что компьютерный синтезатор, основанный на по-слоговой конкатенации и содержащий в таджикской базе “слог-звук” необходимые русские слоги, в частности из табл. 3, вполне успешно справляется со смешанным текстом, поддерживая естественность звучания и разборчивость синтетической речи. По результатам эксперимента сделан вывод о реальности создания русско-таджикского компьютерного синтезатора для чтения смешанных текстов.
Институт математики АН Республики Таджикистан, Поступило 15.04.2009 г.
Технологический университет Таджикистана, Худжандский филиал
ЛИТЕРАТУРА
1. Усманов З.Д.. Худойбердиев Х.А. - ДАН РТ, 2009, т.52, № 4, с. 267-271.
2. Усманов З.Д.. Худойбердиев Х.А. - ДАН РТ, 2006, т.49, № 6, с. 489-492.
3. Усманов З.Д.. Худойбердиев Х.А. - ДАН РТ, 2007, т.50, № 4, с. 302-305.
З.Ч,.Усмонов. Х.А.Худойбердиев
ОИДИ СИНТЕЗИ НУТЦИ ТОНИКИ БО КАЛИМАХ,ОИ РУСИ
Дар мак;ола имконияти лоихдкашии синтезатори нутк;и точикй аз руи матн бо ис-тифодаи калимах,ои русй исбот карда шудааст.
Z.D.Usmanov, Kh.A.Khudoiberdiev ON SINTHEZING TAJIK-RUSSIAN SPEECH
In the article a principal possibility of projecting a Tajik speech synthesizer with Russian words is substantiated.