ОПЫТ КОРПУСНОГО АНАЛИЗА ЧЕШСКОЙ ОБИХОДНО-РАЗГОВОРНОЙ ЛЕКСИКИ В СОПОСТАВИТЕЛЬНОМ ПЛАНЕ
А.И. Изотов
Кафедра славянской филологии Филологический факультет Московский государственный университет им. М.В. Ломоносова Ленинские горы, ГСП-1, 1-й корпус гум. ф-в, Москва, Россия, 119991
На материале входящего в состав Чешского национального корпуса 1,3-миллиардного под-корпуса современных письменных текстов определяются наиболее употребительные слова (165 лексем с документированной частотой употребления свыше 1000 контекстов) обиходно-разговорного чешского языка, имеющие однословные литературные эквиваленты.
Ключевые слова: чешский язык как иностранный, литературный язык, обиходно-разговорный язык, корпусные исследования, лексикография.
1. Смена научной парадигмы и связанный с ней пересмотр фундаментальных положений прежней теории порой приводят к необходимости переоценки прочно установленных, казалось бы, фактов и утверждений. Весьма показательной в этом плане оказалась ситуация с интерпретацией феномена так называемой чешской диглоссии и связанными с ней базовыми для богемистики понятиями «литературного чешского языка» и «обиходно-разговорного чешского языка». Полвека назад — в эпоху глобального перехода от системно-структурного принципа лингвистического описания к принципу функциональному — эмоциональная дискуссия ведущих чешских лингвистов о статусе «обиходно-разговорного чешского языка» докатилась до станиц советского журнала «Вопросы языкознания» [9; 1]. Не менее эмоциональная дискуссия на ту же тему с участием не менее именитых богемистов разгорелась сегодня, когда все большее значение в лингвистическом исследовании приобретают языковые корпусы, подробнее см. [8].
1.1. Появление в последние годы крупных (миллиарды словоупотреблений) электронных корпусов и связанное с этим беспрецедентное расширение эмпирической базы исследований привело к необходимости пересмотра многих традиционных взглядов на то или иное языковое явление, которые ранее базировались во многом на интуиции исследователя [2]. При этом речь идет не только о возможности надежно установить особенности функционирования ранее недостаточно документированных явлениях языковой периферии [3; 5]. Обращение к корпусу позволяет придать двумерному грамматическому описанию объем за счет введения третьего измерения — статистической характеристики описываемого [4].
1.2. В качестве одного из следствий «корпусной революции» в богемистике [6] стала определенная тенденция к отказу от дихотомии «литературный чешский» — «обиходно-разговорный чешский», господствовавшей в трудах исследователей прошлого века, в пользу дихотомии «письменный чешский» — «устный чешский», которая явственно прослеживается как в современной чешской академической литературе [12], так и в новых учебниках и учебных пособиях по чешскому языку для иностранцев [10].
Впрочем, развитие корпусных технологий может оказаться полезным и для того, кто остается в рамках классической терминологии. Авторы написанной еще в «докорпусную эпоху» монографии [13] предложили лингвистической общественности пробный вариант словаря наиболее важной, по их мнению, чешской обиходно-разговорной лексики (около 1000 единиц), снабдив каждую подобную лексическую единицу литературным эквивалентом (либо толкованием), а также пометой: béz — лексическая единица, общая и для обиходно-разговорного, и для литературного чешского языка, ob — лексическая единица обиходно-разговорного чешского языка, не маркированная в качестве стилистически сниженной, n — лексическая единица обиходно-разговорного чешского языка, маркированная как стилистически сниженная, n.sl. — лексическая единица, характерная для нелитературной речи солдат, ремесленников и т.д., v.sl. — лексическая единица, характерная для нелитературной речи врачей, инженеров, студентов и т.д., expr экспрессивная лексическая единица, pejor пейоративная лексическая единица, zast устаревающая лексическая единица, zhrub грубая лексическая единица.
2. Мы попытались выявить употребительность представленных в данном словаре лексем, а также их литературных эквивалентов в текстах входящего в состав Чешского национального корпуса набора подкорпусов современных письменных текстов SYN общим объемом 1,3 миллиарда токенов [14].
2.1. Поиск однословных лексических единиц осуществлялся с помощью простых запросов типа [lemma="ajznboñák"], находящего контексты употребления заданной лексемы (в данном случае лексемы ajznboñák 'железнодорожник') во всех ее словоформах. Ниже представлены некоторые из найденных контекстов.
Jsem <ajznboñák> od dvou let.
Na dvorku se objeví "<ajznboñáci>" v uniformách z pocátku století.
Tmavomodry svet je kusem sveta <ajznboñáku>.
2.2. Для поиска неоднословных лексических эквивалентов или же толкований приходилось использовать более сложные запросы, представляющие собой поиск по той или иной комбинации лексемы (lemma), словоформы (word) и грамматической матрицы (tag) в пределах одного предложения (within <s id=".*"/>). Например, для поиска контекстов употребления лексического толкования byt potre-stán za néco 'быть наказанным за что-либо' использовался запрос ([lemma="byt"] [(lemma="potrestat") & (tag="Vs.*")] [word="za"]) | ([lemma="byt"] [word="za"] []{0,3} [(lemma="potrestat") & (tag="Vs.*")]) within <s id=".*"/>. Вот некоторые из найденных контекстов:
<Byl za to vzápetí potrestán> a vsichni se o potrestání mají dovedet mozná jen proto, aby se také zacali bát o zivot.
Spravedlnost vyzaduje, aby señora <nebyla potrestána za> neco, co neudelala.
Kluci chteli vedet, jestli <budou za svoje minulé hríchy potrestáni>, jestli na ne jejich holka pocká.
2.3. Тем самым определение частотности употребления входящих в однословные соответствия «лексема обиходно-разговорного чешского языка» — «лексема литературного чешского языка с той же семантикой» было наиболее простым
и в то же время наиболее полезным для целей практического преподавания чешского языка как иностранного, так как оно позволяет установить иерархию приоритетов при знакомстве обучаемого с лексикой обиходно-разговорного чешского языка. О том, почему обучение обиходно-разговорному чешскому языку следует начинать с фонетики и лексики, а не с морфологии, см. [11. С. 82].
2.4. Впрочем, и в случае с однословными соответствиями могли возникать определенные трудности.
2.4.1. Во-первых, задавая поиск по лексеме (поисковый запрос типа [lemma= "séf']), мы вынуждены доверять основанной на стохастическом анализе автоматической разметке корпусного материала, которая может ошибаться. Поэтому у нас нет статистических данных по тем приведенным в [13. С. 139—169] словам, которые были идентифицированы программой автоматической разметки не в качестве самостоятельных лексем, а в качестве фонетических (графических) вариантов соответствующих слов литературного чешского языка: dyby (лит. kdyby) 'если бы', dyl (лит. déle) 'дольше', dyz (лит. kdyz) 'когда', esli (лит. jestlize) 'если', este (лит. jeste) 'еще', chleba (лит. chléb) 'хлеб', líp (лит. lépe) 'лучше', madrace (лит. matrace) 'матрас', pámbu (лит. pánbuh) 'Господь Бог', zejtra (лит. zítra) 'завтра'.
Впрочем, подобных слов было не так уж много. Поиск по словоформе был бы более точен, однако он неизмеримо более трудоемок, так как предполагает поиск всех теоретически возможных словоформ заданной лексемы с последующим суммированием результатов, например поиск [word="[Ss]éf'] + поиск ^ой="[8§^а"] + поиск [word="[Ss]éfU"] + поиск [word="[Ss]éfovi"] + поиск всех оставшихся падежных форм, которых в чешском языке еще больше, чем в русском.
2.4.2. Во-вторых, проблему представляют омонимы, для различения которых требуется визуальный контроль контекстов их употребления, особенно тех из них, которые отличаются высокой частотностью употребления. Например, внимательно просмотреть на экране 104 контекста, обнаруженных с помощью запроса [lemma= "fmknout"], чтобы убедиться, что в 102 случаях из них речь идет именно о значении utéct 'убежать, ускользнуть', можно достаточно быстро, благо все найденные контексты достаточно однозначны. А вот на то, чтобы определить, в каком из 4271 контексте, обнаруженном по запросу [lemma="flek"], речь идет о значении místo '[рабочее] место', а в каком — о значении skvrna 'пятно' (оба значения отмечены в [13. С. 146]), может не хватить целого вечера.
2.4.3. В аналогичной ситуации мы оказываемся во всех тех случаях, когда в [13. С. 139—169] приводятся стоящие рядом омонимы, ср. некоторые примеры, снабженные нашим переводом на русский язык:
foch obor ['специальность'] ob
foch prihrádka ['полка'] ob
lágr lozisko ['месторождение'] n.sl.
lágr tábor ['лагерь'] ob
pingl císník ['официант'] ob
pingl ranec ['ранец'] ob.
2.4.4. К рассмотренным выше примерам примыкают и, к сожалению, несравненно более многочисленные случаи, когда в качестве литературного эквивалента обиходно-разговорной лексемы в [13. С. 139—169] приводятся (через запятую ли-
бо точку с запятой) два или более слова, например:
akorát zrovna ['как раз'], presne ['точно']; jen ['только'] ob
brajgl hluk ['шум'], neporádek ['беспорядок'] ob pejor
fofr shon ['суматоха'], spech ['спешка'] ob expr
pusa ústa ['рот'], polibek ['поцелуй'] bez.
Допуская, что в чешской языковой картине суматоха (8Ыоп) может восприниматься как нечто тождественное или по крайней мере весьма близкое спешке (8рёсЫ), а шум (Ыик) — беспорядку (перогаёек), мы тем не менее подозреваем, что по крайней мере в части случаев (например, в последнем из приведенных выше), речь идет все же отнюдь не о синонимах. Однако в любом случае статистическая обработка подобных примеров невозможна без предварительного визуального контроля каждого контекста их употребления.
2.4.5. Наконец, следует отметить случаи, когда в [13. С. 139—169] речь идет не об обиходно-разговорной лексеме, а о лексеме литературной, однако имеющей в обиходно-разговорном языке дополнительное (нелитературное) значение, например:
ЬаНк ['пакет'] Ы1ирак ['глупец'] Ъёг pejor
Ъагай ['фазан'] поуасек ['новичок'] п. 81.
Ъегап ['баран'] 1угёоЫ1ауес ['упрямец'] оЪ ехрг.
3. В результате исключения названных выше требующих дополнительной обработки соответствий мы получили таблицу, начало которой (с числом документированных употреблений в корпусе БУК больше 1000) выглядит следующим образом (табл. 1).
Таблица 1
Однословные соответствия
Слово Идиом Стиль Число Литературное Число Лексическое
наиденных лексическое наиденных соответствие
контекстов соответствие контекстов в русском
gói bez — 400 702 branka 450 042 гол
séf bez — 359 917 vedoucí 372 890 заведующий
jes(t)li bez — 289 763 jestlize 109 327 если
taky bez — 189 554 také 2 278 504 тоже
porád ob — 181 478 stále 697 389 постоянно
fanousek bez — 155 431 prívrzenec 8 207 сторонник
kluk bez — 151 781 chlapec 138 205 мальчик
konto bez — 82 695 úcet 124 996 счет
Продолжение
Слово Идиом Стиль Число Литературное Число Лексическое
наиденных лексическое наиденных соответствие
контекстов соответствие контекстов в русском
muzika bez — 57 737 hudba 291 000 музыка
holka bez — 52 764 dévce 55 809 девушка
jo / jo ob — 48 807 ano 214 221 да
dneska bez — 45 686 dnes 11 646 010 сегодня
muzikant bez — 45 577 hudebník 46 140 музыкант
chlap bez — 45 246 muz 1 013 293 мужчина
tata bez — 43 707 otec 238 950 отец
koukat (se) bez — 31 831 dívat se 61 268 смотреть
mama bez — 31 231 matka 219 242 мать
kanonyr n.sl. — 30 217 délostrelec 1 304 артиллерист
legrace bez — 27 223 zábava 90 742 развлечение
radsi bez — 26 115 radéji 127 801 лучше
fotka bez — 22 765 fotografíe 271 923 фотография
kasa ob — 20 266 pokladna 66 250 касса
fandit bez — 20 100 stranit 2 673 симпатизировать
teda bez — 17 187 tedy 806 817 следовательно
policajt ob — 13 771 policista 512 709 полицейский
bal bez — 13 354 ples 46 454 бал
barak bez expr 12 804 düm 953 081 дом
bankrot bez — 12 758 úpadek 13 060 крах
kantor bez expr 11 907 ucitel 153 553 учитель
cedule bez — 11 554 vyvéska 2 836 вывеска
fotit bez — 11 407 fotografovat 13 968 фотографировать
Prazak bez — 10 925 Prazan 29 374 пражанин
kafe bez — 9 990 káva 47 713 кофе
stvat bez — 9 412 rozcilovat 14 593 раздражать
huba ob zhrub 9 194 ústa 60 866 рот
nastvat bez — 9 118 rozcílit 6 310 разозлить
fabrika ob — 9 069 továrna 60 304 фабрика
sranda ob — 8 975 zábava 90 742 развлечение
kram bez — 8 917 obchod 325 185 магазин
decko bez — 8 861 díté 1 415 924 ребенок
prastit bez — 8 743 uhodit 7 864 ударить
prachy ob expr 8 685 peníze 815 548 деньги
bracha ob expr 8 444 bratr 150 313 брат
prusvih bez — 8 108 nepríjemnost 9 031 неприятность
brecet bez — 7 963 plakat 23 406 плакать
fama bez — 7 779 povést 61 008 молва
pasovat nekam ob — 7 757 hodit se 20 390 подходить [для чего]
facka ob — 7 741 pohlavek 1 377 оплеуха
kriminal ob — 7 657 vézení 134 751 заключение
lump bez — 7 285 darebák 5 557 бездельник
spital bez — 7 224 nemocnice 485 266 больница
blbec bez pejor 7 050 pitomec 3 280 дурак
sefovat bez — 7 001 rídit 140 698 управлять
ahoj bez — 6 842 nazdar 2 201 привет!
tura n. sl. — 6 415 cesta 741 732 путешествие
suplik ob — 6 374 zásuvka 10 940 выдвижной ящик
kytka bez — 6 109 kytice 14 641 букет
beztak bez — 6 089 beztoho 450 и без того
svec bez — 5 462 obuvník 1 047 сапожник
pitomy bez pejor 5 434 hloupy 25 526 глупый
metrak bez — 4 788 cent 10 993 центнер
kamos ob expr 4 769 kamarád 116 395 приятель
halt / holt ob — 4 680 zkrátka 52 273 просто-напросто
marod bez — 4 507 nemocny 118 011 больной
Продолжение
Слово Идиом Стиль Число Литературное Число Лексическое
наиденных лексическое наиденных соответствие
контекстов соответствие контекстов в русском
kurva ob zhrub 4 137 prostitutka 17 759 проститутка
polda bez expr 4 001 policista 512 709 полицеИскиИ
furt ob — 3 867 stále 697 389 постоянно
chmaták ob expr 3 848 zlodej 191 928 вор
hajzl n — 3 543 záchod 17 747 туалет
rande bez — 3 541 schüzka 88 940 встреча
hovno ob zhrub 3 388 lejno 846 дерьмо
flaska ob — 3 307 láhev 78 241 бутылка
burt ob — 3 299 vurt 1 462 сарделька
pitomec bez pejor 3 280 hloupy 25 526 дурак
kecat ob pejor 3 279 zvanit 1 696 болтать
potvora bez pejor 3 239 mizera 2 958 негодяИ
strejda bez expr 3 226 stryc 16 011 дядя
hecovat bez — 3 183 drázdit 6 942 дразнить
cpát co kam bez — 3 147 mackat 4 133 давить
marodit bez — 3 114 nemocen byt 920 болеть
posfák / pocfák ob — 3 068 listonos 1 287 почтальон
mrazák bez — 3 019 mraznicka 1 540 морозилка
kvartál bez — 2 968 ctvrtletí 57 041 квартал
gauner ob pejor 2 924 darebák 5 557 бездельник
drb ob pejor 2 907 pomluva 10 014 сплетня
dévka bez pejor 2 888 prostitutka 17 759 проститутка
senkyr ob zast 2 879 hostinsky 10 602 трактирщик
sokovat bez — 2 834 pohorsovat 2 081 возмущать
kumst bez expr 2 785 uméní 265 715 искусство
lamentovat bez — 2 784 naríkat 7 133 сетовать
profík bez — 2 735 profesionál 33 662 профессионал
sikanovat bez — 2 709 pronásledovat 18 940 преследовать
garsonka / garzonka bez — 2 705 garsoniéra 1 341 студио
vepredu bez — 2 658 vpredu 12 347 впереди
plichta ob — 2 588 remíza 79 372 ничья
sidit bez — 2 534 ublizovat 5 590 обманывать
spunt ob — 2 492 zátka 3 023 затычка
fesák bez — 2 457 elegán 1 451 франт
kuráz ob — 2 445 odvaha 39 671 отвага
nátura ob — 2 399 povaha 45 938 характер
fígl ob — 2 340 trik 17 687 уловка
spek bez — 2 330 slanina 6 382 шпик
mín bez — 2 325 méné 67 430 меньше
sichta ob — 2 276 sména 25 162 смена
rachejtle ob expr 2 213 raketa 37 727 ракета
ted'ka ob — 2 208 ted 604 771 сеИчас
flinta bez — 2 205 puska 16 124 ружье
perón bez — 2 138 nástupisté 7 433 перрон
parchant ob pejor 2 120 darebák 5 557 бездельник
kybl ob — 2 036 kbelík 4 318 ведро
bachar n.sl. — 2 013 dozorce 9 942 охранник
slapka bez zast 1 958 prostitutka 17 759 проститутка
ksicht n — 1 957 oblicej 74 850 лицо
pech ob expr 1 936 smüla 41 199 невезение
plac ob — 1 929 místo 1 783 165 место
polívka bez — 1 867 polévka 23 494 суп
grázl ob pejor 1 860 darebák 5 557 бездельник
sycák bez pejor 1 792 nicema 2 019 негодяИ
kumstyr bez expr 1 748 umélec 121 726 деятель искусства
basta ob — 1 708 dost! 1 985 хватит!
Окончание
Слово Идиом Стиль Число найденных контекстов Литературное лексическое соответствие Число найденных контекстов Лексическое соответствие в русском
mrcha bëz zhrub 1 678 mizera 2 958 негодяй
sesfak / sestak ob zast 1 672 dvacetihaler 194 монета в 20 геллеров
fotr n — 1 631 otec 238 950 отец
lejstro bëz pejor 1 614 listina 50 297 документ
kraval bëz pejor 1 590 ramus 3 593 гам
placaty ob — 1 550 plochy 17 348 плоский
cumak bëz — 1 546 cenich 1 259 морда
senk ob — 1 528 vycep 4 280 распивочная
pysk bëz — 1 501 ret 29 104 губа
mrnavy bëz expr 1 489 maly 1 018 346 щуплый
fuska bëz expr 1 479 drina 11 298 тяжелый труд
fort ob — 1 471 lesnik 8 803 лесник
siml bëz — 1 456 belous 1 495 лошадь светлой масти
strejcek bëz — 1 434 stryc 16 011 дядя
cunik bëz expr 1 427 prase 22 445 свинья
cumët ob zhrub 1 422 zirat 13 351 смотреть
gympl v.sl. — 1 398 gymnazium 99 946 гимназия
mukl n.sl. — 1 371 vezen 60 594 заключенный
mus ob — 1 370 nutnost 48 316 необходимость
pendrek bëz — 1 343 obusek 4 198 дубинка
veselka bëz zast 1 337 svatba 55 860 свадьба
putyka ob pejor 1 314 hospoda 71 437 пивная
bijak ob — 1 302 kino 284 124 кинотеатр
paraple bëz zast 1 296 destnik 7 518 зонтик
fajfka ob — 1 290 dymka 8 115 курительная трубка
prkotina bëz — 1 289 malickost 14 209 мелочь
kseftovat ob — 1 286 obchodovat 25 727 торговать
sesypat se ob — 1 249 zhroutit se 6 475 развалиться
piano bëz — 1 244 klavir 24 517 рояль
prekérni bëz — 1 240 povazlivy 1 293 опасный
srab ob pejor 1 227 zbabelec 3 296 трус
mliko bëz — 1 209 mleko 56 717 молоко
couhat bëz — 1 203 vycnivat 4 917 выступать
mord n — 1 183 vrazda 115 236 убийство
smejd ob pejor 1 176 brak 1 899 дешевка
hastrman ob — 1 174 vodnik 6 820 водяной
ruksak ob — 1 144 batoh 15 306 рюкзак
culit se bëz expr 1 136 usmivat se 36 077 улыбаться
Moravak bëz — 1 135 Moravan 12 332 мораванин
vytahovat se bëz — 1 131 chlubit se 8 433 хвастаться
sutr ob — 1 101 kamen 106188 камень
rosfak bëz — 1 061 ulicnik 1 638 хулиган
strudl bëz — 1 055 zavin 1 398 рулет
kapku bëz — 1 028 trochu 315 246 немного
penal bëz — 1 025 pouzdro 9 509 футляр
3.1. Данная таблица однословных соответствий, которую мы планируем представить целиком в одном из ближайших выпусков продолжающегося сборника «Язык, сознание, коммуникация» [15], позволяет определить не только абсолютную, но и относительную частоту употреблений рассматриваемых лексем. Например, если мы примем общее количество зафиксированных употреблений той или
иной обиходно-разговорной лексемы (А) и ее литературного коррелята (В) за 100%, то относительная частотность данной обиходно-разговорной лексемы будет равняться А/(А + В) х 100%.
3.2. В соответствии с данной таблицей и данной формулой расчета (А — сумма документированных контекстов употребления всех лексем из первой колонки; В — сумма документированных контекстов употребления всех их литературных коррелятов) средняя относительная частотность лексемы из первой колонки составляла приблизительно 5,2%.
При этом средняя относительная частотность лексических единиц, характерных исключительно для обиходно-разговорного чешского языка и не маркированных в качестве стилистически сниженных (снабженных пометой ob), в три раза ниже относительной частотности лексических единиц (снабженных пометой Ьйт): речь идет о 2,5% и о 7,5% соответственно. Если же мы будем учитывать также и лексические единицы обиходно-разговорного чешского языка, маркированные как стилистически сниженные (помета ob + помета п), то эта относительная частотность будет еще ниже — 2,1%.
Что же касается стилистических помет, то весьма высокой оказалась относительная частотность лексических единиц, маркированных как грубые — 9,1%, тогда как у слов, маркированных как пейоративные, экспрессивные или устаревшие, относительная частотность оказалась существенно ниже средней — 1,79%, 0,95% и 0,84% соответственно.
4. Полученный нами частотный словарь соответствий чешской обиходно-разговорной и литературной лексики не претендует на то, чтобы быть исчерпывающим уже в силу того, что на это не претендует список лексем, изначально предложенный П. Сгаллом и И. Гронеком. Тем не менее употребительность в современных чешских письменных текстах (а во многих случаях — весьма высокая употребительность) тех лексических единиц обиходно-разговорного чешского языка, которые были рассмотрены в данной статье, следует считать эмпирически доказанной, что безусловно должно быть учтено как минимум в лексикологии современного чешского языка, стилистике, практической лексикографии и лингво-дидактике.
ЛИТЕРАТУРА
[1] Белич Я., Гавранек Б., Едличка А., Травничек Ф. К вопросу об «обиходно-разговорном» чешском языке и его отношении к литературному чешскому языку // Вопросы языкознания. — 1961. — № 1. — С. 44—51.
[2] Изотов А.И. Опыт корпусного анализа функционально-семантической категории императивности в современном чешском языке // Вестник Московского университета. Серия 9: Филология. — 2007. - № 3. — С. 47—63.
[3] Изотов А.И. Чешский национальный корпус и аналитический императив: опыт корпусного анализа малоупотребительных и маргинальных языковых единиц // Вестник Оренбургского государственного университета. — 2007. — № 2. — С. 4—11.
[4] Изотов А.И. Императивность как прагмалингвистический феномен: на материале чешского языка. — М.: Книжный дом «ЛИБРОКОМ», 2008.
[5] Изотов А.И. Опыт корпусного анализа чешских директивных и директивно-комиссивных перформативных глаголов // Вестник Российского университета дружбы народов. Серия «Лингвистика». — 2012. — № 3. — С. 99—107.
[6] Изотов А.И. Корпусная революция: от «искусства» к «науке» // Филологические науки: Вопросы теории и практики. — 2013. — № 4—1. — С. 68—71.
[7] Изотов А.И. Чешское обиходно-разговорное койне vs русское просторечье // Вестник Российского университета дружбы народов. Серия «Лингвистика». — 2013.— № 1. — С. 52—60.
[8] Изотов А.И. Обиходно-разговорный чешский язык — химера или реальность? // Альманах современной науки и образования. — 2013. — № 12. — С. 69—72.
[9] Сгалл П. Обиходно-разговорный чешский язык // Вопросы языкознания. — 1960. — № 2. — С. 11—20.
[10] Cvejnová J. Cesky, prosím II. Ucebnice cestiny pro cizince. — Praha: Karolinum, 2012.
[11] Hrdlicka M. Kapitoly o cestine jako cizím jazyce. — Plzeñ: Západoceská univerzita v Plzni, 2010.
[12] Mluvená cestina: hledání funkcního rozpetí / Eds. S. Cmejrková, J. Hoffmannová. — Praha: Academia, 2011.
[13] Sgall P., Hronek J. Cestina bez pfíkras. — Praha: H&H, 1992.
[14] URL: http://ucnk.ff.cuni.cz.
[15] URL: http://www.philol.msu.ru/~slavphil/books/jsk_index.html.
COMPARATIVE CORPUS ANALYSIS OF EVERYDAY SPOKEN CZECH LANGUAGE AND LITERARY LANGUAGE
A.I. Izotov
Department of Slavic Philology Faculty of Philology Lomonosov Moscow State University Leninskie Gory, 1 Humanities Building, Moscow, Russia, 119192
In this paper the lexis of everyday spoken Czech is compared with literary Czech lexis. The data is taken from the material which is a part of the Czech National Corpus of 1.3 billion contemporary written texts and identifies the most common words. A list of 165 pairs of everyday spoken Czech lexemes and literary Czech lexemes with the same lexical meaning has been established.
Key words: Czech as a foreign language, Literary Czech, everyday spoken language, corpus analysis, lexicography.
BIBLIOGRAPHY
[1] Belich I., GavranekB., Edlichka А., TravnichekPh. K voprosu ob «obihodno-razgovornom » cheshskom yazike i ego otnoshenii k literaturnomu cheshskomu yaziky [To the problem of every day spoken Czech language and it's correlation with literary language] // Voprosi yazikoznania. — 1961. — № 1. — P. 44—51.
[2] Izotov A.I. Opit korpusnogo analiza funktsionalno-semanticheskoy kategorii imperativnosti v sovremennom cheshskom yazike современном чешском языке [Comparative corpus analysis of functional-semantic imperative category in modern Czech language] // Vestnik Moskovskogo universiteta. Seria 9: Philologia. — 2007. — № 3. — P. 47—63.
[3] Izotov A.I. Cheshskiy natsionalniy corpus I analiticheskiy imperativ: opit korpusnogo analiza maloypotrebitelnikh I marginalnikh yazikovikh edinits [Czech national corpus and analytical imperative: comparative corpus analysis of rare and marginal words] // Vestnik Oren-gurgskogo gosudarstvennogo universiteta. — 2007. — № 2. — С. 4—11.
[4] Izotov A.I. Imperativnost kak pragmalinguisticheskii phenomen: na materiale cheskogo yazi-ka [Imperative as a pragmalinguistics phenomena: based on Czech language]. — М.: «LI-BROKOM», 2008.
[5] Izotov A.I. Opit korpusnogo analiza cheshskikh direktivnikh i direktivno-komissionnikh per-formativnikh glagolov [Comparative corpus analysis of directive and commission performative verbs] // Vestnik Rossiiskogo universiteta druzbi narodov. Series: Linguistics. — 2012. — № 3. — P. 99—107.
[6] Izotov A.I. Korpusnaya revolutsia: ot "iskusstva" k "nayke" [Corpus-bases revolution: from "art" to "science"] // Philologicheskie nauki: voprosi teorii I praktiki. — 2013. — № 4—1. — P. 68—71.
[7] Izotov A.I. Cheshckoe obihodno-razgovornoe koine vs russkoe prostorechie [Every day spoken Czech Koine vs Russian popular language // Vestnik Rossiiskogo universiteta druzbi narodov. Series: Linguistics. — 2013. — № 1. — С. 52—60.
[8] Izotov A.I. Obihodno-razgovornii cheshskii — khimera ili realnost? [Every day spoken Czech — chimera or reality?] // Almanakh sovremennoy nayki i obrazovania. — 2013. — № 12. — С. 69—72.
[9] Sgall P. Obihodno-razgovornii cheshskii [Every day spoken Czech] // Voprosi yazikoznania. — 1960. — № 2. — С. 11—20.