В МИРЕ НАУКИ
У 2005 г. пачауся млжнародны пра-ект «BalticGrid» (www.balticgrid.org), мэтай якога была распрацоука грыд-ceTKi для краiн Балтьи i усталяванне Уcтойлiвай е-iнфраcтруктуры з мэтай выкарыстання у розных навуковых даследаваннях Еуропы i далучэння яе да агульнаеурапейскай ечнфра-структуры. 3 2008 г. у межах 7-й Рам-кавай праграмы Еурапейскага саюзу ажыццяулялася другая фаза гэтага праекта. Яго мэтай было пашырэн-не i развiццё icнай iнфраcтруктуры i пераутварэнне яе у штодзённы Ыс-трумент працы для вучоных рэпёна i па-за яго межамi. Пры гэтым поу-намаштабная рэалiзацыя праекта прадугледжвала пашырэнне iнфра-структуры «BalticGrid» на Беларусь з ул^ам патрэб новадалучаных бе-ларуcкiх навуковых супольнасцей, яш займаюцца нанатэхналогiямi, машынабудаваннем i г.д.
Адным з функау у праекце «Ва!^^-Н» была распрацоука лЫ-гвicтычных рэсурсау для краiн Бал-тыi i Беларуci. У прыватнаcцi, Лiтва (Втьнюсга унiверciтэт) i Беларусь (Беларуcкi нацыянальны тэхнiчны унiверciтэт пры удзеле спецыялютау з 1нстытута мовы i лтаратуры iмя Якуба Коласа i Янк Купалы НАН Беларуci) раcпрацоувалi тэкставыя корпусы навуковай мовы, адпаведна лiтоуcкай i беларускай.
Corpus Albaruthenicum як частка мiжнароднага праекта «BalticGrid-ll»
Корпус беларускамоуных навуковых тэк-стау (Corpus Albaruthenicum) — першая спроба стварэння публiчнага вузкаспе-цыяльнага корпусу, яга мае на мэце рас-працоуку даведачнай базы звестак для карыстання лiнгвiстамi, выкладчыкам^ студэнтамi i iнш. Мэта праекта — пра-дастауленне шырокай аудыторьи беларускамоуных навуковых рэсурсау.
Корпус адыгрывае важную ролю у апра-цоуцы натуральнай мовы i з'яуляецца значным рэсурсам для розных тыпау адукацыйных праграм, праграм ма-шыннага перакладу для правядзення л^гвютычных даследаванняу у гал^е лексiкаграфii, а таксама для распрацоуга тэрмiналагiчнай базы беларускай мовы. Параметры, адлюстраваныя у корпусе, дадуць магчымасць выкарыстоуваць яго у якасцi анлайн-даведыка па лексiцы i граматыцы.
У практычным плане анатаваны пры да-памозе лешка-граматычнай базы корпус дазволiць не тольга атрымаць ^фарма-цыю пра уласна тэкст (структуру, аутара i г.д.), але i праводзiць рознаузроуневы моуны аналiз (статыстычны, марфала-пчны, стылiстычны, семантычны i г.д.). У сферы лекшаграфи пры стварэннi традыцыйных слоунiкау рознага тыпу будзе забяспечана большая ступень аб'ектыунасцi у падачы iнфармацыi, што з'яуляецца праблемным для беларускай лексiкаграфii.
Корпус размечаны адпаведна сiстэме кадзiравання тэкстау TEi Р5, у аснове
якой ляжыць мова XML (www.tei-c.org). Схема размета корпусу утрымлiвае на-ступныя характарыcтыкi:
• агульная iнфармацыя пра тэкст;
• базавая структурная анатацыя тэкс-ту: главы, загалоую, змест тэксту да узроуню асобных слоу;
• граматычная iнфармацыя.
Агульная Ыфармацыя пра тэкст скла-даецца з апюання структуры дакумента (апicанне файла, заяуленне загалоука, выдання i аб'ёму, апюанне крынiцы i iнш.), параметрау (паходжанне тэксту, мова, раскладка знакау i iнш.). Такiм чы-нам, агульная ^фармацыя змяшчае усе параметры тэксту, якому яна папярэднь чае, а таксама выконвае шэраг важных функцый: фармiруе архiтэктуру корпусу; дапамагае кантраляваць працэс яго н фармацыйнага напаунення, ацэньваць прадстауычасць i збалансаванасць; за-бяспечвае магчымасць пошуку i адбору карыcтальнiкам для складання падкор-пусау з задарены™ улаcцiваcцямi.
Базавая структурная анатацыя уключае выдзяленне структурных элементау тэксту i падзяляецца на тры узроунi: узровень тэксту, узровень абзаца, уз-ровень падабзаца. Першы ахоплiвае пазначэнне змеcцiва тэксту, глау, раз-дзелау i абзацау. У друпм пазначаюцца загалоукi, трэцi уключае пазначэнне ска-зау, слоу, пунктуацыйных знакау.
Для граматычнай разметкi корпусу выка-рыстоуваецца лекciка-граматычная база беларускай мовы, створаная у 1нстыту-
НАУКА И ИННОВАЦИИ №10(92)_2010
Ф1ЛАЛАГ1ЧНАЯ СКАРБН1ЦА
це мовы i лтаратуры iмя Якуба Коласа i Янга Купалы НАН Беларусi. Яна налiчвае прыблiзна 130 тыс. парадыгм, больш за
2 млн словаформау.
На падставе лешка-граматычнай базы вядзецца распрацоука i удасканаленне аутаматычнага аналiзатара (парсэра), якi дазволiць аутаматызаваць, накольга гэта магчыма, марфалагiчны аналiз у тэкстах корпусу.
Марфалапчная разметка складаецца
3 некалькiх частак: пачатковай формы словаформы (пазначаецца як lemma) i граматычных прыкмет лексемы (часцiна мовы, адушаулёнасць i род для назоунь кау, пераходнасць, трыванне для дзе-яслова i г.д.), граматычныя прыкметы словаформы (напрыклад, склон, род, лк для назоуыкау) iгнаруюцца.
На сённяшн дзень аб'ём корпусу складае каля 400 тыс. слоу са знятай аманiмiяй i уключае тэксты з розных галЫ мовазнауства, лтаратуразнауства, эканомш, фiзiкi, хiмii, генетыкi, меды-цыны i г.д. Для яго быу распрацаваны анлайнавы сэрвiс, якi прадастауляе выбаркi iнфармацыi з Корпусу. Утылта дазваляе шукаць словы у ix зыходнай форме (удрукаванай карыстальнiкам), словы з ix словаформамi i камбшцьи слоу (уключна з ix словаформам^, вы-карыстоуваючы лагiчны аператар AND i улiчваючы адлегласць памiж словамк Пошук дазваляецца у межах сказа, абзаца i усяго тэксту. Сэрвю даступны па адрасе http://grid.bntu.by/corpus/.
У дадзены момант вядзецца праца па удасканаленн сэрвiса, будуць уключаны новыя магчымасцi пошука:
• ^фармацьи пра тэкст, у якiм слова было знойдзена (аутар, назва i г.д.);
• слоу паводле граматычных характа-рыстык;
• слоу з улкам амаымп;
• па асобных тэкстах (з улкам iх жан-равай прыналежнас^), аутарах i г.д.;
• з ул^ам рэгiстру (што важна пры аналiзе уласных iмёнау i абрэвiятур);
• з дапамогай лапчных аператарау ОР ХОР, N01;
• па рэгулярным выразе;
• у загалоуку (<head>) альбо у звычай-ным абзацы (<р>);
• у першым/апошым сказе абзаца;
• у пачатку сказа;
• слоу у вызначаным парадку альбо у адвольным.
У перспектыве анатаваныя корпусы будуць мець шырокае прымяненне у сферы лешкаграфн: выкарыстанне анатаваных корпусау пры стварэнн тра-дыцыйных слоуыкау рознага тыпу (тлу-мачальных, граматычных, частотных i iнш.) дасць магчымасць дасягнуць боль-шай ступенi аб'ектыунасцi у падачы н фармацыi. Асаблiва востра адсутнасць корпусу адчуваецца у сувязi з патрэбай стварэння новага фундаментальнага тлумачальнага слоуыка беларускай мовы, працу над ягам 1нстытут мовы i ль таратуры iмя Якуба Коласа i Янкi Купалы нАн Беларус плануе пачаць з 2011 г. у рамках дзяржаунай падпраграмы наву-ковых даследаванняу «Беларуская мова
i лiтаратура у кантэксце цыв^зацыйнага развiцця Рэспублiкi Беларусь: гiсторыя, сучасны стан, тэндэнцыи». Базай для слоуыка паслужаць Корпус i Электронная лешка-граматычная база беларускай мовы. Параметры новага слоуыка вымагаюць выпрацоуга новых навукова абгрунтаваных прынцыпау (пры фар-мiраваннi рэестра, адборы iлюстрацый, распрацоуцы сiстэмы памет i дэфУ-цый i г.д.).
На сённяшн дзень iснуе некалькi корпусных праектау: Вялiкi корпус беларускай мовы, створаны выкладчыкамi Мiнскага дзяржаунага лiнгвiстычнага унiверсiтэта сумесна з навуковыш супрацоунiкамi 1нстытута мовы i лтаратуры iмя Якуба Коласа i Янга Купалы нАн Беларусi, i корпус навуковых тэкстау беларускай мовы Corpus Albaruthenicum, падрыхта-ваны спецыялiстамi Беларускага нацыя-нальнага тэxнiчнага унiверсiтэта разам з навукоУцамi гэтай жа акад^чнай уста-новы. У блiжэйшай перспектыве дадзе-ныя корпусы павiнны быць аб'яднаны у адзiн, што стане асновай для будучага Нацыянальнага корпусу беларускай мовы. Яго стварэнне з'яуляецца уыкаль-ным швацыйным праектам беларускага мовазнауства, ажыццяуленне якога дазволiць выйсцi беларускiм вучоным на новы узровень лiнгвiстычныx дасле-даванняу.
Уладзiмiр КОШЧАНКА, малодшы навуковы супрацоунк Нстытута мовы i лтаратуры iмя Якуба Коласа i Янк Купалы
1гар КАПЫЛОУ, вучоны сакратар 1нстытута мовы i лтаратуры iмя Якуба Коласа i Янк Купалы, загадчык аддзела лекакалогИ i лекскаграфИ, кандыдат фiлалагiчных навук
<par> <s>
<w cat-'AXNS' lb='t' rb='t' norm=,Дамiнантным, 1етта-дамшантны'>Дамшантным<Л«> <w cat-'RP' lb='t' rb='t' norm-'звычайна' lemma-звычайна'>звычайна</w> <w cat='VRR3' lb='t' rb='t' norm=,лiчыцца, lemma-лiчыцца'>лiчыцца</w> <w cat-'NCNNS' lb='t' rb='f' norm-паушар'е' lemma-паушар'е'>паyшар'е</w> <w cat-'PMCM' lb='f' rb='t' norm-',' lemma=','>,</w> <w cat-'PPNS' lb='t' rb='t' norm-'звязанае' lemma-звязаны'>звязанае</w> <w cat='i' lb='t' rb='t' norm-'з' lemma-^'^Aw» <w cat-'AXFS' lb='t' rb='t' norm-'моунай' lemma-моуны'>моyнай</w> <w cat-'NCNFS' lb='t' rb='f' norm-'функцыяй' lemma-функцыя'>функцыяй</w> <w cat-'PMFS' lb='f' rb='t' norm-'.' lemma='.'>.</w> </s>...
1гар М1КЛАШЭВ1Ч, загадчык лабараторь/i Беларускага наиыянальнага тэхнiчнага ушвератэта, доктар тэхшчных навук
№10(92)_2010 НАУКА И ИННОВАЦИИ
31